AI学習のためのプレファレンス・シグナルの可能性を探る

Catherine Stihler
2023年8月31日

作品をオープンに共有したい人々に、より多くの選択肢を提供することがクリエイティブ・コモンズ(CC)設立の動機の一つでした。様々なステークホルダーとの関わりを通して、私たちは彼らが直面する、著作権にまつわる「全面禁止か無制限か」な選択肢に対する不満を耳にしました。彼らは人々に対して、一部の用途では作品を共有したり再利用できるようにし、また一部の用途では利用を制限できることを希望していました。また、アーティスト、技術開発者、アーキビスト、研究者など、クリエイティブな資料を明確で理解しやすい許諾で再利用したいと望む人々を支援することもCCライセンスを作成する動機でした。

Choices” by Derek Bruff。一部切り抜き。もとのライセンスは CC BY-NC 2.0

そして何より、他の団体との交流によって明らかになったのは、人々が共有に意欲的であるのは、単に個人の利益のためではなく、むしろ社会的な利益を感じているからだということでした。多くの人々は、人々がアクセスし、それをもとに創作することのできる知識と創造性の集合体、つまりコモンズを支援し、拡大することを望んでいたのです。創造性は豊かなコモンズに依存しており、選択肢を広げることはこれを達成するための手段のひとつでした。

生成系の人工知能(AI*)に関する私達のコミュニティの協議でも類似するテーマが浮上しました。もちろん、2023年の社会におけるAIとテクノロジーは2002年のものとは異なります。しかし、作品群がAIの学習を含むあらゆる用途にオープンであるか、あるいは完全にクローズドであるかというオール・オア・ナッシングのシステムの課題は共通しています。創造性、コラボレーション、コモンズを支援するかたちで作品の再利用を実現したいという願いも当時と同様です。

頻繁に提起された選択肢のひとつは、プレファレンス・シグナリングでした。これは、ライセンスによって強制することはできないものの、クリエイターの希望を示すものとして、一部の用途についてのお願いをする方法です。私たちは、これが重要な検討すべき分野であることを理解しています。プレファレンス・シグナルを考える場合、豊かなコモンズを支援するための包括的なアプローチの一部であること(単に人々が既存の作品をもとに創作する特定の方法を制限するのではないこと)をどのように保証するかや、そのアプローチがオープンライセンシングの意図と両立できるかどうかなど、多くの難しい問題が出てきます。しかし同時に、プレファレンス・シグナリングがより良い共有のあり方を助けるポテンシャルを持っていると考えています。

私たちが学んだこと:幅広いステークホルダーがプレファレンス・シグナルに関心を持っている

生成AIについての私達のコミュニティとの協議に関する最近の投稿で、生成AIに関するコミュニティの幅広い意見を浮き彫りにしました。

生成AIを使って新しい作品を創作している人もいれば、創作、共有、稼ぐ能力を妨げると考え、明確な許諾なしに自身の作品がAIの学習に利用される現在の方法に異議を唱える人もいます。

自身の作品が生成AIの学習に利用されることに関して、多くのアーティストやコンテンツ制作者が、自身の希望をより明確に意思表示する方法を望んでいますが、その希望の内容は様々です。「全面禁止」ことと「無制限か」ことの両極の間には、生成AIの具体的な使われ方に基づくグラデーションがありました。例えば、生成AIが以下のどの用途で使用されるかによって異なっていました。

  • 新しい創作物を編集するため(Photoshop や他の編集プログラムを使って画像を加工するのと同様なもの)
  • 学習に利用された作品と同じカテゴリのコンテンツを作成するため(画像を使って新しい画像を生成するといったもの)
  • 特定の人物を模倣したり、その人物の作品を置き換えるため
  • 特定の人物を模倣したり、その人物の作品を置き換えたりして(非商業的なオマージュやパロディを行うのとは対照的に)商業的にそのアーティストになりすますため

また、(例えば研究者、非営利団体、企業など)誰がAIを作成し、誰が使用するかによっても見解は異なりました。

AIシステムの技術開発者やユーザーの多くも、クリエイターの意思を尊重するためのより良い方法を見つけることに関心を寄せていました。簡単に言うと、AIの学習に関してのクリエイターの意思表示を明確に把握することができれば、彼らはそれに快く従うとのことでした。彼らは要件が大きくなりすぎることに懸念を示していましたが、この問題は「全面禁止か無制限か」ではありませんでした。

プレファレンス・シグナル:豊かなコモンズとの複雑な関係

より良いプレファレンス・シグナルに対する広い関心はありましたが、それをどのように実践するかについての明確なコンセンサスはありませんでした。実際、これらの意思表示がコモンズにどのような影響を与え得るかについては、多少の課題と不確かさがあります。

例えば、生成AIがウェブでの出版にどのように影響を与えるかについての言及がありました。AIの学習に関する懸念はある人にとっては、今後作品をウェブ上で公開しない選択肢を取ることを意味していました。同様に、オープンライセンスで公開されたコンテンツや公益的な取り組みにどのような影響を与えるかを特に懸念する人もいました。もし人々が ChatGPT を使うことで、ウィキペディアを訪れることなくウィキペディアから得られた回答にアクセスすることができるのなら、ウィキペディアの情報コモンズは持続可能であり続けられるでしょうか?

この観点からすると、プレファレンス・シグナルの導入は、他の方法では共有されなかったかもしれない資料の共有を維持・支援すると考えられ、これらの緊張を収める新しい方法を可能にします。

一方、プレファレンス・シグナルがこのような利用を制限するためだけに広く展開されるのであれば、コモンズにとっては損失になりかねません。なぜならこれらの意思表示が表現を過剰に制限するような形で使われる可能性があるからです。例えば、特定のアーティストやジャンルにインスパイアされたアートを創作することを制限したり、人間の知識の重要な領域を学習したAIシステムから回答を得ることを制限するといったものです。

さらに、CCライセンスは、オープンソースソフトウェアライセンスと同じように、利用に関する制限に抵抗してきました。このような制限はしばしばあまりに広範であるため、望ましくない利用だけではなく、多くの価値ある、コモンズ的な利用をも断ち切ってしまいます。多くの場合、望ましくない利用の可能性と、良い利用によって開かれる機会とはトレードオフの関係にあります。もしCCがこのような制限を支持するのであれば、私たちが望むのは「コモンズ・ファースト」のアプローチであることを明確にする必要があります。

この緊張関係は簡単に解決できるものではありません。むしろ、プレファレンス・シグナルだけではコモンズを維持するのに十分ではなく、数多く存在する選択肢のうちの一つとして検討されるべきものであることを示唆しています。

既に存在しているプレファレンス・シグナルの取り組み

この記事において、ここまではプレファレンス・シグナルについての抽象的な話をしてきましたが、このテーマについてはすでに多くの取り組みが進行中であることに言及する必要があります。

例えば Spawning.ai は、アーティストが自身の作品が人気のある LAION-5B データセットに含まれているかどうかを調べ、データセットから除外するかどうかを選択するのに役立つツールに取り組んでおり、さらに、AI開発者がそのリストとの連携を可能とするAPIを作成しました。StabilityAI はすでに、アーティストの明示的なオプトインとオプトアウトを尊重しながら、これらの意思表示を、ツールの学習に使用したデータに組み込み始めています。人気サイト Hugging Face でホストされているデータセットのうち適合するものについては、Spawning の API を利用したデータレポートを表示するようになっています。データレポートは、オプトアウトされたデータとそれを除外する方法を学習済みモデルを作る人に知らせます。Spawning はまた、ウェブでコンテンツを公開している人々のために、robots.txt と似た、商業的なAIの学習のためのサイトのコンテンツ使用に関する制限や許可を示す「ai.txt」 ファイルのジェネレータにも取り組んできました。

同様の取り組みは他にも数多くあります。例えば、ワールド・ワイド・ウェブ・コンソーシアム(W3C)内の出版社からなるグループは、ウェブサイトがテキストやデータのマイニングに関して意思表示できるようにするための標準に取り組んでいます。EUの著作権法では、機械が読み取り可能なフォーマットを通じて、人々がテキストやデータマイニングからオプトアウトすることを明示的に認めており、この標準がその目的を果たすという考えです。Adobe は、自社が提供するいくつかのツールで生成された作品のために「Do Not Train」メタデータタグを作成し、Google は robots.txt と同様のアプローチを構築することを発表し、OpenAI は、将来のバージョンのGPTのためのクロールからサイトを除外する手段を提供しています。

プレファレンス・シグナル導入の課題と疑問

こうした取り組みはまだ比較的初期段階にあり、多くの課題や疑問があります。いくつか挙げてみましょう。

  • 使いやすさと導入のしやすさ:プレファレンス・シグナルが効果的であるためには、コンテンツ制作者や後続のユーザーにとって利用しやすいものでなければならなりません。使いやすく、スケーラブルで、さまざまなタイプの作品や用途、ユーザーに対応できる方法とはどのようなものでしょうか?
  • 選択肢を認証する:ある意思表示が、適切な当事者によって設定されたものであることをどのように検証し、信頼するのが最善なのでしょうか?関連して、誰がプリファレンスを設定することができるべきなのでしょうか?それは作品の権利者、作品を創作したアーティスト、あるいはその両者なのでしょうか?
  • アーティストのためのきめ細かな選択肢:これまでのところ、ほとんどの取り組みは、AIの学習のための利用を人々がオプトアウトできるようにすることに焦点が当てられています。しかし、上述したように、人々には様々な好みがあり、プレファレンス・シグナルは、人々が自分の作品が利用されることに問題がないことの意思表示をする手段でもあるべきです。人々がきめ細かな好みを表明できるようにしつつ、煩雑になりすぎないようにバランスを取るにはどうすれば良いでしょうか?
  • 作品とユーザーのタイプに応じた調整と柔軟性:この記事ではアーティストに焦点を当てましたが、もちろんクリエイターや作品の種類は多種多様です。例えば、プレファレンス・シグナルは科学研究にどのように対応できるでしょうか?ウェブサイトのインデックス作成という文脈では、営利目的の検索エンジンは一般的に robots.txt プロトコルに従いますが、アーキビストや文化遺産団体のような機関は、公益的使命を果たすためにクロールを行うことがあります。AIをめぐる同様の規範をどのように整備できるでしょうか?

プレファレンス・シグナルを構築する取り組みが進むのに合わせて、有益な道筋が見えてくることを期待して私たちはこれらを含めた様々な疑問を探求し続けます。さらに、共有とコモンズを支援するために必要なその他のメカニズムについても引き続き探求していきます。CCは、「AIとコモンズ」をテーマとする10月のサミットを含め、このテーマにさらに深く取り組んでいきます。

世界中の様々な人や機関と同じく、CCは生成AIを注視し、この驚くべき新しいツールが提起する多くの複雑な問題を理解しようとしています。私たちは特に、著作権法と生成AIが交わる部分に注目しています。より良い共有のためのCCの戦略は、人間のクリエイターの仕事も尊重しつつ、このテクノロジーの発展をどのようにサポートできるのか?誰にとってもより良いインターネットでAIが運用するにはどうすればいいのか?これらの問題を私たちは、CCチームとゲストによる一連のブログ記事で探求しています。そこでは、AIのインプット(学習データ)、AIのアウトプット(AIツールによって作成された作品)、そして人々がAIを使用する方法に関する懸念事項を取り上げています。詳細については生成AIに関する概要を読むか、AIに関するすべての記事をご覧ください。

* 注:「人工知能」や「AI」は、現在、機械学習や大規模な言語モデル(LLM)を含む複雑な技術や実践の分野を指す略語として使用しています。「AI」という略語の使用は便利ではありますが、これは理想的ではありません。なぜなら、AIは実際には(AIが人間によって作られ使用されるという意味で)「人工的」ではなく、さらに(少なくとも我々が人間の知性について考えるような意味で)「知的」でもないからです。


このブログ投稿は Catherine Stihler による “Exploring Preference Signals for AI Training” を一部省略し翻訳したものです。

また、翻訳に際しては DeepL の出力を参考にしました。

(担当:豊倉)