なぜAIを含むデジタル公共財はオープンデータに依存すべきなのか

by Cable Green, Creative Commons
2025年1月27日

クリエイティブ・コモンズ(CC)は、(道徳的、倫理的、プライバシーの観点から)共有すべきでないデータや、(法的、その他の理由から)共有できないデータもあることを認識した上で、知識の生産を促進するためにオープンデータの作成、共有、利用を奨励することに価値があると考えています。オープンコミュニティが教育、科学、文化のためのデジタル公共財や公共のインフラサービスを想像し、設計し、構築し続ける中で、これらの財やサービスは、可能かつ適切な場合はいつでも、オープンデータを作成し、共有し、そしてそれを基に構築されるべきです。

Open Data by Auregann is licensed under CC BY-SA 3.0.

オープンデータとデジタル公共財(DPG)

CCはデジタル公共財アライアンス(DPGA)のメンバーであり、CCの法的ツールはデジタル公共財(DPG)として認められています。DPGとは、「オープンソースソフトウェア、オープンスタンダード、オープンデータ、オープンAIシステム、オープンコンテンツコレクションのうち、プライバシーやその他の適用可能なベストプラクティスを遵守し、害を及ぼさず、国連の2030年持続可能な開発目標(SDGs)の達成に高い関連性を持つもの」と定義されています。世界最大級の課題を解決したいのであれば、政府や他の資金提供者はDPGに投資し、開発し、オープンライセンスで提供し、共有し、活用する必要があります。

データは経済の活力を生み出す主要な要素であり、公共の利益に貢献するポテンシャルを持つことが実証されていることから、オープンデータはDPGにとって重要です。公共部門においては、データは政策立案や公共サービスに情報を提供することで、限られた資源を最も必要としている人々に分配するのに役立ちます。また、政府の説明責任を追及する手段を提供し、社会イノベーションを促進します。つまり、データは人々の生活を向上させる可能性を秘めているのです。データが閉鎖されていたり何かしらの理由で利用できない場合、一般の人々はこのような恩恵を受けることができません。

CCは最近、DPG標準の一部としてオープンデータの整合性を維持するために活動しているDPGAの小委員会の一員として活動しました。DPG標準に対するこの重要なアップデートは、オープンライセンスを持つオープンデータセットおよびコンテンツコレクションのみがDPGとして認められることを保証するために導入されました。この新しい要件は、オープンデータセットとコンテンツコレクションがデジタル公共財として認められるためには、以下の基準を満たす必要があることを意味します。

  1. 包括的なオープンライセンス:
    データセット/コンテンツコレクション全体が、適切なオープンライセンスのもとにあること。複数のライセンスが混在するコレクション(ミックスライセンス)は今後認められません。
  2. アクセス可能で発見しやすいこと:
    すべてのデータセットおよびコンテンツコレクションのDPGはオープンライセンスのもとで提供され、一意のURLなど明確で一元化された場所から容易にアクセスできること。
  3. 許容されるアクセス制限:
    ユーザーを差別したり、地理やその他の要因に基づいて使用を制限したりしない限り、ログイン、登録、APIキー、スロットリングなどの一定のアクセス制限は許可されます。

DPGAは次のように述べています

「この新しい要件は、ユーザーが知的財産権の侵害を懸念することなく安心してソリューションを活用できるようにすることで、すべてのDPGに対する信頼と信用が高まるように設計されています。アクセスと利用を簡素化することは、DPGを真にオープンで利用しやすくし、広く普及させるというDPGAの目標に沿うものです。…それは法的不確実性のない、イノベーションが繁栄できる環境とエコシステムの育成に役立ちます。」

AIとオープンデータ

AIと、AIが世界的な課題の解決に役立つ公共財となる可能性についてCCが検討している中で、オープンデータも同様に重要な役割を果たすと考えています。

CCは、AIが急速に発展している分野であることを認識しており、AIに関する定義、推奨事項、ガイダンス、警告を作成するための皆さんの熱心な取り組みに感謝しています。コミュニティによる2年間の協議の後、オープンソース・イニシアティブ(OSI)は2024年10月28日にオープンソースAIの定義(OSAID)のバージョン1.0をリリースしました。この定義は、AIシステムにとってオープンとは何かについて議論を始めるための重要な一歩です。しかしOSAIDのデータ共有の要件は、特にAIモデルのための学習データを共有すべきかどうか、またどのように共有すべきかについては依然として議論の余地があります。

CCは、オープンデータセットの構築と公開が難しいからといって、それを奨励すべきでないということにはならないと考えています。学習データを共有すべきでない、あるいは共有できない場合には、そのデータはクローズドと定義し、データセットの内容を説明する詳細な要約と再現性のための指示を提供することを推奨します。データをオープンな形で共有できる場合には、そうすべきです。

私たちはDPGAのCEOである Liv Marte Nordhaug 氏が最近投稿した下記の言葉に賛同します。

 「AIシステムに関しては、他のカテゴリーのDPGよりも寛容なAIシステムへのアプローチを進めることで、オープンデータ運動やDPGのカテゴリーとしてのオープンデータを不用意に損うことがないようにする必要があります。学習データに関する高い基準を維持すると、DPG標準の基準を満たすAIシステムの数を減らす可能性があります。しかし、SDGsとの関連性、プラットフォームからの独立性、「害を与えない」ことを設計に組み込むことは、DPGを他のオープンソース・ソリューションとは一線を画す特徴であり、そうした理由から、(AIの)学習データを含めることが必要なのです。」

今後の取り組み

CCは、AIモデルがデジタル公共財として認められるための基準を策定するにあたり、DPGAやその他のパートナーと協力し続けます。この分野において、私たちはオープンデータセットを推進し、AIモデルのすべてのコンポーネントをオープンな形で公開しなくても、各コンポーネントがデジタル公共財として認められるような階層型アプローチの検討を提唱していきます。この度更新された推奨事項とガイドラインは、オープンデータセットを利用・共有し、完全にオープンなAIシステムの価値を認識するもので、それらはAIが公共の利益に貢献することを保証する上で重要な役割を果たすでしょう。

参考資料


このブログ投稿は Cable Green と Creative Commons による “Why Digital Public Goods, including AI, Should Depend on Open Data” を翻訳したものです。

(担当:豊倉)