すべての記事

約10分で読めます

Label 309 で AI データセットマニフェストをチェーン上に記録する方法

データセットマニフェストをハッシュ化し、Merkle ルートでバッチ化して、Label 309 で Cardano に記録します。データセット本体を公開せずに、後からスナップショットの中身を証明できます。

データセットのスナップショットに何が含まれていたかを後から証明するには、そのマニフェストをチェーン上に記録します。マニフェストファイルをハッシュ化し、そのハッシュを Label 309 レコードとして Cardano に公開し、データセット本体は非公開のまま保ちます。これ以降、トランザクション参照を持つ人なら誰でも、そのマニフェストが公開ブロック時刻までにその正確な形で存在していたことを確認できます。ご自分のサーバーを信頼する必要はなく、データが他者の目に触れることもありません。

データセットマニフェストとは、データセットのスナップショットの安定した目録です。ある時点で、どのファイル・レコード・URL・ライセンス・ハッシュ・ソース・処理ステップが含まれていたかを記したものです。Label 309 を使えば、このマニフェストをハッシュ化したり、Merkle ルートでチェーン上に記録したりできます。こうしてコミットメントを公開の場で固定しつつ、データはそのままの場所に置いておけます。

これは、AI 企業、研究チーム、法務・コンプライアンスの各チーム、そしてモデルの学習データや評価データがどこから来たのかを後で説明しなければならない可能性のあるすべての人にとって重要です。データレイクがとっくに移り変わってしまった後でも、です。

AI データセットマニフェストとは何か

AI データセットマニフェストとは、構造化された目録です。

学習データそのものをすべて含む必要はありません。データに対する安定した参照とハッシュを含めれば十分です。目的は、データセットのスナップショットを十分に監査可能かつ再現可能なものにし、将来のレビュー担当者が何が含まれていたかを理解できるようにすることです。

マニフェストが記述しうるものは次のとおりです。

  • ファイル
  • 文書
  • 画像
  • 音声クリップ
  • 動画
  • ウェブページ
  • ライセンス
  • ソースシステム
  • 収集日
  • 変換
  • フィルタリングルール
  • 重複排除のステップ
  • ハッシュアルゴリズム
  • モデル学習用の分割割り当て
  • 内部データセットのバージョン ID

マニフェストがなければ、データセットはたいていフォルダ、バケット、テーブル、アーカイブにすぎません。実験中はそれで通用するかもしれません。しかし後になると、証拠としては弱いものです。

AI チームがマニフェストにタイムスタンプを付与すべき理由

データセットの履歴は、再構築するのが難しくなるからです。

AI チームは、データの追加・削除・クリーニング・フィルタリング・重複排除・ラベル付け・墨消し・再分割を絶えず続けています。3 月にモデルを学習させたデータセットのスナップショットは、7 月には同じ形で存在していないかもしれません。

チームは後になって、次のような問いに答える必要が出てくることがあります。

  • このモデルはどのデータで学習したのか
  • どの評価セットが使われたのか
  • この顧客データはデータセットに含まれていたのか
  • 制限付きコンテンツをいつ削除したのか
  • ポリシー変更前にはどのソースが含まれていたのか
  • 紛争が起きる前にこのデータを保有していたのか
  • このモデルは特定のライセンス対象データを使ったのか

タイムスタンプ付きのマニフェストは、その答えに固定された基準点を与えます。

Label 309 はどう位置づけられるのか

Label 309 は、マニフェストを公開された時刻にコミットします。シンプルな手順は次のとおりです。

  1. 決定論的なマニフェストを作成します
  2. マニフェストファイルをハッシュ化します
  3. そのハッシュを Label 309 レコードとして Cardano に公開します
  4. マニフェストとソースデータは非公開のまま保ちます
  5. 後でマニフェストのハッシュを再計算し、レコードと一致するか確認して検証します

大規模なデータセットでは、単一のフラットなハッシュではなく Merkle ルートをチェーン上に記録します。Label 309 レコードは Merkle コミットメントを保持できます。これは単一のルートとリーフ数に束ねられた、32 バイトのリーフの順序付きリストです。こうして、チェーン上の 1 つのルートが、任意に大きなオフチェーンのリーフリストを代表します。

  1. マニフェストの各エントリをハッシュ化してリーフにします
  2. リーフを決定論的に並べます
  3. Merkle ツリーを構築します
  4. ルートをレコードに公開します
  5. リーフリストと包含証明を保存します

公開レコードは、データセットのコミットメントが存在したことを証明します。非公開のマニフェストは、何がコミットされたのかを説明します。これは、1 つのレコードで数千ファイルを代表するのと同じバッチ処理パターンです。

マニフェストには何を入れるべきか

マニフェストは、退屈で、決定論的で、役に立つものであるべきです。

良いフィールドの例は次のとおりです。

  • データセット ID
  • スナップショット ID
  • 作成時刻
  • 作成者またはパイプライン ID
  • ソースシステム
  • ソース URI または中立的なソース参照
  • ファイルまたはレコードの ID
  • バイト長
  • コンテンツハッシュ
  • ハッシュアルゴリズム
  • メディアタイプ
  • ライセンスまたは権利状態
  • 該当する場合は同意またはポリシーの状態
  • 収集日
  • 変換パイプラインのバージョン
  • 重複排除グループ
  • train/validation/test の分割
  • 削除済み項目の除外理由
  • Merkle のリーフインデックス

機微な個人データを公開マニフェストに入れてはいけません。マニフェストが機微なものであれば、非公開にするか封印してください。

マニフェストを決定論的にするものは何か

決定論的であるとは、同じ入力が同じマニフェストを生むことです。

そのためには明確なルールが必要です。

  • パスを正規化する
  • 安定した文字エンコーディングを選ぶ
  • ソート順を定める
  • タイムスタンプの形式を定める
  • 可能な限りローカルマシンのパスを避ける
  • 厳密なハッシュアルゴリズムを記録する
  • 変換のバージョンを固定する
  • スキーマのバージョンを含める
  • 実行のたびに変わるフィールドを避ける

エクスポートツールが実行のたびに新しいランダムな ID やタイムスタンプを付け加えるためにマニフェストが変わってしまうと、検証はより難しくなります。

マニフェストは、利便性だけでなく証拠を目的として設計すべきです。

非公開のデータセットを非公開のまま保つには

データセットそのものではなく、コミットメントを公開します。

Label 309 レコードに含まれるのは、ハッシュまたは Merkle ルートです。どちらもそれ自体ではデータを明かしません。ハッシュは一方向のダイジェストであり、ルートはリーフを露出させずにリーフ構造へコミットするからです。企業は、マニフェスト・ファイル・アクセス制御を社内に保持し続けます。

後から、その固定されたコミットメントに照らして、選択的に開示できます。

  • 1 つのファイルとその Merkle 包含証明
  • マニフェストの 1 行
  • 1 つのサブセットまたはソースカテゴリ
  • 1 つの学習スナップショット
  • NDA のもとでのマニフェスト全体
  • 弁護士、監査人、または規制当局宛ての封印付きパッケージ

これにより、チームは非公開のデータセットを公開のものに変えることなく、事前のコミットメントを証明できます。公開ファイルなしで機密情報を開示するのと同じアプローチです。封印付きレコードはペイロードを特定の受信者の鍵に対して暗号化しますが、その限界ははっきりさせておきましょう。平文を読めるのは鍵を持つ人だけに保たれますが、匿名性は保証されず、受信者は復号した内容をいつでも漏らせます。

これは AI ガバナンスにどう役立つのか

ガバナンスには、監査に耐えるレコードが必要です。

AI ガバナンスチームは、データセットがどのように調達され、フィルタリングされ、文書化され、承認され、変更されたかを示す必要にますます迫られています。マニフェストはガバナンスプログラムのすべてではありませんが、プログラムが検証できる具体的な対象を与えてくれます。

たとえば、次のように使えます。

  • モデルカードはデータセットスナップショットの ID を参照できます
  • 社内の承認チケットはマニフェストのハッシュを参照できます
  • データ保持のワークフローは、制限付きデータをいつ削除したかを証明できます
  • レッドチームの評価は評価セットをチェーン上に記録できます
  • コンプライアンスレビューは、主張されたデータセットとコミット済みのマニフェストを比較できます
  • 顧客契約は、監査可能なデータセットスナップショットを参照できます

この証明レイヤーは、データセットの記録を密かに書き換えにくくします。

これは AI 開示ルールとどう関係するのか

ルールは、より良い文書化へと向かっています。EU AI Act には汎用 AI に関する義務が含まれており、2025 年には欧州委員会が、そうしたモデルの学習コンテンツの公開要約に関する解説通知とテンプレートを公表しました。他の法域やプラットフォームも、それぞれの透明性と来歴に関する要求を進化させ続けています。

Label 309 は、何を開示すべきかを決めるものではありません。マニフェストをチェーン上に記録すること自体が、特定の規制を単独で満たすわけでもありません。それは法域とご自身の義務しだいです。Label 309 にできるのは、後から開示・要約・弁護・監査が必要になるものの裏側に、改ざんが検知できる証拠を保全しておくことです。

この区別は重要です。証明は透明性の主張を支える場合がありますが、法的判断ではなく、弁護士の代わりにはなりません。

マニフェストはどのくらいの頻度でチェーン上に記録すべきか

意思決定のリズムに合わせて記録します。

よくあるパターンは次のとおりです。

  • 学習を実行するたび
  • 評価を実行するたび
  • データセットをリリースするたび
  • ポリシーフィルターを更新するたび
  • 顧客固有のデータセットを構築するたび
  • 日次または週次の取り込みバッチごと
  • 大きな重複排除パスごと
  • レッドチームのデータセットスナップショットごと

大量に扱うチームは Merkle バッチ処理を使うべきです。重要な単発のリリースには、署名付きレコードや封印付きアーカイブもふさわしいでしょう。

これが証明しないものは何か

タイムスタンプが証明するのは、時点と完全性であって、真実・所有権・権利ではありません。その境界については正直でいましょう。

  • データが合法的に収集されたことを証明するものではありません。
  • 著作権の所有やライセンスを証明するものではありません。
  • 同意を証明するものではありません。
  • モデルが実際にそのデータセットで学習したことを証明するものではありません。ただし、パイプラインとログがモデルの実行をそのマニフェストに結びつけている場合は別です。
  • チームがエントリを省いていた場合、マニフェストが完全であることを証明するものではありません。

実際に証明するものは、狭く、そして長持ちします。コミット済みのマニフェストまたは Merkle ルートが、公開ブロック時刻までにまさにその形で存在しており、その後に誰も日付を遡らせたり密かに編集したりできない、ということです。これは強力ですが、ご自身のプロセスに組み込まれている場合に限ります。境界の全体像については、証明が証明しないことをご覧ください。

要点

AI のデータセットには、安定した目録が必要です。

データセットマニフェストは、移ろうデータレイクを、後から検証できるスナップショットへと変えます。Label 309 はそのスナップショットをハッシュまたは Merkle ルートでチェーン上に記録し、必要に応じて Ed25519 のレコード署名で署名し、非公開のパッケージを指定した受信者宛てに封印できます。公開チェーンがデータセットを必要とすることは決してありません。必要なのはコミットメントだけです。

マニフェストを保管してください。リーフリストを保存してください。パイプラインを文書化してください。そうすれば、データセットが争われたとき、記憶ではなく証拠に手を伸ばせます。

Label 309 は、オープンでベンダー中立の標準です。現在 Cardano の CIP プロセスに提出され、Metadata カテゴリーの提案として CIP エディターによるレビュー中です。リファレンス実装(ゲートウェイ、各 SDK、そして上記のリーフリストと包含証明を扱う merkle-build および merkle-verify コマンドを備えた cardanowall CLI)は、github.com/cardanowall でオープンソースとして公開されています。

さらに読む

aidatasetsmerkle