So verankerst du ein AI-Dataset-Manifest mit Label 309

Wenn du später nachweisen willst, was ein Dataset-Snapshot enthielt, dann verankere sein Manifest: Hash die Manifest-Datei, veröffentliche diesen Hash in einem Label 309-Eintrag auf Cardano und halte das Dataset selbst privat. Von da an kann jeder mit der Transaktionsreferenz bestätigen, dass das Manifest in genau dieser Form zu einem öffentlichen Blockzeitpunkt oder davor existierte – ohne deinen Servern zu vertrauen und ohne deine Daten zu sehen.

Ein Dataset-Manifest ist das stabile Inventar eines Dataset-Snapshots: welche Dateien, Einträge, URLs, Lizenzen, Hashes, Quellen und Verarbeitungsschritte zu einem bestimmten Zeitpunkt enthalten waren. Label 309 lässt dich dieses Manifest hashen oder per Merkle verankern, sodass das Commitment öffentlich festgeschrieben ist – während die Daten dort bleiben, wo sie sind.

Das ist wichtig für AI-Unternehmen, Forschungsteams, Rechts- und Compliance-Teams und für alle, die später vielleicht erklären müssen, woher die Trainings- oder Evaluationsdaten eines Modells stammen – lange nachdem der Data Lake weitergezogen ist.

Was ist ein AI-Dataset-Manifest?

Ein AI-Dataset-Manifest ist ein strukturiertes Inventar.

Es muss nicht die vollständigen Trainingsdaten enthalten. Es kann stabile Referenzen und Hashes für die Daten enthalten. Ziel ist es, einen Dataset-Snapshot so prüfbar und reproduzierbar zu machen, dass ein künftiger Prüfer versteht, was enthalten war.

Ein Manifest kann beschreiben:

Dateien;
Zeilen;
Dokumente;
Bilder;
Audioclips;
Videos;
Webseiten;
Lizenzen;
Quellsysteme;
Erfassungsdaten;
Transformationen;
Filterregeln;
Deduplizierungsschritte;
Hash-Algorithmen;
Zuordnungen der Trainings-Splits;
interne Dataset-Versions-IDs.

Ohne Manifest ist ein Dataset oft nur ein Ordner, ein Bucket, eine Tabelle oder ein Archiv. Beim Experimentieren mag das reichen. Als Beweismittel ist es später schwach.

Warum sollten AI-Teams Manifeste mit einem Zeitstempel versehen?

Weil sich die Historie eines Datasets nur schwer rekonstruieren lässt.

AI-Teams fügen ständig Daten hinzu, entfernen, bereinigen, filtern, deduplizieren, labeln, schwärzen und teilen sie neu auf. Ein Dataset-Snapshot, mit dem im März ein Modell trainiert wurde, existiert im Juli vielleicht nicht mehr in derselben Form.

Das Team muss möglicherweise später beantworten:

Mit welchen Daten wurde dieses Modell trainiert?
Welches Evaluationsset wurde verwendet?
Waren diese Kundendaten im Dataset enthalten?
Wann haben wir eingeschränkte Inhalte entfernt?
Welche Quellen waren vor einer Richtlinienänderung enthalten?
Hatten wir diese Daten schon vor einem Streit?
Hat dieses Modell Daten verwendet, die unter einer bestimmten Lizenz stehen?

Ein Manifest mit Zeitstempel gibt der Antwort einen festen Bezugspunkt.

Wie passt Label 309 dazu?

Label 309 schreibt das Manifest auf einen öffentlichen Zeitpunkt fest. Die einfache Variante:

Erstelle ein deterministisches Manifest;
hash die Manifest-Datei;
veröffentliche diesen Hash in einem Label-309-Eintrag auf Cardano;
halte das Manifest und die Quelldaten privat;
verifiziere später, indem du den Manifest-Hash neu berechnest und ihn mit dem Eintrag abgleichst.

Für große Datasets verankerst du statt eines flachen Hashs eine Merkle-Wurzel. Ein Label-309-Eintrag kann ein Merkle-Commitment tragen – eine geordnete Liste aus 32 Byte großen Blättern, gebunden an eine einzelne Wurzel plus eine Blattanzahl –, sodass eine Wurzel on chain für eine beliebig große Blattliste off-chain einsteht:

Hash jeden Manifest-Eintrag zu einem Blatt;
ordne die Blätter deterministisch;
baue den Merkle-Baum;
veröffentliche die Wurzel im Eintrag;
bewahre die Blattliste und die Inklusionsnachweise auf.

Der öffentliche Eintrag beweist, dass ein Dataset-Commitment existierte. Das private Manifest erklärt, worauf es sich festgelegt hat. Das ist dasselbe Bündelungsmuster, mit dem ein Eintrag für Tausende von Dateien einstehen kann.

Was gehört in das Manifest?

Das Manifest sollte langweilig, deterministisch und nützlich sein.

Gute Felder sind etwa:

Dataset-ID;
Snapshot-ID;
Erstellungszeitpunkt;
Ersteller- oder Pipeline-ID;
Quellsystem;
Quell-URI oder neutrale Quellreferenz;
Datei- oder Eintrags-ID;
Bytelänge;
Content-Hash;
Hash-Algorithmus;
Medientyp;
Lizenz- oder Rechtestatus;
Einwilligungs- oder Richtlinienstatus, falls zutreffend;
Erfassungsdatum;
Version der Transformations-Pipeline;
Deduplizierungsgruppe;
Train-/Validierungs-/Test-Split;
Ausschlussgrund für entfernte Einträge;
Merkle-Blattindex.

Pack keine sensiblen personenbezogenen Daten in ein öffentliches Manifest. Ist das Manifest sensibel, halte es privat oder versiegle es.

Was macht ein Manifest deterministisch?

Determinismus bedeutet, dass dieselbe Eingabe dasselbe Manifest erzeugt.

Das erfordert klare Regeln:

Pfade normalisieren;
eine stabile Zeichenkodierung wählen;
die Sortierreihenfolge definieren;
die Zeitstempelformate definieren;
lokale Maschinenpfade nach Möglichkeit vermeiden;
die exakten Hash-Algorithmen festhalten;
die Transformationsversionen einfrieren;
die Schemaversion mitführen;
Felder vermeiden, die sich bei jedem Export-Lauf ändern.

Wenn sich ein Manifest ändert, weil das Export-Tool bei jedem Lauf eine neue zufällige ID oder einen neuen Zeitstempel hinzufügt, ist es schwerer zu verifizieren.

Das Manifest sollte für den Beweiswert gestaltet sein, nicht nur für die Bequemlichkeit.

Wie kann ein privates Dataset privat bleiben?

Veröffentliche das Commitment, nicht das Dataset.

Ein Label-309-Eintrag enthält einen Hash oder eine Merkle-Wurzel. Keines von beidem gibt die Daten von sich aus preis – ein Hash ist ein Einweg-Digest, und eine Wurzel legt sich auf eine Blattstruktur fest, ohne die Blätter offenzulegen. Das Unternehmen behält das Manifest, die Dateien und die Zugriffskontrollen intern.

Später kannst du gezielt gegen dieses festgeschriebene Commitment offenlegen:

eine einzelne Datei und ihren Merkle-Inklusionsnachweis;
eine einzelne Manifestzeile;
eine Teilmenge oder Quellkategorie;
einen einzelnen Trainings-Snapshot;
das gesamte Manifest unter NDA;
ein versiegeltes Paket, adressiert an einen Rechtsbeistand, einen Prüfer oder eine Aufsichtsbehörde.

So kann ein Team ein früheres Commitment nachweisen, ohne ein privates Dataset in ein öffentliches zu verwandeln – derselbe Ansatz wie bei der vertraulichen Offenlegung ohne öffentliche Dateien. Ein versiegelter Eintrag verschlüsselt die Nutzlast an bestimmte Empfängerschlüssel, aber sei dir über seine Grenzen im Klaren: Er hält den Klartext nur für die Schlüsselinhaber lesbar, er garantiert keine Anonymität, und ein Empfänger kann das, was er entschlüsselt, jederzeit weitergeben.

Wie hilft das bei der AI-Governance?

Governance braucht Aufzeichnungen, die Audits überstehen.

AI-Governance-Teams müssen zunehmend zeigen, wie Datasets bezogen, gefiltert, dokumentiert, freigegeben und verändert wurden. Ein Manifest ist nicht das ganze Governance-Programm, aber es gibt dem Programm etwas Konkretes zum Verifizieren.

Zum Beispiel:

Model Cards können auf Dataset-Snapshot-IDs verweisen;
interne Freigabe-Tickets können auf Manifest-Hashes verweisen;
Datenaufbewahrungs-Workflows können nachweisen, wann eingeschränkte Daten entfernt wurden;
Red-Team-Evaluationen können Evaluationssets verankern;
Compliance-Prüfungen können behauptete Datasets mit festgeschriebenen Manifesten vergleichen;
Kundenverträge können auf prüfbare Dataset-Snapshots verweisen.

Die Nachweis-Ebene macht es schwerer, die Dataset-Aufzeichnung still umzuschreiben.

Wie verhält sich das zu Offenlegungspflichten für AI?

Die Regeln bewegen sich in Richtung besserer Dokumentation. Der EU AI Act enthält Pflichten rund um General-Purpose-AI, und 2025 hat die Europäische Kommission einen erläuternden Hinweis und eine Vorlage für eine öffentliche Zusammenfassung der Trainingsinhalte solcher Modelle veröffentlicht. Andere Rechtsordnungen und Plattformen entwickeln ihre eigenen Erwartungen an Transparenz und Provenienz laufend weiter.

Label 309 entscheidet nicht, was du offenlegen musst, und das Verankern eines Manifests erfüllt für sich genommen keine bestimmte Vorschrift – das hängt von deiner Rechtsordnung und deinen Pflichten ab. Was es leisten kann, ist, manipulationssichere Beweise hinter dem aufzubewahren, was du später offenlegen, zusammenfassen, verteidigen oder auditieren musst.

Die Unterscheidung ist wichtig: Ein Nachweis kann eine Transparenzaussage stützen, aber er ist keine rechtliche Feststellung und ersetzt keinen Rechtsbeistand.

Wie oft sollten Manifeste verankert werden?

Verankere im Takt der Entscheidungen.

Übliche Muster sind etwa:

bei jedem Trainingslauf;
bei jedem Evaluationslauf;
bei jedem Dataset-Release;
bei jeder Aktualisierung der Richtlinienfilter;
bei jedem kundenspezifischen Dataset-Build;
bei jedem täglichen oder wöchentlichen Ingestion-Batch;
bei jedem größeren Deduplizierungslauf;
bei jedem Red-Team-Dataset-Snapshot.

Teams mit hohem Volumen sollten die Merkle-Bündelung nutzen. Wichtige einzelne Releases verdienen vielleicht auch signierte Einträge und versiegelte Archive.

Was beweist das nicht?

Ein Zeitstempel beweist Zeitpunkt und Integrität – nicht Wahrheit, Eigentum oder Rechte. Sei bei der Grenze ehrlich:

Er beweist nicht, dass die Daten rechtmäßig erhoben wurden.
Er beweist kein Urheberrechtseigentum und keine Lizenzierung.
Er beweist keine Einwilligung.
Er beweist nicht, dass ein Modell tatsächlich auf dem Dataset trainiert hat – es sei denn, deine Pipeline und deine Logs verbinden den Modelllauf mit diesem Manifest.
Er beweist nicht, dass das Manifest vollständig ist, wenn dein Team Einträge weggelassen hat.

Was er beweist, ist eng und dauerhaft: Das festgeschriebene Manifest oder die Merkle-Wurzel existierte in genau dieser Form bis zu einem öffentlichen Blockzeitpunkt, und niemand kann es danach rückdatieren oder still bearbeiten. Das ist mächtig, aber nur, wenn es in deinen Prozess eingebunden ist. Das vollständige Bild der Grenze findest du unter was ein Nachweis nicht beweist.

Die Kurzfassung

AI-Datasets brauchen stabile Inventare.

Ein Dataset-Manifest macht aus einem beweglichen Data Lake einen Snapshot, den du später verifizieren kannst. Label 309 verankert diesen Snapshot mit einem Hash oder einer Merkle-Wurzel, signiert ihn optional mit einer Ed25519-Signatur auf Eintragsebene und kann ein privates Paket an benannte Empfänger versiegeln. Die öffentliche Chain braucht das Dataset nie – nur das Commitment.

Bewahre das Manifest auf. Sichere die Blattliste. Dokumentiere die Pipeline. Wenn das Dataset dann angezweifelt wird, greifst du nach Beweisen statt nach Erinnerung.

Label 309 ist ein offener, anbieterneutraler Standard, der als CIP-0190 in den Cardano-CIP-Prozess aufgenommen wurde – ein CIP der Kategorie Metadata. Die Referenzimplementierung – das Gateway, die SDKs und die cardanowall CLI, deren Befehle merkle-build und merkle-verify die obigen Blattlisten und Inklusionsnachweise verarbeiten – ist Open Source unter github.com/cardanowall.

Weiterführende Lektüre

Der Label-309-Standard: label309.org
Der aufgenommene Cardano-CIP: CIP-0190
Regulatorischer Rahmen des EU AI Act: digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
Europäische Kommission, erläuternder Hinweis und Vorlage für die öffentliche Zusammenfassung der Trainingsinhalte von General-Purpose-AI-Modellen (2025): digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models
Verwandt: ein Eintrag für Tausende von Dateien · vertrauliche Offenlegung ohne öffentliche Dateien · was ein Nachweis nicht beweist