So weist du Trainingsdaten nach, ohne sie offenzulegen

Ja, du kannst nachweisen, dass ein privater Datensatz existiert hat, ohne ihn zu veröffentlichen.

Das Muster ist kurz: Erstelle ein Datensatz-Manifest, hashe seine Einträge, falte diese Hashes zu einer einzigen Merkle-Wurzel zusammen und veröffentliche einen einzigen Label 309 Existenznachweis-Eintrag auf Cardano. Der Datensatz selbst verlässt nie deinen Einflussbereich. Später kannst du genau eine Datei, Zeile, einen Manifesteintrag oder einen Inklusionsnachweis offenlegen, um zu zeigen, dass sie Teil des festgeschriebenen Snapshots war – und nichts darüber hinaus.

Das beweist den vorherigen Besitz zu einem bestimmten Zeitpunkt. Es beweist für sich genommen weder Eigentum noch Urheberrechtsstatus, Einwilligung oder rechtmäßige Nutzung. Das sind eigene Fragen, die eigene Einträge brauchen.

Warum würde ein KI-Team das brauchen?

Trainingsdaten sind zur Chefsache geworden. Ein Modellanbieter muss vielleicht zeigen, welche Daten er hatte, wann er sie hatte, woher sie stammten, wie sie verarbeitet wurden und welche Datensätze in eine bestimmte Modellversion eingeflossen sind – für Investoren, Partner, Kunden, Regulierungsbehörden, Prüfer, Lizenzgeber oder Rechtsstreitigkeiten.

Gleichzeitig kann das Unternehmen den Datensatz oft nicht veröffentlichen. Er kann lizenzierte Inhalte, Kundendaten, personenbezogene Daten, proprietäre Quellen, interne Annotationen, Geschäftsgeheimnisse, Sicherheitsbewertungen, Retrieval-Korpora, synthetische Daten oder sensible Filterregeln enthalten.

Der Existenznachweis löst diesen Konflikt auf. Er erlaubt dir, dich auf den Zustand und die Chronologie des Datensatzes festzulegen, ohne den Datensatz öffentlich preiszugeben. Du veröffentlichst einen Fingerabdruck; die Bytes bleiben zu Hause.

Worauf solltest du dich festlegen: auf Rohdaten oder ein Manifest?

Lege dich auf ein Manifest fest, nicht allein auf Rohbytes.

Ein Datensatz-Manifest beschreibt den Snapshot strukturiert und maschinenlesbar. Es kann Folgendes festhalten:

Datensatzname und Snapshot-ID;
Erfassungszeitraum;
Quellkategorien und Rechte-Metadaten;
Hashes pro Datei und pro Zeile;
Versionen von Deduplizierung und Filterung;
Versionen der Annotations- und Vorverarbeitungspipeline;
das Modell oder den Trainingslauf, der ihn genutzt hat;
Aufbewahrungsrichtlinie und interne Verantwortlichkeit.

Das Manifest muss kein sensibles Detail öffentlich offenlegen. Es kann vollständig im Unternehmen bleiben. Der öffentliche Nachweis legt sich nur auf seinen Hash fest oder auf eine Merkle-Wurzel über viele Manifesteinträge. Das Ziel ist eng und dauerhaft: Beweise für den Zustand des Datensatzes zu einem bekannten Zeitpunkt einzufrieren.

Warum eine Merkle-Wurzel statt eines Eintrags pro Datei verwenden?

Datensätze sind groß, und ein Eintrag pro Datei oder Zeile skaliert nicht. Eine Merkle-Wurzel löst das: Sie legt sich auf eine geordnete Liste vieler Hashes unter einem einzigen 32 Byte großen Wert fest, verankert in einer einzigen Transaktion.

Um später nachzuweisen, dass ein einzelnes Element enthalten war, legst du nur Folgendes offen:

das Element oder seinen Hash;
den zugehörigen Manifesteintrag;
einen Merkle-Inklusionsnachweis;
die Label-309-Transaktionsreferenz.

Ein Verifizierer berechnet den Pfad von diesem Blatt bis zur Wurzel neu und bestätigt, dass die Wurzel zu einer bestimmten Cardano-Blockzeit veröffentlicht wurde. Der Nachweis wächst mit dem Logarithmus der Bündelgröße und bleibt damit auch bei Millionen von Blättern klein. Entscheidend ist: Den Baum zu bauen und Nachweise zu prüfen ist reine Offline-Berechnung – kein Server, kein Konto, keine Mitwirkung von dir ist zum Zeitpunkt der Verifizierung nötig.

Genau das macht selektive Offenlegung möglich. Du musst niemals den ganzen Datensatz offenlegen, um zu beweisen, dass ein einzelnes Element zum festgeschriebenen Snapshot gehörte.

Was sieht die Öffentlichkeit tatsächlich?

Nur den Nachweis-Eintrag auf der Chain. Je nachdem, wie du veröffentlichst, kann er einen Manifest-Hash, eine Merkle-Wurzel, einen leaf_count, die Transaktionszeit, eine optionale Signatur deines Unternehmens oder Systems und optionale inhaltsadressierte URIs (ar://, ipfs://) für öffentliches oder verschlüsseltes Begleitmaterial enthalten.

Die Öffentlichkeit sieht nicht die Datensatzdateien, die vollständige Blattliste, Quell-Metadaten, Kundendaten, Lizenzdetails, Annotationen oder interne Notizen. Die bleiben in deinem Beweissystem, bis eine konkrete Frage eine Offenlegung erzwingt.

Was würdest du später offenlegen, und wann?

Lege nur offen, was die Frage erfordert.

War eine Datei im Datensatz? Lege die Datei oder ihren Hash, den Manifesteintrag und einen Inklusionsnachweis offen.
War eine Quellkategorie enthalten? Lege den betreffenden Manifestabschnitt offen und den Nachweis, dass er zum festgeschriebenen Snapshot gehört.
Hat eine Modellversion einen bestimmten Snapshot genutzt? Lege das Trainingslauf-Manifest offen, das die Modellversion mit der Datensatz-Wurzel verknüpft.
Ist das ein vollständiges Audit? Lege das gesamte Manifest und die Blattliste im angemessenen Vertraulichkeitsverfahren offen.

Die Wurzel auf der Chain beweist die Chronologie. Dein internes Archiv bestimmt, wie viel Detail du zeigen kannst und wem. Für Fälle, in denen das Begleitmaterial selbst zu einem Dritten wandern, aber privat bleiben muss, kannst du es vertraulich teilen, statt es öffentlich zu machen.

Wie hängt das mit KI-Regulierung zusammen?

Die KI-Regulierung bewegt sich auf strengere Dokumentations- und Transparenzpflichten zu. Der EU AI Act etwa legt Transparenz- und urheberrechtsbezogene Regeln für KI-Modelle mit allgemeinem Verwendungszweck fest, und die Europäische Kommission hat eine Vorlage für die öffentliche Zusammenfassung der Trainingsinhalte veröffentlicht – in den eigenen Worten der Kommission ein Mindeststandard für die öffentlich bereitzustellenden Informationen.

Ein privater Datensatz-Nachweis ist nicht dasselbe wie diese öffentliche Zusammenfassung. Er ersetzt weder die regulatorische Berichterstattung noch die rechtliche Prüfung, das Einwilligungsmanagement oder Lizenzunterlagen, und ob das alles in einem bestimmten Fall hilft, hängt von deiner Rechtsordnung und deinem Rechtsbeistand ab.

Was er stützen kann, ist die Beweisebene hinter diesen Prozessen. Wenn ein Unternehmen später zeigen muss, was es hatte, was es wusste oder auf welchem Snapshot eine veröffentlichte Zusammenfassung beruhte, ist eine Manifest-Festlegung mit Zeitstempel ein konkreter, von Dritten verankerter Beweis für Zeitpunkt und Integrität.

Was beweist ein Datensatz-Nachweis tatsächlich?

Er beweist, dass eine bestimmte Datensatz-Festlegung bis zu einer öffentlichen Blockzeit existierte. Je nachdem, welche Beweise du aufbewahrst, kann das helfen zu zeigen:

dass eine Datei in einem Datensatz-Snapshot war;
dass ein Manifest vor einem Streit existierte;
dass eine Datensatzversion vor einem Modell-Release existierte;
dass ein Trainingslauf auf einen bestimmten Snapshot verwies;
dass eine Quellkategorie zu diesem Zeitpunkt dokumentiert war;
dass eine Vorverarbeitungs- oder Filterpipeline festgehalten war.

Ist der Eintrag signiert – Label 309 unterstützt optionale Signaturen auf Eintragsebene –, kann er außerdem zeigen, dass ein Unternehmens- oder Systemschlüssel für die Festlegung bürgte. Signieren ist nie erforderlich, eine unsignierte Festlegung ist also genauso gültig; die Signatur fügt nur zurechenbare Urheberschaft hinzu.

Was beweist er nicht?

Das ist der Teil, bei dem man ehrlich sein muss, denn die Lücken sind wichtig.

Ein Datensatz-Nachweis beweist nicht, dass die Nutzung der Daten rechtmäßig war. Er beweist nicht, dass dir die Daten gehörten, dass sie mit Einwilligung erhoben wurden oder welchen Urheberrechtsstatus sie haben. Er beweist nicht, dass die Daten tatsächlich zum Training verwendet wurden – es sei denn, deine Trainingspipeline und deine Modelleinträge sind selbst an den Datensatz-Snapshot gebunden. Und er beweist nicht, dass das Manifest vollständig ist; nur dein Prozess und deine Kontrollen können die Vollständigkeit glaubhaft machen.

Der Existenznachweis ist ein Beweis für Chronologie und Integrität. Er belegt, dass genau diese Bytes bis zu einem öffentlichen Zeitpunkt existierten. Über Wahrheit, Eigentum, Rechte oder Compliance sagt er nichts – die brauchen zusätzliche Einträge und juristische Analyse. Wenn du das ganze Bild davon willst, wo die Grenze verläuft, sieh dir an, was ein Nachweis beweist und was nicht.

Wie solltest du den Workflow entwerfen?

Entwirf ihn für die Frage, die du später beantworten willst, nicht nur fürs Hashen von heute.

Eine tragfähige Form:

Definiere ein kanonisches Datensatz-Manifestformat.
Hashe jedes Datensatzelement oder jeden Manifesteintrag.
Baue eine Merkle-Wurzel für den Snapshot.
Veröffentliche einen Label-309-Eintrag, signiert, wenn du zurechenbare Urheberschaft willst.
Speichere das Manifest, die Blattliste und das Material für Inklusionsnachweise.
Verknüpfe Modell-Trainingsläufe zurück zu den Datensatz-Wurzeln.
Versiegle sensible Beweispakete für Empfänger aus Recht oder Compliance.
Halte ablösende Snapshots fest, wenn sich der Datensatz ändert.

Das Schwierige ist selten die Kryptografie. Das Schwierige ist die Entscheidung, welche Beweise aussagekräftig sind, wenn jemand in Monaten oder Jahren danach fragt.

Wie oft solltest du einen Snapshot festlegen?

Lege immer dann einen fest, wenn sich der Datensatz wesentlich ändert – typischerweise nach einer neuen Aufnahme, vor einem Trainingslauf, nach Deduplizierung oder Filterung, nach dem Labeling, vor einem Modell-Release, an einem Governance-Checkpoint oder bevor du den Datensatz mit einem Partner teilst.

Der Rhythmus sollte zu den Fragen passen, die du erwartest. Legst du einmal im Jahr fest, kannst du womöglich nicht beweisen, welcher Zwischen-Snapshot existierte. Legst du bei jeder trivialen Änderung fest, erzeugst du operatives Rauschen. Weil die Merkle-Bündelung eine einzige Wurzel für einen ganzen Snapshot stehen lässt – eine Transaktion, egal wie viele Dateien sie abdeckt –, bleiben die Kosten pro Festlegung in etwa gleich. So kannst du einen Rhythmus wählen, der zu den benötigten Beweisen passt, statt einen, den der Preis diktiert.

Wie passt versiegelter Speicher dazu?

Manchmal reicht Hashen nicht – du willst den Beweis selbst aufbewahren, nicht nur einen Fingerabdruck davon.

Ein versiegelter PoE erlaubt dir genau das. Der öffentliche Eintrag legt sich weiterhin auf den Klartext-Hash fest, genau wie ein normaler Nachweis. Die sensible Nutzlast wird verschlüsselt und an einem inhaltsadressierten URI gespeichert, wobei der Schlüssel zur Inhaltsverschlüsselung auf einen oder mehrere Empfängerschlüssel gewrappt wird. Autorisierte Empfänger können sie später entschlüsseln und bestätigen, dass der wiederhergestellte Klartext mit der Festlegung auf der Chain übereinstimmt, indem sie den Hash neu berechnen.

Die Chain trägt nie den Klartext und gibt nie preis, wer die Empfänger sind; sie zeigt nur, dass zum Zeitpunkt T eine versiegelte Festlegung gemacht wurde. Das ist wichtig, wenn der Verlust des Original-Manifests deinen Nachweis schwächen würde. Ein reiner Hash-Eintrag beweist die Existenz, solange du die Datei noch hast. Ein versiegelter Eintrag kann die verschlüsselte Datei selbst aufbewahren, sodass Beweis und Festlegung zusammen wandern.

Eine Einschränkung, die man klar benennen sollte: Versiegeln hält den Inhalt vor allen außer den gewählten Schlüsselinhabern privat, aber es macht niemanden anonym, und ein Empfänger kann den Klartext nach dem Entschlüsseln immer weitergeben. Versiegeln steuert, wer lesen kann, nicht, was er danach tut.

Wem sollte der Prozess gehören?

Ein Datensatz-Nachweisprozess sollte kein herrenloses Engineering-Skript sein. Er berührt Recht, Sicherheit, Data Governance, Compliance und Modellentwicklung, und ein guter Prozess macht die Grenzen explizit: wer Snapshots erstellen darf, wer Festlegungen signieren darf, wo Manifeste gespeichert werden, wer versiegelte Pakete entschlüsseln darf, wie Inklusionsnachweise erzeugt werden, wie Modellläufe mit Wurzeln verknüpft werden, wie abgelöste Snapshots behandelt werden und wie Beweise während eines Audits oder Streits hergestellt werden.

Der Nachweis ist kryptografisch. Die Governance ist organisatorisch. Du brauchst beides.

Die Kurzfassung

Um Trainingsdaten nachzuweisen, ohne sie offenzulegen, legst du dich auf den Snapshot fest, nicht auf den Datensatz. Baue ein Manifest, hashe seine Einträge, veröffentliche eine Merkle-Wurzel in einem Label-309-Eintrag und behalte die Blattliste und die Inklusionsnachweise. Versiegle sensible Begleitdateien, wenn ihr Verlust den Nachweis schwächen würde. Lege dann nur die Beweise offen, die jede Frage tatsächlich erfordert.

Das gibt dir einen dauerhaften, von Dritten verankerten Nachweis für vorherigen Besitz und Zeitpunkt. Es beweist für sich genommen weder Eigentum noch rechtmäßige Nutzung oder Compliance – und es ist am nützlichsten, wenn dir klar ist, welche dieser Dinge es genau leistet und welche nicht.

Weiterführende Lektüre

Der offene Standard hinter diesen Nachweisen: label309.org. Er wurde als CIP-0190 in den Cardano-CIP-Prozess aufgenommen; du kannst den Standard unter CIP-0190 nachlesen.
Die quelloffenen SDKs und die cardanowall CLI, die Manifeste, Merkle-Bäume und Inklusionsnachweise offline bauen: github.com/cardanowall.
Ein Eintrag für Tausende von Dateien – wie die Merkle-Bündelung im Detail funktioniert.
KI-Datensatz-Manifeste – wie du das Manifest strukturierst, auf das du dich festlegst.
Vertrauliche Offenlegung ohne öffentliche Dateien – wie du einer Gegenseite Beweise übergibst, ohne sie zu veröffentlichen.