Tous les articles

10 min de lecture

Ancrer un manifeste de jeu de données d'IA avec Label 309

Hachez un manifeste de jeu de données, regroupez-le sous une racine de Merkle et ancrez-le sur Cardano avec Label 309 — pour prouver plus tard ce que contenait un instantané de jeu de données, sans publier le jeu de données lui-même.

Pour prouver plus tard ce que contenait l'instantané d'un jeu de données, ancrez son manifeste : hachez le fichier manifeste, publiez cette empreinte sur Cardano dans un record Label 309, et gardez le jeu de données lui-même privé. Dès lors, quiconque dispose de la référence de transaction peut confirmer que le manifeste existait sous cette forme exacte à un horodatage de bloc public, ou avant — sans faire confiance à vos serveurs, et sans voir vos données.

Un manifeste de jeu de données est l'inventaire stable d'un instantané de jeu de données : quels fichiers, records, URL, licences, empreintes, sources et étapes de traitement étaient inclus à un instant donné. Label 309 vous permet de hacher ce manifeste ou de l'ancrer via Merkle, de sorte que l'engagement soit figé en public tandis que les données restent là où elles sont.

Cela compte pour les entreprises d'IA, les équipes de recherche, les équipes juridiques et de conformité, et pour quiconque pourrait devoir expliquer un jour d'où venaient les données d'entraînement ou d'évaluation d'un modèle — bien après que le data lake a évolué.

Qu'est-ce qu'un manifeste de jeu de données d'IA ?

Un manifeste de jeu de données d'IA est un inventaire structuré.

Il n'a pas à contenir l'intégralité des données d'entraînement. Il peut contenir des références stables et des empreintes des données. L'objectif est de rendre un instantané de jeu de données suffisamment auditable et reproductible pour qu'un relecteur futur comprenne ce qui était inclus.

Un manifeste peut décrire :

  • les fichiers ;
  • les lignes ;
  • les documents ;
  • les images ;
  • les extraits audio ;
  • les vidéos ;
  • les pages web ;
  • les licences ;
  • les systèmes sources ;
  • les dates de collecte ;
  • les transformations ;
  • les règles de filtrage ;
  • les étapes de déduplication ;
  • les algorithmes de hachage ;
  • les affectations de découpage pour l'entraînement du modèle ;
  • les identifiants de version interne du jeu de données.

Sans manifeste, un jeu de données n'est souvent qu'un dossier, un bucket, une table ou une archive. Cela peut suffire en phase d'expérimentation. C'est une preuve fragile par la suite.

Pourquoi les équipes d'IA devraient-elles horodater leurs manifestes ?

Parce que l'historique d'un jeu de données devient difficile à reconstituer.

Les équipes d'IA ajoutent, retirent, nettoient, filtrent, dédupliquent, étiquettent, expurgent et redécoupent continuellement des données. L'instantané de jeu de données qui a entraîné un modèle en mars peut ne plus exister sous la même forme en juillet.

L'équipe peut avoir à répondre, plus tard, à des questions comme :

  • sur quelles données ce modèle s'est-il entraîné ?
  • quel jeu d'évaluation a été utilisé ?
  • ces données client figuraient-elles dans le jeu de données ?
  • quand avons-nous retiré le contenu soumis à restriction ?
  • quelles sources étaient incluses avant un changement de politique ?
  • possédions-nous ces données avant un litige ?
  • ce modèle a-t-il utilisé des données couvertes par une licence particulière ?

Un manifeste horodaté donne à la réponse un point fixe.

Comment Label 309 s'intègre-t-il ?

Label 309 engage le manifeste sur un temps public. La version simple :

  1. créer un manifeste déterministe ;
  2. hacher le fichier manifeste ;
  3. publier cette empreinte dans un record Label 309 sur Cardano ;
  4. garder le manifeste et les données sources privés ;
  5. vérifier plus tard en recalculant l'empreinte du manifeste et en la faisant correspondre au record.

Pour les grands jeux de données, ancrez plutôt une racine de Merkle qu'une seule empreinte à plat. Un record Label 309 peut porter un engagement Merkle — une liste ordonnée de feuilles de 32 octets liées à une racine unique, accompagnée d'un nombre de feuilles — de sorte qu'une seule racine sur la chaîne tienne lieu d'une liste de feuilles hors chaîne arbitrairement grande :

  1. hacher chaque entrée du manifeste en une feuille ;
  2. ordonner les feuilles de façon déterministe ;
  3. construire l'arbre de Merkle ;
  4. publier la racine dans le record ;
  5. conserver la liste de feuilles et les preuves d'inclusion.

Le record public prouve qu'un engagement sur un jeu de données existait. Le manifeste privé explique ce qui a été engagé. C'est le même schéma de regroupement qui permet à un seul record de tenir lieu de milliers de fichiers.

Que mettre dans le manifeste ?

Le manifeste doit être sans surprise, déterministe et utile.

Parmi les bons champs :

  • l'identifiant du jeu de données ;
  • l'identifiant de l'instantané ;
  • l'heure de création ;
  • le créateur ou l'identifiant du pipeline ;
  • le système source ;
  • l'URI source ou une référence de source neutre ;
  • l'identifiant de fichier ou de record ;
  • la longueur en octets ;
  • l'empreinte du contenu ;
  • l'algorithme de hachage ;
  • le type de média ;
  • la licence ou le statut des droits ;
  • le statut de consentement ou de politique, le cas échéant ;
  • la date de collecte ;
  • la version du pipeline de transformation ;
  • le groupe de déduplication ;
  • le découpage entraînement/validation/test ;
  • le motif d'exclusion des éléments retirés ;
  • l'index de feuille Merkle.

Ne placez pas de données personnelles sensibles dans un manifeste public. Si le manifeste est sensible, gardez-le privé ou scellez-le.

Qu'est-ce qui rend un manifeste déterministe ?

Le déterminisme signifie que la même entrée produit le même manifeste.

Cela suppose des règles claires :

  • normaliser les chemins ;
  • choisir un encodage de caractères stable ;
  • définir un ordre de tri ;
  • définir les formats d'horodatage ;
  • éviter les chemins de machine locale autant que possible ;
  • consigner les algorithmes de hachage exacts ;
  • figer les versions des transformations ;
  • inclure la version du schéma ;
  • éviter les champs qui changent à chaque exécution de l'export.

Si un manifeste change parce que l'outil d'export ajoute un nouvel identifiant aléatoire ou un horodatage à chaque exécution, il devient plus difficile à vérifier.

Le manifeste doit être conçu pour servir de preuve, pas seulement par commodité.

Comment un jeu de données privé peut-il rester privé ?

Publiez l'engagement, pas le jeu de données.

Un record Label 309 contient une empreinte ou une racine de Merkle. Ni l'une ni l'autre ne révèle les données à elle seule — une empreinte est un condensé à sens unique, et une racine s'engage sur une structure de feuilles sans exposer les feuilles. L'entreprise conserve le manifeste, les fichiers et les contrôles d'accès en interne.

Par la suite, vous pouvez divulguer de façon sélective au regard de cet engagement figé :

  • un fichier et sa preuve d'inclusion Merkle ;
  • une ligne du manifeste ;
  • un sous-ensemble ou une catégorie de source ;
  • un instantané d'entraînement ;
  • le manifeste entier sous accord de confidentialité ;
  • un paquet scellé adressé à un conseil juridique, à un auditeur ou à un régulateur.

Cela permet à une équipe de prouver un engagement antérieur sans transformer un jeu de données privé en jeu de données public — la même approche que la divulgation confidentielle sans fichiers publics. Un record scellé chiffre le contenu vers des clés de destinataire précises, mais soyez clair sur ses limites : il maintient le texte en clair lisible uniquement par les détenteurs de clé, il ne garantit pas l'anonymat, et un destinataire peut toujours divulguer ce qu'il déchiffre.

En quoi cela aide-t-il à la gouvernance de l'IA ?

La gouvernance a besoin d'enregistrements qui survivent aux audits.

Les équipes de gouvernance de l'IA doivent de plus en plus montrer comment les jeux de données ont été sourcés, filtrés, documentés, approuvés et modifiés. Un manifeste n'est pas tout le programme de gouvernance, mais il lui donne quelque chose de concret à vérifier.

Par exemple :

  • les fiches de modèle peuvent référencer des identifiants d'instantané de jeu de données ;
  • les tickets d'approbation interne peuvent référencer des empreintes de manifeste ;
  • les flux de rétention de données peuvent prouver à quel moment des données soumises à restriction ont été retirées ;
  • les évaluations red-team peuvent ancrer leurs jeux d'évaluation ;
  • les revues de conformité peuvent comparer les jeux de données revendiqués aux manifestes engagés ;
  • les contrats clients peuvent référencer des instantanés de jeu de données auditables.

La couche de preuve rend l'enregistrement du jeu de données plus difficile à réécrire en silence.

Quel rapport avec les règles de transparence sur l'IA ?

La réglementation évolue vers une meilleure documentation. L'AI Act européen comporte des obligations relatives à l'IA à usage général, et en 2025 la Commission européenne a publié une note explicative et un modèle de résumé public du contenu d'entraînement pour ces modèles. D'autres juridictions et plateformes continuent de faire évoluer leurs propres exigences de transparence et de provenance.

Label 309 ne décide pas ce que vous devez divulguer, et ancrer un manifeste ne satisfait à lui seul aucune réglementation précise — cela dépend de votre juridiction et de vos obligations. Ce qu'il peut faire, c'est préserver une preuve inaltérable derrière tout ce que vous aurez ensuite à divulguer, résumer, défendre ou auditer.

La distinction compte : une preuve peut étayer une affirmation de transparence, mais elle n'est pas une qualification juridique, et elle ne remplace pas un conseil juridique.

À quelle fréquence faut-il ancrer les manifestes ?

Ancrez au rythme de la prise de décision.

Parmi les schémas courants :

  • à chaque exécution d'entraînement ;
  • à chaque exécution d'évaluation ;
  • à chaque publication de jeu de données ;
  • à chaque mise à jour des filtres de politique ;
  • à chaque construction de jeu de données propre à un client ;
  • à chaque lot d'ingestion quotidien ou hebdomadaire ;
  • à chaque passe de déduplication majeure ;
  • à chaque instantané de jeu de données red-team.

Les équipes à fort volume devraient recourir au regroupement Merkle. Les publications uniques importantes peuvent aussi mériter des records signés et des archives scellées.

Qu'est-ce que cela ne prouve pas ?

Un horodatage prouve la chronologie et l'intégrité — pas la véracité, la propriété ou les droits. Soyez honnête sur la limite :

  • Il ne prouve pas que les données ont été collectées licitement.
  • Il ne prouve pas la titularité du droit d'auteur ni la licence.
  • Il ne prouve pas le consentement.
  • Il ne prouve pas qu'un modèle s'est réellement entraîné sur le jeu de données — à moins que votre pipeline et vos journaux ne relient l'exécution du modèle à ce manifeste.
  • Il ne prouve pas que le manifeste est complet si votre équipe a omis des entrées.

Ce qu'il prouve est circonscrit et durable : le manifeste engagé ou la racine de Merkle existait sous cette forme exacte à un horodatage de bloc public, et personne ne peut l'antidater ni le modifier en silence par la suite. C'est puissant, mais seulement quand c'est intégré à votre processus. Pour le tableau complet de cette limite, voir ce qu'une preuve ne prouve pas.

En bref

Les jeux de données d'IA ont besoin d'inventaires stables.

Un manifeste de jeu de données transforme un data lake mouvant en un instantané que vous pouvez vérifier plus tard. Label 309 ancre cet instantané avec une empreinte ou une racine de Merkle, le signe éventuellement avec une signature de record Ed25519, et peut sceller un paquet privé vers des destinataires nommés. La chaîne publique n'a jamais besoin du jeu de données — seulement de l'engagement.

Conservez le manifeste. Préservez la liste de feuilles. Documentez le pipeline. Ainsi, lorsque le jeu de données est contesté, vous vous tournez vers des preuves plutôt que vers votre mémoire.

Label 309 est un standard ouvert et indépendant des fournisseurs, actuellement soumis au processus CIP de Cardano et en cours d'examen par les éditeurs CIP en tant que proposition de catégorie Metadata. L'implémentation de référence — le gateway, les SDK et la CLI cardanowall, dont les commandes merkle-build et merkle-verify gèrent les listes de feuilles et les preuves d'inclusion ci-dessus — est open source sur github.com/cardanowall.

Pour aller plus loin

aidatasetsmerkle