Come ancorare il manifesto di un dataset di AI con Label 309

Per dimostrare in seguito cosa conteneva uno snapshot di un dataset, ancorane il manifesto: calcola l'hash del file di manifesto, pubblica quell'hash su Cardano in un record Label 309 e tieni privato il dataset stesso. Da quel momento, chiunque abbia il riferimento della transazione può confermare che il manifesto esisteva in quella forma esatta entro un block time pubblico — senza fidarsi dei tuoi server e senza vedere i tuoi dati.

Il manifesto di un dataset è l'inventario stabile di uno snapshot del dataset: quali file, record, URL, licenze, hash, fonti e fasi di elaborazione erano inclusi in un dato momento. Label 309 ti permette di calcolare l'hash di quel manifesto o di ancorarlo con una Merkle root, così l'impegno resta fissato in pubblico mentre i dati rimangono dove sono.

Questo conta per le aziende di AI, i team di ricerca, i team legali e di compliance, e per chiunque possa un giorno dover spiegare da dove provengono i dati di addestramento o di valutazione di un modello — molto tempo dopo che il data lake ha ormai voltato pagina.

Cos'è il manifesto di un dataset di AI?

Il manifesto di un dataset di AI è un inventario strutturato.

Non deve per forza contenere l'intero set di dati di addestramento. Può contenere riferimenti stabili e hash dei dati. L'obiettivo è rendere uno snapshot del dataset abbastanza verificabile e riproducibile da permettere a un futuro revisore di capire cosa era incluso.

Un manifesto può descrivere:

file;
righe;
documenti;
immagini;
clip audio;
video;
pagine web;
licenze;
sistemi di origine;
date di raccolta;
trasformazioni;
regole di filtraggio;
fasi di deduplicazione;
algoritmi di hash;
assegnazioni degli split di addestramento del modello;
id di versione interni del dataset.

Senza un manifesto, un dataset è spesso solo una cartella, un bucket, una tabella o un archivio. Può funzionare durante la sperimentazione. Ma in seguito è una prova debole.

Perché i team di AI dovrebbero marcare temporalmente i manifesti?

Perché la storia di un dataset diventa difficile da ricostruire.

I team di AI aggiungono, rimuovono, ripuliscono, filtrano, deduplicano, etichettano, oscurano e ri-suddividono i dati in continuazione. Uno snapshot di dataset che ha addestrato un modello a marzo potrebbe non esistere nella stessa forma a luglio.

Più avanti il team potrebbe dover rispondere a domande come:

su quali dati è stato addestrato questo modello?
quale set di valutazione è stato usato?
questi dati del cliente erano presenti nel dataset?
quando abbiamo rimosso i contenuti soggetti a restrizioni?
quali fonti erano incluse prima di un cambio di policy?
possedevamo questi dati prima di una controversia?
questo modello ha usato dati coperti da una licenza specifica?

Un manifesto con timestamp dà alla risposta un punto fisso.

Come si inserisce Label 309?

Label 309 vincola il manifesto a un tempo pubblico. La versione semplice:

crea un manifesto deterministico;
calcola l'hash del file di manifesto;
pubblica quell'hash in un record Label 309 su Cardano;
tieni privati il manifesto e i dati di origine;
verifica in seguito ricalcolando l'hash del manifesto e confrontandolo con il record.

Per i dataset di grandi dimensioni, ancora una Merkle root invece di un unico hash piatto. Un record Label 309 può trasportare un impegno Merkle — una lista ordinata di foglie da 32 byte vincolate a una singola root, più un conteggio delle foglie — così una sola root sulla catena fa le veci di una lista di foglie off-chain arbitrariamente grande:

calcola l'hash di ciascuna voce del manifesto in una foglia;
ordina le foglie in modo deterministico;
costruisci il Merkle tree;
pubblica la root nel record;
conserva la lista delle foglie e le inclusion proof.

Il record pubblico dimostra che un impegno sul dataset è esistito. Il manifesto privato spiega cosa è stato impegnato. È lo stesso pattern di raggruppamento che permette a un solo record di fare le veci di migliaia di file.

Cosa dovrebbe contenere il manifesto?

Il manifesto dovrebbe essere noioso, deterministico e utile.

Tra i campi validi rientrano:

id del dataset;
id dello snapshot;
data di creazione;
id del creatore o della pipeline;
sistema di origine;
URI di origine o riferimento neutro alla fonte;
id del file o del record;
lunghezza in byte;
hash del contenuto;
algoritmo di hash;
tipo di media;
licenza o stato dei diritti;
stato del consenso o della policy, se applicabile;
data di raccolta;
versione della pipeline di trasformazione;
gruppo di deduplicazione;
split train/validation/test;
motivo di esclusione per gli elementi rimossi;
indice della foglia Merkle.

Non inserire dati personali sensibili in un manifesto pubblico. Se il manifesto è sensibile, tienilo privato o sigillalo.

Cosa rende deterministico un manifesto?

Determinismo significa che lo stesso input produce lo stesso manifesto.

Questo richiede regole chiare:

normalizza i percorsi;
scegli una codifica dei caratteri stabile;
definisci l'ordine di ordinamento;
definisci i formati dei timestamp;
evita i percorsi della macchina locale quando possibile;
registra gli algoritmi di hash esatti;
congela le versioni delle trasformazioni;
includi la versione dello schema;
evita i campi che cambiano a ogni esecuzione dell'export.

Se un manifesto cambia perché lo strumento di export aggiunge un nuovo id o timestamp casuale a ogni esecuzione, è più difficile da verificare.

Il manifesto dovrebbe essere progettato per fare da prova, non solo per comodità.

Come può un dataset privato restare privato?

Pubblica l'impegno, non il dataset.

Un record Label 309 contiene un hash o una Merkle root. Nessuno dei due rivela i dati di per sé — un hash è un digest a senso unico, e una root si impegna su una struttura di foglie senza esporre le foglie stesse. L'azienda mantiene internamente il manifesto, i file e i controlli di accesso.

In seguito puoi divulgare in modo selettivo a fronte di quell'impegno fisso:

un singolo file e la sua inclusion proof Merkle;
una singola riga del manifesto;
un sottoinsieme o una categoria di fonte;
un singolo snapshot di addestramento;
l'intero manifesto sotto NDA;
un pacchetto sigillato indirizzato a un legale, a un revisore o a un'autorità di regolamentazione.

Così un team può dimostrare un impegno anteriore senza trasformare un dataset privato in uno pubblico — lo stesso approccio della divulgazione confidenziale senza file pubblici. Un record sigillato cifra il payload verso chiavi di destinatari specifici, ma sii chiaro sui suoi limiti: mantiene il testo in chiaro leggibile solo a chi possiede le chiavi, non garantisce l'anonimato e un destinatario può sempre divulgare ciò che decifra.

In che modo aiuta la governance dell'AI?

La governance ha bisogno di record che sopravvivano agli audit.

I team di governance dell'AI hanno sempre più bisogno di dimostrare come i dataset sono stati reperiti, filtrati, documentati, approvati e modificati. Un manifesto non è l'intero programma di governance, ma gli dà qualcosa di concreto da verificare.

Per esempio:

le model card possono fare riferimento agli id degli snapshot di dataset;
i ticket di approvazione interni possono fare riferimento agli hash dei manifesti;
i flussi di conservazione dei dati possono dimostrare quando i dati soggetti a restrizioni sono stati rimossi;
le valutazioni red-team possono ancorare i set di valutazione;
le revisioni di compliance possono confrontare i dataset dichiarati con i manifesti impegnati;
i contratti con i clienti possono fare riferimento a snapshot di dataset verificabili.

Il layer di prova rende il record del dataset più difficile da riscrivere in silenzio.

Che rapporto ha con le regole di trasparenza sull'AI?

Le regole si stanno muovendo verso una documentazione migliore. L'EU AI Act include obblighi relativi all'AI di uso generale, e nel 2025 la Commissione europea ha pubblicato una nota esplicativa e un modello per la sintesi pubblica dei contenuti di addestramento di questi modelli. Altre giurisdizioni e piattaforme continuano a far evolvere le proprie aspettative in materia di trasparenza e provenienza.

Label 309 non decide cosa devi divulgare, e ancorare un manifesto non soddisfa di per sé alcuna normativa specifica — questo dipende dalla tua giurisdizione e dai tuoi obblighi. Ciò che può fare è preservare prove a prova di manomissione dietro a tutto ciò che in seguito dovrai divulgare, riassumere, difendere o sottoporre ad audit.

La distinzione conta: una prova può sostenere un'affermazione di trasparenza, ma non è una determinazione giuridica e non sostituisce il parere di un legale.

Con quale frequenza vanno ancorati i manifesti?

Ancora al ritmo delle decisioni.

Tra i pattern comuni rientrano:

ogni run di addestramento;
ogni run di valutazione;
ogni rilascio di dataset;
ogni aggiornamento dei filtri di policy;
ogni build di dataset specifico per un cliente;
ogni batch di ingestione giornaliero o settimanale;
ogni passaggio di deduplicazione importante;
ogni snapshot di dataset red-team.

I team ad alto volume dovrebbero usare il Merkle batching. Anche i singoli rilasci importanti possono meritare record firmati e archivi sigillati.

Cosa non dimostra tutto questo?

Un timestamp dimostra la collocazione temporale e l'integrità — non la veridicità, la proprietà o i diritti. Sii onesto sul confine:

Non dimostra che i dati siano stati raccolti legalmente.
Non dimostra la titolarità del copyright né la licenza.
Non dimostra il consenso.
Non dimostra che un modello si sia davvero addestrato sul dataset — a meno che la tua pipeline e i tuoi log non colleghino l'esecuzione del modello a quel manifesto.
Non dimostra che il manifesto sia completo se il tuo team ha omesso delle voci.

Ciò che dimostra è circoscritto e duraturo: il manifesto impegnato o la Merkle root esistevano esattamente in quella forma entro un block time pubblico, e nessuno può retrodatarli o modificarli in silenzio in seguito. È un fatto potente, ma solo quando è integrato nel tuo processo. Per il quadro completo del confine, vedi cosa non dimostra una prova.

In breve

I dataset di AI hanno bisogno di inventari stabili.

Il manifesto di un dataset trasforma un data lake in movimento in uno snapshot che puoi verificare in seguito. Label 309 ancora quello snapshot con un hash o una Merkle root, lo firma facoltativamente con una firma di record Ed25519 e può sigillare un pacchetto privato verso destinatari specifici. La catena pubblica non ha mai bisogno del dataset — solo dell'impegno.

Conserva il manifesto. Mantieni la lista delle foglie. Documenta la pipeline. Poi, quando il dataset viene messo in discussione, attingi alle prove invece che alla memoria.

Label 309 è uno standard aperto e neutrale rispetto al fornitore, accettato nel processo CIP di Cardano come CIP-0190, un CIP della categoria Metadata. L'implementazione di riferimento — gateway, SDK e la CLI cardanowall, i cui comandi merkle-build e merkle-verify gestiscono le liste delle foglie e le inclusion proof viste sopra — è open source su github.com/cardanowall.

Approfondimenti

Lo standard Label 309: label309.org
Il CIP accettato: CIP-0190
Quadro normativo dell'EU AI Act: digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
Commissione europea, nota esplicativa e modello per la sintesi pubblica dei contenuti di addestramento dei modelli di AI di uso generale (2025): digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models
Correlati: un solo record per migliaia di file · divulgazione confidenziale senza file pubblici · cosa non dimostra una prova