Como provar dados de treinamento sem revelá-los

Sim, você pode provar que um conjunto de dados privado existiu sem publicá-lo.

O padrão é curto: monte um manifesto do conjunto de dados, calcule o hash de suas entradas, agrupe esses hashes em uma única raiz Merkle e publique um registro de Proof of Existence (prova de existência) do Label 309 na Cardano. O conjunto de dados em si nunca sai do seu controle. Depois, você pode revelar exatamente um arquivo, uma linha, uma entrada do manifesto ou uma prova de inclusão para mostrar que fazia parte do instantâneo comprometido — e nada além disso.

Isso prova a posse anterior em um determinado momento. Não prova, por si só, propriedade, situação de direitos autorais, consentimento ou uso legal. Essas são questões separadas, que exigem registros separados.

Por que uma equipe de IA precisaria disso?

Os dados de treinamento se tornaram uma questão de conselho administrativo. Um provedor de modelos pode precisar mostrar quais dados detinha, quando os detinha, de onde vieram, como foram processados e quais conjuntos de dados alimentaram uma determinada versão do modelo — para investidores, parceiros, clientes, reguladores, auditores, licenciadores ou litígios.

Ao mesmo tempo, muitas vezes a empresa não pode publicar o conjunto de dados. Ele pode conter conteúdo licenciado, dados de clientes, dados pessoais, fontes proprietárias, anotações internas, segredos comerciais, avaliações de segurança, corpora de recuperação, dados sintéticos ou regras de filtragem sensíveis.

A Proof of Existence resolve essa tensão. Ela permite que você se comprometa com o estado e a cronologia do conjunto de dados sem divulgá-lo publicamente. Você publica uma impressão digital; os bytes ficam em casa.

Com o que você deve se comprometer: dados brutos ou um manifesto?

Comprometa-se com um manifesto, não apenas com bytes brutos.

Um manifesto de conjunto de dados descreve o instantâneo de forma estruturada e legível por máquina. Ele pode registrar:

nome do conjunto de dados e id do instantâneo;
janela de coleta;
categorias de fonte e metadados de direitos;
hashes por arquivo e por linha;
versões de deduplicação e filtragem;
versões do pipeline de anotação e pré-processamento;
o modelo ou a execução de treinamento que o utilizou;
política de retenção e propriedade interna.

O manifesto não precisa expor publicamente nenhum detalhe sensível. Ele pode viver inteiramente dentro da empresa. A prova pública se compromete apenas com o seu hash, ou com uma raiz Merkle sobre muitas entradas do manifesto. O objetivo é estreito e durável: congelar a evidência do estado do conjunto de dados em um momento conhecido.

Por que usar uma raiz Merkle em vez de um registro por arquivo?

Conjuntos de dados são grandes, e publicar um registro por arquivo ou por linha não escala. Uma raiz Merkle resolve isso: ela se compromete com uma lista ordenada de muitos hashes sob um único valor de 32 bytes, ancorado em uma única transação.

Depois, para provar que um único item foi incluído, você revela apenas:

o item ou o seu hash;
a entrada relevante do manifesto;
uma prova de inclusão Merkle;
a referência da transação Label 309.

Um verificador recalcula o caminho daquela folha até a raiz e confirma que a raiz foi publicada em um horário de bloco específico da Cardano. A prova cresce com o logaritmo do tamanho do lote, então permanece pequena mesmo para milhões de folhas. O mais importante: montar a árvore e checar as provas é computação puramente offline — nenhum servidor, nenhuma conta, nenhuma cooperação sua é necessária no momento da verificação.

É isso que torna a divulgação seletiva possível. Você nunca precisa revelar o conjunto de dados inteiro para provar que um item pertencia ao instantâneo comprometido.

O que o público realmente vê?

Apenas o registro de prova na cadeia. Dependendo de como você publica, isso pode incluir um hash do manifesto, uma raiz Merkle, uma contagem de folhas, o horário da transação, uma assinatura opcional da sua empresa ou sistema e URIs opcionais endereçados por conteúdo (ar://, ipfs://) para material de apoio público ou cifrado.

O público não vê os arquivos do conjunto de dados, a lista completa de folhas, os metadados de fonte, os dados de clientes, os detalhes de licenciamento, as anotações ou as notas internas. Isso permanece dentro do seu sistema de evidências até que uma pergunta específica force a divulgação.

O que você revelaria depois, e quando?

Revele apenas o que a pergunta exige.

Um arquivo estava no conjunto de dados? Revele o arquivo ou o seu hash, a entrada do manifesto e uma prova de inclusão.
Uma categoria de fonte foi incluída? Revele a seção relevante do manifesto e a prova de que ela pertence ao instantâneo comprometido.
Uma versão do modelo usou um instantâneo específico? Revele o manifesto da execução de treinamento que vincula a versão do modelo à raiz do conjunto de dados.
É uma auditoria completa? Revele o manifesto inteiro e a lista de folhas sob o processo de confidencialidade apropriado.

A raiz na cadeia prova a cronologia. Seu arquivo interno determina quanto detalhe você pode mostrar, e para quem. Para casos em que o próprio material de apoio precisa ir para um terceiro mas permanecer privado, você pode compartilhá-lo de forma confidencial em vez de torná-lo público.

Como isso se relaciona com a regulação de IA?

A regulação de IA caminha rumo a deveres mais fortes de documentação e transparência. O EU AI Act, por exemplo, estabelece regras de transparência e relacionadas a direitos autorais para modelos de IA de uso geral, e a Comissão Europeia publicou um modelo para o resumo público do conteúdo de treinamento — descrito, nas próprias palavras da Comissão, como uma linha de base mínima para as informações a serem disponibilizadas publicamente.

Uma prova de conjunto de dados privado não é a mesma coisa que esse resumo público. Ela não substitui relatórios regulatórios, revisão jurídica, gestão de consentimento ou registros de licenciamento, e se algo disso ajuda em um caso específico depende da sua jurisdição e do seu advogado.

O que ela pode sustentar é a camada de evidências por trás desses processos. Se uma empresa precisar depois mostrar o que tinha, o que sabia, ou em qual instantâneo um resumo publicado se baseou, um compromisso de manifesto com carimbo de tempo é uma evidência concreta e ancorada por terceiros de cronologia e integridade.

O que uma prova de conjunto de dados realmente prova?

Ela prova que um compromisso específico de conjunto de dados existia até um horário de bloco público. Dependendo das evidências que você preserva, isso pode ajudar a mostrar:

que um arquivo estava no instantâneo de um conjunto de dados;
que um manifesto existia antes de uma disputa;
que uma versão do conjunto de dados existia antes do lançamento de um modelo;
que uma execução de treinamento referenciou um instantâneo específico;
que uma categoria de fonte estava documentada na época;
que um pipeline de pré-processamento ou filtragem estava registrado.

Se o registro for assinado — o Label 309 suporta assinaturas opcionais no nível do registro — ele também pode mostrar que uma chave da empresa ou do sistema avalizou o compromisso. Assinar nunca é obrigatório, então um compromisso não assinado é igualmente válido; a assinatura apenas acrescenta autoria atribuível.

O que ela não prova?

Esta é a parte sobre a qual é preciso ser honesto, porque as lacunas importam.

Uma prova de conjunto de dados não prova que os dados eram legais de usar. Ela não prova que você era dono dos dados, que eles foram coletados com consentimento, ou qual é a situação de direitos autorais deles. Ela não prova que os dados foram de fato usados para treinamento — a menos que o seu pipeline de treinamento e os registros do modelo estejam, eles próprios, vinculados ao instantâneo do conjunto de dados. E ela não prova que o manifesto está completo; apenas o seu processo e os seus controles podem tornar a completude crível.

A Proof of Existence é evidência de cronologia e integridade. Ela estabelece que bytes exatos existiam até um horário público. Não diz nada sobre verdade, propriedade, direitos ou conformidade — isso exige registros adicionais e análise jurídica. Se você quer o quadro completo de onde está a linha, veja o que uma prova prova e o que não prova.

Como você deve projetar o fluxo de trabalho?

Projete para a pergunta que você espera responder depois, não apenas para calcular hashes hoje.

Um formato viável:

Defina um formato canônico de manifesto de conjunto de dados.
Calcule o hash de cada item do conjunto de dados ou entrada do manifesto.
Monte uma raiz Merkle para o instantâneo.
Publique um registro Label 309, assinado se você quiser autoria atribuível.
Armazene o manifesto, a lista de folhas e o material de prova de inclusão.
Vincule as execuções de treinamento do modelo de volta às raízes dos conjuntos de dados.
Sele pacotes de evidências sensíveis para destinatários jurídicos ou de conformidade.
Registre instantâneos substitutos quando o conjunto de dados mudar.

A parte difícil raramente é a criptografia. A parte difícil é decidir quais evidências serão significativas quando alguém as pedir daqui a meses ou anos.

Com que frequência você deve comprometer um instantâneo?

Comprometa-se sempre que o conjunto de dados mudar de forma significativa — normalmente após uma nova ingestão, antes de uma execução de treinamento, após deduplicação ou filtragem, após rotulagem, antes do lançamento de um modelo, em um ponto de controle de governança, ou antes de compartilhar o conjunto de dados com um parceiro.

A cadência deve corresponder às perguntas que você espera responder. Comprometa-se uma vez por ano e talvez você não consiga provar qual instantâneo intermediário existiu. Comprometa-se a cada mudança trivial e você gera ruído operacional. Como o agrupamento Merkle permite que uma raiz represente um instantâneo inteiro — uma transação, não importa quantos arquivos ela cubra — o custo permanece mais ou menos constante por compromisso, então você pode escolher uma cadência que se ajuste às evidências de que precisa, em vez de uma ditada pelo preço.

Como o armazenamento selado se encaixa?

Às vezes calcular o hash não é suficiente — você quer preservar a própria evidência, não apenas uma impressão digital dela.

Uma PoE selada permite isso. O registro público ainda se compromete com o hash do texto claro, exatamente como uma prova normal faria. A carga sensível é cifrada e armazenada em um URI endereçado por conteúdo, com a chave de cifragem de conteúdo encapsulada para uma ou mais chaves de destinatário. Destinatários autorizados podem decifrá-la depois e confirmar que o texto claro recuperado corresponde ao compromisso na cadeia recalculando o hash.

A cadeia nunca carrega o texto claro e nunca revela quem são os destinatários; ela mostra apenas que um compromisso selado foi feito no horário T. Isso importa nos casos em que perder o manifesto original enfraqueceria a sua prova. Um registro somente de hash prova a existência enquanto você ainda tiver o arquivo. Um registro selado pode preservar o próprio arquivo cifrado, de modo que a evidência e o compromisso viajem juntos.

Uma limitação que vale declarar com clareza: o selamento mantém o conteúdo privado de todos, exceto dos detentores das chaves escolhidos, mas não torna ninguém anônimo, e um destinatário sempre pode vazar o texto claro depois de decifrá-lo. O selamento controla quem pode ler, não o que essa pessoa faz em seguida.

Quem deve ser o dono do processo?

Um processo de prova de conjunto de dados não deve ser um script de engenharia sem dono. Ele toca o jurídico, a segurança, a governança de dados, a conformidade e o desenvolvimento de modelos, e um bom processo torna as fronteiras explícitas: quem pode criar instantâneos, quem pode assinar compromissos, onde os manifestos são armazenados, quem pode decifrar pacotes selados, como as provas de inclusão são geradas, como as execuções de modelo se vinculam às raízes, como os instantâneos substituídos são tratados, e como as evidências são produzidas durante uma auditoria ou disputa.

A prova é criptográfica. A governança é organizacional. Você precisa das duas.

A versão curta

Para provar dados de treinamento sem revelá-los, comprometa-se com o instantâneo, não com o conjunto de dados. Monte um manifesto, calcule o hash de suas entradas, publique uma raiz Merkle em um registro Label 309, e guarde a lista de folhas e as provas de inclusão. Sele os arquivos de apoio sensíveis nos casos em que perdê-los enfraqueceria a prova. Depois, revele apenas a evidência que cada pergunta realmente exige.

Isso lhe dá uma prova durável e ancorada por terceiros de posse anterior e cronologia. Não prova, por si só, propriedade, uso legal ou conformidade — e é mais útil quando você tem clareza sobre exatamente qual desses ela está, e não está, fazendo.

Leituras adicionais

O padrão aberto por trás dessas provas: label309.org. Ele foi aceito no processo de CIP da Cardano como CIP-0190; você pode ler o padrão no CIP-0190.
Os SDKs de código aberto e a CLI cardanowall que montam manifestos, árvores Merkle e provas de inclusão offline: github.com/cardanowall.
Um registro para milhares de arquivos — como o agrupamento Merkle funciona em profundidade.
Manifestos de conjuntos de dados de IA — estruturando o manifesto com o qual você se compromete.
Divulgação confidencial sem arquivos públicos — entregando evidências a uma contraparte sem publicá-las.