Todos os posts

9 min de leitura

Como ancorar um manifesto de conjunto de dados de IA com Label 309

Calcule o hash de um manifesto de conjunto de dados, agrupe-o com uma raiz Merkle e ancore-o na Cardano com Label 309 — para depois conseguir provar o que um instantâneo de conjunto de dados continha sem publicar o conjunto de dados.

Para provar mais tarde o que um instantâneo de conjunto de dados continha, ancore o seu manifesto: calcule o hash do arquivo de manifesto, publique esse hash na Cardano em um registro Label 309 e mantenha o próprio conjunto de dados privado. A partir daí, qualquer pessoa com a referência da transação pode confirmar que o manifesto existiu naquela forma exata em ou antes de um horário público de bloco — sem confiar nos seus servidores e sem ver seus dados.

Um manifesto de conjunto de dados é o inventário estável de um instantâneo de conjunto de dados: quais arquivos, registros, URLs, licenças, hashes, fontes e etapas de processamento foram incluídos em um determinado momento. O Label 309 permite calcular o hash desse manifesto ou ancorá-lo via Merkle, de modo que o compromisso fique fixado em público enquanto os dados permanecem onde estão.

Isso importa para empresas de IA, equipes de pesquisa, equipes jurídicas e de conformidade, e qualquer pessoa que possa precisar explicar mais tarde de onde vieram os dados de treinamento ou de avaliação de um modelo — muito depois de o data lake ter seguido em frente.

O que é um manifesto de conjunto de dados de IA?

Um manifesto de conjunto de dados de IA é um inventário estruturado.

Ele não precisa conter os dados de treinamento completos. Pode conter referências e hashes estáveis para os dados. O objetivo é tornar um instantâneo de conjunto de dados auditável e reproduzível o suficiente para que um revisor futuro consiga entender o que foi incluído.

Um manifesto pode descrever:

  • arquivos;
  • linhas;
  • documentos;
  • imagens;
  • clipes de áudio;
  • vídeos;
  • páginas web;
  • licenças;
  • sistemas de origem;
  • datas de coleta;
  • transformações;
  • regras de filtragem;
  • etapas de deduplicação;
  • algoritmos de hash;
  • atribuições de divisão para treinamento do modelo;
  • ids internos de versão do conjunto de dados.

Sem um manifesto, um conjunto de dados costuma ser apenas uma pasta, um bucket, uma tabela ou um arquivo compactado. Isso pode funcionar durante a experimentação. Mais tarde, vale pouco como prova.

Por que as equipes de IA deveriam carimbar manifestos no tempo?

Porque o histórico do conjunto de dados fica difícil de reconstruir.

As equipes de IA continuamente adicionam, removem, limpam, filtram, deduplicam, rotulam, ocultam e reorganizam os dados. Um instantâneo de conjunto de dados que treinou um modelo em março pode não existir na mesma forma em julho.

Mais tarde, a equipe pode precisar responder:

  • com quais dados este modelo foi treinado?
  • qual conjunto de avaliação foi usado?
  • estes dados do cliente existiam no conjunto de dados?
  • quando removemos conteúdo restrito?
  • quais fontes estavam incluídas antes de uma mudança de política?
  • já possuíamos estes dados antes de uma disputa?
  • este modelo usou dados cobertos por uma licença específica?

Um manifesto com carimbo de tempo dá um ponto fixo à resposta.

Como o Label 309 se encaixa?

O Label 309 compromete o manifesto com um tempo público. A versão simples:

  1. crie um manifesto determinístico;
  2. calcule o hash do arquivo de manifesto;
  3. publique esse hash em um registro Label 309 na Cardano;
  4. mantenha o manifesto e os dados de origem privados;
  5. verifique mais tarde recalculando o hash do manifesto e conferindo se ele corresponde ao registro.

Para conjuntos de dados grandes, ancore uma raiz Merkle em vez de um único hash plano. Um registro Label 309 pode carregar um compromisso Merkle — uma lista ordenada de folhas de 32 bytes vinculadas a uma única raiz, mais uma contagem de folhas — de modo que uma raiz na cadeia represente uma lista de folhas fora da cadeia arbitrariamente grande:

  1. calcule o hash de cada entrada do manifesto para gerar uma folha;
  2. ordene as folhas de forma determinística;
  3. construa a árvore Merkle;
  4. publique a raiz no registro;
  5. preserve a lista de folhas e as provas de inclusão.

O registro público prova que um compromisso de conjunto de dados existiu. O manifesto privado explica o que foi comprometido. É o mesmo padrão de agrupamento que permite que um registro represente milhares de arquivos.

O que deve entrar no manifesto?

O manifesto deve ser sem graça, determinístico e útil.

Bons campos incluem:

  • id do conjunto de dados;
  • id do instantâneo;
  • horário de criação;
  • criador ou id do pipeline;
  • sistema de origem;
  • URI de origem ou referência de origem neutra;
  • id do arquivo ou do registro;
  • tamanho em bytes;
  • hash do conteúdo;
  • algoritmo de hash;
  • tipo de mídia;
  • status de licença ou de direitos;
  • status de consentimento ou de política, quando aplicável;
  • data de coleta;
  • versão do pipeline de transformação;
  • grupo de deduplicação;
  • divisão de treino/validação/teste;
  • motivo de exclusão para itens removidos;
  • índice da folha Merkle.

Não coloque dados pessoais sensíveis em um manifesto público. Se o manifesto for sensível, mantenha-o privado ou sele-o.

O que torna um manifesto determinístico?

Determinismo significa que a mesma entrada produz o mesmo manifesto.

Isso exige regras claras:

  • normalize os caminhos;
  • escolha uma codificação de caracteres estável;
  • defina a ordem de classificação;
  • defina os formatos de carimbo de tempo;
  • evite caminhos da máquina local quando possível;
  • registre os algoritmos de hash exatos;
  • congele as versões de transformação;
  • inclua a versão do esquema;
  • evite campos que mudam a cada execução da exportação.

Se um manifesto muda porque a ferramenta de exportação adiciona um novo id aleatório ou carimbo de tempo a cada execução, ele fica mais difícil de verificar.

O manifesto deve ser projetado para servir como prova, não apenas por conveniência.

Como um conjunto de dados privado pode permanecer privado?

Publique o compromisso, não o conjunto de dados.

Um registro Label 309 contém um hash ou uma raiz Merkle. Nenhum dos dois revela os dados por si só — um hash é um digest de mão única, e uma raiz se compromete com uma estrutura de folhas sem expor as folhas. A empresa mantém o manifesto, os arquivos e os controles de acesso internamente.

Mais tarde, você pode divulgar seletivamente com base nesse compromisso fixo:

  • um arquivo e sua prova de inclusão Merkle;
  • uma linha do manifesto;
  • um subconjunto ou categoria de origem;
  • um instantâneo de treinamento;
  • o manifesto inteiro sob NDA;
  • um pacote selado endereçado a um advogado, a um auditor ou a um regulador.

Isso permite que uma equipe prove um compromisso anterior sem transformar um conjunto de dados privado em público — a mesma abordagem da divulgação confidencial sem arquivos públicos. Um registro selado cifra a carga útil para chaves específicas de destinatários, mas seja claro quanto aos seus limites: ele mantém o texto claro legível apenas para os detentores da chave, não garante anonimato, e um destinatário sempre pode vazar aquilo que decifra.

Como isso ajuda na governança de IA?

A governança precisa de registros que sobrevivam a auditorias.

As equipes de governança de IA cada vez mais precisam demonstrar como os conjuntos de dados foram obtidos, filtrados, documentados, aprovados e modificados. Um manifesto não é o programa de governança inteiro, mas dá ao programa algo concreto para verificar.

Por exemplo:

  • os model cards podem referenciar ids de instantâneos de conjunto de dados;
  • os tickets internos de aprovação podem referenciar hashes de manifesto;
  • os fluxos de retenção de dados podem provar quando dados restritos foram removidos;
  • as avaliações de red team podem ancorar conjuntos de avaliação;
  • as revisões de conformidade podem comparar os conjuntos de dados declarados com os manifestos comprometidos;
  • os contratos com clientes podem referenciar instantâneos de conjunto de dados auditáveis.

A camada de prova torna o registro do conjunto de dados mais difícil de reescrever silenciosamente.

Como isso se relaciona com as regras de divulgação de IA?

As regras estão caminhando para uma documentação melhor. A Lei de IA da UE inclui obrigações em torno da IA de propósito geral e, em 2025, a Comissão Europeia publicou uma nota explicativa e um modelo para um resumo público do conteúdo de treinamento desses modelos. Outras jurisdições e plataformas continuam evoluindo suas próprias expectativas de transparência e proveniência.

O Label 309 não decide o que você precisa divulgar, e ancorar um manifesto não satisfaz, por si só, nenhuma regulação específica — isso depende da sua jurisdição e das suas obrigações. O que ele pode fazer é preservar evidências à prova de adulteração por trás de tudo aquilo que você precisar depois divulgar, resumir, defender ou auditar.

A distinção importa: uma prova pode sustentar uma afirmação de transparência, mas não é uma determinação jurídica e não substitui um advogado.

Com que frequência os manifestos devem ser ancorados?

Ancore no ritmo da tomada de decisão.

Padrões comuns incluem:

  • a cada execução de treinamento;
  • a cada execução de avaliação;
  • a cada lançamento de conjunto de dados;
  • a cada atualização de filtro de política;
  • a cada build de conjunto de dados específico para um cliente;
  • a cada lote de ingestão diário ou semanal;
  • a cada passagem importante de deduplicação;
  • a cada instantâneo de conjunto de dados de red team.

Equipes de alto volume devem usar o agrupamento Merkle. Lançamentos individuais importantes também podem merecer registros assinados e pacotes selados.

O que isso não prova?

Um carimbo de tempo prova momento e integridade — não verdade, propriedade ou direitos. Seja honesto quanto ao limite:

  • Não prova que os dados foram coletados de forma lícita.
  • Não prova propriedade de direitos autorais ou licenciamento.
  • Não prova consentimento.
  • Não prova que um modelo realmente foi treinado com o conjunto de dados — a menos que seu pipeline e seus logs conectem a execução do modelo a esse manifesto.
  • Não prova que o manifesto está completo se a sua equipe omitiu entradas.

O que ele prova é restrito e durável: o manifesto ou a raiz Merkle comprometidos existiam exatamente naquela forma até um horário público de bloco, e ninguém consegue retrodatar ou editar isso silenciosamente depois. Isso é poderoso, mas só quando está integrado ao seu processo. Para o quadro completo sobre o limite, veja o que uma prova não prova.

A versão curta

Conjuntos de dados de IA precisam de inventários estáveis.

Um manifesto de conjunto de dados transforma um data lake em movimento em um instantâneo que você pode verificar mais tarde. O Label 309 ancora esse instantâneo com um hash ou uma raiz Merkle, opcionalmente o assina com uma assinatura de registro Ed25519 e pode selar um pacote privado para destinatários nomeados. A cadeia pública nunca precisa do conjunto de dados — apenas do compromisso.

Mantenha o manifesto. Preserve a lista de folhas. Documente o pipeline. Então, quando o conjunto de dados for contestado, você recorre a provas, e não à memória.

O Label 309 é um padrão aberto e neutro quanto ao fornecedor, atualmente submetido ao processo CIP da Cardano e em análise pelos editores de CIP como uma proposta da categoria Metadata. A implementação de referência — gateway, SDKs e o CLI cardanowall, cujos comandos merkle-build e merkle-verify lidam com as listas de folhas e as provas de inclusão acima — é de código aberto em github.com/cardanowall.

Leitura adicional

aidatasetsmerkle