Cómo anclar el manifiesto de un dataset de IA con Label 309

Para demostrar más adelante qué contenía la instantánea de un dataset, ancla su manifiesto: calcula el hash del archivo del manifiesto, publica ese hash en Cardano dentro de un registro Label 309 y mantén privado el dataset en sí. A partir de ahí, cualquiera que tenga la referencia de la transacción puede confirmar que el manifiesto existía en esa forma exacta en un momento igual o anterior a un tiempo de bloque público, sin confiar en tus servidores y sin ver tus datos.

El manifiesto de un dataset es el inventario estable de una instantánea del dataset: qué archivos, registros, URL, licencias, hashes, fuentes y pasos de procesamiento se incluyeron en un momento dado. Label 309 te permite aplicar un hash o anclar con Merkle ese manifiesto, de modo que el compromiso queda fijado en público mientras los datos permanecen donde están.

Esto importa a las empresas de IA, a los equipos de investigación, a los equipos jurídicos y de cumplimiento, y a cualquiera que más adelante pueda tener que explicar de dónde salieron los datos de entrenamiento o de evaluación de un modelo, mucho después de que el data lake haya seguido su curso.

¿Qué es el manifiesto de un dataset de IA?

El manifiesto de un dataset de IA es un inventario estructurado.

No tiene por qué contener todos los datos de entrenamiento. Puede contener referencias estables y hashes de los datos. El objetivo es hacer que la instantánea de un dataset sea lo bastante auditable y reproducible como para que un revisor futuro pueda entender qué se incluyó.

Un manifiesto puede describir:

archivos;
filas;
documentos;
imágenes;
clips de audio;
vídeos;
páginas web;
licencias;
sistemas de origen;
fechas de recopilación;
transformaciones;
reglas de filtrado;
pasos de deduplicación;
algoritmos de hash;
asignaciones de división para el entrenamiento del modelo;
identificadores internos de versión del dataset.

Sin manifiesto, un dataset suele ser solo una carpeta, un bucket, una tabla o un archivo comprimido. Eso puede valer durante la experimentación. Más adelante es una prueba débil.

¿Por qué deberían los equipos de IA sellar en el tiempo los manifiestos?

Porque el historial de un dataset se vuelve difícil de reconstruir.

Los equipos de IA añaden, eliminan, limpian, filtran, deduplican, etiquetan, redactan y vuelven a dividir datos de forma continua. La instantánea de un dataset que entrenó un modelo en marzo puede no existir en la misma forma en julio.

Más adelante, el equipo puede necesitar responder a:

¿con qué datos se entrenó este modelo?
¿qué conjunto de evaluación se usó?
¿existían estos datos del cliente en el dataset?
¿cuándo eliminamos el contenido restringido?
¿qué fuentes se incluyeron antes de un cambio de política?
¿poseíamos estos datos antes de una disputa?
¿usó este modelo datos cubiertos por una licencia concreta?

Un manifiesto con sello de tiempo le da a la respuesta un punto fijo.

¿Cómo encaja Label 309?

Label 309 fija el manifiesto a un tiempo público. La versión sencilla:

crea un manifiesto determinista;
calcula el hash del archivo del manifiesto;
publica ese hash en un registro Label 309 en Cardano;
mantén privados el manifiesto y los datos de origen;
verifica más adelante recalculando el hash del manifiesto y comparándolo con el del registro.

Para datasets grandes, ancla una raíz de Merkle en lugar de un único hash plano. Un registro Label 309 puede llevar un compromiso de Merkle —una lista ordenada de hojas de 32 bytes vinculadas a una sola raíz, más un número de hojas—, de modo que una raíz en la cadena representa una lista de hojas fuera de la cadena arbitrariamente grande:

convierte cada entrada del manifiesto en una hoja calculando su hash;
ordena las hojas de forma determinista;
construye el árbol de Merkle;
publica la raíz en el registro;
conserva la lista de hojas y las pruebas de inclusión.

El registro público demuestra que existió un compromiso del dataset. El manifiesto privado explica qué se comprometió. Es el mismo patrón de agrupación que permite que un registro represente miles de archivos.

¿Qué debería ir en el manifiesto?

El manifiesto debería ser aburrido, determinista y útil.

Algunos buenos campos:

identificador del dataset;
identificador de la instantánea;
hora de creación;
identificador del creador o de la pipeline;
sistema de origen;
URI de origen o referencia de origen neutral;
identificador de archivo o de registro;
longitud en bytes;
hash del contenido;
algoritmo de hash;
tipo de medio;
estado de la licencia o de los derechos;
estado del consentimiento o de la política, si procede;
fecha de recopilación;
versión de la pipeline de transformación;
grupo de deduplicación;
división de entrenamiento/validación/prueba;
motivo de exclusión de los elementos eliminados;
índice de hoja de Merkle.

No pongas datos personales sensibles en un manifiesto público. Si el manifiesto es sensible, mantenlo privado o séllalo.

¿Qué hace determinista a un manifiesto?

El determinismo significa que la misma entrada produce el mismo manifiesto.

Eso exige reglas claras:

normaliza las rutas;
elige una codificación de caracteres estable;
define el orden de clasificación;
define los formatos de sello de tiempo;
evita las rutas de la máquina local siempre que sea posible;
registra los algoritmos de hash exactos;
congela las versiones de transformación;
incluye la versión del esquema;
evita los campos que cambian cada vez que se ejecuta la exportación.

Si un manifiesto cambia porque la herramienta de exportación añade un nuevo identificador o sello de tiempo aleatorio en cada ejecución, será más difícil de verificar.

El manifiesto debería diseñarse pensando en las pruebas, no solo en la comodidad.

¿Cómo puede mantenerse privado un dataset privado?

Publica el compromiso, no el dataset.

Un registro Label 309 contiene un hash o una raíz de Merkle. Ninguno de los dos revela los datos por sí solo: un hash es un digest unidireccional, y una raíz se compromete con una estructura de hojas sin exponer las hojas. La empresa mantiene internamente el manifiesto, los archivos y los controles de acceso.

Más adelante, puedes divulgar de forma selectiva contra ese compromiso fijo:

un archivo y su prueba de inclusión de Merkle;
una fila del manifiesto;
un subconjunto o una categoría de origen;
una instantánea de entrenamiento;
el manifiesto completo bajo acuerdo de confidencialidad;
un paquete sellado dirigido a un abogado, a un auditor o a un regulador.

Esto le permite a un equipo demostrar un compromiso previo sin convertir un dataset privado en uno público: el mismo enfoque que la divulgación confidencial sin archivos públicos. Un registro sellado cifra la carga hacia claves de destinatario concretas, pero hay que ser claros sobre sus límites: mantiene el texto plano legible solo para quienes tienen las claves, no garantiza el anonimato y un destinatario siempre puede filtrar lo que descifra.

¿En qué ayuda esto a la gobernanza de la IA?

La gobernanza necesita registros que sobrevivan a las auditorías.

Los equipos de gobernanza de la IA necesitan cada vez más demostrar cómo se obtuvieron, filtraron, documentaron, aprobaron y modificaron los datasets. Un manifiesto no es todo el programa de gobernanza, pero le da al programa algo concreto que verificar.

Por ejemplo:

las model cards pueden referenciar identificadores de instantáneas de dataset;
los tickets internos de aprobación pueden referenciar hashes de manifiestos;
los flujos de retención de datos pueden demostrar cuándo se eliminaron datos restringidos;
las evaluaciones de red team pueden anclar conjuntos de evaluación;
las revisiones de cumplimiento pueden comparar los datasets declarados con los manifiestos comprometidos;
los contratos con clientes pueden referenciar instantáneas de dataset auditables.

La capa de prueba hace que el registro del dataset sea más difícil de reescribir en silencio.

¿Qué relación tiene esto con las normas de divulgación de la IA?

Las normas avanzan hacia una mejor documentación. El Reglamento de IA de la UE incluye obligaciones en torno a la IA de propósito general, y en 2025 la Comisión Europea publicó una nota explicativa y una plantilla para un resumen público del contenido de entrenamiento de esos modelos. Otras jurisdicciones y plataformas siguen desarrollando sus propias expectativas de transparencia y procedencia.

Label 309 no decide qué debes divulgar, y anclar un manifiesto no satisface por sí solo ninguna normativa concreta: eso depende de tu jurisdicción y de tus obligaciones. Lo que sí puede hacer es preservar pruebas a prueba de manipulaciones detrás de todo lo que más adelante tengas que divulgar, resumir, defender o auditar.

La distinción importa: una prueba puede respaldar una afirmación de transparencia, pero no es una determinación legal y no sustituye al asesor jurídico.

¿Con qué frecuencia deberían anclarse los manifiestos?

Ancla al ritmo de la toma de decisiones.

Algunos patrones habituales:

cada ejecución de entrenamiento;
cada ejecución de evaluación;
cada publicación de dataset;
cada actualización del filtro de políticas;
cada construcción de dataset específica para un cliente;
cada lote de ingesta diario o semanal;
cada pasada importante de deduplicación;
cada instantánea de dataset de red team.

Los equipos de alto volumen deberían usar la agrupación de Merkle. Las publicaciones individuales importantes también pueden merecer registros firmados y archivos sellados.

¿Qué no demuestra esto?

Un sello de tiempo demuestra el momento y la integridad, no la verdad, la propiedad ni los derechos. Conviene ser honesto sobre el límite:

No demuestra que los datos se recopilaran de forma lícita.
No demuestra la titularidad de los derechos de autor ni la concesión de licencias.
No demuestra el consentimiento.
No demuestra que un modelo se entrenara realmente con el dataset, a menos que tu pipeline y tus registros conecten la ejecución del modelo con ese manifiesto.
No demuestra que el manifiesto esté completo si tu equipo omitió entradas.

Lo que sí demuestra es algo estrecho y duradero: el manifiesto o la raíz de Merkle comprometidos existían exactamente en esa forma antes de un tiempo de bloque público, y nadie puede antedatarlos ni editarlos en silencio después. Eso es potente, pero solo cuando está integrado en tu proceso. Para el panorama completo de ese límite, consulta qué no demuestra una prueba.

La versión corta

Los datasets de IA necesitan inventarios estables.

El manifiesto de un dataset convierte un data lake en movimiento en una instantánea que puedes verificar más adelante. Label 309 ancla esa instantánea con un hash o una raíz de Merkle, opcionalmente la firma con una firma de registro Ed25519 y puede sellar un paquete privado para destinatarios concretos. La cadena pública nunca necesita el dataset, solo el compromiso.

Conserva el manifiesto. Preserva la lista de hojas. Documenta la pipeline. Así, cuando se cuestione el dataset, recurrirás a las pruebas en lugar de a la memoria.

Label 309 es un estándar abierto y neutral respecto al proveedor, aceptado en el proceso CIP de Cardano como CIP-0190, un CIP de la categoría Metadata. La implementación de referencia —el gateway, los SDK y la CLI cardanowall, cuyos comandos merkle-build y merkle-verify gestionan las listas de hojas y las pruebas de inclusión de arriba— es de código abierto en github.com/cardanowall.

Lecturas adicionales

El estándar Label 309: label309.org
El CIP aceptado: CIP-0190
Marco regulatorio del Reglamento de IA de la UE: digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
Comisión Europea, nota explicativa y plantilla para el resumen público del contenido de entrenamiento de los modelos de IA de propósito general (2025): digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models
Relacionado: un registro para miles de archivos · divulgación confidencial sin archivos públicos · qué no demuestra una prueba