7 мин чтения
Как закрепить манифест AI-датасета с помощью Label 309
Вычислите хеш манифеста датасета, упакуйте его в корень Merkle и закрепите в Cardano через Label 309 — чтобы позже можно было подтвердить, что было в снимке датасета, не публикуя сам датасет.

Чтобы позже подтвердить, что было в снимке датасета, закрепите его манифест: вычислите хеш файла манифеста, опубликуйте этот хеш в Cardano внутри записи Label 309 и оставьте сам датасет приватным. С этого момента любой, у кого есть ссылка на транзакцию, сможет убедиться, что манифест существовал именно в таком виде на момент публичного времени блока или раньше — не доверяя вашим серверам и не видя ваших данных.
Манифест датасета — это устойчивая опись снимка датасета: какие файлы, записи, URL, лицензии, хеши, источники и шаги обработки были включены в один момент времени. Label 309 позволяет вычислить хеш такого манифеста или закрепить его через Merkle, так что обязательство фиксируется публично, а данные остаются там, где они есть.
Это важно для AI-компаний, исследовательских команд, юридических команд и команд комплаенса — для всех, кому позже может понадобиться объяснить, откуда взялись обучающие или оценочные данные модели, спустя долгое время после того, как озеро данных уже изменилось.
Что такое манифест AI-датасета?
Манифест AI-датасета — это структурированная опись.
Он не обязан содержать сами обучающие данные целиком. Он может содержать устойчивые ссылки и хеши данных. Цель — сделать снимок датасета достаточно проверяемым и воспроизводимым, чтобы будущий ревьюер мог понять, что в него входило.
Манифест может описывать:
- файлы;
- строки;
- документы;
- изображения;
- аудиоклипы;
- видео;
- веб-страницы;
- лицензии;
- системы-источники;
- даты сбора;
- преобразования;
- правила фильтрации;
- шаги дедупликации;
- алгоритмы хеширования;
- распределение по выборкам для обучения модели;
- внутренние идентификаторы версий датасета.
Без манифеста датасет часто оказывается просто папкой, бакетом, таблицей или архивом. Во время экспериментов этого может хватать. Позже это слабое свидетельство.
Зачем AI-командам проставлять метку времени для манифестов?
Потому что историю датасета становится трудно восстановить.
AI-команды непрерывно добавляют, удаляют, чистят, фильтруют, дедуплицируют, размечают, редактируют и переразбивают данные. Снимок датасета, на котором модель обучалась в марте, к июлю может уже не существовать в том же виде.
Позже команде может понадобиться ответить:
- на каких данных обучалась эта модель?
- какой набор для оценки использовался?
- были ли эти данные клиента в датасете?
- когда мы удалили контент с ограниченным доступом?
- какие источники были включены до изменения политики?
- владели ли мы этими данными до спора?
- использовала ли эта модель данные, на которые распространяется определённая лицензия?
Манифест с меткой времени даёт твёрдую опору для ответа.
Как сюда вписывается Label 309?
Label 309 фиксирует манифест в публичном времени. Если коротко:
- создайте детерминированный манифест;
- вычислите хеш файла манифеста;
- опубликуйте этот хеш в записи Label 309 в Cardano;
- оставьте манифест и исходные данные приватными;
- позже проверьте, заново вычислив хеш манифеста и сопоставив его с записью.
Для больших датасетов вместо одного плоского хеша закрепите корень Merkle. Запись Label 309 может нести Merkle-обязательство — упорядоченный список 32-байтовых листьев, привязанных к единому корню, плюс число листьев, — так что один корень в блокчейне заменяет сколь угодно большой список листьев вне сети:
- вычислите хеш каждой записи манифеста, превратив её в лист;
- упорядочьте листья детерминированно;
- постройте дерево Merkle;
- опубликуйте корень в записи;
- сохраните список листьев и доказательства включения.
Публичная запись подтверждает, что обязательство по датасету существовало. Приватный манифест объясняет, что именно было зафиксировано. Это то же самое пакетирование, благодаря которому одна запись заменяет тысячи файлов.
Что должно входить в манифест?
Манифест должен быть скучным, детерминированным и полезным.
Хорошие поля:
- идентификатор датасета;
- идентификатор снимка;
- время создания;
- идентификатор создателя или конвейера;
- система-источник;
- URI источника или нейтральная ссылка на источник;
- идентификатор файла или записи;
- длина в байтах;
- хеш содержимого;
- алгоритм хеширования;
- тип медиа;
- статус лицензии или прав;
- статус согласия или политики, если применимо;
- дата сбора;
- версия конвейера преобразований;
- группа дедупликации;
- разбиение на обучающую, валидационную и тестовую выборки;
- причина исключения для удалённых элементов;
- индекс листа Merkle.
Не помещайте чувствительные персональные данные в публичный манифест. Если манифест чувствителен, держите его приватным или запечатайте.
Что делает манифест детерминированным?
Детерминированность означает, что одни и те же входные данные дают один и тот же манифест.
Для этого нужны чёткие правила:
- нормализуйте пути;
- выберите устойчивую кодировку символов;
- определите порядок сортировки;
- определите форматы меток времени;
- по возможности избегайте путей локальной машины;
- фиксируйте точные алгоритмы хеширования;
- замораживайте версии преобразований;
- включайте версию схемы;
- избегайте полей, которые меняются при каждом запуске экспорта.
Если манифест меняется из-за того, что инструмент экспорта при каждом запуске добавляет новый случайный идентификатор или метку времени, проверять его труднее.
Манифест должен проектироваться как свидетельство, а не только ради удобства.
Как приватный датасет может оставаться приватным?
Публикуйте обязательство, а не датасет.
Запись Label 309 содержит хеш или корень Merkle. Ни то, ни другое само по себе не раскрывает данные: хеш — это односторонний дайджест, а корень фиксирует структуру листьев, не раскрывая сами листья. Компания хранит манифест, файлы и контроль доступа у себя внутри.
Позже вы можете раскрывать данные выборочно относительно этого фиксированного обязательства:
- один файл и его доказательство включения Merkle;
- одну строку манифеста;
- одно подмножество или одну категорию источника;
- один обучающий снимок;
- весь манифест под NDA;
- запечатанный пакет, адресованный юристу, аудитору или регулятору.
Это позволяет команде подтвердить ранее данное обязательство, не превращая приватный датасет в публичный — тот же подход, что и при конфиденциальном раскрытии без публичных файлов. Запечатанная запись шифрует полезную нагрузку под определённые ключи получателей, но стоит чётко понимать её пределы: она оставляет открытый текст читаемым только для держателей ключей, она не гарантирует анонимности, и получатель всегда может слить то, что расшифровал.
Чем это помогает в управлении AI?
Управлению нужны записи, которые переживут аудиты.
Командам, отвечающим за управление AI, всё чаще нужно показывать, как датасеты получали из источников, фильтровали, документировали, одобряли и изменяли. Манифест — это не вся программа управления, но он даёт ей нечто конкретное для проверки.
Например:
- карточки моделей могут ссылаться на идентификаторы снимков датасета;
- внутренние тикеты согласования могут ссылаться на хеши манифестов;
- процессы хранения данных могут подтвердить, когда были удалены данные с ограниченным доступом;
- red-team-оценки могут закреплять наборы для оценки;
- проверки комплаенса могут сравнивать заявленные датасеты с зафиксированными манифестами;
- клиентские договоры могут ссылаться на проверяемые снимки датасета.
Слой подтверждения не даёт незаметно переписать запись о датасете.
Как это связано с правилами раскрытия для AI?
Правила движутся в сторону более качественного документирования. EU AI Act включает обязательства вокруг AI общего назначения, а в 2025 году Европейская комиссия опубликовала разъяснительную записку и шаблон для публичного резюме обучающего контента для таких моделей. Другие юрисдикции и платформы продолжают развивать собственные требования к прозрачности и происхождению.
Label 309 не решает, что вы обязаны раскрывать, и закрепление манифеста само по себе не удовлетворяет какое-либо конкретное требование — это зависит от вашей юрисдикции и ваших обязательств. Что он умеет — это сохранить устойчивое к подделке свидетельство за всем, что вам позже понадобится раскрыть, обобщить, защитить или проверить аудитом.
Различие важно: подтверждение помогает обосновать заявление о прозрачности, но оно не является юридическим заключением и не заменяет юриста.
Как часто следует закреплять манифесты?
Закрепляйте в ритме принятия решений.
Распространённые сценарии:
- каждый запуск обучения;
- каждый запуск оценки;
- каждый релиз датасета;
- каждое обновление фильтра политики;
- каждая сборка датасета под конкретного клиента;
- каждый ежедневный или еженедельный пакет загрузки;
- каждый крупный проход дедупликации;
- каждый снимок red-team-датасета.
Командам с большими объёмами стоит использовать пакетирование Merkle. Важные отдельные релизы могут также заслуживать подписанных записей и запечатанных архивов.
Что это не доказывает?
Метка времени доказывает время и целостность — но не истинность, право собственности или права. Будьте честны насчёт границы:
- Она не доказывает, что данные были собраны законно.
- Она не доказывает авторское право или лицензирование.
- Она не доказывает согласие.
- Она не доказывает, что модель действительно обучалась на датасете, — если только ваш конвейер и журналы не связывают запуск модели с этим манифестом.
- Она не доказывает, что манифест полон, если ваша команда пропустила записи.
Что она действительно доказывает — узко и долговечно: зафиксированный манифест или корень Merkle существовал именно в таком виде к моменту публичного времени блока, и никто не сможет задним числом изменить его или незаметно отредактировать после. Это мощно, но только когда встроено в ваш процесс. Полную картину границы смотрите в материале что подтверждение не доказывает.
Если коротко
AI-датасетам нужны устойчивые описи.
Манифест датасета превращает движущееся озеро данных в снимок, который можно проверить позже. Label 309 закрепляет этот снимок хешем или корнем Merkle, при желании подписывает его подписью записи Ed25519 и может запечатать приватный пакет для названных получателей. Публичному блокчейну никогда не нужен сам датасет — только обязательство.
Храните манифест. Сохраняйте список листьев. Документируйте конвейер. Тогда, когда датасет оспорят, вы потянетесь за свидетельством, а не за памятью.
Label 309 — это открытый, нейтральный к вендорам стандарт, сейчас поданный в
процесс Cardano CIP и рассматриваемый редакторами CIP как предложение категории
Metadata. Эталонная реализация — шлюз, SDK и CLI cardanowall, чьи команды
merkle-build и merkle-verify работают со списками листьев и доказательствами
включения, описанными выше, — открыта по адресу
github.com/cardanowall.
Что почитать дальше
- Стандарт Label 309: label309.org
- Предложение в процессе Cardano CIP (на рассмотрении): github.com/cardano-foundation/CIPs/pull/1205
- Нормативная база EU AI Act: digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
- Европейская комиссия, разъяснительная записка и шаблон публичного резюме обучающего контента для AI-моделей общего назначения (2025): digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models
- По теме: одна запись для тысяч файлов · конфиденциальное раскрытие без публичных файлов · что подтверждение не доказывает