읽는 데 8분
Label 309으로 AI 데이터셋 매니페스트를 체인에 고정하는 방법
데이터셋 매니페스트를 해시하고 Merkle 루트로 배칭한 뒤 Label 309로 Cardano에 고정하십시오. 데이터셋 자체를 공개하지 않고도 어떤 데이터셋 스냅숏에 무엇이 들어 있었는지 나중에 증명할 수 있습니다.

어떤 데이터셋 스냅숏에 무엇이 들어 있었는지 나중에 증명하려면 그 매니페스트를 체인에 고정하십시오. 매니페스트 파일을 해시하고, 그 해시를 Label 309 레코드로 Cardano에 게시한 뒤, 데이터셋 자체는 비공개로 유지하면 됩니다. 그때부터는 트랜잭션 참조를 가진 누구든, 해당 매니페스트가 어떤 공개 블록 타임 시점 또는 그 이전에 정확히 그 형태로 존재했음을 확인할 수 있습니다. 여러분의 서버를 신뢰할 필요도, 데이터를 들여다볼 필요도 없습니다.
데이터셋 매니페스트란 어떤 데이터셋 스냅숏의 안정적인 목록입니다. 즉, 특정 시점에 어떤 파일, 레코드, URL, 라이선스, 해시, 출처, 처리 단계가 포함되었는지를 담은 명세입니다. Label 309를 사용하면 이 매니페스트를 해시하거나 Merkle로 고정하여, 데이터는 원래 위치에 그대로 둔 채 그 약정만 공개적으로 확정할 수 있습니다.
이는 AI 기업, 연구 팀, 법무·컴플라이언스 팀, 그리고 데이터 레이크가 한참 바뀐 뒤에도 모델의 학습 데이터나 평가 데이터가 어디에서 왔는지 언젠가 설명해야 할 수 있는 모든 이에게 중요합니다.
AI 데이터셋 매니페스트란 무엇입니까?
AI 데이터셋 매니페스트는 구조화된 목록입니다.
전체 학습 데이터를 담을 필요는 없습니다. 데이터에 대한 안정적인 참조와 해시만 담아도 됩니다. 목표는 데이터셋 스냅숏을 충분히 감사·재현 가능하게 만들어, 미래의 검토자가 무엇이 포함되었는지 파악할 수 있도록 하는 것입니다.
매니페스트는 다음을 기술할 수 있습니다.
- 파일;
- 행;
- 문서;
- 이미지;
- 오디오 클립;
- 동영상;
- 웹 페이지;
- 라이선스;
- 원본 시스템;
- 수집 일자;
- 변환;
- 필터링 규칙;
- 중복 제거 단계;
- 해시 알고리즘;
- 모델 학습용 분할 배정;
- 내부 데이터셋 버전 ID.
매니페스트가 없으면 데이터셋은 흔히 폴더, 버킷, 테이블, 아카이브에 지나지 않습니다. 실험 단계에서는 그것으로 충분할 수 있습니다. 그러나 나중에는 빈약한 증거가 됩니다.
AI 팀은 왜 매니페스트에 타임스탬프를 남겨야 합니까?
데이터셋 이력을 재구성하기가 어려워지기 때문입니다.
AI 팀은 데이터를 끊임없이 추가하고, 제거하고, 정제하고, 필터링하고, 중복을 제거하고, 레이블을 붙이고, 마스킹하고, 다시 분할합니다. 3월에 어떤 모델을 학습시킨 데이터셋 스냅숏이 7월에는 같은 형태로 남아 있지 않을 수 있습니다.
팀은 나중에 다음과 같은 질문에 답해야 할 수 있습니다.
- 이 모델은 어떤 데이터로 학습했는가?
- 어떤 평가 세트를 사용했는가?
- 이 고객 데이터가 데이터셋에 존재했는가?
- 제한 콘텐츠를 언제 제거했는가?
- 정책 변경 이전에는 어떤 출처가 포함되어 있었는가?
- 분쟁 발생 이전에 우리가 이 데이터를 보유하고 있었는가?
- 이 모델이 특정 라이선스가 적용된 데이터를 사용했는가?
타임스탬프가 찍힌 매니페스트는 그 답에 고정된 기준점을 제공합니다.
Label 309는 여기에 어떻게 들어맞습니까?
Label 309는 매니페스트를 공개 시각에 약정합니다. 간단히 정리하면 다음과 같습니다.
- 결정론적 매니페스트를 만든다;
- 매니페스트 파일을 해시한다;
- 그 해시를 Label 309 레코드로 Cardano에 게시한다;
- 매니페스트와 원본 데이터는 비공개로 유지한다;
- 나중에 매니페스트 해시를 다시 계산해 레코드와 대조하여 검증한다.
대규모 데이터셋이라면 단일 해시 대신 Merkle 루트를 고정하십시오. Label 309 레코드는 Merkle 약정을 담을 수 있습니다. 이는 32바이트 리프의 순서 있는 목록을 하나의 루트와 리프 개수에 묶은 것으로, 체인에 올린 루트 하나가 임의로 큰 오프체인 리프 목록을 대신합니다.
- 매니페스트의 각 항목을 해시해 리프로 만든다;
- 리프를 결정론적으로 정렬한다;
- Merkle 트리를 만든다;
- 루트를 레코드에 게시한다;
- 리프 목록과 포함 증명을 보존한다.
공개된 레코드는 데이터셋 약정이 존재했다는 것을 증명합니다. 비공개 매니페스트는 무엇을 약정했는지를 설명합니다. 이는 레코드 하나로 수천 개 파일을 대신할 수 있게 해 주는 것과 동일한 배칭 패턴입니다.
매니페스트에는 무엇을 담아야 합니까?
매니페스트는 단조롭고, 결정론적이며, 쓸모 있어야 합니다.
좋은 필드의 예는 다음과 같습니다.
- 데이터셋 ID;
- 스냅숏 ID;
- 생성 시각;
- 작성자 또는 파이프라인 ID;
- 원본 시스템;
- 원본 URI 또는 중립적 출처 참조;
- 파일 또는 레코드 ID;
- 바이트 길이;
- 콘텐츠 해시;
- 해시 알고리즘;
- 미디어 타입;
- 라이선스 또는 권리 상태;
- 해당되는 경우 동의 또는 정책 상태;
- 수집 일자;
- 변환 파이프라인 버전;
- 중복 제거 그룹;
- 학습/검증/테스트 분할;
- 제거된 항목의 제외 사유;
- Merkle 리프 인덱스.
민감한 개인 데이터는 공개 매니페스트에 넣지 마십시오. 매니페스트가 민감하다면 비공개로 두거나 봉인하십시오.
무엇이 매니페스트를 결정론적으로 만듭니까?
결정론이란 같은 입력이 같은 매니페스트를 만들어 낸다는 뜻입니다.
이를 위해서는 명확한 규칙이 필요합니다.
- 경로를 정규화한다;
- 안정적인 문자 인코딩을 선택한다;
- 정렬 순서를 정의한다;
- 타임스탬프 형식을 정의한다;
- 가능하면 로컬 머신 경로를 피한다;
- 정확한 해시 알고리즘을 기록한다;
- 변환 버전을 고정한다;
- 스키마 버전을 포함한다;
- 내보내기를 실행할 때마다 바뀌는 필드를 피한다.
내보내기 도구가 실행할 때마다 새로운 무작위 ID나 타임스탬프를 추가해 매니페스트가 달라진다면, 검증하기가 더 어려워집니다.
매니페스트는 단순한 편의가 아니라 증거를 위해 설계되어야 합니다.
비공개 데이터셋을 어떻게 비공개로 유지합니까?
데이터셋이 아니라 약정을 게시하십시오.
Label 309 레코드는 해시 또는 Merkle 루트를 담습니다. 둘 중 어느 것도 그 자체로는 데이터를 드러내지 않습니다. 해시는 단방향 다이제스트이고, 루트는 리프를 노출하지 않은 채 리프 구조에 약정합니다. 기업은 매니페스트, 파일, 접근 제어를 내부에 그대로 보유합니다.
이후에는 그 고정된 약정에 대해 선택적으로 공개할 수 있습니다.
- 파일 하나와 그 Merkle 포함 증명;
- 매니페스트의 한 행;
- 하나의 하위 집합 또는 출처 범주;
- 하나의 학습 스냅숏;
- NDA 하에 공개하는 전체 매니페스트;
- 변호인, 감사인, 규제 기관을 대상으로 봉인한 패키지.
이렇게 하면 비공개 데이터셋을 공개 데이터셋으로 만들지 않고도 사전 약정을 증명할 수 있습니다. 이는 공개 파일 없는 기밀 공개와 동일한 접근 방식입니다. 봉인된 레코드는 페이로드를 특정 수신자 키로 암호화하지만, 그 한계를 분명히 해야 합니다. 봉인된 레코드는 평문을 키 보유자만 읽을 수 있게 할 뿐, 익명성을 보장하지는 않으며, 수신자는 자신이 복호화한 내용을 언제든 유출할 수 있습니다.
이것은 AI 거버넌스에 어떻게 도움이 됩니까?
거버넌스에는 감사를 견뎌 내는 기록이 필요합니다.
AI 거버넌스 팀은 데이터셋이 어떻게 조달되고, 필터링되고, 문서화되고, 승인되고, 변경되었는지를 점점 더 많이 보여 줘야 합니다. 매니페스트가 거버넌스 프로그램 전체는 아니지만, 프로그램이 검증할 수 있는 구체적인 대상을 제공합니다.
예를 들면 다음과 같습니다.
- 모델 카드는 데이터셋 스냅숏 ID를 참조할 수 있습니다;
- 내부 승인 티켓은 매니페스트 해시를 참조할 수 있습니다;
- 데이터 보존 워크플로는 제한 데이터를 언제 제거했는지 증명할 수 있습니다;
- 레드팀 평가는 평가 세트를 체인에 고정할 수 있습니다;
- 컴플라이언스 검토는 주장된 데이터셋을 약정된 매니페스트와 비교할 수 있습니다;
- 고객 계약은 감사 가능한 데이터셋 스냅숏을 참조할 수 있습니다.
증명 계층은 데이터셋 기록을 소리 없이 고쳐 쓰기 어렵게 만듭니다.
이것은 AI 공개 규정과 어떤 관련이 있습니까?
규정은 더 나은 문서화를 향해 움직이고 있습니다. EU AI Act에는 범용 AI에 관한 의무가 포함되어 있으며, 2025년에 유럽연합 집행위원회는 그러한 모델의 학습 콘텐츠에 대한 공개 요약본의 설명 고지와 템플릿을 발표했습니다. 다른 관할권과 플랫폼도 저마다의 투명성 및 출처 증명 기대치를 계속 발전시키고 있습니다.
Label 309는 여러분이 무엇을 공개해야 하는지를 결정하지 않으며, 매니페스트를 고정하는 것만으로 특정 규제를 그 자체로 충족하지는 않습니다. 그것은 여러분의 관할권과 의무에 달려 있습니다. Label 309가 할 수 있는 일은, 여러분이 나중에 공개하거나 요약하거나 방어하거나 감사해야 할 모든 것의 뒤에 위변조가 드러나는 증거를 보존하는 것입니다.
이 구분은 중요합니다. 증명은 투명성 주장을 뒷받침할 수는 있으나, 법적 판단은 아니며 변호인을 대신하지도 않습니다.
매니페스트는 얼마나 자주 고정해야 합니까?
의사 결정의 주기에 맞춰 고정하십시오.
흔한 패턴은 다음과 같습니다.
- 모든 학습 실행;
- 모든 평가 실행;
- 모든 데이터셋 릴리스;
- 모든 정책 필터 업데이트;
- 모든 고객별 데이터셋 빌드;
- 매일 또는 매주의 수집 배치;
- 모든 대규모 중복 제거 작업;
- 모든 레드팀 데이터셋 스냅숏.
처리량이 많은 팀은 Merkle 배칭을 사용해야 합니다. 중요한 단일 릴리스에는 서명된 레코드와 봉인된 아카이브도 함께 둘 만합니다.
이것이 증명하지 못하는 것은 무엇입니까?
타임스탬프는 시점과 무결성을 증명할 뿐, 진실성이나 소유권, 권리를 증명하지는 않습니다. 그 경계에 대해 정직해야 합니다.
- 데이터가 적법하게 수집되었음을 증명하지는 않습니다.
- 저작권 소유나 라이선스를 증명하지는 않습니다.
- 동의를 증명하지는 않습니다.
- 모델이 실제로 그 데이터셋으로 학습했음을 증명하지는 않습니다. 단, 여러분의 파이프라인과 로그가 모델 실행을 그 매니페스트와 연결한다면 예외입니다.
- 팀이 항목을 누락했다면, 매니페스트가 완전하다는 것을 증명하지는 않습니다.
이것이 증명하는 바는 좁지만 오래갑니다. 약정된 매니페스트 또는 Merkle 루트가 어떤 공개 블록 타임 시점까지 정확히 그 형태로 존재했으며, 그 이후에는 누구도 시점을 소급하거나 소리 없이 편집할 수 없다는 것입니다. 이는 강력하지만, 여러분의 프로세스에 제대로 연결되어 있을 때만 그렇습니다. 그 경계의 전체 그림은 증명이 증명하지 못하는 것을 참고하십시오.
짧게 요약하면
AI 데이터셋에는 안정적인 목록이 필요합니다.
데이터셋 매니페스트는 끊임없이 움직이는 데이터 레이크를 나중에 검증할 수 있는 스냅숏으로 바꿉니다. Label 309는 그 스냅숏을 해시 또는 Merkle 루트로 고정하고, 선택적으로 Ed25519 레코드 서명으로 서명하며, 비공개 패키지를 지정된 수신자에게 봉인할 수 있습니다. 공개 체인은 데이터셋을 결코 필요로 하지 않습니다. 오직 약정만 있으면 됩니다.
매니페스트를 보관하십시오. 리프 목록을 보존하십시오. 파이프라인을 문서화하십시오. 그러면 데이터셋이 문제가 되었을 때, 기억이 아니라 증거에 손을 뻗을 수 있습니다.
Label 309는 개방적이고 벤더 중립적인 표준으로, 현재 Cardano CIP 프로세스에 제출되어 메타데이터 범주 제안으로서 CIP 편집자들의 검토를 받고 있습니다. 그 레퍼런스 구현인 게이트웨이, SDK, 그리고 위의 리프 목록과 포함 증명을 다루는 merkle-build·merkle-verify 명령을 갖춘 cardanowall CLI는 github.com/cardanowall에서 오픈 소스로 공개되어 있습니다.
더 읽을거리
- Label 309 표준: label309.org
- Cardano CIP 프로세스 내 제안(검토 중): github.com/cardano-foundation/CIPs/pull/1205
- EU AI Act 규제 프레임워크: digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
- 유럽연합 집행위원회, 범용 AI 모델의 학습 콘텐츠 공개 요약본에 대한 설명 고지와 템플릿(2025): digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models
- 관련 글: 레코드 하나로 수천 개 파일을 · 공개 파일 없는 기밀 공개 · 증명이 증명하지 못하는 것