Merkle 배칭으로 대규모 AI 콘텐츠 출처를 증명하기

팀이 AI 콘텐츠를 대규모로 생성한다면, 모든 에셋을 체인에 올리지 않고도 무엇을 언제 만들었는지 증명할 수 있습니다. 각 산출물이나 출처 매니페스트를 해시하고, 그 해시를 Merkle 루트로 배칭한 다음, 일정한 주기로 타임스탬프가 찍힌 Label 309 커밋을 게시합니다. 이후에는 특정 이미지, 영상, 텍스트 파일, 프롬프트·산출물 매니페스트, 또는 Content Credentials 매니페스트가 커밋된 배치에 포함되어 있었음을 증명할 수 있습니다. 이때 필요한 것은 트랜잭션 참조와 공개 Cardano 탐색기뿐입니다.

이렇게 얻는 것은 존재 증명입니다. 즉, 정확한 바이트가 어떤 공개 시점에 존재했다는 증거입니다. 이는 콘텐츠가 사실이거나, 합법적이거나, 사람이 만든 것임을 증명하지는 않습니다. 특정 바이트에 대한 타임스탬프 커밋이 직접 수정할 수 있는 자체 시스템 바깥에 고정되어 있다는 사실을 증명합니다.

AI 콘텐츠에는 왜 별도의 증명 계층이 필요합니까?

AI 콘텐츠는 만들고, 수정하고, 리믹스하고, 다시 생성하기가 쉽습니다. 바로 그 점이 문제입니다.

한 회사가 수천 개의 AI 생성 에셋을 만든다면, 이후 어떤 산출물을 자사가 만들었는지, 언제 만들었는지, 어떤 프롬프트나 모델 컨텍스트가 기록되었는지, 어떤 버전을 고객에게 보여 주었거나 온라인에 게시했는지를 어떻게 증명할 수 있겠습니까?

내부 데이터베이스 로그만으로는 충분하지 않은 경우가 많습니다. 로그는 다시 쓸 수 있습니다. 스토리지는 이전됩니다. 에셋은 바이트 단위로 똑같이 다시 생성될 수 있습니다. 메타데이터는 전송 도중 제거됩니다. 고객, 감사인, 규제 당국, 파트너, 또는 법원은 회사 자체의 수정 가능한 시스템 바깥에 존재했고, 검증 가능한 시점이 찍힌 증거를 요구할 수 있습니다.

존재 증명은 이러한 레코드에 회사나 그 서버, 또는 그 도메인을 신뢰하는 데 의존하지 않는 외부 타임스탬프를 부여합니다.

AI 팀은 무엇을 해시해야 합니까?

나중에 제출해야 할 수도 있는 증거를 해시합니다.

AI 생성 콘텐츠의 경우, 여기에는 흔히 다음이 포함됩니다.

생성된 산출물 파일;
프롬프트와 시스템 프롬프트 또는 정책 프로필;
모델 이름과 버전;
관련이 있는 경우 시드 또는 생성 파라미터;
편집 이력;
모더레이션 결과;
사용자 또는 요청 식별자;
산출물 매니페스트;
Content Credentials (C2PA) 매니페스트;
데이터셋 또는 검색 컨텍스트 참조;
승인 또는 게시 이벤트;
고객 전달 패키지.

이 모든 것이 공개되어야 하는 것은 아닙니다. 민감한 세부 정보는 해시하여 Merkle 루트로 커밋하는 비공개 매니페스트에 그대로 둘 수 있습니다. 이후에는 특정 분쟁, 감사, 또는 고객 검증에 필요한 부분만 공개합니다. 나머지는 증명 가능하게 커밋된 상태를 유지하면서도 비공개로 남습니다.

산출물마다 레코드 하나 대신 왜 Merkle 루트로 배칭합니까?

플랫폼은 수천 또는 수백만 개의 산출물을 만들어 낼 수 있습니다. 각 산출물마다 별도의 온체인 레코드를 게시하는 것은 느리고 낭비입니다. Merkle 루트를 사용하면 많은 해시를 하나의 레코드에 커밋할 수 있습니다.

작업 흐름은 다음과 같습니다.

산출물을 생성하거나 받습니다.
산출물마다 정규 매니페스트를 만듭니다.
에셋과 그 매니페스트를 해시하여 리프로 만듭니다.
리프를 정렬된 목록에 추가합니다.
매시간, 매일, 릴리스마다, 또는 배치마다 Merkle 루트를 게시합니다.
리프 목록과 포함 증명을 보관합니다.

이후에는 전체 배치를 체인에 게시하지 않고도 하나의 산출물이나 매니페스트가 특정 배치에 포함되어 있었음을 증명할 수 있습니다. 트리를 만들고 포함 증명을 검증하는 작업은 완전히 오프라인으로 이루어지며, 루트를 게시할 때만 게이트웨이를 거칩니다. 오픈소스 도구를 사용하면 포함 증명의 크기는 배치 크기의 로그에 비례해 커지므로, 백만 개의 리프 가운데 한 항목에 대한 증명도 작게 유지됩니다. 자세한 메커니즘은 수천 개의 파일을 위한 레코드 하나에서 다룹니다.

이것은 C2PA 및 Content Credentials와 어떻게 함께 동작합니까?

C2PA와 Label 309는 서로 다른 문제를 해결하며, 잘 어우러집니다.

C2PA는 Coalition for Content Provenance and Authenticity의 약자로, 사용자 대면 형태가 바로 Content Credentials이며, 구조화된 출처 계층입니다. C2PA 매니페스트는 미디어 에셋의 기원과 편집 이력을 기술하는 어서션, 클레임, 서명, 바인딩을 담을 수 있습니다.

Label 309는 그 매니페스트의 해시, 또는 에셋과 매니페스트를 합친 해시를 독립적인 Cardano 타임스탬프에 고정합니다. 따라서 다음과 같이 정리됩니다.

C2PA는 미디어 에셋의 내부 또는 그 곁에서 출처를 기술합니다.
Label 309는 특정 매니페스트나 에셋 커밋이 어떤 공개 시점에 존재했음을 증명합니다. 이때 신뢰해야 하거나 증명보다 오래 살아남아야 할 발행자 서버는 없습니다.

C2PA는 콘텐츠에 출처를 표현할 어휘를 제공하고, Label 309는 그 증거에 공개 시점 고정점을 제공합니다. 두 가지를 더 자세히 비교하려면 존재 증명과 C2PA 비교와 C2PA가 시점 고정점으로 얻는 이점을 참고하십시오.

왜 내장 메타데이터에만 의존하면 안 됩니까?

내장 메타데이터는 전송 도중 제거되거나, 유실되거나, 변형될 수 있습니다. 대부분의 소셜 미디어 재인코딩은 C2PA 매니페스트를 통째로 제거합니다.

그렇다고 내장 출처가 쓸모없는 것은 아닙니다. Content Credentials는 콘텐츠와 함께 이동하면서 소비자가 그 기원을 확인할 수 있게 해 주기 때문에 가치가 있습니다. 다만 외부의 타임스탬프 커밋은 메타데이터가 제거되거나, 분쟁이 되거나, 에셋에서 분리되었을 때 도움이 됩니다.

실무에서 팀은 다음을 보관합니다.

원본 생성 에셋;
C2PA 매니페스트;
산출물 매니페스트;
Label 309 트랜잭션 참조;
Merkle 포함 증명.

이후 어떤 사본이 메타데이터 없이 유통되더라도, 해시를 다시 계산하여 원본 에셋이나 매니페스트를 공개 커밋과 다시 연결할 수 있습니다.

AI 투명성 규제는 어떻습니까?

AI 출처에 대한 규제 압박이 커지고 있습니다. 유럽연합 집행위원회의 AI Act 개요는 생성형 AI 제공자가 AI 생성 콘텐츠를 식별 가능하게 만들어야 한다고 명시하며, AI Act의 투명성 규정이 2026년 8월에 발효된다고 밝히고 있습니다.

이는 법률 자문이 아니며, 요구 사항은 관할권과 사용 사례에 따라 다릅니다. 하지만 방향만큼은 분명합니다. AI 콘텐츠를 만드는 기업에는 더 탄탄한 증거 관행이 필요합니다.

존재 증명 자체가 컴플라이언스 프로그램은 아닙니다. 존재 증명은 레코드를 사후에 몰래 다시 쓰기 어렵게 만들어 컴플라이언스 업무를 뒷받침할 수 있는 증거 계층입니다. 특정 규제 맥락에서 도움이 되는지는 해당 규정과 관할권에 달려 있으며, 법률 자문을 대체하지는 않습니다.

Label 309 증명은 여기서 실제로 무엇을 증명할 수 있습니까?

정확한 데이터가 어떤 공개 시점에 존재했음을 증명할 수 있습니다. AI 콘텐츠의 경우 그 데이터는 산출물 파일, 프롬프트·산출물 매니페스트, C2PA 매니페스트, 다수의 생성 에셋을 아우르는 배치 루트, 모더레이션 보고서, 승인 레코드, 또는 게시 매니페스트일 수 있습니다.

세 가지 선택적 기능이 단일 레코드가 담을 수 있는 범위를 확장합니다.

서명된 레코드. 레코드에 선택적 서명이 포함되어 있으면, 특정 키가 그 레코드를 보증했다는 사실도 함께 드러납니다. Label 309에서 작성자 표시는 언제나 선택 사항이며, 게시에 반드시 필요한 것은 아닙니다.
봉인된 레코드. 민감한 파일은 공개하지 않고도 암호화하여 보존할 수 있으며, 콘텐츠 암호화 키는 하나 이상의 수신자 키로 감싸집니다.
Merkle 배칭. 루트 하나로 매우 큰 규모의 산출물을 아우를 수 있습니다.

무엇을 증명하지 않습니까?

타임스탬프 커밋은 의도적으로 좁은 범위만 다룹니다. 콘텐츠가 진실하다는 것을 증명하지는 않습니다. 모델 컨텍스트가 작업 흐름의 일부로 기록되고 신뢰되지 않는 한, 산출물이 특정 모델에서 나왔다는 것을 증명하지는 않습니다. 콘텐츠가 합법적으로 생성되었거나, 합법적으로 학습되었거나, 합법적으로 게시되었다는 것을 증명하지는 않습니다. C2PA 검증과 서명자의 신뢰 모델이 함께 통과하지 않는 한, C2PA 매니페스트가 신뢰할 만하다는 것을 증명하지는 않습니다. 그리고 내부 파이프라인 자체가 통제되고, 로깅되고, 감사 가능하지 않은 한, 그 파이프라인이 정직했다는 것을 증명하지는 않습니다.

증명은 특정 바이트에 대한 타임스탬프 커밋입니다. 그 커밋에 의미를 부여하는 것은 주변의 출처 시스템입니다. 이 경계에 관해 더 알아보려면 증명이 증명하지 않는 것을 참고하십시오.

팀은 매니페스트를 어떻게 구성해야 합니까?

단순하고, 정규적이며, 안정적으로 유지하십시오. AI 산출물 매니페스트에는 다음이 포함될 수 있습니다.

에셋 해시와 에셋 유형;
시스템의 생성 타임스탬프;
모델 식별자와 버전;
생성 파라미터;
프롬프트 해시 또는 암호화된 프롬프트 참조;
사용자 또는 작업 흐름 식별자;
모더레이션 결정;
C2PA 매니페스트 해시;
게시 상태;
배치 식별자;
내부 승인 참조.

민감한 값을 공개할 필요는 없습니다. 매니페스트는 비공개로 두거나, 봉인하거나, 이후 선택적으로 공개할 수 있습니다. 공개 증명은 매니페스트 해시, 또는 다수의 매니페스트 해시를 아우르는 Merkle 루트에 커밋합니다. 핵심은 일관성입니다. 모든 팀이 매주 새로운 매니페스트 형태를 만들어 낸다면, 이후의 검증은 고통스러워집니다.

프롬프트는 공개해야 합니까?

대개는 그렇지 않습니다. 프롬프트에는 고객 데이터, 영업 비밀, 개인 정보, 안전성 테스트 자료, 또는 내부 정책 세부 사항이 담길 수 있습니다. 프롬프트 텍스트를 게시하지 않고도 프롬프트나 프롬프트 매니페스트를 해시할 수 있습니다.

민감한 작업 흐름의 경우, 봉인된 레코드로 암호화된 프롬프트·산출물 패키지를 보존할 수 있습니다. 이후 올바른 키를 가진 검증기는 패키지를 복호화하고, 해시를 다시 계산하여, 그것이 공개 커밋과 일치하는지 확인할 수 있습니다. 이로써 첫날부터 증거를 공개하지 않고도 증거를 확보합니다. 다만 한계에 유의하십시오. 수신자가 봉인된 패키지를 일단 복호화하면 평문을 손에 쥐게 되고, 이를 공유할 수 있습니다. 봉인은 누가 레코드를 열 수 있는지는 통제하지만, 그 이후에 무엇을 하는지는 통제하지 못합니다. 이 패턴은 공개 파일 없이 기밀 정보를 공개하기에서 다룹니다.

좋은 첫 구현은 무엇입니까?

배치 커밋부터 시작하십시오. 매일 또는 릴리스마다 다음을 수행합니다.

중요한 생성 산출물을 모읍니다.
산출물마다 매니페스트를 만듭니다.
가능한 경우 C2PA 매니페스트 해시를 포함합니다.
매니페스트마다 해시하여 리프로 만듭니다.
Merkle 루트를 만듭니다.
서명된 Label 309 레코드를 게시합니다.
리프 목록, 포함 증명, 트랜잭션 참조를 저장합니다.

그다음에는 민감한 패키지를 위한 봉인 보존과 공개 에셋을 위한 고객 대면 검증을 더해 갑니다. 목표는 첫날부터 완벽한 출처 세계를 구축하는 것이 아니라, 타임라인을 잃지 않는 것입니다. 동일한 배칭 패턴은 CI/CD 빌드 증명과 AI 데이터셋 매니페스트에서도 나타납니다.

누구에게 필요합니까?

이 패턴은 콘텐츠를 대규모로 생산하고 이후 무엇을 언제 생성했는지 증명해야 할 수 있는 모든 팀에 적합합니다.

AI 미디어 기업과 생성형 디자인 도구;
AI 영상 및 이미지 플랫폼;
마케팅 자동화 플랫폼;
엔터프라이즈 AI 팀;
합성 데이터 기업과 모델 평가 팀;
AI 보조 작업 흐름을 사용하는 퍼블리셔;
AI 출처 감사를 준비하는 기업.

요약

대규모 AI 출처에는 배칭이 필요합니다. 산출물과 매니페스트를 해시하고, 그 해시를 Merkle 루트로 접어 넣은 다음, 일정한 주기로 Label 309 레코드를 게시합니다. 리프 목록과 포함 증명을 보관하십시오. 미디어 출처에는 알맞은 자리에서 C2PA와 Content Credentials를 사용하고, 그 아래의 공개 시점 고정점으로 Label 309를 사용하십시오.

증명은 진실성이나 합법성을 입증하지 않습니다. 증명은 정확한 바이트의 타임라인을 확립하며, 이는 사후에는 더 이상 재구성할 수 없는 경우가 많은 바로 그 조각입니다.

더 읽어보기

하나의 루트 아래 수천 개의 파일을 고정하기
존재 증명과 C2PA 비교 및 C2PA에 시점 고정점이 필요한 이유
AI 데이터셋 매니페스트 및 학습 데이터를 드러내지 않고 증명하기
증명이 증명하지 않는 것
C2PA / Content Credentials: c2pa.org, C2PA 기술 명세, contentcredentials.org
유럽연합 집행위원회, AI 규제 프레임워크
label309.org의 오픈 표준과 github.com/cardanowall의 오픈소스 SDK 및 CLI