학습 데이터를 공개하지 않고 증명하는 방법

비공개 데이터셋이 존재했다는 사실은 데이터셋 자체를 공개하지 않고도 증명할 수 있습니다.

방법은 간단합니다. 데이터셋 매니페스트를 만들고, 그 항목들을 해시하고, 그 해시들을 하나의 Merkle 루트로 묶은 다음, Cardano에 Label 309 존재 증명 레코드 하나를 게시합니다. 데이터셋 자체는 결코 사용자의 통제를 벗어나지 않습니다. 나중에 특정 파일 하나, 행 하나, 매니페스트 항목 하나, 또는 포함 증명만 정확히 공개하여 그것이 커밋된 스냅샷의 일부였음을 보일 수 있습니다. 그 이상은 아무것도 드러나지 않습니다.

이는 특정 시점에 사전 점유가 있었다는 사실을 증명합니다. 그 자체만으로 소유권, 저작권 상태, 동의, 또는 적법한 사용까지 증명하지는 않습니다. 이런 것들은 별도의 레코드가 필요한 별개의 문제입니다.

AI 팀에게 이것이 왜 필요합니까?

학습 데이터는 이사회 차원의 문제가 되었습니다. 모델 제공자는 어떤 데이터를 보유했는지, 언제 보유했는지, 어디서 왔는지, 어떻게 처리했는지, 그리고 어떤 데이터셋이 특정 모델 버전에 투입되었는지를 보여야 할 수 있습니다. 투자자, 파트너, 고객, 규제 기관, 감사인, 라이선스 제공자, 또는 소송을 위해서입니다.

동시에, 회사는 흔히 데이터셋을 공개할 수 없습니다. 데이터셋에는 라이선스 콘텐츠, 고객 데이터, 개인 데이터, 독점 출처, 내부 주석, 영업 비밀, 안전성 평가, 검색용 코퍼스, 합성 데이터, 또는 민감한 필터링 규칙이 포함될 수 있습니다.

존재 증명은 이 긴장을 해소합니다. 데이터셋을 공개적으로 노출하지 않고도 데이터셋의 상태와 타임라인에 커밋할 수 있게 해 줍니다. 지문 하나만 게시하고, 바이트는 그대로 내부에 둡니다.

무엇에 커밋해야 합니까: 원시 데이터입니까, 매니페스트입니까?

원시 바이트만이 아니라 매니페스트에 커밋하십시오.

데이터셋 매니페스트는 스냅샷을 구조화된 기계 판독 가능 형식으로 기술합니다. 다음을 기록할 수 있습니다.

데이터셋 이름과 스냅샷 ID;
수집 기간;
출처 분류와 권리 메타데이터;
파일별·행별 해시;
중복 제거 및 필터링 버전;
주석 및 전처리 파이프라인 버전;
이를 사용한 모델 또는 학습 실행;
보존 정책과 내부 소유 주체.

매니페스트가 민감한 세부 정보를 공개적으로 노출할 필요는 전혀 없습니다. 전체를 회사 내부에 둘 수 있습니다. 공개 증명은 그 해시 하나, 또는 여러 매니페스트 항목에 대한 Merkle 루트 하나에만 커밋합니다. 목표는 좁고 견고합니다. 알려진 시점에서의 데이터셋 상태에 대한 증거를 고정하는 것입니다.

파일마다 레코드 하나를 만드는 대신 Merkle 루트를 쓰는 이유는 무엇입니까?

데이터셋은 크고, 파일이나 행마다 레코드 하나를 게시하는 방식은 확장되지 않습니다. Merkle 루트가 이를 해결합니다. 많은 해시로 이루어진 순서 있는 목록을 단일 32바이트 값으로 커밋하고, 트랜잭션 하나에 고정합니다.

나중에 특정 항목 하나가 포함되어 있었음을 증명하려면 다음만 공개하면 됩니다.

해당 항목 또는 그 해시;
관련 매니페스트 항목;
Merkle 포함 증명;
Label 309 트랜잭션 참조.

검증기는 해당 리프에서 루트까지의 경로를 다시 계산하고, 그 루트가 특정 Cardano 블록 타임에 게시되었음을 확인합니다. 증명의 크기는 배치 크기의 로그에 비례해 커지므로, 리프가 수백만 개라도 작게 유지됩니다. 결정적으로, 트리를 구성하고 증명을 검사하는 작업은 순수한 오프라인 계산입니다. 검증 시점에 서버도, 계정도, 사용자의 협조도 필요하지 않습니다.

이것이 선택적 공개를 가능하게 합니다. 항목 하나가 커밋된 스냅샷에 속했음을 증명하기 위해 데이터셋 전체를 공개할 필요가 결코 없습니다.

외부에서 실제로 보이는 것은 무엇입니까?

체인상의 증명 레코드뿐입니다. 게시 방식에 따라 여기에는 매니페스트 해시, Merkle 루트, 리프 개수, 트랜잭션 시각, 회사나 시스템의 선택적 서명, 그리고 공개용 또는 암호화된 보조 자료에 대한 선택적 콘텐츠 주소 지정 URI(ar://, ipfs://)가 포함될 수 있습니다.

외부에서는 데이터셋 파일, 전체 리프 목록, 출처 메타데이터, 고객 데이터, 라이선스 세부 정보, 주석, 또는 내부 메모를 볼 수 없습니다. 이런 것들은 특정 질문이 공개를 강제하기 전까지 사용자의 증거 시스템 내부에 남아 있습니다.

나중에 무엇을, 언제 공개합니까?

질문이 요구하는 것만 공개하십시오.

파일 하나가 데이터셋에 있었습니까? 해당 파일 또는 그 해시, 매니페스트 항목, 그리고 포함 증명을 공개합니다.
출처 분류 하나가 포함되어 있었습니까? 관련 매니페스트 구간과 그것이 커밋된 스냅샷에 속한다는 증명을 공개합니다.
특정 모델 버전이 특정 스냅샷을 사용했습니까? 모델 버전을 데이터셋 루트에 연결하는 학습 실행 매니페스트를 공개합니다.
전체 감사가 필요합니까? 적절한 기밀 유지 절차에 따라 매니페스트 전체와 리프 목록을 공개합니다.

온체인 루트는 타임라인을 증명합니다. 어느 정도의 세부 정보를 누구에게 보일지는 사용자의 내부 아카이브가 결정합니다. 보조 자료 자체를 제3자에게 전달하되 비공개로 유지해야 하는 경우에는, 공개하는 대신 기밀로 공유할 수 있습니다.

이것은 AI 규제와 어떤 관련이 있습니까?

AI 규제는 더 강한 문서화 및 투명성 의무 쪽으로 움직이고 있습니다. 예를 들어 EU AI Act는 범용 AI 모델에 대한 투명성 및 저작권 관련 규칙을 제시하며, 유럽 위원회는 학습 콘텐츠의 공개 요약본을 위한 템플릿을 발표했습니다. 위원회는 이를 자체 표현으로 공개되어야 하는 정보의 최소 기준선이라고 설명합니다.

비공개 데이터셋 증명은 그 공개 요약본과 같은 것이 아닙니다. 규제 보고, 법률 검토, 동의 관리, 또는 라이선스 기록을 대체하지 않으며, 이것이 특정 사안에서 도움이 되는지는 사용자의 관할권과 자문 변호사에 따라 달라집니다.

이것이 뒷받침할 수 있는 것은 그러한 절차 뒤에 있는 증거 계층입니다. 회사가 나중에 무엇을 보유했는지, 무엇을 알고 있었는지, 또는 게시된 요약본이 어떤 스냅샷에 기반했는지를 보여야 할 때, 타임스탬프가 찍힌 매니페스트 커밋은 시점과 무결성에 대한 구체적이고 제3자에 고정된 증거가 됩니다.

데이터셋 증명은 실제로 무엇을 증명합니까?

특정 데이터셋 커밋이 공개 블록 타임까지 존재했음을 증명합니다. 보존하는 증거에 따라, 다음을 보이는 데 도움이 될 수 있습니다.

파일 하나가 데이터셋 스냅샷에 있었다는 것;
매니페스트가 분쟁 이전에 존재했다는 것;
데이터셋 버전이 모델 출시 이전에 존재했다는 것;
학습 실행이 특정 스냅샷을 참조했다는 것;
출처 분류가 당시에 문서화되었다는 것;
전처리 또는 필터링 파이프라인이 기록되었다는 것.

레코드가 서명되어 있다면(Label 309는 선택적 레코드 수준 서명을 지원합니다), 회사 키 또는 시스템 키가 그 커밋을 보증했다는 것도 보일 수 있습니다. 서명은 결코 필수가 아니므로, 서명되지 않은 커밋도 동일하게 유효합니다. 서명은 귀속 가능한 작성자 정보를 더할 뿐입니다.

무엇을 증명하지 않습니까?

여기는 솔직해져야 하는 부분입니다. 그 공백이 중요하기 때문입니다.

데이터셋 증명은 데이터를 사용하는 것이 적법했음을 증명하지 않습니다. 사용자가 그 데이터를 소유했다는 것, 동의를 받아 수집했다는 것, 또는 그 저작권 상태가 무엇인지를 증명하지 않습니다. 데이터가 실제로 학습에 사용되었다는 것도 증명하지 않습니다. 학습 파이프라인과 모델 레코드 자체가 데이터셋 스냅샷에 연결되어 있는 경우가 아니라면 말입니다. 그리고 매니페스트가 완전하다는 것도 증명하지 않습니다. 완전성을 신뢰할 만하게 만드는 것은 오직 사용자의 절차와 통제뿐입니다.

존재 증명은 시점과 무결성에 대한 증거입니다. 정확한 바이트가 공개된 시점까지 존재했음을 입증합니다. 진실성, 소유권, 권리, 또는 컴플라이언스에 대해서는 아무것도 말하지 않습니다. 이런 것들에는 추가 레코드와 법률 분석이 필요합니다. 그 경계가 정확히 어디에 있는지 전체 그림을 보려면 증명이 증명하는 것과 증명하지 않는 것을 참고하십시오.

워크플로는 어떻게 설계해야 합니까?

오늘 단지 해시하기 위해서가 아니라, 나중에 답하게 될 질문에 맞추어 설계하십시오.

실용적인 형태는 다음과 같습니다.

표준 데이터셋 매니페스트 형식을 정의합니다.
모든 데이터셋 항목 또는 매니페스트 항목을 해시합니다.
스냅샷에 대한 Merkle 루트를 구성합니다.
귀속 가능한 작성자 정보를 원한다면 서명하여 Label 309 레코드를 게시합니다.
매니페스트, 리프 목록, 그리고 포함 증명 자료를 저장합니다.
모델 학습 실행을 데이터셋 루트에 다시 연결합니다.
법무 또는 컴플라이언스 수신자를 위해 민감한 증거 패키지를 봉인합니다.
데이터셋이 변경되면 이를 대체하는 스냅샷을 기록합니다.

어려운 부분은 암호학인 경우가 드뭅니다. 어려운 부분은 몇 달 또는 몇 년 뒤에 누군가가 요청할 때 어떤 증거가 의미 있을지를 결정하는 일입니다.

스냅샷은 얼마나 자주 커밋해야 합니까?

데이터셋이 의미 있게 변경될 때마다 커밋하십시오. 일반적으로 새로운 수집 이후, 학습 실행 이전, 중복 제거나 필터링 이후, 라벨링 이후, 모델 출시 이전, 거버넌스 점검 시점, 또는 파트너와 데이터셋을 공유하기 전입니다.

주기는 답하게 될 질문에 맞아야 합니다. 1년에 한 번만 커밋하면 어떤 중간 스냅샷이 존재했는지 증명하지 못할 수 있습니다. 사소한 변경마다 커밋하면 운영상의 잡음이 발생합니다. Merkle 배칭 덕분에 루트 하나가 스냅샷 전체를 대신할 수 있고(파일이 몇 개를 포함하든 트랜잭션은 하나입니다), 커밋당 비용이 거의 일정하게 유지됩니다. 따라서 가격에 좌우되지 않고 필요한 증거에 맞는 주기를 선택할 수 있습니다.

봉인 스토리지는 어떻게 들어맞습니까?

때로는 해시만으로는 부족합니다. 지문뿐 아니라 증거 자체를 보존하고 싶을 때가 있습니다.

봉인된 존재 증명이 이를 가능하게 합니다. 공개 레코드는 일반 증명과 똑같이 평문 해시에 커밋합니다. 민감한 페이로드는 암호화되어 콘텐츠 주소 지정 URI에 저장되며, 콘텐츠 암호화 키는 하나 이상의 수신자 키로 감싸집니다. 권한이 있는 수신자는 나중에 이를 복호화하고, 복원된 평문의 해시를 다시 계산하여 그것이 온체인 커밋과 일치하는지 확인할 수 있습니다.

체인은 결코 평문을 담지 않으며 수신자가 누구인지도 드러내지 않습니다. 시점 T에 봉인된 커밋이 이루어졌다는 사실만 보여 줍니다. 이는 원본 매니페스트를 잃으면 증명이 약해지는 경우에 중요합니다. 해시만 담은 레코드는 사용자가 파일을 계속 보유하는 한 존재를 증명합니다. 봉인된 레코드는 암호화된 파일 자체를 보존할 수 있으므로, 증거와 커밋이 함께 이동합니다.

분명히 짚어 둘 한 가지 한계가 있습니다. 봉인은 선택된 키 보유자를 제외한 모두에게서 콘텐츠를 비공개로 유지하지만, 누군가를 익명으로 만들어 주지는 않으며, 수신자는 복호화한 뒤 언제든 평문을 유출할 수 있습니다. 봉인은 누가 읽을 수 있는지를 통제하지, 그다음에 그들이 무엇을 하는지를 통제하지는 않습니다.

누가 이 절차를 소유해야 합니까?

데이터셋 증명 절차는 소유자가 없는 엔지니어링 스크립트가 되어서는 안 됩니다. 이 절차는 법무, 보안, 데이터 거버넌스, 컴플라이언스, 그리고 모델 개발에 걸쳐 있으며, 좋은 절차는 그 경계를 명시합니다. 누가 스냅샷을 생성할 수 있는지, 누가 커밋에 서명할 수 있는지, 매니페스트는 어디에 저장되는지, 누가 봉인된 패키지를 복호화할 수 있는지, 포함 증명은 어떻게 생성되는지, 모델 실행은 루트에 어떻게 연결되는지, 대체된 스냅샷은 어떻게 처리되는지, 그리고 감사나 분쟁 시 증거는 어떻게 산출되는지를 분명히 합니다.

증명은 암호학적입니다. 거버넌스는 조직적입니다. 둘 다 필요합니다.

요약

학습 데이터를 공개하지 않고 증명하려면, 데이터셋이 아니라 스냅샷에 커밋하십시오. 매니페스트를 만들고, 그 항목들을 해시하고, Merkle 루트를 Label 309 레코드에 게시한 다음, 리프 목록과 포함 증명을 보관하십시오. 잃었을 때 증명이 약해질 민감한 보조 파일은 봉인하십시오. 그런 다음 각 질문이 실제로 요구하는 증거만 공개하십시오.

이렇게 하면 사전 점유와 시점에 대해 견고하고 제3자에 고정된 증명을 얻습니다. 그 자체만으로 소유권, 적법한 사용, 또는 컴플라이언스를 증명하지는 않습니다. 그리고 이 증명이 정확히 무엇을 하고 무엇을 하지 않는지를 분명히 할 때 가장 유용합니다.

더 읽을거리

이러한 증명의 바탕이 되는 개방형 표준: label309.org. 이 표준은 Cardano CIP 절차에 CIP-0190으로 채택되었습니다. 자세한 내용은 CIP-0190에서 확인할 수 있습니다.
매니페스트, Merkle 트리, 포함 증명을 오프라인으로 구성하는 오픈소스 SDK와 cardanowall CLI: github.com/cardanowall.
파일 수천 개를 위한 레코드 하나 — Merkle 배칭이 어떻게 작동하는지 깊이 있게 살펴봅니다.
AI 데이터셋 매니페스트 — 커밋할 매니페스트를 구조화하는 방법.
공개 파일 없이 기밀로 공개하기 — 공개하지 않고 상대방에게 증거를 전달하는 방법.