이 리포트는 인공지능(AI) 기술을 이용해 생성된 콘텐츠를 식별하는 다양한 방법들을 조사합니다. 주요 주제로는 메타데이터 활용, 워터마크, 라벨 부착 도구, 콘텐츠 작성자 정보 공개 등이 포함되며, 각 기술의 적용 사례와 효과성, 그리고 현재 업계에서의 활용 현황을 다룹니다. 예를 들어, 페이스북과 인스타그램의 'Imagined with AI' 라벨, 틱톡의 'AI 생성' 라벨 및 콘텐츠 인증 시스템, 구글 딥마인드의 '신스ID' 워터마크 기술 등이 있습니다. 이러한 기술은 AI 생성 콘텐츠를 명확히 식별하고, 투명성과 신뢰성을 높이려는 목적을 가지고 있습니다.
페이스북과 인스타그램은 'Imagined with AI' 라벨을 통해 AI가 생성한 콘텐츠임을 명시하고 있습니다. 이 라벨은 사용자들이 AI로 생성된 콘텐츠를 쉽게 식별할 수 있도록 도움을 줍니다.
틱톡은 타사 플랫폼에서 제작된 AI 생성 콘텐츠에도 'AI 생성' 라벨을 자동으로 붙이는 정책을 시행하고 있습니다. 이를 위해 C2PA(Coalition for Content Provenance and Authenticity)와 파트너십을 체결하여, 그들의 '콘텐츠 인증(Content Credential)' 기술을 도입하였습니다. 이 기술은 메타데이터를 콘텐츠에 연결하여 틱톡이 AI 생성 콘텐츠를 즉각 인식하고 자동으로 라벨을 부착할 수 있게 합니다. 이를 통해 이미지, 비디오, 오디오 콘텐츠 모두에 적용될 예정입니다.
메타는 AI를 이용해 생성된 콘텐츠에 라벨을 부착하고, 콘텐츠의 투명성을 높이는 정책을 도입하였습니다. 이를 통해 사용자들은 AI 생성 콘텐츠를 명확히 식별할 수 있으며, 메타는 투명성을 보장하기 위해 다양한 AI 라벨 부착 도구를 개발하고 있습니다.
정부는 인공지능(AI)이 생성한 결과물에 대해 AI가 만들었다는 표식인 '워터마크'를 도입하기로 했습니다. 이는 딥페이크 기술을 악용한 인권 침해와 가짜 뉴스 확산 등 AI 기술이 초래할 수 있는 부작용을 줄이고, AI 생성에 사용된 원본 콘텐츠의 저작권을 보호하려는 목적입니다. 과학기술정보통신부와 민간 기업, 전문가들은 지난 25일 '인공지능 윤리·신뢰성 확보 추진계획'을 공개하며 AI 생성물에 워터마크를 도입한다는 방안을 논의했습니다. 구체적인 워터마크 표시 방법에 대해서는 아직 결정되지 않았으나, 기계가 AI 생성 콘텐츠를 확인할 수 있는 방식이 될 가능성이 높습니다. 또한, 정부는 AI 기반 서비스 분야별 가이드라인을 마련하고 자율적인 검·인증 제도를 다음달부터 도입할 예정입니다.
구글 딥마인드는 AI가 생성한 콘텐츠에 대해 신뢰성을 높이기 위해 '신스ID(SynsID)'라는 워터마크 기술을 도입했습니다. 이 기술은 AI가 생성한 결과물에 자동으로 삽입되며, 기계가 이를 인식하여 AI 생성 콘텐츠임을 식별할 수 있게 합니다. 이러한 기술은 AI 학습용 데이터 세트에 워터마크 처리를 함으로써 AI가 만든 콘텐츠임을 더욱 쉽게 식별할 수 있도록 돕습니다. 구글 딥마인드는 이를 통해 AI 콘텐츠의 투명성과 신뢰성을 높이고, 가짜 정보의 확산을 방지하고자 합니다.
틱톡(TikTok)은 타사 플랫폼에서 제작된 AI 생성 콘텐츠에 자동으로 'AI 생성' 라벨을 붙이는 정책을 시행한다고 발표했습니다. 틱톡은 C2PA와 파트너십을 통해 '콘텐츠 인증(Content Credential)' 기술을 도입하였으며, 이를 활용해 이미지와 비디오 콘텐츠, 그리고 앞으로는 오디오 콘텐츠에도 'AI 생성' 라벨을 자동으로 부착할 예정입니다. 이 기능을 사용하면 메타데이터를 통해 콘텐츠를 즉각 인식하고 라벨을 붙일 수 있습니다. C2PA의 검증 툴을 사용하면 콘텐츠가 언제, 어디서, 어떻게 제작되었는지 파악할 수 있으며, 이를 통해 누구나 틱톡에서 제작된 AI 생성 콘텐츠를 쉽게 식별할 수 있습니다. 틱톡은 어도비가 주도하는 콘텐츠 진위 이니셔티브(CAI)에도 참여하여 다른 플랫폼들이 이 기술을 더 적극적으로 도입할 수 있도록 지원하고 있습니다.
Meta는 Facebook, Instagram 및 Threads에 게시되는 이미지에 AI로 생성되었음을 알리는 'Imagined with AI' 라벨을 표시하는 정책을 시행하고 있습니다. 이 라벨은 AI가 생성한 콘텐츠에 대한 투명성을 제공하여 사용자들이 해당 콘텐츠의 출처를 명확히 알 수 있도록 합니다. Meta는 또한 파트너 기업들과 협력하여 공통 기술 표준을 마련하고 AI 생성 콘텐츠에 메타데이터 및 보이지 않는 워터마크를 삽입하는 방식을 통해 신뢰성을 높이고 있습니다. 이러한 접근 방식은 사람들이 AI 생성 콘텐츠를 쉽게 인식할 수 있도록 하며, 특히 중요한 사안에 대해서는 더 눈에 띄는 라벨을 적용해 정보의 맥락을 제공하고 기만을 방지하고자 합니다.
Google의 E-E-A-T (Expertise, Authoritativeness, Trustworthiness) 가이드라인에 따르면, 콘텐츠의 품질을 평가할 때, 작성자의 정보를 명확하게 공개하는 것이 중요합니다. 이는 방문자가 '누가' 콘텐츠를 작성했는지를 명확히 알 수 있도록 돕는 것입니다. 작성자가 누구인지 알 수 있게 함으로써, 방문자는 콘텐츠의 신뢰성을 직관적으로 판단할 수 있습니다. 또한, 작성자를 예측할 수 있게 하는 바이라인과 추가적인 작성자 정보 제공도 내용물의 신뢰성 향상에 기여합니다. 예를 들어, 작성자의 배경이나 주로 다루는 분야를 소개하는 것입니다. 이러한 정보가 제공되면, 콘텐츠의 E-E-A-T 개념에 부합될 가능성이 높아지며, 콘텐츠 순위 매김에서도 긍정적인 평가를 받을 수 있습니다.
콘텐츠의 투명성과 신뢰성을 향상시키기 위해 작성자가 콘텐츠를 어떻게, 왜 만들었는지 명확히 밝히는 것이 중요합니다. 예를 들어, 제품 리뷰 콘텐츠라면, 테스트된 제품 수, 테스트 결과, 테스트 진행 방식 등을 사진 등의 증거와 함께 제공하여 독자의 신뢰를 얻을 수 있습니다. AI 생성 콘텐츠의 경우, 자동화를 사용한다는 사실을 명확히 밝히고, 자동화가 콘텐츠 제작에 어떻게 사용되었는지에 대한 배경 지식도 제공해야 합니다. 이를 통해 방문자는 콘텐츠가 어떤 절차를 거쳐 만들어졌는지 명확히 이해하게 됩니다. 전반적으로 AI 또는 자동화가 포함된 콘텐츠에 대해서는 사용하는 자동화 기법의 명확한 공개가 필요하며, 이로 인해 콘텐츠의 투명성과 신뢰성이 높아질 수 있습니다.
텍스트 기반 AI 생성 콘텐츠를 식별하는 방법에는 다양한 기술이 존재합니다. 예를 들어, 오픈AI의 GPT-4 모델은 강화 학습을 통해 사용자 의도에 더 부합하는 응답을 생성하도록 조정됩니다. 하지만 그럼에도 불구하고, 안전하지 않은 입력에 대해 부정확한 정보나 해로운 조언을 제공할 가능성이 있습니다. 이러한 문제를 해결하기 위해 RLHF와 규칙 기반 보상 모델(RBRM)과 같은 다양한 안전 관리 기법을 도입하고 있습니다. 이를 통해 GPT-4 모델은 허용되지 않는 내용의 제공을 82% 줄였고, 민감한 요청에 대해서는 정확한 응답을 제공하는 비율을 29% 증가시켰습니다. 또한, RealToxicityPrompts 데이터셋을 기반으로 GPT-3.5에 비해 독성 생성물을 0.73%로 낮추는 성과를 보였습니다.
이미지와 관련된 AI 생성 콘텐츠 식별에서는 메타데이터의 중요성이 강조됩니다. 메타데이터를 통해 생성 과정과 출처를 확인할 수 있으며, 이는 AI가 생성한 콘텐츠의 진위 여부를 판단하는 데 중요한 역할을 합니다. 예를 들어, 이미지의 경우 메타데이터에는 촬영 장소, 시간, 장비 등의 정보가 포함될 수 있습니다. 이러한 정보를 기반으로 AI 생성 콘텐츠와 실제 콘텐츠를 식별할 수 있습니다.
음성 인식 기술을 통한 AI 음성 콘텐츠 식별은 어느 정도의 기술적 도전 과제를 수반합니다. AI가 생성한 음성 데이터는 고도로 정교한 음성 합성 기술을 이용해 사람의 음성과 매우 유사하게 만들어질 수 있습니다. 이 경우 목소리 특성과 패턴, 발음의 일관성 등을 분석하여 AI 생성 여부를 판단하게 됩니다. 예를 들어, 특정 음소의 발음이나 억양 패턴이 일정하지 않다면 AI 생성 음성일 가능성이 있습니다. 이러한 기술들을 통해 현재 AI 생성 음성 콘텐츠를 더욱 신뢰성 있게 식별할 수 있게 됩니다.
리포트에서 다뤄진 내용을 종합해보면, 메타데이터, 워터마크, 라벨 부착 툴, 콘텐츠 작성자 정보 공개, 그리고 텍스트, 이미지, 음성을 통한 AI 콘텐츠 식별 기술은 인공지능 기술로 발생할 수 있는 가짜 정보 문제를 해결하는 데 중요한 역할을 합니다. 예를 들어 틱톡과 C2PA의 협력 사례나 구글의 '신스ID' 기술처럼 각 기술의 장단점을 이해하고 활용하는 것이 필요합니다. 또한, Google의 E-E-A-T 가이드라인을 통한 정보 공개는 콘텐츠의 신뢰성을 더욱 높일 수 있습니다. 향후 이러한 기술들의 지속적인 연구와 개선이 필요하며, 실제 적용 사례를 늘려가며 더욱 정교한 식별 방법을 개발해야 할 것입니다. 특히, AI 생성 콘텐츠는 앞으로도 늘어날 것으로 예상되므로, 이를 효과적으로 식별하고 관리할 수 있는 체계가 마련되는 것이 중요합니다.
AI가 생성한 콘텐츠에 관련된 정보를 포함하는 데이터로, 본 리포트에서는 콘텐츠 식별 및 라벨링에 활용됨.
AI 생성 콘텐츠에 보이지 않는 형태로 삽입되는 표식으로, 콘텐츠의 출처를 식별하는 데 사용됨.
크리에이터나 플랫폼에서 AI 생성 콘텐츠에 라벨을 부착할 수 있도록 지원하는 도구. 틱톡과 메타의 사례가 대표적.
Google의 콘텐츠 품질 평가 기준으로, 경험(Experience), 전문성(Expertise), 신뢰성(Trustworthiness), 권위성(Authoritativeness)를 평가함.
글로벌 숏폼 동영상 플랫폼으로, AI 생성 콘텐츠 식별을 위해 라벨 부착 및 콘텐츠 인증 시스템을 도입함.