개인정보보호위원회의 AI 개발용 공개 데이터 처리 기준 안내서 분석

일일 보고서 2024년 07월 17일

요약
인공지능(AI) 개발 및 서비스의 배경과 필요성
개인정보보호위원회의 '인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서' 주요 내용
안내서의 법적 불확실성 해소 방안
지속적인 기준 업데이트와 공감대 형성
공개 데이터 처리 기준의 예상 효과
결론

1. 요약

본 리포트는 개인정보보호위원회에서 발표한 '인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서'를 중점적으로 분석하고, 공개 데이터를 안전하게 처리하여 개인정보 보호를 강화하기 위한 기준과 가이드라인을 제시합니다. 주요 목표는 AI 기업들이 법적 불확실성을 해소하고 최적의 안전 조치를 마련할 수 있도록 돕는 것입니다. 주요 내용으로는 공개 데이터의 합법적 활용, 정보주체 권리 보호, 국제 기준 상호운용성, 기준의 지속적 업데이트 등이 포함됩니다. 이를 통해 기업들이 AI 기술 개발 과정에서 개인정보 침해를 최소화하며 법적 규제를 준수할 수 있는 방안을 제공합니다.

2. 인공지능(AI) 개발 및 서비스의 배경과 필요성

2-1. AI 개발의 현재 상황

개인정보보호위원회는 인공지능(AI) 개발 과정에서 개인정보 보호 필요성을 강조하며, '인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서'를 발표했습니다. 이 안내서는 기업들이 AI 개발에 활용되는 인터넷상 공개 데이터를 적법하고 안전하게 처리할 수 있도록 가이드라인을 제공합니다. 현재 AI 기업들은 커먼크롤(common crawl), 위키백과(wikipedia), 블로그 등 다양한 공개 데이터를 수집하여 AI 학습에 활용하고 있으며, 이러한 데이터에는 주소, 이메일, 신용카드번호 등 여러 개인정보가 포함될 수 있습니다. 이에 따라 개인정보위는 과학계 및 산업계의 의견수렴을 거쳐 민·관 정책협의회를 통해 국제 기준에 부합하는 개인정보 처리기준을 마련하였습니다.

2-2. 공개 데이터의 활용 필요성

인공지능프라이버시팀의 발표에 따르면, 공개 데이터는 누구나 합법적으로 접근할 수 있는 인터넷상의 데이터를 의미하며, AI 학습을 위한 기본 데이터로 활용됩니다. 개인정보보호위원회는 공개된 개인정보 수집 및 활용에서 법적 불확실성을 해소하고 기업들이 개인정보 침해 이슈를 최소화할 수 있도록 해당 안내서를 마련했습니다. AI 학습과 관련하여 개인정보보호법 제15조에 따른 '정당한 이익' 조항이 적용되어, 공개된 개인정보가 AI 학습 및 서비스 개발에 활용될 수 있다는 점을 명확히 하였습니다. 다만, 이 조항이 적용되기 위해서는 AI 개발 목적의 정당성, 처리의 필요성, 구체적인 이익형량 측면에서 요건을 충족해야 합니다. 이러한 기준은 기업들이 개인정보를 안전하게 처리하고, 법적 규제를 준수하면서 AI 기술 개발을 촉진하는 데 도움이 됩니다.

3. 개인정보보호위원회의 '인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서' 주요 내용

3-1. 정당한 이익 조항

개인정보보호법 제15조에 따르면 '정당한 이익' 조항에 의해 공개된 개인정보를 인공지능(AI) 학습 및 서비스 개발에 활용할 수 있습니다. 이 조항은 정보주체의 권리보다 명백하게 우선하는 경우 개인정보처리자가 정당한 이익을 달성하기 위해 개인정보를 처리할 수 있도록 허용합니다. 또한, 정당한 이익 조항을 적용하기 위해서는 AI 개발 목적의 정당성, 공개된 개인정보 처리의 필요성, 구체적 이익형량이라는 세 가지 요건을 충족해야 합니다. 개인정보위는 이번 안내서를 통해 이러한 요건들의 구체적인 내용과 적용사례를 안내하였습니다.

3-2. 안전조치와 정보주체 권리 보호

개인정보를 안전하게 처리하기 위해 고려해야 할 기술적·관리적 안전조치와 정보주체 권리보장 방안을 구체적으로 제시했습니다. 기술적 안전조치로는 학습데이터 수집처 검증·관리, 개인정보 유·노출 방지, 개인정보의 안전한 저장·관리, 프롬프트 및 출력 필터링 적용, 미세조정을 통한 안전장치 추가, 학습 결과에서 특정 데이터 삭제 등이 있습니다. 관리적 안전조치로는 학습데이터 처리 기준 정립 및 개인정보처리방침에 공개, 개인정보 영향평가 수행, AI 프라이버시 레드팀 구성·운영 등이 포함됩니다. 정보주체 권리보장 조치는 공개된 개인정보의 수집 사실과 주요 수집 출처 등을 안내하는 것 등을 포함합니다. 개인정보위는 안전조치를 유연하게 도입·시행할 수 있도록 하고, 주요 대규모 언어모델(LLM) 사업자의 실제 안전조치 이행사례를 안내하여 기업이 최적 조합을 판단하는 데 참고할 수 있도록 했습니다.

3-3. 국제 기준의 상호운용성

개인정보보호위원회는 유럽연합(EU), 미국 등 주요 국가의 개인정보보호 규율체계를 참조하여 국제적으로 상호운용성 있는 기준을 마련하였습니다. 예를 들어, 영국은 웹 스크래핑을 통해 수집한 데이터를 생성형 인공지능(AI) 학습에 사용하는 것에 대해 '정당한 이익'이 인정될 수 있음을 밝혔고, 프랑스는 인공지능(AI) 학습 목적으로 개인정보 처리 시 '정당한 이익'이 인정되기 위한 기준을 제시하였습니다. 미국은 연방 개인정보보호법 제정안을 통해 공개된 정보를 개인정보 범위에서 제외하는 조치를 추진하고 있습니다. 이러한 국제적 동향을 고려하여 개인정보위는 AI 개발 및 서비스에 적용할 수 있는 국내 기준을 국제적으로 상호운용성 있게 조정하였습니다.

4. 안내서의 법적 불확실성 해소 방안

4-1. 공개된 개인정보의 법적 기준 제시

개인정보보호위원회는 기업들이 공개된 개인정보를 AI 개발 및 서비스에 활용할 수 있는 법적 기준을 명확히 제시했습니다. 공개된 개인정보는 인터넷 상에 공개된 데이터로 누구나 합법적으로 접근할 수 있는 정보를 포함합니다. 예를 들어, 커먼크롤, 위키백과, 블로그, 웹사이트 등이 포함됩니다. 개인정보위는 '정당한 이익' 조항에 근거해 이러한 공개 데이터를 AI 학습 및 서비스 개발에 사용할 수 있다는 점을 명시하였습니다. 이를 통해 개인정보 수집·활용의 초기 단계에서 법적 불확실성을 해소하고 기업이 개인정보 침해 이슈를 최소화할 수 있도록 돕고 있습니다.

4-2. 기업의 안전조치 설정

개인정보보호위원회는 기업이 AI 개발 및 서비스 과정에서 공개된 개인정보를 안전하게 처리할 수 있도록 다양한 안전조치를 안내하고 있습니다. 기술적 조치로는 학습데이터 수집 출처 검증·관리, 개인정보 유출 방지, 안전한 저장·관리, 미세조정을 통한 안전장치 추가, 프롬프트 및 출력 필터링, 학습 결과 특정 데이터 삭제 등이 있습니다. 관리적 조치로는 개인정보처리방침 공개, 개인정보 영향평가 수행 고려, AI 프라이버시 레드팀 구성 및 운영 등이 포함됩니다. 또한, 정보주체 권리보장을 위해 공개된 개인정보 수집 사실과 주요 수집 출처를 안내하고 있습니다. 기업은 이러한 안전조치를 의무적으로 모두 시행할 필요는 없으며, 기업의 특성과 기술 성숙도를 고려해 적절한 조합을 선택하여 이행할 수 있습니다. 개인정보보호위원회는 'AI 사전실태점검'을 통해 주요 대규모 언어모델 사업자의 안전조치 이행사례를 안내하고, 기업이 최적의 안전조치 조합을 판단하는 데 참고할 수 있도록 하였습니다.

5. 지속적인 기준 업데이트와 공감대 형성

5-1. 기준의 지속적 업데이트

개인정보보호위원회는 인공지능(AI) 기술의 빠른 발전과 개인정보 보호 법령의 변화에 발맞추어 공개 데이터 처리 안내서를 지속적으로 업데이트할 예정입니다. 이 안내서는 인공지능 개발에 있어 공개된 개인정보의 안전한 활용을 목표로 하고 있으며, 이를 위해 사전실태점검 등을 통해 수집된 최신 데이터를 반영하고 있습니다. 예를 들어, 2024년 3월에 실시한 대규모 언어모델(LLM) 사업자의 실태점검 결과를 기준으로 인공지능 기업이 도입할 수 있는 최적의 안전조치 조합을 제시하였습니다.

5-2. 국내외 다양한 의견 수렴

개인정보보호위원회는 안내서를 마련하는 과정에서 학계, 산업계, 시민단체 등 다양한 의견을 수렴하였습니다. 이를 위해 '인공지능(AI) 프라이버시 민·관 정책협의회'를 운영하여 학계 전문가, 법조계, 산업계 및 시민단체의 의견을 반영하였습니다. 또한, 유럽연합(EU)과 미국 등 국제적으로 상호운용성 있는 기준 마련에도 중점을 두어, 글로벌 스탠다드와의 일치성을 높이기 위해 노력하였습니다. 예를 들어, 영국의 '정당한 이익' 조항과 프랑스의 개인정보 처리 기준을 참고하여, 한국의 안내서에 반영하였습니다.

6. 공개 데이터 처리 기준의 예상 효과

6-1. AI 기술 혁신 활성화

개인정보보호위원회는 인공지능(AI) 기업들이 공개 데이터를 안전하게 활용할 수 있도록 가이드라인을 제시하여, 법적인 불확실성을 해소하고 AI 기술의 혁신을 촉진하고자 하였습니다. 이로 인해 AI 기업들이 다양한 공개 데이터를 합법적으로 수집하고 활용하여 AI 모델을 개발하는 데 더욱 집중할 수 있게 되었습니다. 예를 들어, 웹 스크래핑을 통해 수집한 공개 데이터는 AI 학습의 핵심 원료로 사용될 수 있습니다. (출처: 보도자료 | 개인정보보호위원회 > 보도‧해명)

6-2. 개인정보 침해 사고 방지

개인정보보호위원회가 마련한 가이드라인은 AI 개발 시 공개된 개인정보의 안전한 처리를 명확하게 규정하여, 개인정보 침해 사고를 예방하고자 합니다. 예를 들어, AI 기업은 공개된 개인정보를 처리할 때 기술적‧관리적 안전성 확보 조치를 취해야 하며, 개인정보보호책임자(CPO)를 중심으로 하여 'AI 프라이버시 담당조직'을 구성하여 운영하도록 권고받습니다. 이러한 안전 조치는 법적 기준에 맞추어 유연하게 도입될 수 있습니다. (출처: 공개된 개인정보, AI 개발에 활용 가능해진다)

6-3. 국민 신뢰 확보

개인정보보호위원회는 AI 개발 및 서비스에서 개인정보를 안전하게 처리함으로써, 국민의 프라이버시 보호와 신뢰를 확보하고자 하였습니다. 이번 가이드라인을 통해 AI 기업들이 공개 데이터를 사용하면서도 개인정보 침해 위험을 최소화하고, 국민이 신뢰할 수 있는 데이터 처리 환경을 조성하게 되었습니다. 고학수 개인정보보호위원장은 국민이 신뢰하는 AI·데이터 처리 관행을 기업 스스로 만들어 나갈 것을 기대한다고 밝혔습니다. (출처: 공개된 개인정보, AI 개발에 활용 가능해진다)

7. 결론

이 리포트는 개인정보보호위원회의 가이드라인을 통해 AI 개발 시 공개된 개인정보를 안전하게 처리할 수 있는 방안을 제시하고 있습니다. 주요 발견 사항으로는 '정당한 이익' 조항을 통해 공개 데이터를 합법적으로 사용할 수 있다는 점과 다양한 기술적·관리적 안전조치를 통해 개인정보 침해 사고를 예방할 수 있다는 것입니다. 이 기준은 국제적 상호운용성을 갖추고 있으며, 지속적인 업데이트를 통해 최신 데이터를 반영하고 있습니다. 이러한 기준은 AI 기술 혁신을 촉진하면서 개인정보 보호를 강화하여 국민 신뢰를 높일 수 있는 기반을 제공합니다. 다만, 가이드라인의 실효성을 높이기 위한 추가적인 검토와 현실적 적용 방안에 대한 논의가 필요합니다. 향후 개인정보보호위원회는 기업과의 지속적인 협력을 통해 이러한 기준을 더욱 발전시키고, AI 기술이 법적으로 안정된 환경에서 발전할 수 있도록 노력해야 할 것입니다. AI 기업들을 위해서는 이러한 기준이 실제 상황에서 어떻게 적용될 수 있는지에 대한 구체적 사례와 교육이 제공되어야 할 것입니다.

8. 용어집

8-1. 개인정보보호위원회 [정부 기관]

개인정보보호위원회는 개인정보 보호와 관련된 정책을 수립하고 기업과 국민을 보호하는 역할을 수행하는 중요한 정부 기관입니다. 이번 AI 개발 관련 공개 데이터 처리 안내서를 통해 AI 기업의 법적 불확실성을 해소하고 개인정보 보호를 강화하는 데 기여하고 있습니다.

8-2. 정당한 이익 [법적 조항]

정당한 이익 조항은 기업이 공개된 개인정보를 사용할 수 있는 법적 근거를 제공하는 것으로, 이번 안내서에서 강하게 언급되었습니다. 이를 통해 기업은 AI 개발에 필요한 데이터를 합법적으로 사용할 수 있으며, 동시에 정보주체의 권리를 보호할 수 있는 방안을 마련할 수 있습니다.

8-3. 공개 데이터 [데이터 유형]

공개 데이터는 개인정보를 포함하여 다양한 데이터가 공개된 상태로, AI 개발에 있어 중요한 자원입니다. 이번 안내서에서는 공개 데이터의 안전한 활용 방안을 제시하여, AI 기술 혁신을 도모하면서도 개인정보 보호를 강화할 수 있는 기준을 마련하였습니다.

9. 출처 문서

보도자료 | 개인정보보호위원회 > > 위원회 소식>보도‧해명https://www.pipc.go.kr/np/cop/bbs/selectBoardArticle.do?bbsId=BS074&mCode=C020010000&nttId=10362
개인정보위, AI 개발용 개인정보 처리 안내서 공개https://news.zum.com/articles/91966720
AI 학습에 쓰이는 ‘공개데이터’ 정부 기준 나왔다https://v.daum.net/v/20240717140005193
개보위, 공개된 데이터 처리 안내서 공개…“정당한 이익 명백해야”https://m.etnews.com/20240717000228
공개된 개인정보, AI 개발에 활용 가능해진다http://news.bizwatch.co.kr/article/mobile/2024/07/17/0016

개인정보보호위원회의 AI 개발용 공개 데이터 처리 기준 안내서 분석

목차

1. 요약

2. 인공지능(AI) 개발 및 서비스의 배경과 필요성

2-1. AI 개발의 현재 상황

2-2. 공개 데이터의 활용 필요성

3. 개인정보보호위원회의 '인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서' 주요 내용

3-1. 정당한 이익 조항

3-2. 안전조치와 정보주체 권리 보호

3-3. 국제 기준의 상호운용성

4. 안내서의 법적 불확실성 해소 방안

4-1. 공개된 개인정보의 법적 기준 제시

4-2. 기업의 안전조치 설정

5. 지속적인 기준 업데이트와 공감대 형성

5-1. 기준의 지속적 업데이트

5-2. 국내외 다양한 의견 수렴

6. 공개 데이터 처리 기준의 예상 효과

6-1. AI 기술 혁신 활성화

6-2. 개인정보 침해 사고 방지

6-3. 국민 신뢰 확보

7. 결론

8. 용어집

8-1. 개인정보보호위원회 [정부 기관]

8-2. 정당한 이익 [법적 조항]

8-3. 공개 데이터 [데이터 유형]

9. 출처 문서