최근 수집된 자료들을 바탕으로 국내 AI 기업들이 학습용 데이터 확보의 어려움을 겪고 있으며, 이를 해결하기 위한 합성 데이터 기술의 도입 방안을 살펴본다. 이 기사는 데이터 부족 문제와 그 해결책으로 부상하는 합성 데이터의 역할을 다루고 있다.
국내 인공지능(AI) 기업들이 학습용 데이터 확보의 어려움으로 인해 큰 난관에 봉착해 있다. 구글, 마이크로소프트 등 글로벌 빅테크와는 다르게, 한국어 데이터의 절대적인 양이 부족한 상황이다. 이는 AI가 더 많은 데이터를 학습할수록 성능이 향상된다는 점에서 심각한 문제로 대두되고 있다.
현재 한국의 AI 업계는 공공 데이터를 지원받아야 한다는 목소리가 커지고 있다. 공공 데이터는 저작권 문제 없이 접근이 용이하지만, 일부 데이터는 형식적 제약으로 인한 활용의 어려움이 있다. 예를 들어, 일부 공공 데이터가 '아래아한글' 문서파일로 제공되어 생성형 AI가 이를 데이터화하기 어렵다.
이러한 문제를 해결하기 위한 대안으로 합성 데이터가 주목받고 있다. 합성 데이터는 실제 데이터를 모방해 인공적으로 생성한 데이터로, AI 시스템의 학습과 테스트 과정에서 시간적, 재정적 부담을 크게 줄일 수 있다. 예를 들어, BMW와 Amazon Robotics는 제조업과 물류 분야에서 합성 데이터를 활용해 AI 모델을 고도화하고 있다.
의료와 금융 분야에서도 합성 데이터의 활용이 증가하고 있다. 의료 영상 데이터를 합성하여 진단 모델을 훈련시키거나, 거래 패턴의 합성 데이터를 생성하여 사기를 탐지하는 시스템을 고도화할 수 있다. 이러한 기술을 통해 다양한 산업에서 AI 응용 프로그램의 정확도와 효율성을 높일 수 있다.
하지만 합성 데이터에도 한계는 존재한다. 일부 전문가들은 AI가 스스로 생성한 데이터로 학습하는 것이 조작과 결함을 포함할 수 있다는 점을 지적한다. 이러한 문제를 해결하기 위해선 신중한 데이터 큐레이션과 검증이 필요하다.
국가별로 자체 언어·문화 기반으로 거대언어모델(LLM)을 구축해 AI 주권을 지키는 것을 의미한다. 데이터 확보의 중요성이 강조되면서 국내 기업들이 소버린 AI 개발에 어려움을 겪고 있다.
실제 데이터를 모방해 인공적으로 만든 가상 데이터이다. AI 시스템의 학습과 테스트에 필요한 데이터 부족 문제를 해결하고, 비용과 시간을 절감할 수 있는 방법으로 주목받고 있다.
과학기술정보통신부 산하 기관으로 데이터산업 현황과 문제점을 조사하고 발표하고 있다. 최근 발표한 조사에 따르면 데이터 구매의 비용 부담이 가장 큰 애로사항으로 집계됐다.
제조업 분야에서 합성 데이터를 활용해 가상 공장을 만들고, 조립 작업자와 로봇이 효율적으로 작업할 수 있도록 AI 모델을 훈련시킨 사례이다.
국내 스타트업으로, 합성 데이터 기술을 통해 의료 AI의 정확성을 높이고 있다. 예를 들어, 내시경 영상 데이터를 이용해 위암을 진단하는 AI 모델을 고도화하고 있다.