최근 수집된 자료들을 바탕으로 국내 AI 기업들이 학습용 데이터 확보의 어려움을 겪고 있으며, 이를 해결하기 위한 합성 데이터 기술의 도입 방안을 살펴본다. 이 기사는 데이터 부족 문제와 그 해결책으로 부상하는 합성 데이터의 역할을 다루고 있다.
국내 인공지능(AI) 기업들이 학습용 데이터 확보의 어려움으로 인해 큰 난관에 봉착해 있다. 구글, 마이크로소프트 등 글로벌 빅테크와는 다르게, 한국어 데이터의 절대적인 양이 부족한 상황이다. 이는 AI가 더 많은 데이터를 학습할수록 성능이 향상된다는 점에서 심각한 문제로 대두되고 있다.
현재 한국의 AI 업계는 공공 데이터를 지원받아야 한다는 목소리가 커지고 있다. 공공 데이터는 저작권 문제 없이 접근이 용이하지만, 일부 데이터는 형식적 제약으로 인한 활용의 어려움이 있다. 예를 들어, 일부 공공 데이터가 '아래아한글' 문서파일로 제공되어 생성형 AI가 이를 데이터화하기 어렵다.
이러한 문제를 해결하기 위한 대안으로 합성 데이터가 주목받고 있다. 합성 데이터는 실제 데이터를 모방해 인공적으로 생성한 데이터로, AI 시스템의 학습과 테스트 과정에서 시간적, 재정적 부담을 크게 줄일 수 있다. 예를 들어, BMW와 Amazon Robotics는 제조업과 물류 분야에서 합성 데이터를 활용해 AI 모델을 고도화하고 있다.
의료와 금융 분야에서도 합성 데이터의 활용이 증가하고 있다. 의료 영상 데이터를 합성하여 진단 모델을 훈련시키거나, 거래 패턴의 합성 데이터를 생성하여 사기를 탐지하는 시스템을 고도화할 수 있다. 이러한 기술을 통해 다양한 산업에서 AI 응용 프로그램의 정확도와 효율성을 높일 수 있다.
하지만 합성 데이터에도 한계는 존재한다. 일부 전문가들은 AI가 스스로 생성한 데이터로 학습하는 것이 조작과 결함을 포함할 수 있다는 점을 지적한다. 이러한 문제를 해결하기 위해선 신중한 데이터 큐레이션과 검증이 필요하다.