데일리 리포트

국내 AI 학습을 위한 합성데이터 플랫폼과 주요 기업 분석

Goover AI

1. 요약

본 리포트는 '국내 AI 학습을 위한 합성데이터 플랫폼과 주요 기업 분석'을 주제로, 주요 업체들의 서비스와 그 활용 사례를 다룹니다. 젠젠에이아이(ZenGen AI), 씨앤에이아이(CNAI), 셀렉트스타(SelectStar), 슈퍼브에이아이(Superb AI)와 같은 기업들이 모빌리티, 방위, 의료, 제조업 등 다양한 분야에서 합성데이터를 제공하여 AI 학습의 성능을 향상시킵니다. 이들의 활동은 합성데이터가 AI 모델의 정확도와 효율성을 높이는 데 어떻게 기여하는지를 설명하며, 데이터 익명화 및 품질 향상 문제 등의 해결 방안을 제시합니다. 리포트는 합성데이터의 개념 및 활용 방법, 국내 AI 업계의 데이터 확보 문제, 정부와 공공기관의 데이터 지원 상황 등을 종합적으로 분석합니다.

2. 국내 주요 합성데이터 플랫폼 제공 기업

젠젠에이아이 (ZenGen AI)

젠젠에이아이(ZenGen AI)는 국내에서 모빌리티, 방위, 의료 등 다양한 분야에 혁신적인 합성데이터 서비스를 제공하는 대표적인 기업입니다. 이 회사는 생성형 AI 기술을 이용해 다양한 데이터 세트를 생성하고, 이를 통해 AI 모델의 성능을 고도화하고 있습니다.

씨앤에이아이 (C&Ai)

씨앤에이아이(C&Ai)는 국내에서 합성 데이터를 기반으로 다양한 솔루션을 제공하는 기업입니다. 특히 데이터 익명화 기술을 활용해 금융과 헬스케어와 같은 산업 분야에서 데이터를 보호하면서 고품질의 학습 데이터를 제공하고 있습니다. 이는 AI 모델의 정확도를 높이는 데 큰 도움을 줍니다.

셀렉트스타 (SelectStar)

셀렉트스타(SelectStar)는 주로 제조업에서 AI 학습용 데이터를 제공하는 플랫폼입니다. 합성 데이터를 활용해 결함 탐지 시스템을 개선하고, 생산 공정의 신뢰성을 높이고 있습니다. 이로 인해 기업들은 결함 제품으로 인한 비용 부담을 줄이고, 보다 효율적인 생산 관리를 할 수 있습니다.

슈퍼브에이아이 (Superb AI)

슈퍼브에이아이(Superb AI)는 합성 데이터를 활용해 다양한 산업 분야의 AI 학습과 테스트 과정을 지원하는 기업입니다. 의료 영역에서 특히 주목받고 있으며, 환자의 개인정보를 보호하면서 정확한 진단 지원 시스템을 개발하는 데 기여하고 있습니다. 또한, 금융 분야에서는 사기 거래 탐지 시스템의 정확도를 높이기 위해 합성 데이터를 활용하고 있습니다.

3. 합성데이터의 활용과 이점

합성데이터의 개념과 생성 방법

합성데이터는 실제 데이터를 모방하여 인공적으로 만든 가상 데이터입니다. 이는 AI 학습과 테스트 과정에서 발생할 수 있는 시간적, 재정적 부담을 줄이는 데 큰 역할을 합니다. 예를 들어, 내시경 영상을 분석해 위암을 진단하는 AI 모델에 합성데이터를 활용하면 병변의 위치와 형태가 다양하고 의료 정보 확보가 어려운 상황에서도 AI의 진단 성능을 향상시킬 수 있습니다.

산업별 합성데이터 활용 사례 (제조업, 의료, 금융)

제조업에서는 품질 관리와 안전 관리에 합성데이터를 활용하여 AI 기술을 통해 정확도와 효율성을 향상시킬 수 있습니다. 예를 들어 결함이 발견된 제품의 데이터를 기반으로 합성 데이터를 생성하여, AI가 다양한 유형의 결함을 인식하도록 학습시킴으로써 생산 공정의 신뢰성을 높이고 리콜 비용을 줄일 수 있습니다. 의료 분야에서는 합성 데이터를 활용해 질병 진단 지원 시스템의 정확성을 높일 수 있습니다. 예를 들어 씨앤에이아이는 의료 AI의 정확도를 높이는 합성데이터 기술을 통해, 다양한 경우의 병변 데이터를 만들어 AI 모델의 진단 성능을 향상시키고 있습니다. 금융 분야에서는 거래 패턴의 합성 데이터를 생성하여 사기 거래 탐지 시스템의 정확도를 높일 수 있습니다. 이 외에도 합성데이터는 교육 분야에서도 활용될 수 있으며, 개인 맞춤형 교육 콘텐츠를 제공하는 AI 시스템 개발에 도움을 줄 수 있습니다.

4. 국내 합성데이터 플랫폼 기업의 서비스 사례

젠젠에이아이의 모빌리티 및 방위 산업 합성데이터 서비스

젠젠에이아이(Zenz AI)는 모빌리티 및 방위 산업에 특화된 합성 데이터를 제공하는 기업입니다. 이들은 게임 엔진과 생성적 적대 신경망(GAN)을 결합하여 AI 학습을 위한 합성 데이터를 생성합니다. 이러한 기술은 모빌리티, 특히 자동차 제조 공정을 최적화하고 더 나은 방위 산업 모델을 구축하는 데 활용됩니다. 예를 들어, 젠젠에이아이는 다양한 시뮬레이션을 통해 실제 환경과 유사한 조건에서 AI 모델을 훈련시킬 수 있는 합성 데이터를 제공합니다. 이 방식은 실제 데이터를 수집하는 데 따르는 시간과 비용을 절감하면서도 높은 품질의 학습 데이터를 확보할 수 있게 합니다.

씨앤에이아이의 의료 분야 합성데이터 활용

씨앤에이아이(CNAI)는 의료 분야에서 합성 데이터를 활용하여 혁신적인 AI 솔루션을 제공합니다. 이 기업은 특히 환자의 개인정보를 보호하면서도 AI 모델을 효과적으로 훈련시키기 위해 의료 영상 데이터의 합성에 주력하고 있습니다. 예를 들어, 헬스케어 서비스 제공업체 Curai는 40만 건의 시뮬레이션 의료 사례로 진단 모델을 훈련시켰습니다. 이와 유사하게 씨앤에이아이는 GAN 기반 아키텍처를 활용하여 합성 의료 이미지를 생성하고, 이를 통해 AI 모델의 성능을 향상시킵니다. 이러한 방법은 데이터의 익명성을 유지하면서도 높은 품질의 학습 데이터를 제공할 수 있는 장점이 있습니다.

셀렉트스타의 데이터 유통 및 맞춤 서비스

셀렉트스타(Select Star)는 데이터 유통 및 맞춤형 데이터 서비스를 제공하는 기업으로, 다양한 산업 분야에서 합성 데이터를 활용하고 있습니다. 이 기업은 고객의 요구에 맞추어 데이터셋을 생성하고, 이를 통해 다양한 AI 모델을 훈련시킬 수 있는 환경을 제공합니다. 예를 들어, 셀렉트스타는 데이터 익명화 기술을 사용하여 고객의 민감한 정보를 보호하면서도 AI 학습에 필요한 고품질의 데이터를 생성합니다. 특히 소매업과 같은 분야에서는 실제 제품 이미지를 기반으로 수천 개의 합성 이미지를 생성하여 AI 모델을 훈련시키는 등의 방법을 사용합니다.

슈퍼브에이아이의 스위트 플랫폼

슈퍼브에이아이(Superb AI)는 종합적인 AI 학습 데이터 플랫폼인 '스위트(Suite)'를 운영하며, 다양한 산업 분야에서 합성 데이터를 제공하고 있습니다. 이들은 NVIDIA의 옴니버스 리플리케이터와 같은 도구를 사용하여 합성 데이터를 생성하고, 이를 통해 AI 모델의 학습을 지원합니다. 예를 들어, 슈퍼브에이아이는 물류 분야의 Amazon Robotics와 협력하여 다양한 크기와 종류의 패키지를 식별할 수 있는 합성 데이터를 생성합니다. 이러한 데이터는 로봇 훈련에 사용되어 물류 프로세스를 더욱 효율적으로 만드는 데 기여합니다.

5. 대한민국 AI 업계의 데이터 확보 문제

한국어 데이터 부족 문제

국내 인공지능(AI) 기업들은 AI 학습용 데이터 확보에 어려움을 겪고 있습니다. 주요 문제 중 하나는 한국어 데이터의 양이 매우 부족하다는 점입니다. AI업계 관계자는 '기본적으로 인터넷상 정보를 학습하는데, 영어 데이터를 학습시키는 오픈AI나 구글에 비해 한글 데이터는 적다'고 토로했습니다. 서울대학교 AI 연구원장 장병탁 교수도 'AI는 데이터로 학습하기 때문에 (데이터가) 중요하다'며 '촉각·후각·미각, 광도·온도·습도, 압력·힘·속도 등 제조업에 필요한 물리적인 데이터가 부족하다'고 언급했습니다.

데이터 구매 비용 부담

국내 AI 기업들은 학습 데이터를 구매하기 위한 비용 부담도 만만치 않다고 토로합니다. AI업계 관계자는 '신생 기업은 보유한 데이터가 없어 학습용 데이터를 다른 곳에서 사와야 한다'며 '데이터는 다 돈이다'라고 했습니다. 과학기술정보통신부와 한국데이터산업진흥원이 발표한 '2023년 데이터산업 현황조사'에 따르면, 사업체가 데이터를 거래할 때 애로사항 중 '구매 데이터의 가격 부담'이 39.4%로 가장 높았습니다. 그 뒤로 '쓸만한 양질의 데이터 부족'이 31.3%, '데이터 소재파악 및 검색의 어려움'이 29.3%로 집계되었습니다.

학습 데이터의 종류와 필요성

AI의 성능을 향상시키기 위해서는 질 좋은 데이터를 더 많이 학습시킬수록 중요합니다. 특히 생성형 AI는 학습한 빅데이터를 기반으로 추론하여 새로운 콘텐츠를 만들기 때문에 데이터세트 관리가 중요합니다. 공공 데이터를 적극 활용하여 AI 모델의 정확한 입력값을 도출하는 것은 매우 중요합니다. 현재 공공 데이터는 저작권에 저촉되지 않으면서 접근하기 쉬운 정제된 데이터를 제공하고 있습니다. 과기정통부는 '공공데이터의 제공 및 이용 활성화에 관한 법률'에 따라 공공 데이터를 개방해 민간 기업에서 활용하도록 하고 있습니다.

6. 정부와 공공기관의 데이터 지원 상황

공공데이터의 제공 및 이용 활성화

과학기술정보통신부는 '공공데이터의 제공 및 이용 활성화에 관한 법률'에 따라 공공 데이터를 개방하고 민간 기업이 이를 활용할 수 있도록 하고 있습니다. 공공데이터는 공공기관이 직무상 전자적으로 처리, 작성, 취득해 관리하는 문자, 음성, 영상 등 다양한 종류의 데이터를 포함합니다. 과기정통부는 이 데이터를 교육, 국토 관리, 공공 행정, 산업 고용 등 여러 카테고리로 구분해 제공하고 있습니다.

공공데이터의 한계와 문제점

공공 데이터 제공에도 불구하고 몇 가지 한계점이 존재합니다. 예를 들어, 일부 공공 데이터는 '아래아한글' 문서 파일 형태로 제공되기 때문에 생성형 AI가 이를 데이터화하는 데 어려움을 겪고 있습니다. 또한, 뉴스 저작권 문제로 인해 데이터 확보가 까다로워지고 있습니다. AI 업계 관계자는 양질의 공공데이터가 더 적극적으로 개방된다면 데이터 확보가 수월해질 것이라고 언급하였습니다.

7. 결론

이번 리포트에서 다룬 주요 발견은 젠젠에이아이, 씨앤에이아이, 셀렉트스타, 슈퍼브에이아이와 같은 기업들이 다양한 산업에서 혁신적인 합성데이터 서비스를 통해 AI 모델의 성능 향상에 기여하고 있다는 점입니다. 이들은 모빌리티, 방위, 의료, 제조업 등 다양한 분야에서 중요한 역할을 하고 있습니다. 그러나 국내 AI 업계는 여전히 한국어 데이터의 부족과 고가의 데이터 구매 비용 문제에 직면해 있습니다. 이를 해결하기 위해 정부와 공공기관은 공공 데이터의 개방을 확대하고, 데이터의 품질과 접근성을 개선해야 합니다. 또한, 공공데이터의 포맷 문제와 뉴스 저작권 문제를 해결하여 더 많은 양질의 데이터를 제공해야 합니다. 미래에는 정부와 기업 간의 더 긴밀한 협력이 요구되며, 공공 데이터 및 민간 데이터의 효율적인 활용 방안을 모색해야 합니다. 이러한 개선이 이루어진다면, 국내 AI 업계는 더 나은 데이터 환경에서 혁신을 지속할 수 있을 것입니다.

8. 용어집

젠젠에이아이 (ZenGen AI) [회사]

젠젠에이아이는 모빌리티 및 방위 산업 분야에서 합성데이터를 생성하여 AI 학습에 활용하는 주요 기업입니다. 데이터 생성 및 변환 기술을 통해 자율주행, 방위 산업 등 다양한 도메인에 특화된 합성 데이터를 제공하며, 데이터 부족 문제와 편향 문제를 해결하고 있습니다.

씨앤에이아이 (C&Ai) [회사]

씨앤에이아이는 특히 의료 분야에서 합성데이터를 활용하여 AI 모델의 정확성을 높이는 데 주력하는 기업입니다. 내시경 영상 분석 등 다양한 의료 데이터의 합성을 통해 AI의 진단 성능을 향상시키고 있습니다.

셀렉트스타 (SelectStar) [회사]

셀렉트스타는 AI 학습 데이터를 유통 및 판매하며, 기업의 요구에 따라 데이터를 맞춤 가공하는 서비스를 제공하는 기업입니다. 도서, 이미지, 영상 등 다양한 형태의 데이터를 제공하며, 전문가 질의응답, 다국어 일상 대화 등의 데이터셋도 포함한 포괄적인 서비스를 보유하고 있습니다.

슈퍼브에이아이 (Superb AI) [회사]

슈퍼브에이아이는 데이터 라벨링 및 관리 플랫폼을 제공하는 기업으로, 스위트 플랫폼을 통해 프로젝트 관리, 데이터셋 품질 관리, 실시간 모니터링 등을 지원합니다. 다양한 산업에서 AI 학습을 위한 데이터 라벨링과 합성 데이터를 제공합니다.