Your browser does not support JavaScript!

한국어 기반 자연어 질의 생성(NL2SQL) 기술 현황 및 전망

일일 보고서 2024년 09월 11일
goover

목차

  1. 요약
  2. NL2SQL 기술 개요
  3. NL2SQL 기술의 실제 활용 사례
  4. 기술적 도전과 해결방안
  5. NL2SQL 시장의 발전 전망
  6. 결론

1. 요약

  • 이 리포트는 한국어 기반 자연어 질의 생성(NL2SQL) 기술의 현황과 전망을 다루며, 주요 기업의 활동과 성공 사례를 중심으로 기술적 성취와 사용 사례를 분석합니다. NL2SQL 기술은 자연어로 작성된 질문을 SQL 쿼리로 변환하여 데이터베이스와 상호작용할 수 있게 하는 기술로, 포티투마루가 주도적으로 발전시켜 왔습니다. 포티투마루는 대규모 데이터셋 구축부터 기업 특화 솔루션까지 다양한 분야에서 한국어 NL2SQL 기술을 실용적으로 적용하고 있으며, 이러한 기술들이 비전문가도 쉽게 데이터에 접근할 수 있도록 돕고 있습니다. 이 리포트는 데이터 수집 및 검수 과정, 모델 학습과 검수 과정, 기존 데이터 검색 서비스의 한계를 극복하기 위한 노력 등을 다룹니다. 또한, NL2SQL 기술의 글로벌 및 국내 시장 전망과 비즈니스 기회도 살펴봅니다.

2. NL2SQL 기술 개요

  • 2-1. NL2SQL의 정의

  • NL2SQL(자연어를 SQL 쿼리로 변환하는 기술)은 자연어로 작성된 질의를 데이터베이스에서 사용되는 SQL 쿼리로 변환하여 데이터베이스와의 상호작용을 가능하게 하는 기술입니다. 이 기술을 사용하면 일반 사용자가 복잡한 SQL 문법 없이도 자연어로 질문하고 정보를 추출할 수 있습니다.

  • 2-2. 한국어 NL2SQL 기술의 발전 배경

  • 한국어 NL2SQL 기술은 국내 AI 스타트업인 포티투마루에 의해 주도적으로 발전하였습니다. 포티투마루는 '자연어 기반 질의 생성(NL2SQL)' 프로젝트를 통해 대규모 NL2SQL 학습용 데이터를 구축하였으며, 이로 인해 한국어 환경에 적합한 NL2SQL 모델링이 가능해졌습니다. 이 기술은 특히 일반 사용자들이 데이터를 쉽게 조회하고 분석할 수 있도록 하는 데 초점을 맞추고 있습니다.

  • 2-3. 자연어 이해와 SQL 생성 기술

  • 자연어 이해(Natural Language Understanding, NLU) 기술은 사용자의 자연어 질의를 파악하고 의미를 이해하는 데 중점을 두며, SQL 생성 기술은 이러한 이해를 바탕으로 적절한 SQL 쿼리를 자동으로 생성하는 과정입니다. 포티투마루는 딥러닝 기반의 AI 독해 솔루션과 데이터를 검색하는 기술을 결합하여, 사용자에게 더욱 직관적이고 효율적인 데이터 검색 방법을 제공하고 있습니다.

3. NL2SQL 기술의 실제 활용 사례

  • 3-1. 포티투마루의 NL2SQL 데이터셋 구축 프로젝트

  • 포티투마루는 2022년 인공지능 학습용 데이터 구축사업에서 자연어 기반 질의 생성(NL2SQL) 검색 생성 데이터를 성공적으로 마무리하였습니다. 이 사업은 AI 연구와 기술, 서비스 개발을 위한 학습용 데이터를 구축하고, AI 허브를 통해 민간에 개방하여 AI 산업 활성화에 기여하는 국가 중점 정책 사업입니다. 포티투마루는 NL2SQL 데이터셋 설계, 원시데이터 수집 및 정제, 학습데이터 가공과 검수를 포함한 전 과정에서 대규모 NL2SQL 학습용 데이터를 구축하였습니다. 또한, 포티투마루는 2020년 '민관 협력 기반 ICT 스타트업 육성' 사업에서 인공지능 기반 NL2SQL 정보탐색 플랫폼 구축 과제에 선정되어 성공적으로 수행한 경험이 있습니다. 이러한 기반 위에서 포티투마루는 한국어 기반의 NL2SQL 기술을 개발하여 유연하고 확장성이 있는 자연어 검색 서비스를 제공할 수 있는 모델 상용화 기반을 마련하였습니다.

  • 3-2. 포티투마루의 기업 특화 솔루션 적용 사례

  • 포티투마루는 다양한 기업에 특화된 AI 솔루션을 제공하고 있습니다. 기업의 특정 문제를 해결하기 위해, 포티투마루는 경량 sLLM(구조적 경량 사전학습 모델) 및 딥러닝 기반의 AI 독해 솔루션인 ‘MRC42’와 검색 증강 생성 솔루션 ‘RAG42’와 같은 기술 요소를 조합하여 최적의 솔루션을 제공합니다. 포티투마루의 고객사에는 삼성, LG, 현대기아차, 하나은행, 신한생명 등 국내 주요 대기업과 금융사들이 포함되어 있습니다. 이러한 고객들과의 협력을 통해, 포티투마루는 기존 데이터 검색 및 조회 서비스의 한계를 넘어서는 NL2SQL 기술을 적용하고 있으며, 오라클과의 협업을 통해 NL2SQL 기술을 오라클 시스템에 접목한 서비스도 개발 중입니다. 이러한 기반들은 포티투마루가 자연어 기반 질의 생성 기술을 상용화하는 데 중요한 역할을 하고 있습니다.

4. 기술적 도전과 해결방안

  • 4-1. 데이터 수집 및 정제 과정

  • NL2SQL(자연어 기반 질의 생성) 기술은 대량의 원시 데이터를 수집하고 이를 정제하는 과정을 포함합니다. 포티투마루는 ‘2022년 인공지능 학습용 데이터 구축사업’에서 NL2SQL 데이터를 성공적으로 구축하여, 이 과정에서 NL2SQL 데이터셋 설계와 원시 데이터의 수집 및 정제를 수행하였습니다. 이러한 과정을 통해 최종적으로 대규모 NL2SQL 학습용 데이터를 완성하였습니다.

  • 4-2. 모델 학습과 검수 과정

  • 포티투마루는 NLP(Natural Language Processing) 모델의 연구 및 개발에 있어 학습 데이터 가공과 검수 과정을 거쳤습니다. 이를 바탕으로 NL2SQL AI 모델을 개발하였으며, 사전 검증된 데이터셋을 활용한 모델 학습이 이루어졌습니다. 이러한 모델 학습 과정은 정확한 정보 조회 및 분석을 가능하게 하는 기반이 되었으며, 이로 인해 비전문가도 자연어로 데이터를 검색할 수 있는 환경이 조성되었습니다.

  • 4-3. 기존 데이터 검색 서비스의 한계 극복

  • 포티투마루는 일반적인 DML(데이터 조작 언어) 기반의 기존 데이터 검색 및 조회 서비스의 한계를 극복하고, 자연어 검색 서비스를 제공하는 NL2SQL 인공지능 모델의 상용화를 위해 노력하고 있습니다. 과거에 구축된 영어 데이터셋 기반 모델의 한계를 넘어, 국내 한국어 사용 환경에 맞춘 NL2SQL 모델링이 가능해졌습니다. 이러한 접근은 데이터를 쉽게 검색하고 분석할 수 있는 환경을 조성하여, 일반 사용자들도 데이터에 접근할 수 있도록 지원합니다.

5. NL2SQL 시장의 발전 전망

  • 5-1. 글로벌 및 국내 시장 전망

  • NL2SQL(자연어를 SQL 쿼리로 변환하는 기술) 시장은 빠르게 성장하고 있으며, 데이터 관리의 효율성을 높이는 중요한 기술로 자리 잡고 있습니다. 2022년 기준으로 NL2SQL에 대한 관심은 급증하였으며, 관련 기술들이 다양하게 개발되고 있습니다. 예를 들어, 포티투마루는 이 기술을 적용하여 기업이 보다 쉽게 데이터에 접근하고 분석할 수 있도록 지원하고 있습니다. 또한, 글로벌 시장에서도 NL2SQL이 주목받고 있으며, 많은 기업들이 이 기술을 활용하여 비즈니스 인사이트를 확보하고 있습니다.

  • 5-2. 기술의 확장 가능성과 비즈니스 기회

  • NL2SQL 기술은 비단 데이터베이스 쿼리에 그치지 않고, 다양한 산업군에 걸쳐 활용될 수 있는 가능성을 가지고 있습니다. 포티투마루는 고객 맞춤형 AI 솔루션을 제공하기 위해 NL2SQL 기술을 포함한 여러 기술 요소들을 조합하여 엔드투엔드 솔루션을 제안하고 있습니다. 이로 인해 국내 기업뿐만 아니라 글로벌 기업으로부터도 큰 관심을 받고 있으며, LG 유플러스와 네이버클라우드는 포티투마루와의 파트너십을 통해 AI 신사업을 강화하고자 하고 있습니다. 이는 NL2SQL 기술이 향후 더욱 다양한 비즈니스 기회를 창출할 수 있음을 시사합니다.

6. 결론

  • NL2SQL 기술은 데이터 접근성과 사용성을 혁신적으로 향상시키는 중요한 기술이며, 특히 한국어 기반의 발전이 비전문가도 쉽게 데이터를 검색하고 분석할 수 있게 하여 주목받고 있습니다. 포티투마루는 AI 허브와의 협업을 통해 대규모 NL2SQL 데이터셋을 구축하며, 삼성, LG, 현대기아차 등 주요 기업에 성공적인 솔루션을 제공해왔습니다. 그러나 데이터 수집과 정제 및 모델 학습과 검수 과정에서 여전히 많은 도전과제가 존재하며, 이를 해결하기 위한 지속적인 연구와 개발이 필요합니다. 향후 NL2SQL 기술은 다양한 산업군에서 활용될 가능성이 높으며, LG 유플러스와 네이버클라우드와의 협업 사례는 기술이 확장 가능성과 비즈니스 기회를 더욱 넓혀줍니다. 따라서 기업과 연구 기관의 지속적인 참여가 이루어질 것으로 기대되며, 이를 통해 기술의 완성도가 높아져 더 많은 실제 응용 사례가 나타날 것입니다.

7. 용어집

  • 7-1. NL2SQL [기술]

  • NL2SQL은 자연어(Natural Language)로 입력된 질문을 SQL 쿼리로 변환하여 데이터베이스와 상호작용하는 기술로, 데이터 접근성을 높이고 분석 작업을 간편하게 만들어 줍니다.

  • 7-2. 포티투마루 [회사]

  • 포티투마루는 한국어 기반 NL2SQL 기술의 선두주자로, 다양한 AI 기반 솔루션을 제공하며 여러 성공 사례를 보유하고 있는 기업입니다. 이들은 AI 학습용 데이터 구축사업을 통해 NL2SQL 데이터셋을 성공적으로 구축하였습니다.

  • 7-3. AI 허브 [이슈]

  • AI 허브는 AI 기술 개발을 위한 학습용 데이터를 제공하는 주요 플랫폼으로, 포티투마루를 비롯한 여러 기업들이 데이터 구축 및 활용에 중요한 역할을 하고 있습니다.

8. 출처 문서