이 리포트는 2024년 대한민국에서 발표된 초거대 언어모델(LLM) 관련 연구 논문들을 분석하고, 해당 연구들의 주요 발견 사항과 현재 AI 생태계와의 연관성을 다룹니다. 여기에는 초기 언어모델부터 초거대 언어모델까지의 발전 과정, 한국어 초거대 언어모델의 특성과 성능, 최근 연구 동향 및 성능 평가 방법의 변화 등이 포함됩니다. 특히 업스테이지의 'SOLAR' 모델이 챗GPT를 능가하는 성능을 보이며 세계 1위를 차지한 사례가 주목됩니다. 또한, 초거대 언어모델의 윤리적 이슈와 Embodied Instruction-Following을 위한 초거대 언어모델 활용 연구, 그리고 로봇 에이전트의 명령형 대화와 Semantic Skill Grounding 기법 등의 활용도 다룹니다. AI 및 초거대 언어모델의 사회적, 법적 영향, 전력 사용 및 환경 문제, 그리고 초거대 AI 생태계 조성 사업 등의 내용도 포함되어 있습니다.
초기 언어모델은 기본적인 텍스트 데이터를 학습하여 단순한 언어 생성 기능을 수행했습니다. 그러나 초거대 언어모델(LLM)의 등장으로 언어 생성의 질과 다양성이 크게 향상되었습니다. 최근 연구에서는 LLM이 대화형 AI, 자연어 처리(NLP), 생성 AI 등 다양한 응용 분야에서 높은 성능을 보이고 있습니다. 예컨대, 업스테이지가 개발한 'SOLAR' 모델은 허깅페이스의 오픈 LLM 리더보드에서 챗GPT를 능가하는 성능을 기록하며 세계 1위를 차지했습니다.
한국어 초거대 언어모델의 대표적인 예로는 업스테이지의 'SOLAR'가 있습니다. SOLAR는 한국어뿐만 아니라 다국어 데이터에 기반한 학습을 통해 높은 정확성과 유연성을 자랑합니다. 최근에는 오픈AI, 구글, 메타, 엔트로픽의 주요 모델들과 함께 Poe의 메인 모델로 등록되어 글로벌 시장에서도 그 성능을 인정받았습니다.
최근 LLM 연구는 모델의 성능 개선에 중점을 두고 있으며, 더 나은 평가 방법론을 개발하고 있습니다. 예를 들어, 'KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing'이라는 논문에서는 한국어 음성인식 후처리기를 평가할 새로운 벤치마크 데이터셋을 제시했습니다. 이는 LLM의 성능을 더 정교하게 평가하고, 모델의 약점을 파악하는 데 도움이 됩니다.
초거대 언어모델의 활용이 확대됨에 따라 윤리적 문제도 함께 대두되고 있습니다. 업스테이지의 연구 논문에서도 윤리적 원칙과 관련된 최근 동향을 다루며, 생성 AI의 범용성 확대와 함께 발생할 수 있는 데이터 편향, 프라이버시 문제 등을 주요 이슈로 제시하고 있습니다. 이러한 윤리적 이슈들은 LLM 연구 및 활용에 있어서 반드시 고려되어야 할 중요한 요소입니다.
Semantic Skill Grounding for Embodied Instruction-Following in Cross-Domain Environments 논문은 성균관대학교 소프트웨어학과 신상우 (석사과정), 김승현 (석사과정) 이 제1저자로 참여했으며, LG AI연구원 이문태 랩장, 장영수 연구원이 공저자로 참여했습니다. 본 연구는 로봇 에이전트와 사용자 간 명령형 대화에 기반하여 지시된 태스크 (Embodied Instruction-Following, EIF)를 수행할 때, 초거대언어모델 (LLM)을 활용하여 지시된 태스크 수행에 필요한 스킬의 실행 방법을 타겟 환경에 맞추어 최적 변환하는 SemGro (Semantic Skill Grounding) 기법을 제안하고 있습니다.
SemGro는 특정 물리적 환경 특성에 최적화된 Long-horizon rich-semantic 스킬부터 환경에 관계 없이 실행할 수 있는 일반화된 Short-horizon low-semantic 스킬을 계층적으로 관리하는 스킬 데이터베이스를 사전에 구성합니다. 이를 태스크 수행 시 실시간 참조하여, 지시된 태스크에 필요하면서 타겟 환경에 맞추어 실행 가능한 스킬 실행 계획을 찾아내고 최적화합니다.
SemGro는 홈 로봇 에이전트 테스트 환경인 VirtualHome 벤치마크의 실험을 통해 다양한 EIF 시나리오와 동적 환경 변화에 대해 SOTA 대비 강건한 성능을 내는 것으로 평가되었습니다. 이를 통해 본 기법의 타당성과 응용 가능성을 입증했습니다. 연구는 사람중심인공지능 핵심원천기술사업 (IITP), 한국연구재단 개인기초사업 (NRF), 인공지능대학원, ICT명품인재양성사업의 지원으로 진행되었습니다.
논문 'Embodied CoT Distillation From LLM To Off-the-shelf Agents'은 소프트웨어학과 최원제 (박사과정), 김우경 (박사과정), 유민종 (석박사통합과정) 연구원이 참여하였으며, 이 연구는 로봇이나 자율주행 차량과 같은 임바디드 인공지능 에이전트를 위한 초거대언어모델 (LLM) 기반 정책 학습 프레임워크인 DEDER를 제시합니다.
DEDER 프레임워크는 기존의 임바디드 인공지능 에이전트에게 초거대 언어모델의 지식을 증류하는 방법을 제공합니다. 본 논문은 CSI 연구실의 머신러닝, 강화학습, 자기지도학습을 활용하여 네트워크 및 클라우드 시스템 최적화 연구와 더불어 로봇, 드론 자율주행 연구를 통해 본 이론을 실증했습니다.
DEDER 프레임워크는 다양한 환경에서의 임바디드 에이전트의 적응력을 개선하는 역할을 합니다. 본 연구는 홈 로봇 에이전트 테스트 환경인 VirtualHome 벤치마크의 실험을 통해, 다양한 Embodied Instruction-Following (EIF) 시나리오와 동적 환경 변화에 대하여 강력한 성능을 입증했습니다.
컴퓨터와 인터넷의 대중화로 인해 주목된 사이버범죄는 기술의 발전과 함께 진화하였고, 형사법적 논의의 쟁점도 그 시기에 문제된 신종범죄에 대한 형사법적 대응 방안을 모색하는 것에 초점이 맞추어졌습니다. 특히, 생성형 인공지능의 등장으로 새로운 차원의 사이버범죄가 발생하고 있습니다. 초거대 인공지능 언어모델인 챗GPT가 2022년 11월에 출시되면서 생성형 AI의 가능성이 크게 주목받기 시작했습니다. 생성형 AI는 데이터 분석, 문헌 요약, 다국어 구사, 이미지, 영상 및 음악 생성 등의 기능을 갖추고 있으나, 생성형 AI로 제작된 성착취물이나 가짜뉴스가 소셜 미디어를 통해 빠르게 확산되면서 사회적 문제를 야기하고 있습니다.
생성형 AI로 인해 변화된 사이버범죄의 양상에 대해 형사법적 논의가 필요합니다. 이는 특히 생성형 AI 기술이 불법적인 컨텐츠 생산 및 확산에 이용되는 경우의 법적 대응을 포함합니다. 본 논문에서는 생성형 AI를 이용한 사이버범죄의 발생 양상의 변화 및 형사법적 쟁점에 대해 살펴보고, 법적 대응 현황 및 개선 방안을 모색하였습니다. 현재 법적 프레임워크가 이러한 새로운 유형의 범죄를 어떻게 다루고 있는지에 대해 평가하고, 효과적인 법적 대응 방안을 제안하고 있습니다.
AI는 연산 과정에서 막대한 전력을 사용하여 탄소 배출의 주범으로 꼽히고 있습니다. 실제로 구글이 초거대 언어모델 버트를 학습시키는 동안 652㎏의 이산화탄소를 발생시켰으며, 이는 비행기가 뉴욕에서 샌프란시스코를 왕복하는 동안 발생하는 이산화탄소와 같습니다. 오픈AI 또한 GPT-3 같은 모델들이 하루에 수백㎊의 컴퓨팅을 요구함을 인정한 바 있습니다. 이런 과도한 전력 사용은 탄소배출 문제로 이어지며, 혁신에 대한 그림자로 다가오고 있습니다.
AI 검증은 데이터 검증과 모델 검증으로 나뉩니다. 데이터 검증은 AI가 학습할 데이터를 검증하여 중복된 데이터나 편향된 데이터를 없애는 방법입니다. 이는 윤리적인 AI 모델을 만드는 동시에 중복 데이터를 제거하여 전력 사용을 줄일 수 있습니다. AI 신뢰성 검증 제품 '리인(Re:In)'을 개발한 씽크포비엘의 박지환 대표에 따르면 전 세계 데이터의 약 65%는 중복 데이터입니다. 이러한 중복 데이터 문제는 AI 학습의 효율성을 떨어트릴 뿐만 아니라 불필요한 전력 소모를 초래합니다.
AI의 전력 사용 문제를 해결하기 위한 방법으로 저전력 반도체 개발이 있습니다. 메모리와 연산 칩을 하나의 공간에 만들어 데이터 이동을 줄이거나, GPU 중 AI 연산에만 필요한 칩을 별도로 만드는 등의 노력이 이어지고 있지만, 반도체 개발은 설계부터 양산까지 최소 2년 이상의 시간이 소요됩니다. 반면 데이터 및 모델 검증을 통해 중복 데이터 및 편향 데이터를 제거함으로써 보다 빠르고 효율적으로 AI의 전력 사용 문제를 해결하고, 나아가 탄소 배출을 줄일 수 있습니다.
과학기술정보통신부는 한국지능정보사회진흥원(NIA)와 함께 '2024년 초거대 인공지능(AI) 확산 생태계 조성 사업'을 시작했습니다. 이 사업에서는 법률, 보건의료, 교육, 국방 등 총 10개 영역에서 63종 데이터를 AI 학습에 적합한 형태와 내용으로 확보·구축하여 AI 허브에 공개하고, 추가로 7종의 데이터를 구축할 예정입니다. 이를 위해 데이터 과제(종)당 6억원을 지원하여 총 70종의 학습데이터 구축에 420억원을 투입합니다.
이번 사업의 목적은 초거대 AI 데이터를 구축·개방하여 AI 생태계를 조성하고 AI 일상화를 실현하는 것입니다. 이를 통해 다양한 산업 분야에서 AI 활용의 기반을 마련하고, 데이터의 활용도를 극대화하고자 합니다.
대학, 공공기관, 정부, 지자체, 협회 등은 민간기업과 함께 컨소시엄을 구성하여 초거대AI 학습에 필요한 데이터를 구축합니다. 이 과정에서 한국정보통신기술협회(TTA)는 데이터 품질을 검증하여 신뢰성 있는 데이터를 제공할 수 있도록 지원합니다.
이경하 한국과학기술정보연구원(KISTI) 초거대AI연구단장은 2024년 4월 25일 서울 여의도 콘래드 서울 호텔에서 열린 머니투데이 글로벌 콘퍼런스 \
KISTI는 과학기술 연구를 지원하기 위한 도구로서 특정 영역에 특화된 소형언어모델(sLLM)을 개발하고 있습니다. 이경하 단장은 LLM이 특정 데이터셋으로 추가 학습을 수행하는 파인튜닝 기술을 통해 성능을 향상시킬 수 있다고 설명했습니다. KISTI는 매일 방대한 양의 논문을 분석해 연구 취약점과 향후 연구 계획을 추출하는 목표를 가지고 있습니다. 이를 통해 LLM이 논문 분석을 넘어 실험 설계와 수행을 지원하는 단계에까지 이르렀습니다.
KISTI는 한국어에 특화된 언어모델을 발전시키고 이를 바탕으로 보안 데이터가 외부에 유출될 가능성을 줄인 상태에서 과학기술 연구 지원 서비스를 준비 중입니다. 이경하 단장은 LLM을 통해 복잡한 실험을 자율적으로 설계하고 수행할 수 있는 수준까지 도달했다고 말씀하였습니다. 이러한 기술력을 기반으로 특정 분야의 sLLM에 대한 수요에 대응하는 것이 목표입니다.
이 리포트는 2024년 대한민국의 초거대 언어모델(LLM) 관련 연구들이 기술적 발전은 물론 사회적, 법적, 환경적 문제들을 고루 다루고 있음을 보여줍니다. 주요 발견 사항으로는 업스테이지의 SOLAR 모델이 세계 1위를 차지하며 초거대 언어모델의 성능을 입증한 것과 로봇 에이전트를 위한 Semantic Skill Grounding 기법, DEDER 프레임워크 등의 정책 학습, 생성형 AI의 법적 대응 방안, 그리고 AI의 전력 사용 문제와 환경적 영향을 줄이기 위한 검증 방식 등이 있습니다. 이러한 연구들은 대한민국의 AI 기술력 향상과 지속 가능한 AI 생태계 조성에 중요한 기여를 하고 있습니다. 향후 연구에서는 보다 구체적인 데이터와 사례를 통해, 초거대 언어모델의 적용 범위와 그 효과성을 더욱 심도 있게 규명할 필요가 있습니다. 특히, LLM의 윤리적 이슈와 환경 문제를 적극적으로 해결하는 방향의 연구가 지속되어야 합니다. 이를 통해 대한민국은 글로벌 시장에서 AI 기술의 리더로 자리매김할 수 있을 것입니다.
초거대 언어모델(LLM)은 대규모 데이터와 컴퓨팅 자원을 활용하여 문장을 이해하고 생성할 수 있는 인공지능 모델입니다. 2024년 대한민국에서는 다양한 연구와 응용 사례들을 통해 LLM의 성능을 향상시키고, 그 활용 범위를 넓혀가고 있습니다.
로봇 에이전트가 명령을 따를 때 필요한 스킬을 특정 환경에 최적화하여 실행하도록 하는 기법입니다. 이 기법은 초거대 언어모델을 활용하여 로봇의 유연한 작업 수행 가능성을 높입니다.
임바디드 인공지능 에이전트를 위한 정책 학습 프레임워크로, 초거대 언어모델에서 오프-the-shelf 에이전트로 지식을 증류하는 방법을 다룹니다. 이를 통해 다양한 환경에서의 적응력을 개선합니다.
생성형 인공지능(AI)은 주어진 데이터를 기반으로 새로운 콘텐츠를 생성하는 AI 기술입니다. 대표적인 예로 챗GPT가 있으며, 이러한 기술은 사이버범죄 등 새로운 사회적 문제를 야기할 수 있습니다.
과학기술정보통신부와 한국지능정보사회진흥원이 주관하는 사업으로, AI 학습에 적합한 다양한 데이터를 구축하고 공개하는 것을 목표로 합니다. 이를 통해 AI 생태계를 활성화하고 일상화할 수 있도록 지원합니다.
한국과학기술정보연구원(KISTI)이 개발 중인 AI 서비스로, 연구자의 정보 소비와 논문 데이터 분석을 돕고 연구 설계에 활용될 수 있습니다. sLLM을 통해 과학기술 연구에 특화된 인공지능 모델을 제공합니다.