Your browser does not support JavaScript!

LMM(Large Multimodal Model) 혁신과 응용 사례

일일 보고서 2024년 07월 26일
goover

목차

  1. 요약
  2. LMM 개요
  3. KAIST의 오픈 소스 LMM
  4. LMM의 상업적 및 실질적 응용 사례
  5. LMM의 미래 전망
  6. 결론

1. 요약

  • 본 리포트는 다양한 데이터를 통합적으로 처리할 수 있는 LMM(Large Multimodal Model)의 개념과 기술적 혁신, 그리고 실질적 응용 사례를 다룹니다. KAIST의 콜라보(CoLLaVO)와 모아이(MoAI) 기술을 통해 LMM의 시각 성능을 크게 향상시켰으며, 솔트룩스는 이를 수산양식 산업에 적용하여 데이터 기반의 과학적 관리 체계를 구축하고 있습니다. 또한, LMM의 미래 전망과 다양한 산업에서의 응용 잠재력도 평가하며, 향후 발전 방향을 모색합니다.

2. LMM 개요

  • 2-1. LMM의 정의와 개념

  • LMM(Large Multimodal Model)은 텍스트뿐만 아니라 이미지 데이터와 같은 다양한 형태의 데이터를 통합적으로 처리할 수 있는 대형 언어 모델입니다. 이는 인간의 뇌에 있는 신경망의 개수와 유사한 수준의 초대형 모델로, 기존의 단일 모달 모델과 달리 다양한 형태의 데이터를 함께 처리할 수 있는 기능을 갖추고 있습니다. 이러한 LMM은 사용자가 시각적 정보와 언어적 정보를 동시에 이해하고 처리할 수 있도록 함으로써, 다양한 응용 분야에서 강력한 성능을 발휘합니다.

  • 2-2. 기존 LLM과의 차이점

  • 기존 LLM(Large Language Model)은 주로 텍스트 데이터를 처리하는 데 집중한 반면, LMM은 텍스트와 이미지 데이터를 동시에 처리할 수 있는 능력을 갖추고 있습니다. KAIST의 연구에 따르면, 공개형 LMM은 GPT-4V와 같은 비공개 상업 모델보다 시각 성능이 뛰어나다고 합니다. 특히, 연구팀이 개발한 '콜라보(CoLLaVO)'와 '모아이(MoAI)' 기술은 기존 모델에서 부족했던 이미지 이해 능력을 획기적으로 개선하였습니다. 콜라보(CoLLaVO)는 이미지 내의 정보를 배경과 물체 단위로 분할하여 시각적 프롬프트인 '크레용 프롬프트(Crayon Prompt)'를 사용하고, '듀얼 큐로라(Dual QLoRA)' 학습 전략을 통해 시각-언어 태스크 처리 능력을 향상시켰습니다. 모아이(MoAI)는 인간의 인지과학적 요소를 반영하여, 기존의 시각 인코더(vision encoder)보다 더 종합적인 이미지 이해 능력을 제공합니다.

3. KAIST의 오픈 소스 LMM

  • 3-1. KAIST 연구팀의 LMM 개발

  • KAIST(한국과학기술원)의 전기전자공학부 노용만 교수 연구팀이 오픈 소스 대형 멀티모달 모델(LMM)을 개발했습니다. 이 모델은 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)보다 뛰어난 시각 성능을 자랑합니다. 연구팀은 단순히 모델의 크기를 키우거나 고품질 시각적 지시 조정 데이터셋을 만들지 않고, LMM의 시각 성능을 획기적으로 높였습니다. 이를 통해 오픈 소스 LMM이 상업 모델의 성능을 뛰어넘는 결과를 얻게 되었습니다.

  • 3-2. 콜라보(CoLLaVO) 기술

  • 콜라보(CoLLaVO) 기술은 현존하는 오픈 소스 LMM의 성능이 폐쇄형 모델보다 현저히 낮은 이유를 이미지 이해 능력에서 찾았습니다. 이를 개선하기 위해 연구팀은 이미지를 배경과 물체 단위로 분할하고, 각 배경 및 물체에 대한 정보를 LMM에 직접 입력하는 '크레용 프롬프트(Crayon Prompt)'를 새롭게 제안했습니다. 또한, 크레용 프롬프트로 학습한 정보를 잃지 않기 위해 물체 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 매개변수로 학습하는 '듀얼 큐로라(Dual QLoRA)' 학습 전략을 제안했습니다. 이로 인해 콜라보 LMM은 이미지 내에서 배경 및 물체를 구분하는 능력이 크게 향상되었습니다.

  • 3-3. 모아이(MoAI) 기술

  • 모아이(MoAI) 기술은 인간이 사물을 판단할 때의 인지과학적인 요소들을 바탕으로 개발되었습니다. 기존 LMM이 텍스트에 의미적으로 정렬된 시각 인코더만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 개선했습니다. 연구팀은 컴퓨터 비전 모델들의 결과를 인간이 이해할 수 있는 언어로 변환한 뒤 LMM에 입력으로 직접 사용했습니다. 이러한 접근 방식을 통해 모아이는 현실 세계의 상황을 보다 정확하게 판단할 수 있게 되었습니다.

4. LMM의 상업적 및 실질적 응용 사례

  • 4-1. 솔트룩스의 수산양식 산업 적용

  • 솔트룩스는 과학기술정보통신부와 정보통신산업진흥원이 주관하는 2024년 지역 자율형 디지털 실증 지원사업의 일환으로 수산양식 산업에 LMM을 적용하는 사업을 추진하고 있습니다. 이 사업은 수산양식 산업 전반에 데이터 분석 및 활용 환경을 조성하는 것을 목표로 하고 있으며, 전남정보문화산업진흥원이 주관하고 솔트룩스, 국립목포대학교, 유에스티21이 공동 수행자입니다. 세부 사업 범위는 다음과 같습니다: - 수산양식 지능형 플랫폼 구축 - AI 기반 의사결정 지원시스템 구축 - 실증 및 서비스 사업화 지원 솔트룩스는 LMM 구현 알고리즘과 엔진 개발을 맡고 있으며, 도서 420만권 분량의 한국어 데이터를 학습한 LLM '루시아'와 언어모델 구축 솔루션 '랭기지 스튜디오', 인지검색 솔루션 '서치 스튜디오', 지식관리 솔루션 '날리지 스튜디오'를 활용하여 어민들이 수산양식과 관련된 정보를 즉각적으로 제공받을 수 있는 맞춤형 플랫폼을 구축할 계획입니다. LMM 개발 단계에서는 어장 공간 이미지 설명 모델 개발, 어민 특화 음성 인식 모델 개발, 어장공간정보 RAG 기반 LMM 개발이 포함됩니다. LMM 기반 AI 의사결정 지원시스템에는 효율적인 수산양식 활동에 도움이 되는 AI 기반 사회적 경제적 예측 모델과 이종데이터 동기화 알고리즘을 적용하고, 서비스 API를 구현하여 향후 효율적인 사업화를 지원합니다. 또한, 고연령층을 고려하여 자연어 처리 기반의 텍스트, 이미지, 음성 등 멀티미디어 형태로 답변을 제공하는 프롬프트 서비스도 구축할 예정입니다. 그래프 RAG 기술도 활용하여 답변의 신뢰도를 강화하고 환각 현상을 최소화합니다. 그래프DB와의 결합 및 연결 정보 기반 의미 탐색을 통해 기존 RAG보다 훨씬 정확한 답변을 제공하며, 정보의 최신성을 유지할 수 있습니다. 솔트룩스는 이러한 AI 의사결정 지원시스템이 어민들의 수산양식 활동 전 주기를 지원함으로써 기존의 경험 기반 관행 어업에서 벗어나 데이터 기반의 과학 수산양식 관리로의 체질 개선을 이루어낼 수 있을 것이라고 기대하고 있습니다. 이경일 솔트룩스 대표는 수산 양식장의 생산성 향상과 비용 절감뿐만 아니라, 이상기후와 해양생태계 변화 등의 불확실성에 더욱 효과적으로 대응할 수 있는 환경이 조성될 것이라고 밝혔습니다.

  • 4-2. AI 의사결정 지원시스템 개발

  • 솔트룩스는 LMM을 기반으로 한 AI 의사결정 지원시스템 개발에 착수하였습니다. 이 시스템은 어민들이 수산양식 활동에서 효율적으로 의사결정을 내리는 데 도움을 주기 위해 설계되었습니다. AI 의사결정 지원시스템의 주요 기능은 다음과 같습니다: - AI 기반 사회적 경제적 예측 모델 적용 - 이종데이터 동기화 알고리즘 적용 - 서비스 API 구현을 통한 효율적인 사업화 지원 이 시스템은 경제적·사회적 예측 모델을 통해 어민들에게 효율적인 양식 활동을 지원하며, 다양한 데이터를 동기화하는 알고리즘을 적용해 보다 정확하고 통합된 정보를 제공합니다. 서비스 API를 통해 향후 다양한 플랫폼과 연계하여 보다 광범위한 서비스가 가능하도록 합니다. 또한, 고연령층 어민을 고려해 자연어 처리 기반의 텍스트, 이미지, 음성 등 다양한 멀티미디어 형태로 정보를 제공할 수 있는 프롬프트 서비스도 포함되어 있습니다. 이는 어민들이 보다 쉽고 빠르게 필요한 정보를 얻을 수 있도록 돕습니다. 그래프 RAG 기술을 활용하여 답변의 신뢰도를 강화하고 환각 현상을 최소화할 계획입니다. 그래프DB와의 결합 및 연결 정보 기반 의미 탐색을 통해 기존의 RAG보다 정확하고 최신의 정보를 제공할 수 있습니다. 솔트룩스는 이러한 AI 의사결정 지원시스템이 어민들의 수산양식 활동 전반을 지원함으로써 기존의 관행적 방식에서 벗어나 데이터 기반의 과학적 관리로 전환될 것이라고 보고 있습니다. 이경일 솔트룩스 대표는 새로운 시스템이 수산양식 산업의 생산성 향상과 비용 절감, 이상기후 대응 등 다양한 문제를 효과적으로 해결할 수 있을 것이라고 언급하였습니다.

5. LMM의 미래 전망

  • 5-1. LMM의 발전 가능성

  • 최근 LLM(Large Language Models)의 발전은 시각-언어 추론, 이해 및 상호작용 능력에서 큰 성과를 이루었습니다. LLM은 시각 신호를 LLM에 투영시켜 세상을 시각적으로 인식할 수 있는 능력을 갖추게 됩니다. 이는 다양한 시각 인코딩 전략이 중요한 역할을 하는 여러 시나리오에서 현대 프레임워크가 이를 달성하는 방식입니다. 그러나 실제 이미지는 다양한 해상도와 가로세로 비율을 포함하기 때문에 LLM이 여러 도메인과 작업에서 significant challenges를 겪게 합니다. 이러한 문제를 해결하기 위해 LLaVA-UHD 프레임워크는 고해상도 및 g변화하는 가로세로 비율을 처리할 수 있는 능력을 갖추고 있으며, 이는 높은 수준의 정확성과 효율성을 유지하면서 이미지를 처리할 수 있도록 합니다.

  • 5-2. 다양한 산업에서의 응용 잠재력

  • LLaVA-UHD 프레임워크는 다양한 산업에서 응용 잠재력이 큽니다. 이 프레임워크는 시각 인코딩 전략의 체계적 결함을 드러내고 이를 해결하기 위해 고안되었습니다. 예를 들어, 수산양식 산업에서 고해상도 이미지와 다양한 가로세로 비율을 처리하여 개체 인식 및 작은 물체에 대한 이해도를 증가시키는 데 크게 기여할 수 있습니다. 이와 같이, LMM은 다양한 산업 분야에서 실질적으로 활용될 수 있는 가능성을 가지고 있으며, 이는 앞으로의 발전 가능성을 시사합니다.

6. 결론

  • LMM(Large Multimodal Model)은 텍스트 및 이미지와 같은 다양한 형태의 데이터를 동시에 처리할 수 있는 혁신적인 기술로, KAIST 연구팀이 개발한 콜라보(CoLLaVO)와 모아이(MoAI) 기술을 통해 시각 성능이 대폭 향상되었습니다. 솔트룩스는 이를 수산양식 산업에 성공적으로 적용하여 데이터 기반의 과학적 관리 체계를 구축하고 있습니다. 이러한 응용 사례는 LMM이 다양한 산업 분야에서 실질적으로 활용될 가능성을 보여줍니다. 그러나, LMM이 보다 광범위한 응용을 위해서는 기술적 한계 극복 및 지속적인 연구와 지원이 필요합니다. 앞으로 LMM은 더욱 발전하여 더욱 다양한 산업에서 중요한 역할을 할 것으로 기대됩니다.

7. 용어집

  • 7-1. KAIST [기관]

  • KAIST(한국과학기술원)은 GPT-4V 및 기타 상업 모델보다 뛰어난 시각 성능을 가진 오픈 소스 LMM을 개발한 연구기관입니다. 연구팀은 콜라보(CoLLaVO)와 모아이(MoAI)라는 두 가지 핵심 기술을 통해 성능을 개선하였습니다.

  • 7-2. 콜라보(CoLLaVO) [기술]

  • 콜라보는 이미지 내의 정보를 배경과 물체 단위로 분할하여 시각적 정보를 더 잘 이해하게 하는 '크레용 프롬프트(Crayon Prompt)' 기법을 도입한 기술로, KAIST 연구팀에 의해 개발되었습니다.

  • 7-3. 모아이(MoAI) [기술]

  • 모아이는 인간의 인지과학적 요소를 반영해 물체 간의 상호작용 및 상황 이해 능력을 강화하는 기술로, KAIST 연구팀에 의해 개발되었습니다.

  • 7-4. 솔트룩스 [회사]

  • 솔트룩스는 'AI 기반 어장 공간정보 빅데이터 플랫폼 구축' 프로젝트에 참여하여 LMM을 활용한 AI 의사결정 지원시스템을 개발하고 있습니다. 이를 통해 수산양식 산업의 효율성을 향상시키고 있습니다.

8. 출처 문서