Your browser does not support JavaScript!

2024년 상업적으로 이용 가능한 오픈 LLM 목록과 라이선스 정보 분석

일일 보고서 2024년 07월 08일
goover

목차

  1. 요약
  2. Meta Inc.의 Llama 시리즈
  3. Google DeepMind의 Gemma 시리즈
  4. Mistral AI의 LLM
  5. Microsoft의 Phi 시리즈
  6. Nomic AI의 GPT4All
  7. Alibaba의 Qwen 시리즈
  8. 서울과기대 및 테디썸의 Blossom
  9. 기타 오픈소스 LLM
  10. 결론

1. 요약

  • 이 리포트는 2024년 상업적으로 이용 가능한 다양한 오픈 LLM(대규모 언어 모델)들의 특성과 라이선스 정보를 분석하는 데 목적을 두고 있습니다. Llama 3, Gemma, Mistral, Blossom 등 다양한 모델들에 대해 개발사, 파라미터 오픈 여부, 체크포인트 오픈 여부, 오픈 일시, 라이선스 정보 등을 다룹니다. 예를 들어, Meta Inc.의 Llama 3는 상업적 사용이 가능하며, Google DeepMind의 Gemma는 경량화된 뛰어난 성능을 자랑하고 있습니다. Mistral AI의 Mistral7B는 다중 언어를 지원하면서 70억 개의 파라미터를 갖추고 있으며, 서울과기대와 테디썸이 개발한 Blossom은 한국어 어휘 특화 모델로 높은 성능을 보입니다. 이 리포트는 각 모델의 상업적 활용 가능성을 이해하는 데 도움을 줍니다.

2. Meta Inc.의 Llama 시리즈

  • 2-1. Llama 3의 개요 및 라이선스 정보

  • Meta Inc.에서 개발한 Llama 3는 다양한 크기의 모델로 제공되며, 상업적 및 학술적 용도로 사용 가능하도록 오픈소스로 공개되었습니다. 주요 모델 크기는 8B, 13B, 70B로 구성되어 있습니다. 특히 Llama 3 모델은 GPT-4 Turbo의 컨텍스트 윈도우 128K에 비해 8192의 컨텍스트 윈도우를 갖추고 있습니다. LongLlama와 같은 특정 버전의 경우 컨텍스트 윈도우가 최대 256K까지 확장됩니다. Llama 3는 상업적 사용이 가능하나, 사용자가 직접 모델을 개선하려면 Llama 및 그 파생 모델에 한정됩니다. 월간 활성 사용자(MAU)가 7억 명을 초과할 경우 특별 라이선스가 필요합니다.

  • 2-2. Llama 2의 개요 및 라이선스 정보

  • Meta Inc.의 Llama 2는 Llama 1의 후속 모델로, 7B, 13B, 70B 세 가지 크기로 제공됩니다. Llama 2는 학술적 및 상업적 용도로 모두 사용 가능하며, 공공 데이터 홉에서 다운로드 받을 수 있습니다. 이 모델들은 A100-80GB 그래픽 카드 기준으로 약 330만 시간의 학습 시간이 필요하며, 총 539톤의 이산화탄소를 배출합니다. Llama 2의 70B 모델은 현재 오픈 소스 LLM 중 최고 성능을 자랑하며, MMLU(Massive Multi-Task Language Understanding) 벤치마크에서 68.9점을 기록하여 GPT-3.5와 근소한 차이를 보입니다. 월간 활성 사용자 7억 명까지 무료로 상업적 이용이 가능합니다.

3. Google DeepMind의 Gemma 시리즈

  • 3-1. Gemma의 개요 및 라이선스 정보

  • Gemma는 Google DeepMind에서 개발한 경량형 오픈 LLM(대규모 언어 모델)입니다. 이 모델은 Gemini 모델을 개발할 때 사용된 연구와 기술을 기반으로 만들어졌습니다. Gemma는 크기에 비해 뛰어난 성능을 자랑하며, 텍스트 요약, 질문 응답, 창작 글쓰기 등의 작업에서 더 큰 오픈 모델들을 능가하는 성과를 보여줍니다. 코드 작성을 위한 목적으로 미세 조정된 'Code Gemma'도 있습니다. Gemma의 모델 크기는 2억 개 파라미터에서 7억 개 파라미터까지 다양합니다. 이 모델은 최신 기술로 경량화되었으나, 여전히 높은 성능을 유지하고 있어 다양한 AI 작업에 적합합니다. 라이선스 정보와 관련하여 구체적인 내용은 두 참고 문서에서 명시되지 않았으나, Gemma는 상업적으로 이용 가능한 오픈 소스 라이선스를 가지고 있을 가능성이 높습니다. 구체적인 라이선스 조건은 추가 자료를 통해 확인할 필요가 있습니다. 참고 문서들: - "The Surprisingly Simple Way to Build Your Own Local 'ChatGPT'" (문서 ID: go-public-web-eng-4325696248865410143-0-0) - "Install Ollama AI on Ubuntu Linux to Use LLMs on Your Own Machine" (문서 ID: go-public-web-eng-249339587307803637-0-0)

4. Mistral AI의 LLM

  • 4-1. Mistral AI의 개요 및 라이선스 정보

  • Mistral AI는 대규모 언어 모델(LLM)을 제공하는 주요 기업 중 하나입니다. 이 회사는 다양한 오픈 LLM을 제공하며, 상업적으로 이용 가능한 모델들을 개발하고 있습니다. 대표적으로 Mistral7B 모델이 있으며, 이는 70억 개의 파라미터를 갖춘 모델로 다중 언어를 지원합니다. Mistral AI의 LLM은 상업적 용도로도 활용될 수 있으며, 개발사에서 제공하는 라이선스 조건에 따라 이용 가능성을 검토해야 합니다.

  • 4-2. Aya와 Mistral7B 소개

  • Aya 모델은 23개의 언어를 지원하는 다국어 모델로, 다양한 언어 간의 번역 및 텍스트 처리 작업에 매우 유용합니다. Mistral7B 모델은 Mistral AI에서 개발한 70억 개의 파라미터를 가진 모델로, 다양한 텍스트 생성 및 분석 작업에서 높은 성능을 보입니다. 두 모델 모두 상업적 활용이 가능하며, Mistral AI의 라이선스 조건에 따라 사용 가능 여부를 판단할 수 있습니다.

5. Microsoft의 Phi 시리즈

  • 5-1. Phi3의 개요 및 라이선스 정보

  • Phi3는 Microsoft에서 개발한 대규모 언어 모델(LLM) 시리즈 중 하나로, 상업적인 용도로 사용할 수 있습니다. 이 모델은 다양한 상업적 및 학술적 목적을 위해 설계되었으며, 현재 널리 사용되고 있는 오픈 LLM 중 하나입니다. Phi3 모델의 파라미터는 공개되어 있지 않지만, 체크포인트는 공개되어 사용자들이 이를 활용해 다양한 응용 프로그램에 통합할 수 있습니다. Phi3의 공개 일시는 정확히 명시되어 있지 않지만, Microsoft는 이를 통해 다양한 상업적 활용을 지원하고자 합니다. Phi3는 Microsoft의 특정 라이선스 조건 하에 제공되며, 사용자는 이를 준수해야 합니다.

6. Nomic AI의 GPT4All

  • 6-1. GPT4All의 개요 및 라이선스 정보

  • GPT4All은 Nomic AI가 개발한 대규모 언어 모델(LLM)입니다. 이 모델은 로컬에서 실행 가능하며, 다양한 공개 LLM과 호환됩니다. 회사는 이를 통해 사용자가 데이터 보안을 강화하고, 퍼블릭 LLM의 제한 없이 개인화된 AI 모델을 구축할 수 있도록 합니다. GPT4All은 로컬 환경에서 챗봇을 실행할 수 있는 데스크톱 클라이언트를 제공합니다. 이 클라이언트는 Windows, macOS 및 Ubuntu에서 이용 가능하며, 2024년 4월 기준으로 약 10개의 로컬 실행 모델을 다운로드할 수 있습니다. 대표적으로 Meta AI의 Llama-2-7B 모델이 있습니다. 또한 OpenAI의 GPT-3.5 및 GPT-4와도 연동이 가능합니다. GPT4All의 라이선스 정보는 상업적 사용이 가능하다고 명시되어 있습니다. 특히 상업적 사용이 가능한 Falcon-q4_0 모델은 상업적으로 높은 평가를 받고 있으며, 소규모의 비교적 작은 모델로 라이선스가 허가된 상태입니다.

7. Alibaba의 Qwen 시리즈

  • 7-1. Qwen2의 개요 및 라이선스 정보

  • Qwen2는 Alibaba에서 개발한 대규모 언어 모델(LLM)입니다. 이 모델은 상업적으로 이용 가능하며, 파라미터 오픈 및 체크포인트 오픈 여부가 중요한 특징 중 하나입니다. Qwen2의 개발사는 Alibaba이며, 라이선스 정보는 아직 구체적으로 명시되지 않았습니다. 따라서, Qwen2를 상업적으로 사용하고자 하는 사용자들은 활용전에 반드시 라이선스 조건을 검토할 필요가 있습니다. 현재까지의 정보로는 Qwen2가 다양한 AI 및 챗봇 프로젝트에 유용하게 활용될 수 있는 가능성을 보여줍니다.

8. 서울과기대 및 테디썸의 Blossom

  • 8-1. Blossom의 개요 및 라이선스 정보

  • 서울과학기술대학교 다층퍼셉트론(MLP)연구실과 테디썸은 메타의 오픈소스 거대언어모델(LLM) 라마3(LLama3-70B) 기반으로 한 한국어 어휘 확장 대형 모델인 블라썸(Bllossom)을 세계 최초로 개발하여 공개했습니다. 블라썸 모델은 서울과기대 슈퍼컴퓨팅센터의 지원을 받아 많은 수의 GPU를 활용해 어휘 확장 및 영어-한국어 지식 연결 학습 등을 수행하였습니다. 테디썸은 이 모델을 전체 공개하여 개별적인 추가 학습과 상업적 이용이 가능하도록 했는데, 이는 상업적 이용 가능성을 높이는 중요한 요소로 작용합니다.

  • 8-2. 한국어 어휘 특화 모델로서의 Blossom

  • 블라썸 모델은 한국어 어휘 특화를 위해 다음과 같은 작업들이 수행되었습니다: ▲한국어 표현력 강화를 위한 3만개가 넘는 한국어 어휘 추가 ▲한국어 어휘 표상 학습을 위한 대규모 사전학습 ▲한국어-영어 지식 연결을 위한 병렬학습 ▲한국어-영어 지식 표현을 위한 지시미세조정 ▲사용자 피드백 기반의 강화학습. 이러한 작업 덕분에 블라썸 모델은 기존의 70B 모델들에 비해 높은 성능을 보여주며 특히 한국어 답변에 대해서는 라마3 70B 기본모델 대비 89% 더 높은 답변 선호도를 기록했습니다. 또한, 이 모델은 25% 확장된 컨텍스트 활용이 가능하여 GPT3.5와 유사하거나 약간 앞선 성능을 보여줍니다.

9. 기타 오픈소스 LLM

  • 9-1. Falcon 모델의 개요 및 라이선스 정보

  • Falcon 모델은 다양한 상업적으로 이용 가능한 오픈 LLM 중 하나로, 특히 강력한 성능과 유연한 활용 가능성으로 널리 알려져 있습니다. Falcon 모델의 훈련 코드는 공개적으로 제공되며, 모델 가중치는 응용 프로그램을 통해 얻을 수 있습니다. Falcon 모델은 주로 오픈된 데이터를 활용하여 훈련되었으며, 이는 다양한 테스트에서 뛰어난 성능을 발휘할 수 있도록 합니다. 이 모델은 주로 Hugging Face 저장소에 등록되어 있으며, 접근성 면에서 뛰어난 장점을 가지고 있습니다.

  • 9-2. Llama3-V의 개요 및 성능 데이터

  • Llama3-V는 Meta에서 제공하는 오픈소스 LLM으로, 고성능과 다양한 활용 가능성으로 주목받고 있습니다. Llama3-V의 모델 가중치, 코드 및 훈련 데이터셋은 Hugging Face와 GitHub과 같은 플랫폼에서 공개적으로 제공됩니다. Llama3-V는 멀티모달 AI 분야에서 혁신을 촉진하고 기술을 보다 널리 활용할 수 있도록 하기 위해 만들어졌습니다. 성능 측면에서 Llama3-V는 여러 벤치마크에서 GPT-4-V와 유사하거나 더 나은 성능을 보였습니다. 이는 Llama3-V가 GPT-4-V보다 100배 작음에도 불구하고 대부분의 지표에서 뛰어난 성능을 발휘함을 보여줍니다. 또한 Llama3-V는 인기 있는 멀티모달 모델인 Llava보다 10-20% 더 나은 성능을 보여주며, 대부분의 폐쇄형 모델과 유사한 성능을 제공합니다.

10. 결론

  • 이 리포트를 통해 다양한 상업적 오픈 LLM의 특성과 라이선스 정보를 분석한 결과, Llama 3, Gemma, Mistral, Blossom 등의 모델이 상업적으로 강력한 가능성을 보이고 있음을 확인할 수 있었습니다. 특히, Blossom은 한국어 어휘 특화 모델로 매우 높은 성능을 자랑하며, Meta Inc.의 Llama 3 모델 또한 상업적으로 광범위하게 이용될 수 있습니다. 그러나 각 모델의 라이선스와 조건을 정확히 이해하고 준수하는 것이 필수적이며, 이를 통해 합법적이고 효율적인 상업적 활용 방안을 모색할 수 있습니다. 향후 연구에서는 더 많은 오픈 LLM의 성능과 라이선스 조건을 분석하여 더욱 폭넓은 데이터 기반의 인사이트를 제공하는 것이 필요합니다. 또한, 새로운 모델들의 성능과 라이선스 정보를 지속적으로 업데이트하여 사용자에게 실질적인 활용 지침을 제공하는 노력이 필요합니다.