이 리포트는 Meta의 대규모 언어 모델인 Llama2와 Llama3의 성능, 학습 데이터, 비용 및 접근성을 비교합니다. Llama3는 파라미터 수와 성능 면에서 Llama2보다 개선된 점이 많으며, 특히 한국어 특화 모델을 쉽게 생성할 수 있습니다. 또한, Llama3는 8B, 70B, 400B+ 모델로 다양한 옵션을 제공하며, 클라우드에 의존하지 않고 온디바이스에서도 사용할 수 있습니다. 한국어 특화 모델인 블라썸은 Llama3 70B 모델을 기반으로 하여 서울과기대와 테디썸이 개발했습니다. 블라썸은 3만 개 이상의 한국어 어휘를 추가하여 성능을 대폭 향상시켰습니다. 본 리포트에서는 두 모델의 주요 차이점과 각각의 강점을 중점적으로 다룹니다.
Llama2 모델은 한국어로 튜닝하기 위해 토크나이저에 한국어 토큰을 추가하는 복잡한 과정을 거쳐야 했습니다. 이러한 복잡성으로 인해 한국어 지원이 제한적이었습니다.
Llama3는 한국어 데이터만 추가로 학습시키면 한국어 특화 모델을 간단하게 생성할 수 있게 되었습니다. 이는 사용자가 더욱 손쉽게 한국어 처리 기능을 활용할 수 있게 만들어 주는 장점이 있습니다.
Llama3는 8B, 70B, 400B+의 세 가지 모델로 제공됩니다. 특히, 400B+ 모델은 성능이 향상되는 것으로 예상되나, 현재 학습 중이며 아직 공개되지 않았습니다. Llama3는 GPT-3.5 수준 이상의 인공지능 기능을 제공하는 반면, MMLU와 GLUE score와 같은 벤치마크에서 GPT-4보다 떨어지는 성능을 보입니다. 그러나, Llama3의 상대적으로 낮은 파라미터 양은 클라우드 기반이 아닌 온디바이스에서도 사용 가능하다는 점에서 큰 장점으로 평가되고 있습니다.
Llama2 모델은 LLM의 사전학습 데이터 중 한국어 비율이 0.06%로, 이는 전세계 인구 중 한국어 화자 비율(1.035%)에 비해 상당히 낮은 수치입니다. 이러한 한국어 비율의 저조는 고립어의 특성이나 충분하지 않은 한국어 말뭉치에 기인하고 있으며, 이로 인해 한국어 사용자들이 Llama2의 다양한 기능과 능력을 충분히 경험하기 어려운 상황입니다.
Llama3는 15조 개의 토큰으로 학습되었으며, 8B 및 70B 매개변수 모델이 공개되었습니다. 이 모델은 오픈AI의 GPT-3.5보다 성능이 뛰어난 것으로 평가되며, 특히 한국어에 특화된 모델로 알려져 있습니다. Llama3는 고급 한국어 표현력 강화를 위한 다양한 추가적인 어휘 확장 작업이 이루어졌습니다.
서울과학기술대학교와 테디썸은 Llama3 70B 모델을 기반으로 하는 한국어 특화 모델 '블라썸'을 개발하여 세계 최초로 공개하였습니다. 블라썸 모델은 한국어 표현력 강화를 위해 3만 개 이상의 한국어 어휘를 추가하였으며, 한국어 및 영어 지식 연결을 위한 대규모 사전학습과 병렬 학습 기법을 사용하여 성능을 향상시켰습니다. 반면, KoLlama2는 고려대학교의 NLP 연구실과 HIAI 연구소에 의해 개발되었으며, 한국어 instruction dataset kullm-v2를 통해 LoRA 방식으로 파인튜닝되었습니다. 두 모델 모두 한국어 지원 강화에 중점을 두고 있지만, Llama3 기반의 블라썸이 보다 발전된 기술력을 보여줍니다.
Llama2는 출시 초기부터 기본적인 접근성을 제공하였으나, 상대적으로 높은 비용으로 인해 사용자들이 사용하기에 다소 부담이 있었던 것으로 평가됩니다.
Llama3는 2024년 4월 18일에 출시되었으며, 8B, 70B, 400B+ 모델로 구성되어 있습니다. 'B'는 Billion의 약어로, 파라미터 수를 나타내며, Llama3의 기본 모델인 8B부터 최대 모델인 400B+까지 사용자의 요구에 맞춰 선택할 수 있습니다. Llama3는 비교적 낮은 파라미터 수로도 높은 성능을 발휘할 수 있어, 고사양 PC가 아닌 일반적인 사양의 PC에서도 인터넷 연결 없이도 GPT-3.5 수준 이상의 인공지능을 사용할 수 있는 이점이 있습니다. 특히, Llama3를 통해 사용자들은 자신이 원하는 기능의 챗봇으로 쉽게 커스터마이징할 수 있으며, 이를 무료로 지속적으로 사용할 수 있는 혜택이 주어집니다.
Llama3의 경우, 클라우드에 의존하지 않고도 온프레미스에서 사용할 수 있는 가능성을 제공하여 보안적인 측면에서도 유리한 특징을 가지고 있습니다. 사용자는 Llama3를 자신의 환경에 맞게 커스터마이징하여 사용할 수 있으며, 이는 사용자에게 더 큰 자유도를 제공합니다. 따라서 Llama3는 보안적인 부분에서도 더 높은 자유도를 보장하고 있습니다.
서울과학기술대학교와 테디썸은 한국어 어휘 확장이 가능한 대형 모델인 블라썸(Bllossom)을 개발하였습니다. 해당 모델은 메타의 Llama3-70B 모델을 기반으로 하며, 한국어 최초로 공개된 70B급 한국어-영어 초거대 언어모델입니다. 연구진은 블라썸 모델 개발을 위해 3만 개 이상의 한국어 어휘 추가 및 대규모 사전학습을 진행하였으며, 예외적으로 한국어와 영어를 연결하는 병렬 학습을 통해 성능을 강화하였습니다. 또한, 연구팀은 사용자 피드백에 기반한 강화학습을 통해 모델의 표현력을 크게 향상시켰습니다. 이 모델은 허깅페이스에 게재되어 있으며, 개별적인 추가 학습과 상업적 이용이 가능하다는 점에서 주목받고 있습니다.
Llama3 모델은 한국어 지원에 최적화되어 있으며, 이전 버전인 Llama2와 비교할 때 한국어 데이터만 추가 학습하는 방식으로 보다 간단하게 한국어 특화 모델을 생성할 수 있습니다. 이를 통해 다양한 기업 및 연구기관에서 자신들의 필요에 맞는 커스터마이징 사례가 증가하고 있으며, Llama3 기반의 모델을 이용하는 프로젝트들이 활발히 진행되고 있습니다. 특히, 블라썸 모델과 같이 특정 언어에 대한 어휘 확장이 성공적으로 이루어진 사례는 한국어 자연어 처리 분야에서 중요한 발전이라고 할 수 있습니다.
Llama3는 400B+ 모델로 출시되며, Llama 2에 비해 향상된 성능을 보일 것으로 기대됩니다. 이 모델은 Llama 2가 출시될 당시와는 다른 반응을 불러일으키고 있으며, 사용자들은 Llama 3가 OpenAI의 Chat GPT를 넘어서는 성능을 지닐 것이라 기대하고 있습니다. 2024년 4월 18일 페이스북의 모회사인 메타에 의해 발표된 이 모델은 어플리케이션 요구 사항에 맞춰 구성할 수 있을 것으로 보입니다.
Llama3의 발전은 멀티모달 모델 개발 가능성을 시사합니다. 멀티모달 모델이란 텍스트, 이미지, 비디오 등의 다양한 형태의 데이터를 동시에 처리할 수 있는 기능을 가진 모델을 의미합니다. 이러한 기능은 AI의 다양한 사용 사례를 확대하는 데 기여할 것입니다. 하지만 현재로서는 Llama3의 성능이 대중적으로 인정받고 있지 않으며, GPT-4와 비교했을 때 여전히 낮은 평가를 받고 있습니다.
Llama2와 Llama3 비교를 통해 Llama3는 성능 및 한국어 지원 측면에서 큰 발전을 이루었음을 확인할 수 있습니다. Llama3는 다양한 파라미터 옵션과 비용 효율성, 높은 접근성을 바탕으로 사용자 친화적입니다. 특히, 블라썸 모델은 한국어 자연어 처리 능력을 크게 향상시키며, 다양한 연구 및 상업적 목적으로 활용될 수 있습니다. 그러나 Llama3는 여전히 일부 벤치마크에서 GPT-4보다 낮은 성능을 보이며, 미래 모델인 400B+와 멀티모달 모델의 개발이 기대됩니다. 추후 연구와 모니터링을 통해 이러한 한계를 보완하고, AI의 적용 범위를 더욱 확장시킬 수 있을 것입니다.
Meta에서 개발한 대규모 언어 모델로, 한국어 학습을 위해 복잡한 추가 과정이 필요합니다. 파라미터 수가 상대적으로 적습니다.
Meta의 최신 대규모 언어 모델로, 파라미터 수가 8B, 70B, 400B+ 등으로 다양합니다. 특히, 한국어 특화 모델이 개발되었고 커스터마이징이 용이합니다.
서울과기대와 테디썸이 공동으로 개발한 Llama3 기반의 한국어 특화 모델로, 어휘 확장이 특징입니다. 이는 한국어 성능을 크게 향상시킵니다.