이 리포트는 거대 언어 모델(LLM)의 현황과 기술적 진화, 그리고 이를 개인화하기 위한 다양한 접근 방식을 다룬다. LLM의 기본 개념과 현재 성능, 주요 언어 모델의 차별점을 설명하며 Meta AI의 LLaMA 모델을 중심으로 연구 결과를 분석한다. 파인튜닝, PEFT, QLoRA 등 다양한 개인화 기법과 RAG와의 비교, 그리고 주요 벤치마크 결과도 포함된다. OpenAI, 세일즈포스 등의 AI 동향과 최신 발전 상황을 통해 LLM의 현재와 미래를 이해할 수 있도록 돕는다. 이 리포트는 LLM의 현주소를 이해하고, 이를 실질적으로 응용하는 데 필요한 정보를 제공한다.
LLM은 기존의 통계적 언어 모델(SLM)과 신경 언어 모델(NLM)에서 진화한 언어 모델로, 수천억 개 이상의 파라미터를 포함하는 대규모 언어 모델을 의미합니다. LLM은 매우 심층적인 신경망(Transformer 아키텍처)을 기반으로 하며, 특히 대규모의 텍스트 데이터를 사전 학습하여 강력한 성능을 발휘합니다.
언어는 문법 규칙에 의해 지배되는 복잡한 인간 표현 체계로, 이를 이해하고 처리할 수 있는 유능한 AI 알고리즘을 개발하는 것은 매우 어렵습니다. 통계적 언어 모델(SLM)은 차원성의 저주, 데이터 희소성 문제 등과 같은 한계가 있으며, 신경 언어 모델(NLM)은 학습 과정에서 계산 자원과 데이터의 양이 상당히 필요합니다.
최근 대규모 언어 모델(LLM)이 등장하면서 성능이 크게 향상되었습니다. 특히, 매개변수 규모가 일정 수준을 초과할 때 관찰되는 이머전트 능력(문맥 내 학습, 인스트럭션 팔로잉, 단계별 추론 능력)이 발휘됩니다. 예를 들어, GPT-3는 175B 파라미터를 가지고 있으며, 이를 통해 놀라운 언어 처리 성능을 보여줍니다.
소규모 언어 모델(PLM)과 LLM의 주요 차이점 중 하나는 모델 크기와 성능의 관계입니다. PLM은 모델 크기가 작아 이머전트 능력이 없으나, LLM은 더 큰 크기에서 고유한 능력을 발휘합니다. 이는 LLM이 자연언어 처리(NLP)의 다양한 작업에서 범용 해결사로서 작동할 수 있는 이유입니다.
LLM의 급속한 발전에도 불구하고, 연구 커뮤니티에서는 LLM의 여러 한계점을 해결하기 위해 추가적인 연구와 관심이 필요합니다. 특히, 높은 계산 자원 요구, 유해한 콘텐츠 생성 가능성 등을 극복하기 위한 방안 마련이 중요하며, 이는 AI의 책임 있는 사용과 관련된 윤리적 문제 해결에도 필수적입니다.
파인튜닝은 사전 학습된 초거대 언어 모델(Large language model, LLM)에 작은 데이터 세트에 대해 추가로 학습시켜 특정한 작업에 맞게 미세하게 조정하고 성능을 개선하는 방법입니다. 주로 모델이 응답하는 스타일, 톤앤매너, 포맷을 변경하거나, 특수한 작업에 특화시키기 위해 사용됩니다. 파인튜닝의 주요 장점은 모델의 목적을 더욱 자유롭게 바꾸어낼 수 있고, 프롬프트만으로 설명하기 어려운 특정 작업에 특화될 수 있다는 점입니다. 그러나 파인튜닝에는 모델의 파라미터 수가 커질수록 전반적인 튜닝 비용과 저장 비용이 증가하며, 새로운 정보를 학습할 때 이전 정보를 급격하게 잊어버리는 파괴적 망각(Catastrophic forgetting) 현상이 발생할 수 있다는 단점이 있습니다.
RAG(Retrieval-Augmented Generation)와 파인튜닝은 대규모 언어 모델을 개인화하는 두 가지 주요 방법입니다. OpenAI는 모델의 지식적인 측면을 수정하고자 할 때 RAG가 더 적합하며, 모델의 응답 방식과 추론 방식을 조정하고자 할 때 파인튜닝이 더 적합하다고 소개했습니다. RAG는 모델의 지식 기반을 확장하고 갱신하는 데 유리한 반면, 파인튜닝은 모델의 응답 스타일이나 특정 작업에 맞춘 조정에 유리합니다. 두 방법론은 각각의 장단점이 있어서, 사용자의 필요에 따라 선택적으로 사용될 수 있습니다.
PEFT(파라미터 효율 파인튜닝)는 모델 전체의 파라미터를 튜닝할 필요 없이 일부 파라미터만 수정하여 모델 성능을 최적화할 수 있는 방법을 의미합니다. PEFT에는 LoRA(Low Rank Adaptation)와 QLoRA(Quantized LoRA) 기법이 주로 사용됩니다. LoRA는 고정 가중치를 가진 사전 학습된 모델을 바탕으로 추가 학습이 가능한 Rank Decomposition 행렬을 트랜스포머 아키텍처의 각 레이어에 붙인 것입니다. QLoRA는 LoRA와 유사하지만, INT8 최대 절대값 양자화 기법을 통해 메모리 사용량을 더욱 절감할 수 있는 방법입니다. QLoRA는 특히 메모리 부담을 줄이면서도 일정한 성능을 유지할 수 있는 강점이 있습니다.
LoRA는 데이터가 적은 상황에서도 파인튜닝하기 용이하다는 장점이 있으며, 도메인 외부 데이터를 일반화할 때 좋은 성능을 나타냅니다. LoRA는 고정 가중치를 가진 사전 학습된 모델을 바탕으로, 훈련 가능한 레이어를 추가해 특정 작업에 맞게 모델을 조정하는 기법입니다. 예를 들어, LoRA 기법을 활용해 Meta AI의 LLaMA 7B Chat 모델을 바탕으로 나만의 데이터셋을 사용하여 파인튜닝하고 허깅페이스(Hugging Face)에 배포할 수 있습니다. 이를 통해 특정 작업에 최적화된 모델을 저비용으로 유지하면서 높은 성능을 달성할 수 있습니다.
Meta AI의 LLaMA 모델은 구글의 Transformer 모델과 OpenAI의 GPT-3 모델을 기반으로 개발되었습니다. 이 모델은 기존의 AI 모델들이 가지고 있던 고비용 추론 문제를 해결하고자 만들어졌으며, 소규모 데이터셋을 활용하여 효율적인 성능을 유지하는 것을 목표로 하고 있습니다.
구글과 Meta는 AI 발전에 크게 기여한 기업들입니다. 구글은 Transformer를 비롯하여 BERT, T5, PaLM 등 다양한 모델을 발표하였으며, Meta는 OPT와 BlenderBot을 제공한 바 있습니다. 최근 Meta는 LLaMA 모델을 공개하여 AI 연구자들에게 접근 권한을 제공하고 있습니다.
LLaMA 모델은 추론 시 컴퓨팅 예산을 고려하여 모델 파라미터의 크기를 줄여 성능을 유지하도록 설계되었습니다. 예를 들어, LLaMA-13B 모델은 GPT-3 모델보다 10배 이상 작은 파라미터 크기를 가지면서도 유사한 추론 성능을 제공합니다.
LLaMA 모델은 다양한 벤치마크에서 우수한 성능을 보였습니다. LLaMA-65B 모델은 GPT-3와 PaLM 모델을 포함한 다른 대형 언어 모델과 경쟁할 수 있는 수준의 성능을 보여주며, 대부분의 벤치마크에서 우수한 결과를 기록했습니다.
LLaMA 모델은 학습 데이터에 포함된 바이어스를 반영하고 증폭시킬 가능성이 있습니다. 이를 방지하기 위해 Meta는 다양한 벤치마크를 사용하여 모델의 독성 콘텐츠 생성 및 진실성 탐지를 평가하고 있습니다. 그러나 일부 벤치마크에서 높은 독성 점수를 보이는 경우도 있었습니다.
LLaMA 모델의 학습은 상당한 전력을 소모하며, 이에 따른 탄소 배출량도 높습니다. 예를 들어, LLaMA-65B 모델은 학습을 위해 173톤의 CO2를 배출하며, 449 MWh의 전력을 사용합니다. 또한, Meta는 LLaMA 모델을 비상업용 라이선스로 제공하여 AI 연구자들에게 모델 접근 권한을 부여하고 있습니다.
오픈AI는 런던에 첫 번째 확장 사무소를 개설했습니다. 그러나 어떤 팀이 배치될 것인지, 몇 명의 직원이 근무할 것인지, 그리고 정확히 언제 사무실이 운영될 것인지에 대한 구체적인 세부 사항은 공개되지 않았습니다.
Open Flamingo v2는 딥마인드에서 개발한 모델로, 이미지와 텍스트를 동시에 처리할 수 있습니다. 시각적 질문에 답할 수 있으며, 강력한 언어 모델링 성능을 자랑합니다. 이 모델은 MPT와 RedPajama 기본 모델을 사용하여 라이선스 사용 제한을 덜 받는 특징이 있습니다. Open Flamingo v2는 오리지널 모델보다 약 80% 더 강력하며, 데모, 코드 및 가중치가 공개되어 있습니다.
세일즈포스는 1조 5천억 개의 토큰에 대해 4K 및 8K 시퀀스 길이로 학습된 70억 개의 파라미터 모델 세트를 GitHub에 공개하였습니다. 이 모델은 현재 출시된 많은 오픈 소스 모델인 MPT 또는 Falcon과 비교해 더 우수하거나 비슷한 성능을 보입니다. 또한 상업적으로 실행 가능하지 않지만 연구 목적으로 사용할 수 있는 인스트럭트 모델도 포함되어 있습니다.
OpenAI는 ChatGPT 플러스 가입자를 위해 브라우징 기능을 도입했습니다. 이제 사용자는 ChatGPT를 통해 Bing을 검색하여 원래의 교육 데이터 이외의 시사 및 정보에 대한 답변을 얻을 수 있습니다. 그러나 Bing의 독점적인 사용은 OpenAI와 마이크로소프트의 긴밀한 관계로 인해 발생한 결정으로, Bing이 마이크로소프트 관련 결과를 우선시하고 상위 결과에 허위 정보가 많다는 우려를 낳고 있습니다.
Composer는 신경망을 더 빠르고 저렴한 비용으로 높은 정확도로 학습할 수 있게 해주는 PyTorch 라이브러리입니다. 또한 LightGlue라는 새로운 기술은 사진 간 유사성을 더 쉽고 빠르게 찾을 수 있으며, 현재 가장 좋은 방법인 SuperGlue를 개선하였습니다. LightGlue는 3D 모델 제작과 같은 실시간 애플리케이션에 매우 유용할 수 있습니다. 마지막으로, 3D-Speaker는 다양한 기기, 거리, 방언으로 녹음된 10,000명 이상의 화자로부터 수집된 대규모 오디오 데이터 모음입니다.
이 리포트는 거대 언어 모델(LLM)의 기술적 진화와 개인화 방법론의 중요성을 강조하고 있다. LLM은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이며, Meta AI의 LLaMA 모델은 이러한 발전의 중요한 예시로 제시된다. 주요 기법으로 파인튜닝, RAG, PEFT, QLoRA 등이 있으며, 각 기법의 장단점을 비교하여 사용자 맞춤형 선택이 가능하다. 특히 LLaMA 모델은 고성능을 유지하면서도 비용 효율성을 추구하며, 윤리적 문제와 탄소 발자국에 대한 고려도 필수적이다. OpenAI와 세일즈포스와 같은 주요 기업의 최신 AI 동향도 다루어져, LLM 분야의 지속적인 발전 방향을 제시한다. 이 연구는 LLM의 실제 응용 가능성을 높이기 위해 지속적인 연구와 기술 발전이 필요함을 시사하며, 향후 연구 커뮤니티의 다각적인 접근이 기대된다.
거대 언어 모델(Large Language Model)은 대규모 데이터셋을 사용해 학습된 AI 모델로, 다양한 자연어 처리 작업에서 뛰어난 성능을 보인다. 현재 AI 연구 및 개발의 핵심 기술 중 하나로, 여러 기업과 연구기관에서 활발하게 연구되고 있다.
파인튜닝은 이미 학습된 모델을 특정 작업이나 도메인에 맞추어 추가 학습시키는 방법이다. PEFT, QLoRA와 같은 최신 기법들이 존재하며, 비용 효율성과 성능 사이에서 적절한 균형을 유지하는 것이 중요하다.
Meta AI에서 개발한 LLaMA 모델은 높은 성능을 유지하면서도 추론 비용을 줄이기 위해 만든 대규모 언어 모델이다. 다양한 벤치마크에서 우수한 성능을 보이며, 비상업적 용도로 제공된다.
OpenAI는 인공지능 연구소로, ChatGPT와 같은 여러 혁신적인 AI 모델을 개발했다. 최근 런던에 사무소를 열고, AI 연구 및 개발을 전세계적으로 확장하고 있다.
세일즈포스는 CRM(Customer Relationship Management) 소프트웨어를 개발하는 회사로, 최근 7억 파라미터를 가진 LLM XGen 모델을 출시하며 AI 분야에서도 활약하고 있다.