이 리포트는 한국의 대규모 언어 모델(LLM) 발전과 최적화 기술에 대한 현재 상태와 과거 데이터를 분석합니다. 주요 목적은 한국 내 LLM 기술의 진화와 성능 최적화 기법, 그리고 경제적 요인을 포함하여 LLM의 발전 경로와 실질적인 적용 사례를 설명하는 것입니다. 특히, 네이버와 카카오 같은 기업들이 선도적 역할을 하고 있으며, 다양한 서빙 최적화 기법과 파인튜닝 기술이 LLM의 효율성을 높이는 데 중요한 역할을 하고 있습니다. 또한, 한국 정부가 중소기업의 해외 진출을 지원하고, LLM 기술 연구에 정책적 도움을 제공함으로써 인공지능 기술 발전에 기여하고 있습니다.
대규모 언어 모델(LLM)은 몇 천억 개 이상의 파라미터를 포함하는 언어 모델을 말합니다. 이는 GPT-3, PaLM, Galactica, LLaMA와 같은 대규모 텍스트 데이터를 학습하여 자연어 이해와 생성을 수행하는 모델입니다. 특히 트랜스포머 아키텍처를 기반으로 한 LLM은 매우 심층적인 신경망에 멀티헤드 주의층이 쌓여 있어 더 나은 성능을 발휘합니다. LLM의 주요 특징 중 하나는 모델 크기와 성능이 일정한 비율로 증가한다는 스케일링 법칙과, 소형 모델에서는 볼 수 없는 이머전트 능력이 특정 크기 이상에서 발생한다는 점입니다. LLM은 AI 커뮤니티에 큰 영향을 미치며, 이는 언어 처리 기술의 진화와 혁신에 중요한 역할을 합니다.
LLM의 사전 학습 과정은 먼저 대규모 라벨이 없는 말뭉치에 대해 트랜스포머 모델을 사전 학습시키는 것으로 시작됩니다. 이 과정에서 자기 주의 메커니즘을 통해 문맥 인식 단어 표현을 캡처합니다. 사전 학습된 모델은 추가적인 다운스트림 작업에 적응시키기 위해 미세 조정 단계를 거칩니다. 이 패러다임은 주로 '사전 학습 및 미세 조정' 학습으로 구분됩니다. 또한, 인스트럭션 팔로잉, 인컨텍스트 학습 등 다양한 적응 튜닝 기술이 도입되어 모델의 일반화 능력과 복잡한 작업 수행 능력을 향상시킵니다. 예를 들어, 연쇄 추론 전략을 통해 중간 추론 단계를 추가하여 복잡한 과제를 해결할 수 있습니다.
한국에서는 네이버, 카카오 등 다양한 IT 기업과 연구기관이 LLM 기술 발전에 앞장서고 있습니다. 네이버는 자사 검색 엔진과 연계하여 ChatGPT와 같은 대규모 언어 모델을 활용한 검색 최적화 기술을 개발하고 있으며, 카카오는 자사 플랫폼 내 인공지능 챗봇 서비스를 개선하기 위해 LLM을 적극적으로 도입하고 있습니다. 또한, 서울대, KAIST, 포항공대 등 여러 대학에서도 LLM 연구에 참여하여 다양한 논문을 발표하고 있습니다. 한국 정부도 LLM 기술 연구를 지원하는 정책을 통해 IT 산업의 발전을 도모하고 있습니다.
파인튜닝은 사전 학습된 초거대 언어 모델(LLM)에 작은 데이터 세트를 추가로 학습시켜 특정한 작업에 맞게 성능을 개선하는 방법입니다. 이는 LLM이 일반적인 과제를 잘 처리하면서도, 특정한 작업이나 스타일, 형식 등에 맞게 미세하게 조정할 수 있는 장점을 가지고 있습니다. 그러나 모델의 파라미터 수가 점점 증가함에 따라 기업이나 연구자가 모델 전체를 파인튜닝하는 것이 어려워지고, 파인튜닝된 모델의 저장과 사용 비용 또한 커졌습니다. 또한, 새로운 정보를 학습할 때 이전에 학습한 정보를 갑자기 잊어버리는 파괴적 망각 현상도 발생할 수 있습니다.
RAG는 모델의 지식적인 측면을 수정하고자 할 때 사용됩니다. 사전 학습된 모델을 기반으로 특정한 지식을 보완하거나 새로운 정보를 추가할 때 유용합니다. 이는 모델이 정교한 추론과 응답을 할 수 있도록 돕는 접근 방식입니다. OpenAI는 RAG와 파인튜닝을 필요한 경우를 모델의 지식적인 측면과 응답 및 추론적인 측면으로 나누어 소개했습니다.
PEFT는 모델 전체의 파라미터를 튜닝할 필요 없이, 일부 파라미터만을 튜닝하는 기법입니다. PEFT의 대표적인 기법으로는 LoRA (Low-Rank Adaptation)와 QLoRA가 있습니다. LoRA는 고정된 가중치를 가진 사전 학습된 모델에 추가 학습이 가능한 Rank Decomposition 행렬을 추가하여 별도의 훈련을 통해 학습하는 방법입니다. QLoRA는 양자화를 통해 모델의 인메모리 로드 부담을 절감시키며, 성능 또한 일정 수준 이상 유지할 수 있습니다.
LoRA는 모델의 일부 파라미터만을 업데이트함으로써 전체 파라미터를 수정했을 때에 준하는 성능을 기대할 수 있습니다. 이는 데이터가 적은 상황에서도 적용할 수 있는 장점이 있습니다. QLoRA는 INT8 최대 절대값 양자화 기법을 사용하여 메모리 사용을 최적화하면서 성능 손실을 최소화하는 방법입니다. 이러한 기법들은 대규모 모델을 보다 경제적인 자원으로 튜닝할 수 있도록 도와줍니다.
LLM(대규모 언어 모델)을 서빙하기 위해서는 수많은 기술 요건들이 필요합니다. LLM은 학습보다는 서빙 과정에서 더 많은 비용(GPU 서버 비용)이 소요됩니다. 이를 위해 스캐터랩에서도 다양한 서빙 최적화 기법들을 연구해 왔습니다. 서버 비용을 줄이기 위해 최적화된 모델을 서빙하는 기술들과 하드웨어 가속기를 활용한 서빙 방식 등에 대한 이해가 필요합니다.
1. **GPU Kernel Fusion**: GPU는 커널 단위로 연산이 이루어지기 때문에, 여러 개의 연산 커널을 하나로 합쳐 성능을 향상시키는 방법을 사용합니다. 이를 통해 메모리 접근 오버헤드를 줄여 성능을 최적화할 수 있습니다. 2. **Early Stopping**: 생성 모델 서빙 시 특정 종결 토큰이 생성되면 더 이상 연산을 하지 않아 불필요한 연산을 방지하는 방법입니다. 3. **Key/Value Caching**: Auto Regressive 모델의 Self-Attention 특성상 변경되지 않는 Key, Value 값을 캐시에 저장하여 중복 연산을 막는 기법입니다. 4. **Flash Attention**: LLM의 Transformer 연산시 발생하는 Memory Throughput Bottleneck을 해결한 기법으로, 메모리 접근을 최소화하여 연산 지연 시간을 줄입니다. 5. **Dynamic Batching**: 여러 입력을 한 번에 묶어 GPU Utilization을 최대화하는 방법으로, 최적의 batch_size와 대기 시간을 설정하여 성능을 최적화합니다.
1. **CPU 서빙**: GPU가 부족하거나 Latency/Throughput이 중요하지 않을 때 사용하는 옵션으로, Pytorch JIT-mode, HuggingFace Optimum 등을 활용해 성능을 끌어올릴 수 있습니다. 2. **GPU 서빙**: 고성능과 확장성을 위해 주로 사용되며, 대표적으로는 NVIDIA의 A100, L4 등의 GPU를 활용합니다. 클라우드 서비스를 통해 손쉽게 구현 및 확장이 가능합니다. 3. **IPU 서빙**: GPU 외에도 AWS Inferentia, 구글 TPU 등의 최신 하드웨어를 활용하여 서빙할 수 있습니다. 특히 Inferentia는 효율적인 비용으로 활용 가능합니다.
각 기법을 평가하는 데 있어 Latency와 Throughput이 중요한 지표로 사용됩니다. Latency는 응답 시간, Throughput은 단위시간 내 처리량을 의미합니다. 다양한 부하 테스트를 통해 Latency-Throughput 그래프를 작성하여 최적의 서빙 환경을 구성할 수 있습니다. 예를 들어, Dynamic Batching의 경우 특정 조건에 따라 효율이 달라질 수 있으며, 이를 통해 최적화된 배치 사이즈와 대기 시간을 설정할 수 있습니다.
한국 정부는 대규모 언어 모델(LLM) 관련 다양한 정책과 지원 사례를 통해 인공지능 기술 발전에 기여하고 있습니다. 최근 정부는 중소기업의 수출 확대를 지원하기 위해 물류비 지원과 임시선박 투입을 포함한 다양한 경제적 지원을 제공하였습니다. 또한, 무역금융 규모를 40조 원 이상 확대하여 중소기업이 겪는 물류난을 해소하고자 했습니다.
정부는 중소기업의 수출을 지원하기 위해 다양한 물류 및 금융 지원을 제공하고 있습니다. 특히, 국제 해상운임이 안정될 때까지 월 4척 이상의 임시선박을 지속 투입하고 중소기업 전용 선복 적재 용량을 주당 50TEU 증가시키는 등의 조치를 취했습니다. 이를 통해 중소기업의 수출 물류비 부담을 줄이고자 했습니다.
경제 위기 속에서 대규모 언어 모델(LLM)은 중요한 역할을 하고 있습니다. 한국 정부는 원자재 가격 상승 등 대외 리스크에 대응하고 수출 증가세를 지속시키기 위해 LLM의 활용을 강조하고 있습니다. 특히, LLM의 기술적 진화와 최적화 기법을 통해 경제 회복과 성장을 도모하고 있습니다.
이 리포트는 한국의 대규모 언어 모델(LLM) 기술 발전과 최적화 기술에 대한 포괄적인 분석을 통해 여러 중요한 발견을 하였습니다. 네이버와 카카오 같은 주요 IT 기업들과 서울대, KAIST, 포항공대 등의 학계가 LLM 연구에 적극 참여하고 있으며, 이는 한국의 LLM 기술 발전에 큰 기여를 하고 있습니다. 파인튜닝(Fine-tuning)을 통한 모델의 성능 향상과 다양한 서빙 최적화 기법(GPU Kernel Fusion, Early Stopping, Key/Value Caching 등)이 비용 효율성을 높이는 데 크게 기여하고 있습니다. 또한, 한국 정부의 지원 정책은 중소기업이 글로벌 시장에서 경쟁력을 확보할 수 있도록 도움을 줍니다. 그러나 이 연구는 더 많은 데이터와 다양한 조건에서의 추가 분석이 필요하며, 앞으로도 지속적인 연구와 발전이 필요함을 강조합니다. LLM 기술이 앞으로 더욱 발전하여 다양한 분야에서 실질적인 적용과 성과를 이룰 것으로 기대됩니다.
대규모 언어 모델(LLM)은 인공지능의 한 분야로, 대량의 텍스트 데이터를 바탕으로 학습한 모델입니다. 이는 자연어 처리(NLP) 작업에 중요한 역할을 하며, 사전 학습된 언어 모델(PLM)보다 특정 작업에서 뛰어난 성능을 보입니다. LLM을 통해 ChatGPT와 같은 대화형 AI가 가능해졌습니다.
파인튜닝(Fine-tuning)은 사전 학습된 모델을 특정 데이터셋에 맞춰세밀하게 조정하는 방법으로, LLM의 성능 향상과 개인화에 유리한 기법입니다. 그러나 비용 문제와 저장공간의 제약이 있습니다.
한국 정부는 LLM 발전 및 중소기업 지원을 위한 다양한 정책을 추진하고 있습니다. 이에 따라 무역 금융 지원, 물류 지원, 해외 전시회 참가 지원 등이 포함되며, 이는 경제 회복 및 기술 발전에 중요한 역할을 합니다.
LLM 운영 비용 관리를 위해 다양한 서빙 최적화 기법이 개발되었습니다. GPU Kernel Fusion, Early Stopping, Key/Value Caching, Flash Attention, Dynamic Batching 등 여러 기법들이 있으며, 각각 비용 효율성과 성능 향상을 목표로 합니다.