Your browser does not support JavaScript!

국가대표 파운데이션 모델 도전: 한국형 LLM 전략과 현황 분석

일반 리포트 2025년 07월 02일
goover

목차

  1. 국내 ‘소버린 AI’ 전략과 정부 정책
  2. 정부 주도 파운데이션 모델 개발 사업
  3. 민간 기업과 학계의 LLM 개발 동향
  4. 국내 LLM 구축의 과제와 대응 전략
  5. 글로벌 AI 주권 체계와 국제 비교
  6. 결론

1. 요약

  • 2025년 07월 02일 기준으로, 한국형 국가대표 대형 언어 모델(LLM) 개발 전략과 현황은 핵심적으로 민주당 정부의 '소버린 AI' 정책에 기반하고 있다. 지난 2025년 6월에는 이재명 정부가 AI미래기획수석으로 하정우 전 네이버 클라우드 센터장을 임명하며, 전략적 행보를 본격화했다. 정부는 100조 원의 투자 계획과 함께, 정예팀 공모, 데이터 공급 기관 모집, 그리고 1만 개의 GPU 지원을 통해 인프라와 데이터 체계를 강화하고 있다. 민간 부문에서도 낙후된 기술을 극복하기 위한 노력으로, 네이버의 '하이퍼클로바X 씽크', 이스트소프트의 '앨런 LLM', 서울대 연구팀의 한국어 LLM 개발이 활발히 이루어지고 있다. 그러나 보안 및 신뢰성 확보, 인재 양성, 글로벌 경쟁력 강화를 위한 해결 과제 또한 존재한다. 이러한 진전은 한국이 AI 분야에서 주도적인 입지를 확보하는 중요한 복안을 제시하고 있다.

  • AI 생태계의 발전과 관련하여 한국 정부의 '소버린 AI' 전략 발표 후, 글로벌 AI 정책 동향을 면밀히 분석하면, 미국은 AI 기술을 경제와 안보의 핵심 자산으로 여기고 있으며 대규모 프로젝트를 통해 인프라를 확충하고 있다. 중국은 중앙정부 주도의 강력한 정책으로 AI 발전을 가속화하고, 영국은 AI 데이터센터에 대한 투자 유치를 통해 안정적인 개발 환경을 조성하고 있다. 이와 함께 인도의 사례에서 볼 수 있듯, 다양한 AI 모델 개발이 필요로 하는 자원을 수급하려는 노력도 지속되고 있다. 이러한 국제적인 경쟁 환경에서는 한국의 '소버린 AI' 전략이 더욱 중요성을 가지며, 글로벌 시장에서의 경쟁력을 끌어올리는 데 중대한 역할을 할 수 있을 것이다.

2. 국내 ‘소버린 AI’ 전략과 정부 정책

  • 2-1. AI미래기획수석 임명 배경과 의미

  • 이재명 정부는 '소버린 AI'를 국가 전략의 핵심 의제로 내세우며, 지난 2025년 6월 15일 하정우를 AI미래기획수석으로 임명했습니다. 하정우 수석은 네이버 클라우드 센터장의 경력을 바탕으로 AI 개발 생태계 조성에 기여해온 인물로, 그의 임명은 AI 정책의 전문성을 반영한 중요한 결정으로 평가받고 있습니다. 이번 임명은 정부가 AI 분야에 대한 전략을 강화하고, 민간 기업과 협력하여 연구 및 개발을 본격화하겠다는 의지를 반영합니다. 또한, 하정우 수석은 AI 주권이란 개념을 강조하며, 자국 기술과 데이터를 바탕으로 독립적인 AI 생태계를 구축하겠다는 목표를 내세웠습니다. 이는 한국형 LLM(대형 언어 모델) 개발의 중요성을 부각시키며, 외국 기술 의존도를 낮추는 방향으로 나아가겠다는 의지를 드러냅니다.

  • 2-2. ‘소버린 AI’ 국가 전략 목표

  • 이재명 정부는 '소버린 AI' 전략을 통해 세계 3대 AI 강국으로 도약하겠다는 비전을 수립했습니다. 이를 위해 AI 데이터센터와 GPU 5만 개 이상의 확보, 국가 AI 데이터 클러스터 조성, 모든 국민이 AI를 활용할 수 있는 '모두의 AI' 프로젝트 등을 추진하고 있습니다. 구체적으로, 정부는 100조 원 규모의 투자를 통해 AI 인프라를 확충하고, 인재 양성을 위한 교육 프로그램을 마련하며, 한국어와 한국 문화를 반영한 독자적인 LLM을 개발할 계획입니다. 이러한 과정은 디지털 주권 확보와 국가 경쟁력 강화를 위해 필수적이라고 전문가들은 말합니다.

  • 2-3. 100조원 투자 계획과 정부 비전

  • 이재명 정부의 100조 원 투자 계획은 AI 분야 전반에 걸쳐 인프라 강화와 산업 생태계 조성을 목표로 하고 있습니다. 이 투자 계획에는 AI 데이터센터 구축, 고성능 GPU 확보, AI 인재 양성 등이 포함되어 있으며, AI 기업과의 협력을 통해 실질적인 성과를 도출할 수 있을 것으로 기대되고 있습니다. 정부는 이 계획을 통해 '소버린 AI' 전략이 단순한 구호에 그치지 않고, 실질적인 실행력을 갖춘 정책으로 발전하도록 할 것입니다. 특히 정부는 민간 기업의 AI 기술 내재화와 협력을 강화하여, 한국형 LLM을 글로벌 시장에서 경쟁력이 있는 모델로 자리 매김할 수 있도록 하겠다는 비전을 가지고 있습니다.

3. 정부 주도 파운데이션 모델 개발 사업

  • 3-1. 정예팀 공모 및 선발 절차

  • 2025년 6월 20일, 과학기술정보통신부는 국내 '독자 인공지능(AI) 파운데이션 모델' 개발을 위한 정예팀 공모를 발표했다. 이 프로젝트의 공식 명칭은 'K-AI 모델'로, 글로벌 AI 모델 대비 95% 이상의 성능을 목표로 한다. 최대 5개 팀을 선발할 예정이며, 선발된 팀들은 단계별 평가를 통해 경쟁하며 압축될 계획이다. 특히 미래 인재 육성을 위해 대학생 및 대학원생의 참여가 필수로 요구된다.

  • 공모는 정보통신산업진흥원(NIPA), 한국지능정보사회진흥원(NIA), 정보통신기획평가원(IITP)과 협력하여 진행된다. 개발할 AI 모델은 거대언어모델(LLM)과 멀티모달모델(LMM) 등으로, 선정된 팀들은 각자의 개발 전략을 제시해야 한다. 각 팀은 연 100억원의 데이터 공동구매 및 30~50억원의 구축, 가공 예산을 지원받게 되며, 초기에는 민간 보유 GPU를 사용하고, later GPU를 정부가 구매하여 지원할 예정이다.

  • 3-2. 데이터 공급 기관 모집

  • 과기정통부는 AI 파운데이션 모델 프로젝트에서 사용할 학습용 데이터 공급 기관을 공개 모집하고 있다. 이 모집은 2025년 6월 23일에 발표되었으며, 신청 기관은 필요 서류를 제출하여야 한다. 이번 모집의 목적은 한국의 독자 초거대 AI 모델 개발에 필요한 데이터 자원을 지원할 기관을 선정하는 것이다.

  • 데이터 공급 기관들은 개발팀에게 필요한 데이터를 제공하는 역할을 맡게 되며, 이는 국내 AI 생태계의 기반을 다지는 데 중요한 역할을 할 것이다. 모집 기간은 2025년 7월 21일까지 예정되어 있으며, 선정된 기관은 AI 모델의 성능 향상에 기여할 수 있는 중요한 자원으로 기능하게 된다.

  • 3-3. GPU 지원 계획과 운영 주체

  • 정부는 2025년 기준으로 1만 개의 GPU를 지원할 계획이다. 이 지원은 과기정통부가 주관하며, GPU 운영을 맡을 사업자를 공개 모집 중이다. 정부 예산으로 확보된 GPU는 정보통신산업진흥원(NIPA)에 귀속되지만, 선정된 기업은 자사의 연구 개발에 일부 활용할 수 있는 권한이 부여된다.

  • 이러한 GPU 지원은 거대언어모델(LLM)과 같은 차세대 AI 기술 개발을 적극적으로 뒷받침할 예정이다. 주요 클라우드 기업들이 이번 공모에 참여 의사를 밝히며 높은 관심을 보이고 있으며, 이는 AI 산업의 전반적인 경쟁력을 높이는 전략적 투자를 포함하고 있다.

4. 민간 기업과 학계의 LLM 개발 동향

  • 4-1. 네이버 ‘하이퍼클로바X 씽크’ 성능과 공개 계획

  • 네이버는 2025년 7월 1일, 자사의 새로운 추론 모델인 ‘하이퍼클로바X 씽크(HyperCLOVAX THINK)’를 공식 발표하며 모델의 성능과 설계를 포함한 세부 사항을 공유했다. 이 모델은 여러 주요 벤치마크 시험에서 기존의 글로벌 오픈소스 모델들보다 높은 성능을 발휘한 것으로 평가받았다.

  • 특히, 서울대학교 언어학과에서 개발한 ‘KoBALT-700’ 벤치마크를 통해 하이퍼클로바X 씽크는 다른 한국어 성능 평가 지표인 ‘HAERAE-Bench’에서도 두각을 나타냈다. 모델의 정확한 이해도와 문장 구조 분석 능력이 우수하다는 점이 강조된 바, 이는 AI가 대화의 맥락을 더욱 잘 이해하고 응답할 수 있는 기반을 마련하는 데 기여할 것으로 기대된다.

  • 네이버는 하이퍼클로바X 씽크가 단순한 언어 처리뿐만 아니라 이미지와 같은 시각 정보를 기반으로 한 추론 능력도 보유하고 있다고 밝혔다. 과학 및 기술 문제를 이미지 형식으로 입력했을 때 이를 인식하고 판단하는 능력을 강조하며, 이는 사용자와 모델 간의 상호작용을 자연스럽게 만들어 줄 것으로 예상하고 있다.

  • 추가적으로, 하이퍼클로바X 씽크의 기술적인 세부사항은 ICML 2025에서 발표될 예정이며, 모델의 오픈소스화도 계획되고 있다. 네이버는 이러한 공개를 통해 한국 AI 생태계의 발전을 도모할 방침이다.

  • 4-2. 이스트소프트 ‘앨런 LLM’ 특장점

  • 이스트소프트는 2025년 6월 17일, AI 검색 엔진 최적화에 특화된 대규모 언어 모델인 ‘앨런 LLM’을 출시했다. 이 모델은 검색 증강 생성(RAG) 기반을 통해 사용자에게 보다 정확한 정보와 맥락을 제공할 수 있는 능력을 갖추고 있다.

  • 앨런 LLM은 고도화된 팩트 체크, 검색 결과 필터링 및 랭킹 최적화 등 다양한 기능을 포함하고 있다. 특히 한국어를 기반으로 한 문맥 이해도가 뛰어나고, 고성능 AI 에이전트로서의 가능성이 높다. 이러한 기술 내재화를 통해 이스트소프트는 자사의 AI 검색 엔진 앨런을 기반으로 에이전틱 AI 서비스로의 발전을 목표로 하고 있다.

  • 이 모델은 초거대 및 경량 모델로 구성되어 있어 특정 요구사항에 맞춰 유연하게 적용될 수 있도록 설계되었다. 데이터 보호 요구가 높은 기업 환경에서도 안정적이고 신속한 AI 에이전트 구축이 가능하다는 점에서 주목할 만하다.

  • 이스트소프트는 앨런 LLM의 경량 모델을 하반기부터 오픈소스로 단계적으로 공개할 예정이며, 이를 통해 더욱 많은 개발자와 기업들이 활용할 수 있을 것으로 기대하고 있다.

  • 4-3. 서울대 연구팀 한국어 LLM 개발 사례

  • 서울대학교 데이터사이언스대학원 이재진 교수 연구팀은 2025년 7월 2일, 한국어에 특화된 대규모 언어 모델인 ‘Llama-Thunder-LLM’을 발표했다. 이 모델은 영어 기반 언어 모델인 ‘라마(Llama)’를 개선하여 개발된 것으로, 한국어 문법적 특성을 반영하여 효율적인 텍스트 처리를 가능하게 한다.

  • 이번 연구는 소규모 연구 환경에서도 고성능 한국어 LLM을 구축할 수 있음을 보여준 사례로, 팀은 3TB의 한국어 웹 데이터를 기반으로 연속 학습과 사후 학습 기술을 적용하였다. 이는 모델이 점진적으로 능력을 확장하고 사용자 피드백에 따라 더욱 정확한 결과를 제공할 수 있도록 하는 데 중요한 역할을 한다.

  • 특히, ‘Thunder-Tok’이라는 한국어 전용 토크나이저는 기존 모델 대비 토큰 수를 약 44% 단축시켜 추론 속도와 학습 효율을 높여준다. 한국어 LLM 성능을 객관적으로 평가할 수 있는 ‘Thunder-LLM 한국어 벤치마크’도 같이 개발하여, 국내 LLM의 발전을 위한 평가 체계를 확립하는 데 기여하고 있다.

  • 이재진 교수는 연구 성과가 자율적인 LLM 개발 가능성을 입증하였으며, 이를 통해 한국어 기반 LLM의 연구에 유의미한 발판이 될 것이라고 강조하였다.

5. 국내 LLM 구축의 과제와 대응 전략

  • 5-1. 보안 위협 사례와 방어 대책

  • 최근 거대언어모델(LLM)의 확산은 다양한 산업 분야에서 혁신을 가져왔으나, 그 이면에는 심각한 보안 위협이 존재하고 있다. 대표적인 보안 위협으로는 '프롬프트 인젝션', '민감 정보 유출', 그리고 '부적절한 출력'이 있다. 프롬프트 인젝션은 사용자가 의도적으로 입력 프롬프트를 설계해 LLM의 응답을 조작하는 기법으로, 이는 데이터 유출 및 신뢰성 저하를 초래할 수 있다. 민감 정보 유출은 LLM이 학습 데이터에 포함된 개인 정보나 기업 자료를 비식별정보 없이 출력하는 경우를 나타내며, 이는 법적 문제를 유발할 수 있다. 마지막으로 부적절한 출력은 LLM이 허위 정보를 생성하거나, 차별적 표현을 포함하는 결과를 초래할 수 있다. 이러한 위협들을 방지하기 위해 다층 방어 체계를 구축하고, SFT(Supervised Fine-Tuning)와 같은 커스터마이징 기법을 통해 LLM의 보안성을 강화해야 한다.

  • 5-2. 데이터 품질·양 확보 방안

  • 고품질의 데이터셋 구축은 LLM의 성능에 결정적인 영향을 미친다. 데이터 품질과 양 확보를 위해, 정부는 공공 데이터를 정제해 'AI 데이터 댐' 사업을 통해 민간 기업과 연구 기관이 공동으로 활용할 수 있는 공공 데이터셋을 제공하고 있다. 이는 민간 기업들이 고품질 데이터를 확보하여 LLM 학습에 최적의 환경을 조성하는 데 기여한다. 데이터 양을 확보하기 위해서는, 다양한 산업 데이터의 수집 및 활용을 위한 법적·제도적 장치 마련이 필요하다.

  • 5-3. 인재 양성 및 생태계 조성

  • LLM 생태계를 발전시키기 위해서는 인재 양성이 필수적이다. 정부는 AI 대학원 및 연구 기관과의 협력을 통해 고급 인재 양성을 위한 프로그램을 운영하고 있다. 또한, 다양한 산업에서 필요로 하는 특화된 인재를 육성하기 위해 직업 교육과정의 개편이 필요하다. 정부는 또한 스타트업이 AI 산업에 진입할 수 있도록 GPU 자원, 데이터셋, 정책적 지원을 아끼지 않아야 한다. 이러한 노력이 결합되어 진정한 AI 생태계를 조성할 수 있다.

  • 5-4. 글로벌 생태계 선점을 위한 전략

  • 국내 AI 기술의 경쟁력을 강화하기 위해서는 글로벌 생태계에서의 위치를 선점하는 것이 중요하다. 이를 위해 한국 정부는 AI 기술의 국산화를 추진하는 동시에, 해외 시장에서도 경쟁력을 갖추기 위해 글로벌 기업들과의 협력을 증가시켜야 한다. 또한, 소버린 AI 전략에서 강력한 데이터 주권을 확보하여 한국의 AI 기술이 국제적으로 인정받도록 해야 할 것이다. 이와 같은 정책적 노력이 병행되어야 한국이 AI 분야에서 세계적인 선도국으로 자리매김할 수 있다.

6. 글로벌 AI 주권 체계와 국제 비교

  • 6-1. 미국·중국·영국 등 주요국 AI 정책 동향

  • 미국은 AI 기술을 경제와 안보의 중요한 자산으로 간주하며, 대규모 '스타게이트 프로젝트'를 통해 AI 생태계를 구축하고 있습니다. 이 프로젝트는 약 680조원의 규모로, 민간 기업과 협력하여 초대형 데이터센터를 운영하여 AI 컴퓨팅 인프라를 확충하는 것을 목표로 하고 있습니다. 미국의 접근은 민간과 공공의 협력을 통해 AI 발전을 가속화하고 있으며, 기술 주도권 확보를 위한 전략을 지속적으로 추진하고 있음을 보여줍니다.

  • 중국은 중앙정부가 AI 전략을 강하게 주도하며, 지방정부가 이를 실행하는 형태로 AI 발전을 가속화하고 있습니다. 'AI+이니셔티브'라는 프로그램은 52조원의 투자 규모로 AI 모델과 컴퓨팅 플랫폼의 국산화를 추진하고 있습니다. 이러한 중앙집중적인 정책은 중국의 AI 기술 발전에 빠른 속도로 기여하고 있으며, 산업 경쟁력 강화를 목적에 두고 있습니다.

  • 영국은 AI 데이터센터를 국가 주요 인프라로 지정하고, 글로벌 기업의 투자를 유치하기 위한 노력을 하고 있습니다. 작년에는 서비스나우 등의 기업이 AI 데이터 인프라에 12조원 규모의 투자를 약속한 바 있으며, 이는 영국이 안정적인 AI 개발 투자처로 자리매김하는 데 기여하고 있습니다.

  • 6-2. 인도 AI 미션과 파운데이션 모델 제안

  • 인도는 '인도 AI 미션'을 통해 AI 혁신의 글로벌 리더로 자리잡기 위한 계획을 세우고 있습니다. 이 미션 하에 506개의 파운데이션 모델 제안 중 43개가 대형 언어 모델(LLMs)을 목표로 하고 있으며, 이는 인도의 언어적 다양성을 고려한 전략적 접근입니다. AI 스타트업들이 정부 지원을 받아 LLM 개발에 박차를 가하고 있으며, 이러한 모델은 교육, 농업, 헬스케어 등 다양한 분야에서 활용될 수 있는 기회를 제공하고 있습니다.

  • 정부의 GPU 인프라 구축 및 AI 스타트업 지원은 인도 내에서 AI 생태계를 고양시키는 중요한 요소로 작용하고 있습니다. 전체적으로 인도 AI 미션은 자국의 특성을 반영한 기술 개발을 통한 인공지능의 주권 확보를 목표로 하고 있습니다.

  • 6-3. 글로벌 협력 및 경쟁 구도

  • 각국의 AI 전략은 단순한 내국적 발전만을 목표로 하지 않고, 글로벌 협력과 경쟁을 내포하고 있습니다. AI 기술의 발전은 국가 간 경계를 넘어 서로 연결되어 있으며, 이를 통해 정보 공유, 혁신 촉진, 그리고 안전 보장을 동시에 목표로 하고 있습니다.

  • 예를 들어, 한국은 반도체 기술을 기반으로 AI 영토를 넓히려는 시도를 하고 있으며, 글로벌 AI 시장에서의 경쟁력을 높이기 위한 민간과 공공의 협력이 중요하게 언급되고 있습니다. 다만 규제 완화와 인센티브 제공이 뒷받침되지 않는다면, 이러한 목표는 어려울 수 있다는 지적이 존재합니다.

  • 또한, 인도와 같은 신흥 경제국들은 고유의 AI 솔루션을 개발하여 글로벌 시장에서 그들의 목소리를 강화하려 하고 있습니다. AI 기술이 빠르게 발전하는 현 상황에서 글로벌 경쟁 구도도 계속해서 변화할 것임이 분명합니다.

결론

  • 한국형 LLM 구축의 성공은 정부 주도의 정책 및 인프라 확충과 민간 및 학계의 기술 개발이 효과적으로 연계되어야 가능하다. 현재 진행 중인 정예팀 공모, GPU 및 데이터 지원은 AI 모델 개발에 힘을 실어줄 중요한 요소로 작용하고 있다. 그러나 이러한 노력만으로는 부족하며, 보안의 신뢰성을 높이고 고품질 한국어 데이터를 축적하며 전문 인력을 양성하는 것이 시급한 상황이다.

  • 또한, 단期적으로는 선발팀의 프로토타입 완성과 성능 검증 작업이 필요하며, 중장기적으로는 오픈소스 생태계에 기여함으로써 산업 전반의 AI 융합 활용을 확대해야 한다. 이렇게 함으로써 한국은 AI 파운더리 모델 분야에서 리더십을 지속적으로 확보할 수 있을 것이다. 이는 단순히 기술 발전을 넘어, 한국의 디지털 주권과 국제적으로 인정받는 AI 생태계를 구축하는 데 기여할 것이다.

용어집

  • 소버린 AI: 한국 정부가 주도하는 AI 정책으로, 자국의 기술과 데이터를 바탕으로 독립적인 AI 생태계를 구축하기 위한 전략이다. 이 정책의 일환으로 AI미래기획수석을 임명하고, AI 모델 개발 및 데이터 공급 기반을 강화해 한국형 LLM의 발전을 목표로 한다.
  • 파운데이션 모델: 인공지능 모델의 기초가 되는 대규모 모델로, 일반적으로 특정 작업을 수행하도록 훈련된 거대 언어 모델(LLM)이나 멀티모달 모델을 말한다. 이러한 모델은 다양한 분야의 응용 프로그램에서 기본적인 기능을 제공하는 데 사용된다.
  • LLM (Large Language Model): 대규모 언어 모델로, 자연어 처리(NLP) 분야의 여러 작업을 수행하기 위해 설계된 인공지능 모델이다. LLM은 많은 양의 텍스트 데이터를 기반으로 훈련되어, 문맥 이해 및 생성 능력을 발휘한다.
  • AI미래기획수석: 한국 정부의 AI 관련 정책을 기획하고 조정하는 수장으로, AI 기술 발전과 정책 방향성을 제시하며 민간 협력과 공조를 이끌어내는 역할을 한다. 현재 하정우 전 네이버 클라우드 센터장이 이 직책을 맡고 있다.
  • HyperCLOVAX THINK: 네이버가 개발한 대규모 추론 모델로, 다양한 벤치마크 시험에서 높은 성능을 발휘하고, 시각 정보 기반 추론 능력도 보유하고 있다. 이 모델은 한국어 자연어 처리에서 우수한 성능을 나타내어 AI 생태계 발전에 기여하고 있다.
  • 앨런 LLM: 이스트소프트에서 개발한 AI 검색 엔진 최적화에 특화된 대규모 언어 모델로, 고도화된 팩트 체크 및 검색 결과 필터링 기능을 포함하여 정확한 정보를 사용자에게 제공하는 것을 목표로 한다.
  • GPU 지원: 정부가 AI 모델 개발을 지원하기 위해 제공하는 그래픽 처리 장치로, 대규모 데이터 처리 및 AI 모델 학습 효율성을 높이기 위해 사용된다. 2025년 기준으로 1만 개의 GPU 지원이 계획되어 있다.
  • 보안 위협: 거대언어모델(LLM)의 사용에서 발생할 수 있는 여러 보안 관련 문제로, 예를 들어 '프롬프트 인젝션', '민감 정보 유출' 등이 포함된다. 이러한 위협은 AI 모델의 신뢰성 및 보안을 저하할 수 있다.
  • 데이터 품질: AI 모델의 성능에 큰 영향을 미치는 데이터의 질적 수준을 나타낸다. 고품질의 데이터셋 구축은 LLM의 학습과 성능을 결정짓는 중요한 요소이다.
  • 인재 양성: AI 기술 분야에서 필요한 전문 인력을 육성하기 위한 교육과정 및 프로그램을 통해, 지속 가능한 AI 생태계를 조성하는 데 필수적인 과정이다.
  • 글로벌 경쟁: 각 나라의 AI 기술 발전을 위한 정책과 전략이 국제적 차원에서 경쟁하는 관점을 나타낸다. 한국은 AI 주권 확보와 글로벌 생태계에서의 입지를 강화하여 경쟁력을 높이려는 노력이 필요하다.

출처 문서