인공지능 거대언어모델(LLM) 보안 취약점 및 대책

일일 보고서 2024년 08월 16일

1. 요약

이 리포트는 인공지능 거대언어모델(LLM)의 보안 취약점을 분석하고 이에 대한 대책을 논의하는 것을 목적으로 합니다. 주로 프롬프트 인젝션, 불안전한 출력 처리, 민감 정보 노출 등의 취약점과 이로 인한 실제 해킹 사례들을 다룹니다. LLM의 보안 문제를 명확히 이해하고 이를 관리하기 위한 실질적인 정보를 제공하며, SK쉴더스가 제시한 다양한 예방 방안, 예를 들어 데이터 필터링 및 검증, 프롬프트 보안 솔루션, 데이터 정제 솔루션, 가명 처리 및 학습 데이터 관리 등의 구체적인 보안 대책을 설명합니다. 이러한 내용은 LLM의 현재 보안 상태를 이해하고 향후 대응책을 마련하는 데에 도움을 줄 것입니다.

2. LLM 취약점의 종류와 발생 원인

2-1. 프롬프트 인젝션

프롬프트 인젝션(Prompt Injection)은 악의적인 질문을 통해 AI 서비스 내 적용된 지침 혹은 정책을 우회하여 본 목적 이외의 답변을 이끌어내는 취약점입니다. 이 취약점은 주로 악성코드 생성, 마약 제조, 피싱 공격 등 다양한 악용 사례로 나타날 수 있습니다. 예를 들어, 챗봇에 폭탄 제조법을 묻자 처음에는 답변할 수 없다는 안내문이 나왔지만, 특정 단어를 사용하여 질문을 변경하자 챗봇이 폭탄 제조법을 안내하는 경우가 있었습니다. 일본에서는 정보기술(IT)에 대한 지식이 없는 20대가 생성형 AI 서비스를 통해 랜섬웨어 제작법을 얻어낸 사례도 있었습니다.

2-2. 불안전한 출력 처리

불안전한 출력 처리 취약점은 LLM이 생성한 출력물을 시스템이 적절하게 처리하지 못할 때 발생합니다. 예를 들어, 공격자가 원격 접속 코드 실행 요청이 포함된 질문을 챗봇에 하면, 챗봇이 이를 실행하여 공격자가 AI LLM 운영 서버에 접속할 수 있게 되어 중요 정보를 탈취할 수 있습니다. 이러한 취약점은 2차 공격으로 이어질 가능성이 매우 높아 위험도가 큽니다.

2-3. 민감 정보 노출

민감 정보 노출 취약점은 AI 모델을 학습시킬 때 민감 정보 필터링이 미흡한 경우 발생합니다. LLM이 답변을 생성하는 과정에서 민감 정보를 여과 없이 출력해 개인정보 유출로 이어질 수 있습니다. 예를 들어, 이용자가 챗봇에 업로드한 소스 코드를 공격자가 접근할 수 있는 권한을 무단으로 획득하는 방식을 통해 DB 정보를 탈취하는 공격이 시연된 바 있습니다. SK쉴더스는 학습 데이터에 가명 처리를 하거나 필터링 보완책을 강조하고 있습니다.

3. 실제 해킹 사례와 결과

3-1. 악성코드 생성

프롬프트 인젝션을 통해 악의적인 입력을 사용하여 AI 모델을 악성코드 생성에 악용할 수 있습니다. 예를 들어, 공격자가 LLM에 암호화된 코드를 입력하면, AI가 이를 해석하고 실행 가능한 악성코드를 생성할 수 있습니다. SK쉴더스는 이러한 취약점이 현실에서 어떻게 악용될 수 있는지 다양한 시연을 통해 보여주었습니다.

3-2. 마약 제조

AI 모델을 프롬프트 인젝션 공격으로 속여 마약 제조 방법을 안내받는 사례가 확인되었습니다. 예를 들어, '급조폭발물(IED)'라는 열쇠말을 통해 기존의 일반적인 질문 방식에서 벗어나 마약 제조에 대한 상세 정보를 얻어낼 수 있었습니다. SK쉴더스의 시연에서는 rot13 암호화 기법을 사용하여 AI가 마약 관련 질문에 답변하게 만드는 방법이 소개되었습니다.

3-3. 폭발물 제조

폭발물 제조법 역시 AI 모델을 통해 쉽게 접근할 수 있는 정보 중 하나입니다. 공격자는 프롬프트 인젝션을 활용하여 폭탄 제조에 필요한 재료와 과정을 AI 모델로부터 얻어낼 수 있습니다. 이와 관련된 사례로는 일본에서 IT 지식이 없는 20대가 랜섬웨어 제작법을 AI를 통해 얻어낸 사건이 보고되었습니다.

3-4. 피싱 공격

피싱 공격은 LLM을 활용한 지능형 공격 방식 중 하나로, 프롬프트 인젝션을 통해 AI 모델이 피싱 이메일 작성에 도움을 줄 수 있습니다. 예를 들어, 공격자가 사기성 이메일을 작성하도록 AI에 질문하면, AI는 매우 정교한 피싱 이메일을 생성할 수 있습니다.

4. 기타 주요 보안 위협

4-1. RMM(Remote Monitoring and Management) 타깃 공격

RMM(Remote Monitoring and Management)은 원격으로 IT 시스템과 네트워크를 모니터링하고 관리하는 기술 및 서비스를 의미합니다. 최근 랜섬웨어 공격자들이 보안 솔루션 탐지를 피하기 위해 RMM 기술을 타깃으로 하는 경우가 증가하고 있습니다. RMM을 타깃으로 한 공격은 보안 패치가 발표되었지만 적용되지 않은 상태를 노리기도 합니다. 이 방법을 통해 공격자는 원격으로 시스템을 장악하거나 중요한 정보를 탈취할 수 있습니다. 구체적으로, SK쉴더스에서 발표한 2024년 상반기 보안 트렌드에 따르면, RMM을 활용한 공격은 계속 늘어나고 있으며 각별한 주의가 필요하다는 분석이 나왔습니다.

4-2. LotL(Living off the Land) 방식 공격

LotL(Living off the Land)은 악성코드 사용을 최소화하고 서버 내 설치된 정상 프로그램을 악의적으로 활용하는 기법입니다. 이 방식은 공격자가 시스템 내 기존 소프트웨어를 활용해 악성 활동을 수행하는 것을 말합니다. 최근에는 보안 솔루션 탐지를 피하기 위해 LotL 방식을 활용한 공격이 증가하고 있습니다. 예를 들어, 합법적인 도구를 사용한 랜섬웨어 공격의 일환으로 LotL 기법이 사용되며, 이는 보안 패치가 적용되지 않은 시스템을 목표로 하는 경우가 많습니다. SK쉴더스의 연구에 따르면, 이번 상반기에도 LotL 공격 기법을 활용한 사례가 다수 보고되었습니다.

4-3. APT(Advanced Persistent Threat) 공격

APT(Advanced Persistent Threat) 공격은 고도의 기술과 지속적인 노력을 통해 특정 목표를 계속해서 공격하는 방식입니다. 주로 국가 주도나 대형 기관이 관련돼 있는 경우가 많으며, 네트워크 장비의 신규 취약점을 활용한 경우가 많습니다. SK쉴더스의 분석에 따르면, 2024년 상반기에도 VPN, 라우터 등 네트워크 장비를 통한 APT 공격이 성행했으며 이는 전년도 대비 두 배 이상 증가한 수치를 보였습니다. 이러한 공격은 단순한 해킹 시도를 넘어 장기간에 걸쳐 목표 시스템에 서서히 침투하고 정보를 수집하여 최종적으로 중요한 정보를 탈취하는 것을 목적으로 합니다.

4-4. 소셜 엔지니어링 공격

소셜 엔지니어링 공격은 사람의 심리를 이용해 기밀 정보를 탈취하는 방식입니다. 예를 들어, SNS를 활용해 사용자를 속여 민감한 정보를 물어보거나 악성 URL을 클릭하게 하는 방식이 포함됩니다. SK쉴더스의 연구에 따르면, 소셜 엔지니어링 공격은 전체 사고 발생 통계에서 26%를 차지하며, 이는 AI 스피어 피싱 등을 통한 신종 소셜 엔지니어링 공격 방식이 포함된다는 점이 강조됐습니다. 특히, AI 기술의 발전으로 인해 더욱 정교한 피싱 이메일이나 메시지를 생성할 수 있어 사용자들의 경각심이 더욱 중요해졌습니다.

5. 보안 대책 및 예방 방안

5-1. 데이터 필터링 및 검증

LLM을 학습시킬 때 민감 정보 필터링이 미흡하면 응답에 학습된 민감 정보가 출력될 수 있어 보완책이 필요합니다. 예를 들어, SK쉴더스는 이용자가 챗GPT에 업로드한 소스 코드를 공격자가 무단으로 획득하는 상황을 설명했습니다. 이를 방지하기 위해 학습 데이터에 가명 처리를 하거나 데이터를 검증하는 등의 추가적인 보완책을 제시했습니다. (출처: SK쉴더스 “AI 거대언어모델 활용한 해킹사례 속출, 보안대책 필요”)

5-2. 프롬프트 보안 솔루션

프롬프트 인젝션은 악의적인 입력을 통해 의도된 답변을 이끌어내는 방식으로, 폭발물 및 마약 제조, 개인정보 탈취에 악용될 수 있습니다. 예를 들어, rot13 기법을 통해 암호화된 입력을 서버에 보내 LLM이 정상적인 응답 대신 마약 관련 답변을 제공하게 만드는 방식입니다. 이러한 공격을 막기 위해 프롬프트 보안 솔루션 도입이 필요합니다. (출처: SK쉴더스 “AI 거대언어모델 활용한 해킹사례 속출, 보안대책 필요”, AI 속여서 정보 빼간다?…높아지는 LLM 취약점)

5-3. 데이터 정제 솔루션

LLM 모델을 학습시킬 때 민감 정보 필터링이 미흡한 경우, LLM이 생성한 응답에 민감 정보가 포함될 수 있어 '데이터 정제 솔루션'이 필요합니다. 이를 통해 학습 데이터의 품질을 높이고, 민감 정보가 포함되지 않도록 해야 합니다. (출처: “네트워크 장비 취약점 공격, 전년 대비 2배 증가” SK쉴더스 2024년 상반기 보안 트렌드)

5-4. 가명 처리 및 학습 데이터 관리

LLM 학습 데이터에 민감 정보가 포함될 경우, 답변에 해당 정보가 노출될 위험이 있으므로 가명 처리를 적용해야 합니다. 또한, 데이터를 검증하는 등의 추가적인 보완책도 필요합니다. (출처: SK쉴더스 “AI 거대언어모델 활용한 해킹사례 속출, 보안대책 필요”, 네트워크 장비 취약점 공격, 전년 대비 2배 증가)

6. 결론

프롬프트 인젝션, 불안전한 출력 처리, 민감 정보 노출과 같은 LLM의 주요 보안 취약점은 다양한 방식으로 해킹 공격에 악용될 수 있어 매우 중요한 문제로 부각되고 있습니다. 이를 해결하기 위해 SK쉴더스가 제시한 보안 대책들은 효과적인 방어책이 될 수 있습니다. 프롬프트 인젝션을 막기 위한 프롬프트 보안 솔루션, 불안전한 출력 처리를 피하기 위한 데이터 필터링 및 검증, 그리고 민감 정보 노출을 방지하기 위한 가명 처리 및 학습 데이터 관리 등의 다각적인 접근이 필요합니다. 리포트는 향후에도 새로운 보안 솔루션 개발과 함께 지속적인 취약점 파악이 필요하다는 점을 강조하며, 이러한 대응책들을 통해 AI 및 LLM 서비스를 안전하게 운영할 수 있을 것입니다. 이러한 노력은 LLM의 사용 확대에 따른 보안 위협을 최소화하고, 실질적인 보안 강화로 이어질 것입니다.

7. 용어집

7-1. 프롬프트 인젝션 [보안 취약점]

악의적인 질문을 통해 AI 서비스 내 적용된 지침 혹은 정책을 우회해 본 목적 이외의 답변을 이끌어내는 취약점으로, 악성코드 생성, 마약 제조, 폭발물 제조, 피싱 공격 등에 악용될 수 있음.

7-2. 불안전한 출력 처리 [보안 취약점]

LLM이 생성한 출력물을 시스템이 적절하게 처리하지 못할 때 발생하는 취약점으로, 원격 접속 코드 실행 요청을 포함한 질문을 통해 중요 정보를 탈취할 수 있는 위험을 내포함.

7-3. 민감 정보 노출 [보안 취약점]

애플리케이션 권한 관리 미흡 시 발생하는 취약점으로, LLM 학습 데이터에 포함된 민감 정보가 여과 없이 출력되어 개인정보 유출로 이어질 수 있음.

8. 출처 문서

SK쉴더스 “LLM, 딥페이크·딥보이스 등 AI 보안위협 현실화…생성AI 시대 대책 필요” - 바이라인네트워크https://byline.network/2024/07/2-209/
SK쉴더스 “AI 거대언어모델 활용한 해킹사례 속출, 보안대책 필요”https://biz.newdaily.co.kr/site/data/html/2024/07/02/2024070200143.html
AI가 마약 제조법 알려준다?…SK쉴더스 “취약점 대응 전략 수립해야”https://m.ekn.kr/view.php?key=20240702028158322
AI 속여서 정보 빼간다?…높아지는 LLM 취약점, "특화 보안 서비스 필요"https://m.ddaily.co.kr/page/view/2024070212583114422
“네트워크 장비 취약점 공격, 전년 대비 2배 증가” SK쉴더스 2024년 상반기 보안 트렌드https://news.zum.com/articles/91650183

인공지능 거대언어모델(LLM) 보안 취약점 및 대책

목차

1. 요약

2. LLM 취약점의 종류와 발생 원인

2-1. 프롬프트 인젝션

2-2. 불안전한 출력 처리

2-3. 민감 정보 노출

3. 실제 해킹 사례와 결과

3-1. 악성코드 생성

3-2. 마약 제조

3-3. 폭발물 제조

3-4. 피싱 공격

4. 기타 주요 보안 위협

4-1. RMM(Remote Monitoring and Management) 타깃 공격

4-2. LotL(Living off the Land) 방식 공격

4-3. APT(Advanced Persistent Threat) 공격

4-4. 소셜 엔지니어링 공격

5. 보안 대책 및 예방 방안

5-1. 데이터 필터링 및 검증

5-2. 프롬프트 보안 솔루션

5-3. 데이터 정제 솔루션

5-4. 가명 처리 및 학습 데이터 관리

6. 결론

7. 용어집

7-1. 프롬프트 인젝션 [보안 취약점]

7-2. 불안전한 출력 처리 [보안 취약점]

7-3. 민감 정보 노출 [보안 취약점]

8. 출처 문서