Your browser does not support JavaScript!

고급 RAG 기술의 각 방법론 및 성능 평가: 검색 및 생성 성능 중심

일일 보고서 2024년 07월 01일
goover

목차

  1. 요약
  2. 기본 RAG
  3. 고급 RAG
  4. 확장된 RAG
  5. 성능 평가 기준 및 방법
  6. RAG 기술의 적용 사례
  7. 결론

1. 요약

  • 이 리포트는 'RAG (Retrieval-Augmented Generation)' 기술의 각 방법론과 성능을 중심으로 주요 성능을 평가합니다. 주요 주제는 기본, 고급, 확장된 RAG의 개념과 검색 및 답변 생성 성능을 비교하는 것이며, 각 RAG 방식의 장단점을 명확히 설명합니다. 예를 들어, 기본 RAG는 비용 효율성에서 장점이 있지만, 검색 정확도와 생성 품질이 낮은 반면, 고급 RAG는 뛰어난 성능을 제공하지만 높은 자원 소모와 견고성 문제를 동반합니다. 또한 AWS와 아모레퍼시픽, 올거나이즈와 같은 실제 기업 사례를 통해 RAG 기술의 실제 적용 가능성과 성능 평가 방법을 구체적으로 다룹니다. 이 리포트는 다양한 RAG 방식의 성능 차이를 명확히 설명하고, 성능 평가 기준 및 방법론을 통해 리포트의 신뢰성을 높였습니다.

2. 기본 RAG

  • 2-1. 기본 RAG의 개념 및 설명

  • 기본 RAG(Retrieval-Augmented Generation)는 RAG 연구의 초기 방법론을 지칭하며, 전통적인 인덱싱, 검색 및 생성 과정을 포함하고 있습니다. 기본 RAG는 주로 간단한 검색 및 생성 방식에 초점을 맞추고 있으며, RAG의 기본 개념과 원리를 이해하는 데 중요합니다. 이 기술은 검색, 증강, 생성을 통해 사용자에게 빠르고 정확한 답변을 제공하는 것을 목표로 합니다. 특히, 최신 정보 검색, 벡터화, 벡터 유사성 검색을 사용해 정보를 증강하고 생성형 AI를 결합함으로써 대규모 언어 모델(LLM)이 더 신뢰할 수 있는 결과를 산출할 수 있게 합니다.

  • 2-2. 기본 RAG의 장점

  • 기본 RAG의 장점은 비용 효율성과 LLM만 사용하는 것보다 뛰어난 성능을 제공한다는 것입니다. 또한, 기본 RAG는 다양한 문서 집합에서 관련 정보를 검색하고 이를 이용해 응답을 생성함으로써 LLM의 지식 시대에 뒤떨어짐, 특정 영역에 대한 지식 부족, 그리고 응답의 투명성 부족 문제를 해결하는 데 도움을 줍니다. 이를 통해 사용자 신뢰성을 강화하고 출력에 대한 신뢰도를 높일 수 있습니다.

  • 2-3. 기본 RAG의 단점

  • 기본 RAG의 단점으로는 낮은 검색 정확도, 응답 생성의 낮은 품질, 증강 과정의 어려움 등이 있습니다. 이로 인해 불필요한 반복, 부정확한 정보, 잘못된 문맥의 통합 등이 발생할 수 있습니다. 또한, 기본 RAG는 많은 단점들이 있어 고급 RAG와 모듈형 RAG가 등장하게 되었으며 이들은 이러한 특정 결함을 해결하기 위한 노력의 일환으로 개발되었습니다.

  • 2-4. 기본 RAG의 검색 성능

  • 기본 RAG의 검색 성능은 리콜(recall)과 같은 지표를 통해 평가됩니다. 이는 검색된 정보가 질문의 정답과 얼마나 일치하는지를 측정하는 방식입니다. 검색된 정보가 질문의 정답과 관련된 정보가 상위 순위에 잘 랭크(rank)되어 있는지를 판단하는 정확성을 바탕으로 측정합니다. 기본 RAG는 이러한 검색 성능을 통해 질문에 대해 빠르고 정확한 답변을 제공하는 데 중점을 둡니다.

  • 2-5. 기본 RAG의 답변 생성 성능

  • 기본 RAG의 답변 생성 성능은 생성된 답변이 벡터 데이터베이스에서 검색된 정보와 얼마나 일치하는지를 측정하거나, 주어진 질문과 관련성이 높은지를 판단하여 점수화합니다. 생성된 답변의 품질은 특히 지식 집약적인 작업에서 매우 중요하게 평가됩니다. 또한, 기본 RAG는 정량적으로 품질 평가를 하고 그 결과를 반영하여 개선된 답변을 생성하는 과정을 포함하고 있습니다.

3. 고급 RAG

  • 3-1. 고급 RAG의 개념 및 설명

  • 고급 RAG는 Retrieval(검색), Augmentation(증강), Generation(생성)이라는 세 단계로 이루어진 기술입니다. 이 기술은 사용자의 질문에 대해 빠르고 정확하게 답변을 제공하기 위해 각 단계를 협력하여 작동합니다. 특히 벡터화 기술을 활용하여 최신 정보 검색과 증강을 수행한 후, 이를 바탕으로 생성형 AI가 답변을 생성하는 과정을 거칩니다. 이를 통해 LLM(대규모 언어 모델)은 더 정확하고 신뢰할 수 있는 결과물을 생성할 수 있습니다.

  • 3-2. 고급 RAG의 장점

  • 고급 RAG는 정보 검색과 이해 능력을 더욱 향상시키며, 사용자가 요구하는 최신 정보를 빠르게 제공할 수 있습니다. AWS코리아의 전문가에 따르면, 고급 RAG는 저작권 표시와 같은 사용자 신뢰성 강화와 개발자의 제어 능력 강화를 통해 기업에서 더 광범위한 애플리케이션을 위해 생성형 AI 기술을 보다 자신 있게 구현할 수 있도록 돕습니다. 또한, 다양한 엣지 케이스를 포함한 평가 기준을 통해 고급 RAG의 성능을 측정하고 개선할 수 있습니다.

  • 3-3. 고급 RAG의 단점

  • 고급 RAG에도 몇 가지 단점이 존재합니다. 첫째, 높은 자원 소모로 인해 비용이 많이 들 수 있습니다. 둘째, 검색된 문서들에 노이즈가 포함되어 있거나, 사실과 모순되는 내용이 포함될 경우 견고성이 떨어질 수 있습니다. 이러한 문제를 해결하기 위한 연구들이 진행 중이지만 여전히 개선할 필요가 있습니다.

  • 3-4. 고급 RAG의 검색 성능

  • 고급 RAG의 검색 성능은 리콜(recall)과 검색된 정보의 정확성, 그리고 관련 정보의 랭크(rank) 여부를 기준으로 평가됩니다. 예를 들어, RAGAS는 사용자 질의와 유사한 문맥을 식별하고, 검색 결과를 활용하는 능력, 생성된 답변의 품질을 중점적으로 평가합니다. 이런 설정 하에 검색 성능을 측정함으로써 높은 정확도의 정보를 사용자에게 제공할 수 있게 됩니다.

  • 3-5. 고급 RAG의 답변 생성 성능

  • 고급 RAG의 답변 생성 성능은 벡터 데이터베이스에서 검색된 정보와 생성된 답변의 일치도, 그리고 주어진 질문과 답변의 관련성에 기반하여 평가됩니다. 사례로, AWS의 아모레퍼시픽 리뷰 요약 서비스에서 생성된 요약문을 정량적으로 평가하고 개선하는 방법이 있습니다. ARES 같은 평가 프레임워크를 통해 자동화된 방법으로 생성 성능을 높일 수 있습니다.

4. 확장된 RAG

  • 4-1. 확장된 RAG의 개념 및 설명

  • 확장된 RAG는 Retrieval(검색), Augmentation(증강), Generation(생성)의 세 단계를 포함하며, 각 단계가 협력하여 사용자의 질문에 빠르고 정확하게 답변할 수 있도록 돕습니다. 이 기술은 최신 정보 검색, 벡터화, 벡터 유사성 검색을 사용한 정보 증강, 그리고 생성형 AI를 결합하여 최신 정보와 근거에 기반한 결과를 얻을 수 있도록 설계되었습니다. RAG 기술의 잠재력은 매우 크며, 인공지능 분야에서 새로운 가능성을 제시하는 기술로 평가받고 있습니다.

  • 4-2. 확장된 RAG의 장점

  • 확장된 RAG의 주요 장점은 검색된 정보가 질문의 정답과 얼마나 일치하는지를 측정하는 높은 리콜(recall)과, 질문의 정답과 관련된 정보가 상위 순위에 잘 랭크(rank)되는 정확성을 바탕으로 검색 성능을 평가할 수 있다는 것입니다. 또한, 생성된 답변이 벡터 데이터베이스에서 검색된 정보와 얼마나 일치하는지, 그리고 주어진 질문과 관련성이 높은지를 판단하여 점수화할 수 있어 AI의 성능을 체계적으로 평가하고 개선할 수 있습니다.

  • 4-3. 확장된 RAG의 단점

  • 확장된 RAG의 단점은 검색된 문서들에 노이즈가 포함되거나, 사실과 모순되는 내용이 포함될 때 발생하는 견고성의 문제입니다. 이러한 문제는 최근 점점 더 많은 관심을 받고 있으며, RAG의 견고성을 강화하기 위한 다양한 연구가 진행되고 있습니다. 또한, 긴 컨텍스트를 처리하는 방법에 대한 과제도 존재하며, 무한대로 컨텍스트 윈도우를 확장하는 방법을 찾는 것도 중요한 과제 중 하나입니다.

  • 4-4. 확장된 RAG의 검색 성능

  • 확장된 RAG의 검색 성능은 높은 리콜(recall)과 정확성을 바탕으로 평가됩니다. 기업 고객은 다양한 엣지 케이스를 포함한 그라운드 트루스를 이용해 AI 서비스의 성능을 평가하고, 내부 사용자의 피드백을 통해 입력 프롬프트를 정제하여 성능을 개선해 나가고 있습니다. 예를 들어, 아모레퍼시픽의 경우 리뷰 요약 서비스에서 아마존 베드록을 통해 요약문을 정량적으로 품질 평가하고 그 결과를 자동으로 반영하여 개선된 요약문을 생성하고 있습니다.

  • 4-5. 확장된 RAG의 답변 생성 성능

  • 확장된 RAG의 답변 생성 성능은 생성된 답변이 벡터 데이터베이스에서 검색된 정보와 얼마나 일치하는지, 그리고 주어진 질문과 관련성이 높은지를 평가하여 점수화합니다. RAGAS (RAG 파이프라인 평가 프레임워크)는 사용자 질의와 유사한 문맥을 식별하는 검색 시스템의 능력, 검색 결과를 잘 사용하는 LLM의 능력, 생성된 답변의 품질을 평가하는 프레임워크입니다. 또한, ARES (자동화된 평가 프레임워크)는 예측-기반 추론(PDR) 기법을 활용하여 문맥 관련성 및 답변 품질을 평가합니다.

5. 성능 평가 기준 및 방법

  • 5-1. RAG 성능 평가 기준

  • RAG 모델의 성능 평가는 크게 검색(retrieval) 영역과 생성(generation) 영역으로 나뉩니다. 검색 영역에서는 리콜(recall)과 같이 검색된 정보가 질문의 정답과 얼마나 일치하는지, 질문의 정답과 관련된 정보가 상위 순위에 잘 랭크(rank)되어 있는지를 측정합니다. 생성 영역에서는 생성된 답변이 벡터 데이터베이스에서 검색된 정보와 얼마나 일치하는지를 측정하거나, 주어진 질문과 관련성이 높은지를 판단하여 성능을 평가합니다.

  • 5-2. 검색 성능 평가 방법

  • 검색 성능은 리콜(recall) 및 정확성(precision)을 통해 측정합니다. 리콜은 검색된 문서 중 관련 문서의 비율을, 정확성은 검색된 문서 중 실제로 관련 있는 문서의 비율을 의미합니다. 이 외에도, RAG 리더보드에서는 관계 정보를 토대로 문서의 랭킹 성능을 평가하는 방법을 사용합니다.

  • 5-3. 답변 생성 성능 평가 방법

  • 답변 생성 성능은 생성된 텍스트의 유사도 및 정확도를 평가하는 방식으로 측정됩니다. 답변의 품질은 벡터 데이터베이스에서 검색된 정보와의 일치도, 주어진 질문과의 관련성을 중심으로 평가되며, 사용자가 이해하기 쉽고 일관되게 답변이 생성되도록 합니다. 특히, 아모레퍼시픽의 경우 리뷰 요약 서비스에서 생성된 요약문의 품질을 정량적으로 평가하고, 그 결과를 반영하여 답변의 품질을 지속적으로 개선하는 방식을 사용하고 있습니다.

  • 5-4. RAG 리더보드와 평가 도구

  • 올거나이즈의 '알리 RAG 리더보드'는 금융, 공공, 의료, 법률, 커머스의 5개 분야에 대한 한국어 RAG 성능을 평가합니다. 총 5개의 평가 툴을 사용하여 RAG 성능을 평가하며, 신뢰도를 높이고 오차를 줄이기 위해 각 분야마다 약 200~300페이지의 문서를 업로드하고, 60개의 질문을 생성하여 평가를 진행합니다. RAG의 3개 구성요소인 파서(Parser), 리트리버(Retrieval), 답변 생성(Generation) 모두를 평가하며, 이 과정에서 오류가 없도록 검증합니다.

6. RAG 기술의 적용 사례

  • 6-1. AWS와 아모레퍼시픽 사례

  • AWS는 RAG 기술을 활용한 AI 서비스 평가 기준을 제공하고 있습니다. 특히, 검색(retrieval) 영역과 생성(generation) 영역으로 나누어 성능을 평가합니다. 검색 영역은 리콜(recall)과 검색된 정보의 정답 일치도를 측정하며, 생성 영역은 생성된 답변이 검색된 정보와의 일치도 및 질문과의 관련성을 기준으로 평가합니다. 아모레퍼시픽은 리뷰 요약 서비스에서 Amazon Bedrock 기반의 RAG 기술을 적용하여, 요약문의 품질을 정량적으로 평가하고 자동으로 반영하는 과정을 통해 성능을 개선하고 있습니다.

  • 6-2. 올거나이즈의 알리 RAG 리더보드 사례

  • 올거나이즈는 '알리 RAG 리더보드'를 통해 RAG 기술의 성능을 평가하고, 금융, 공공, 의료, 법률, 커머스 분야에 대한 한국어 RAG 성능을 비교 평가합니다. 답변 유사도 및 정확도를 판단하는 5개의 평가 툴을 사용하여 성능을 측정하고, 3개 이상의 툴에서 오류가 없을 경우 '이상 없음'으로 판명합니다. 이 리더보드는 파서(Parser), 리트리버(Retrieval), 답변 생성(Generation) 등 RAG의 3개 구성요소를 모두 평가하며, 테스트 데이터셋과 함께 누구나 체험할 수 있도록 공개되어 있습니다.

  • 6-3. 다양한 도메인에서의 RAG 적용 사례

  • RAG 기술은 의료, 법률, 금융 등 다양한 도메인에 적용되고 있으며, 각 분야에서의 RAG 성능 평가 기준이 마련되어 있습니다. 올거나이즈의 'RAG 2.0' 솔루션은 사내 문서에서 정확한 답을 찾기 위해 고성능의 리트리버 모델을 전략적으로 활용하며, 산업별 특화 데이터를 사전 학습하여 고객사의 전용 모델을 자동으로 생성합니다. 사용자 피드백을 실시간으로 반영하여 리트리버의 정확도를 지속적으로 개선하고 있습니다.

7. 결론

  • 이 리포트에서는 'RAG (Retrieval-Augmented Generation)' 기술의 다양한 방법론을 분석하여, 각각의 검색 성능과 답변 생성 성능을 비교했습니다. 기본 RAG는 비용 효율성이 높으나 검색 정확도와 생성 품질이 낮은 반면, 고급 RAG와 확장된 RAG는 높은 검색 정확성과 품질을 제공하지만 더 많은 자원을 소모합니다. AWS와 아모레퍼시픽의 협력 사례와 올거나이즈의 '알리 RAG 리더보드'를 통해 실질적인 적용 가능성과 성능 평가 방법을 구체적으로 제시했습니다. 이러한 발견은 RAG 기술의 현 위치와 한계를 명확히 보여주며, 앞으로의 기술 발전 방향을 제시합니다. 미래에는 더 나은 자원 관리와 높은 견고성을 확보하는 기술적 발전이 필요합니다. 실제로, 고급 RAG와 확장된 RAG의 적용 사례들은 다양한 산업 분야에서 RAG 기술의 활용 가능성을 강조하며, RAG 기술의 상용화가 가속화될 것으로 기대됩니다.

8. 용어집

  • 8-1. RAG (Retrieval-Augmented Generation) [기술]

  • RAG는 검색, 증강, 생성을 통해 진보된 AI 응답을 제공하는 기술입니다. 이를 통해 더 최신의 정확한 정보를 반영할 수 있으며, AI 모델의 성능을 크게 향상시킵니다.

  • 8-2. AWS [회사]

  • Amazon Web Services는 클라우드 컴퓨팅 서비스 제공자로, 최신 RAG 기술을 활용하여 다양한 AI 솔루션을 제공하고 있습니다. 특히 아모레퍼시픽과의 협업을 통해 실질적인 성능 평가 사례를 제시하였습니다.

  • 8-3. 올거나이즈 [회사]

  • 올거나이즈는 RAG 기술을 활용하여 다양한 산업 분야에서 정확한 정보를 제공하는 AI 솔루션을 개발하고 있습니다. 특히 알리 RAG 리더보드를 통해 다양한 성능 평가 툴을 제공하여 신뢰도를 높였습니다.

  • 8-4. 아모레퍼시픽 [회사]

  • 화장품 및 뷰티 산업의 선도 기업으로, AWS와 협력하여 RAG 기술을 기반으로 한 리뷰 요약 서비스를 평가하고 개선하는 과정을 통해 AI 기술의 적용 사례를 제시하였습니다.

9. 출처 문서