이 리포트는 AI 기술이 발전하는 현 시대에서 클라우드 환경에서의 검색 기능의 중요성과 변화에 대해 심도 있게 다루고 있다. 최근 구글의 검색 알고리즘 유출 사건을 계기로, 다양한 검색 솔루션을 바탕으로 한 검색 엔진 최적화(SEO) 전략의 필요성이 부각되었다. 보고서에서는 내부 및 외부 자료 검색 방법, 주요 검색 엔진 솔루션들, 그리고 AI와 결합한 최신 검색 기술들, 특히 검색증강생성(RAG)과 벡터 데이터베이스의 활용을 분석한다. 또, AI 시대에 검색 엔진이 직면한 위기와 이를 극복하기 위한 새로운 기회와 전략에 대해서도 탐구한다.
2024년 5월 13일, 구글의 검색 알고리즘이 유출되었다는 뉴스가 관련 업계를 소란스럽게 만들었습니다. 구글 API 콘텐츠 웨어하우스에서 자동화된 봇에 의해 수천 개의 문서가 깃허브 공개 리포지토리에 업로드된 것이 확인되었습니다. 이 문서들은 구글 검색의 순위 알고리즘 작동 요소에 대한 내용을 담고 있었으며, 사용자 클릭의 중요성과 크롬 브라우저 이용 패턴을 통한 웹 페이지의 유명세 반영 등의 방식이 포함되었습니다.
유출된 문서에는 총 2,596개의 모듈과 14,014개의 속성에 관한 기술 정보가 포함되어 있었습니다. 하지만 구체적으로 어떤 요소가 어떤 가중치를 지니고 있는지는 명시되어 있지 않았습니다. 구글이 수집한 웹사이트의 세부 정보를 반복적으로 정리한 것으로, 이는 사용자 만족을 위해 구글이 그동안 어떻게 최선을 다해왔는가에 대한 반증으로 해석될 수 있습니다. 유출 후, 많은 업체는 자신의 페이지 발견 여부를 점검하고 마케팅 전략을 재정비하기 시작하였습니다.
이번 유출 사건은 검색 엔진 최적화(SEO) 전략을 재정비해야 할 필요성을 강조하며, 검색 시장에 큰 혼란을 초래했습니다. AI 시대에 맞는 새로운 검색 전략을 고민하게 만들었고, 구글 검색의 신뢰성과 독창성에 대한 논의가 증가하게 되었습니다. 특히, 구글의 검색 점유율은 2022년 11월 92.21%에서 2023년 하반기에는 91%대, 지난달에는 90.8%로 소폭 하락하는 등 사용자의 검색 행동 변화가 나타나고 있습니다.
클라우드 사용 업체는 검색 기능을 다양한 의미로 사용하며 필요한 기능을 구현하기 위해 다양한 솔루션을 도입하고 있습니다. 검색이란 정보 검색의 과정을 의미하며, 이를 통해 필요한 데이터와 정보를 효율적으로 찾을 수 있는 방법을 제공합니다. 구글의 검색 알고리듬 유출 사건은 클라우드 기반 검색 기능의 중요성을 다시 한 번 부각시켰습니다. 이 사건을 계기로 많은 업체는 자신의 검색 엔진 최적화(SEO) 전략을 재정비하고, AI 시대에 요구되는 새로운 검색 방식에 대한 고민도 시작하게 되었습니다.
내부 자료 검색의 경우 작은 규모의 서비스에서는 데이터 검색 기능이 필터링 용도로 주로 사용되며, 고유 식별자를 통해 직접 조회하는 방식을 사용합니다. 예를 들어, 문자열 검색이 지원되지 않는 게시판 서비스는 SQL의 LIKE 문을 이용해 데이터 검색이 가능하다. 그러나 테이블의 규모가 커지면 시스템 속도가 느려질 수 있어 별도의 검색 시스템이 필요하게 됩니다. 이에 주요 검색 엔진 솔루션으로는 Elasticsearch, Apache Solr, Amazon CloudSearch, Azure Cognitive Search, Algolia 등이 있습니다. 이는 각각의 데이터 양, 색인 수 etc.에 맞춰 적절한 솔루션을 선택할 필요가 있습니다.
외부 웹 검색 서비스는 사용자가 찾고자 하는 내용을 더욱 풍부하게 만드는 데 활용됩니다. 다만, 이 경우 품질 저하 문제와 저품질의 내용이 노출될 위험도 존재합니다. 주요 외부 웹 검색 서비스 예로는 구글 프로그래머블 검색 엔진, 빙 웹 검색 API, 덕덕고 API, SerpApi, 위키피디아 API 등이 있습니다. 이러한 서비스들은 클라우드 서비스가 아닌 별도의 형태로 제공되며, 검색 범위와 제공 데이터의 유형에 따라 선택할 수 있습니다.
Elasticsearch는 분산형 RESTful 검색 및 분석 엔진으로, 실시간 전문 검색과 분석 기능에 강점을 지닙니다. 주로 로그, 메트릭, 보안 이벤트 분석에 활용되며, Kibana, Logstash와 함께 ELK 스택을 구성하여 데이터 분석 및 시각화를 지원합니다.
Apache Solr는 Lucene 기반의 오픈 소스 검색 플랫폼으로, 풍부한 쿼리 언어와 다양한 플러그인 기능을 제공합니다. 대규모 분산 환경에서도 안정적인 성능을 발휘하며, 이를 통해 대량의 데이터 검색을 효율적으로 수행할 수 있습니다.
Amazon CloudSearch는 AWS의 관리형 검색 서비스로, AWS 서비스와의 원활한 통합을 지원합니다. 자동 스케일링과 고가용성을 제공하여, 높은 트래픽을 처리하는데 유리한 구조를 갖추고 있습니다.
Azure Cognitive Search는 마이크로소프트의 AI 기반 검색 서비스로, Azure 생태계와의 통합이 용이합니다. 자연어 처리 및 이미지 분석 기능을 탑재하여, 사용자가 검색할 때 유용한 정보를 보다 직관적으로 제공하는 데 중점을 둡니다.
Algolia는 호스팅된 검색 서비스로, 빠른 설정과 쉬운 관리가 특징입니다. 클라우드에서 매니지드로 운영되며, 뛰어난 사용성과 성능을 제공합니다. 오픈소스 솔루션으로도 쿠버네티스를 통해 설치형으로 운영할 수 있습니다.
검색증강생성(RAG: Retrieval-Augmented Generation)은 LLM(대규모 언어 모델) 시대에 새롭게 자리 잡은 정보 검색 및 구성 방식입니다. 이 방식은 사용자의 질문을 효과적으로 처리하기 위해 질문의 내용을 다듬고, 참조해야 하는 정보를 추출하는 과정을 포함하고 있습니다. RAG 기술은 입력된 질문에 대해 관련된 정보를 검색하는 동시에, 검색된 내용을 기반으로 답변을 생성합니다.
벡터 데이터베이스는 LLM에 의해 생성되는 임베딩을 사용하여 문서를 저장하는 최신 검색 기술로 주목받고 있습니다. 이 기술은 N차원 벡터 공간에 문서를 저장하여 질문이 들어올 때 각 질문을 임베딩으로 변환하고, 저장된 벡터와의 거리 계산을 통해 가장 유사한 정보를 효율적으로 검색할 수 있습니다. 이를 통해 정보 검색의 품질과 속도를 극대화할 수 있습니다.
LLM과 검색 기능의 통합은 정보 검색 생태계의 혁신을 이끌고 있습니다. LLM은 사용자의 질문에 대해 보다 자연스럽고 정확한 답변을 제공하기 위해, 검색 엔진과 결합되어 정보를 수집하고 평가하는 역할을 수행합니다. 이 과정에서 검색 에이전트와 같은 하위 시스템이 요구되는 정보를 효율적으로 탐색하며, 최적의 결과를 사용자에게 제공하는 구조가 형성됩니다.
AI 시대의 도래 이후 인터넷에서는 AI가 생성한 문서들이 불완전한 형태로 생태계 전체를 오염시키고 있는 상황입니다. 창작물 경연 등에서는 판단이 불가능하고, 스팸 등의 영역에서는 그럴듯해 보이는 확인되지 않은 내용을 대량으로 생산하여 생태계 전체, 특히 검색 엔진의 품질에 부정적인 영향을 미치고 있습니다. 특히, ChatGPT의 등장 이후에는 이 문제가 더욱 심각해졌으며, 유명 검색 엔진들이 이러한 스팸과 거짓 문서 문제로 어려움을 겪고 있습니다.
검색 엔진의 품질을 위협하는 주요 요소 중 하나는 스팸과 거짓 문서입니다. 이러한 문서들은 AI가 생성한 경우가 많으며, 불완전한 정보가 인터넷 생태계에 퍼질 경우 사용자들에게 잘못된 정보를 제공하게 됩니다. 예를 들어, 오픈 프로젝트인 커먼 크롤에서는 이러한 스팸과 거짓 문서가 포함되어 있을 가능성이 있으며, 이런 상황에서 신뢰할 수 있는 정보와 자료를 선택하는 것이 더욱 어려워질 수 있습니다.
검색 엔진의 생태계는 AI의 발전과 함께 큰 변화를 겪고 있습니다. 검색 엔진은 사용자들에게 유용하고 신뢰할 수 있는 정보를 제공해 왔으나, 이제는 스팸과 거짓 정보로 인해 생태계 전체가 오염되는 경향이 있습니다. 구글의 검색 점유율은 2022년 11월 92.21%에서 2023년 하반기에는 91% 대로, 그리고 최근에는 90.8% 대로 소폭 하락하였습니다. 이는 사용자들이 구글의 검색 창에서 하던 행동 중 일부가 다른 곳으로 이동했음을 의미하며, 전체적인 검색 수요가 줄어든 것으로 해석됩니다.
구글의 검색 알고리듬 유출 사건은 사이트의 신뢰성과 독창성을 포함한 여러 요소가 검색 결과에 큰 영향을 미친다는 것을 시사합니다. 각 사이트 운영자는 자기 도메인에 알맞은 높은 품질의 콘텐츠를 지속적으로 공유해야 하며, 이는 검색 엔진을 통한 건강한 사용자 유입으로 이어질 수 있습니다.
AI 시대에 들어서면서 구글의 검색 점유율은 서서히 감소하고 있습니다. 2022년 11월에는 92.21%였으나, 2023년 하반기에는 91% 대로 주춤하고 있습니다. 이는 검색 수요가 줄어들고 사용자들이 구글의 검색 창에 입력하는 행동이 다른 곳으로 이동하고 있음을 나타냅니다.
AI가 생성한 콘텐츠의 품질 저하와 스팸 문제는 검색 엔진 생태계에 위기를 초래하고 있으며, 이는 사용자 유입의 저하로 이어질 수 있습니다. 기업들은 자사 콘텐츠의 신뢰성을 유지하기 위한 노력을 기울임으로써 AI 시대의 새로운 기회를 창출해야 합니다.
최근 구글의 검색 알고리즘 유출 사건은 검색 엔진 최적화(SEO) 전략에 커다란 변화를 예고하며, 클라우드 기반의 검색 솔루션의 필요성을 더욱 강조하였다. 특히, AI와 클라우드의 결합은 검색 기술을 근본적으로 변화시켰으며, 검색증강생성(RAG) 이나 벡터 데이터베이스와 같은 혁신적인 방법이 정보 검색의 효율성을 크게 향상시키고 있다. 그러나 AI가 만들어내는 저품질 콘텐츠 및 스팸 문제는 검색 엔진의 신뢰성을 위협하고 있다. 이에 따라 기업들은 자사의 콘텐츠 신뢰성과 독창성을 유지하기 위한 노력을 강화해야 한다. AI 시대의 변화 속에서 이러한 노력을 통해 새로운 기회가 창출될 수 있으며, 이는 클라우드와 AI를 활용한 지속 가능한 검색 생태계 발전에 기여할 것이다.