Your browser does not support JavaScript!

Snowflake와 Databricks의 AI 및 데이터 전략 비교 분석

일일 보고서 2024년 06월 27일
goover

목차

  1. 요약
  2. Snowflake의 최신 AI 및 데이터 전략
  3. Databricks의 AI 및 데이터 혁신
  4. 기타 관련 기술 및 협업
  5. 결론

1. 요약

  • 이 리포트는 Snowflake와 Databricks의 최신 AI 및 데이터 관리 솔루션을 비교하고 분석하는 것을 목적으로 합니다. 주요 주제로는 Snowflake Cortex AI와 Snowflake Arctic의 새로운 기능, 데이터 플랫폼 강화, NVIDIA와의 협력, Snowflake Copilot의 기능이 포함되며, Databricks의 클라우드 데이터웨어하우스 AI 기능, 데이터 및 AI 서밋 2024에서의 발표, Mosaic AI와 Unity Catalog를 통한 데이터 거버넌스 향상이 포함됩니다. 이를 통해 두 플랫폼 간의 차이점과 장단점을 명확히 하여 독자가 각 솔루션의 가치를 이해할 수 있도록 돕습니다.

2. Snowflake의 최신 AI 및 데이터 전략

  • 2-1. Snowflake Cortex AI의 새로운 기능과 혁신

  • Snowflake는 2024년 연례 사용자 컨퍼런스인 Snowflake Summit 2024에서 Snowflake Cortex AI에 대한 새로운 혁신과 향상을 발표했습니다. 최신 기능에는 사용자가 몇 분 안에 챗봇을 개발할 수 있도록 돕는 챗 경험과 산업 특정 용례에 맞춘 AI를 사용자 지정할 수 있는 새로운 노코드 인터랙티브 인터페이스가 포함됩니다. Snowflake Cortex Analyst와 Snowflake Cortex Search 등의 기능들을 통해, 구조화된 데이터와 비구조화된 데이터를 기반으로 애플리케이션 개발이 가능합니다. 또한, 고급 검색 기술을 이용해 기업은 하이브리드 검색 서비스를 제공합니다.

  • 2-2. Snowflake Arctic의 엔터프라이즈급 LLM

  • Snowflake는 Snowflake Arctic이라는 엔터프라이즈급 대규모 언어 모델(LLM)을 출시했습니다. 이 모델은 개방형 LLM으로, Apache 2.0 라이선스 기반의 오픈소스 모델입니다. Snowflake Arctic은 동급 최고 성능과 효율을 제공하며, 다양한 AI와 머신러닝 프레임워크와 호환됩니다. 이 모델은 4,800억 개의 매개 변수를 제공하여 SQL 코드 생성 및 명령 이행에 최적화되어 있습니다. 또한, 이 모델은 퍼플렉시티(Perplexity), NeMo, triton 등의 최신 기술들을 지원합니다.

  • 2-3. 데이터 전략 없이 AI 전략도 없다: Snowflake의 데이터 플랫폼 강화

  • Snowflake의 한국 지사장 최기영 씨는 데이터 전략이 없는 AI 전략은 성공할 수 없다고 강조했습니다. Snowflake는 데이터 거버넌스와 보안을 강화하기 위한 개방형 데이터 카탈로그인 Polaris Catalog를 공개했습니다. 이 카탈로그는 다양한 데이터 구조를 지원하며, 기업들이 별도의 데이터 플랫폼을 마련하지 않아도 됩니다. 또한, Snowflake는 호라이즌 솔루션을 통해 데이터 리니지, ML 에셋 리니지 기능을 포함한 거버넌스와 디스커버리 솔루션을 제공합니다.

  • 2-4. NVIDIA와의 협력으로 AI 애플리케이션 개발 촉진

  • Snowflake는 NVIDIA와 협력하여 고객과 파트너가 맞춤형 AI 애플리케이션을 개발할 수 있도록 지원하고 있습니다. 이 협력으로 Snowflake는 NVIDIA의 AI Enterprise 소프트웨어를 통합하여 NeMo Retriever 마이크로서비스와 Snowflake Cortex AI를 연계합니다. 이 협업은 AI 애플리케이션의 정확성과 성능을 향상시킵니다. 또한, NVIDIA Triton Inference Server를 통합하여 다양한 플랫폼에서 AI 추론을 실행하고 확장할 수 있도록 지원합니다.

  • 2-5. Snowflake Copilot 소개: 주요 기능과 FAQ

  • Snowflake Copilot은 LLM 기반의 SQL 어시스턴트로, 데이터 분석을 단순화하고 데이터 거버넌스를 유지합니다. Copilot은 SQL 쿼리를 생성하고 최적화하는 데 도움을 주며, 데이터셋을 기반으로 맞춤형 응답을 제공합니다. 이를 통해 사용자는 자연어로 질문을 하고 데이터에 대한 인사이트를 획득할 수 있습니다. Copilot은 보안성을 유지하면서도 역할 기반 접근 제어를 준수하여 사용자가 접근 가능한 데이터셋을 기반으로만 추천을 제공합니다.

3. Databricks의 AI 및 데이터 혁신

  • 3-1. 클라우드 데이터웨어하우스 AI 기능 활용

  • Databricks와 Snowflake는 최근 클라우드 데이터 웨어하우스에서 대규모 언어 모델(LLM)을 지원한다고 발표했습니다. LLM은 데이터 처리 및 분석을 향상시키고, 자연어 상호작용을 가능하게 하며, 복잡한 작업을 자동화하고, 고급 언어 이해를 통해 보다 깊은 통찰력을 제공합니다. 이를 통해 조직은 데이터 분석, 시각화 및 상호작용을 더욱 직관적이고 통찰력 있게 만들 수 있습니다. Databricks는 최첨단 생성형 AI 모델을 사용해 감정 분석, 분류, 번역 등의 작업을 수행하는 AI SQL 기능을 제공합니다. 이러한 기능들은 ai_analyze_sentiment(), ai_classify(), ai_translate()와 같은 SQL 함수들을 사용하여 실현됩니다. 또한 Databricks는 모델 서빙 엔드포인트 또는 OpenAI, Anthropic 등의 외부 모델을 호스팅하는 ai_query()와 같은 커스텀 모델을 호출하는 기능도 제공합니다.

  • 3-2. 데이터 및 AI 서밋 2024에서 Databricks의 발표

  • 2024년 샌프란시스코에서 열린 Databricks Data and AI Summit에서 'Compound AI'가 큰 화두로 떠올랐습니다. 이 주제는 고객의 데이터에 맞게 미세 조정된 맞춤형 LLM을 구축하는 데 중점을 둡니다. Databricks CEO Ali Ghodsi와 CTO Matei Zaharia는 각각의 키노트에서 보안 및 데이터 거버넌스, 데이터 스택의 단편화 문제를 강조하며, 고객이 데이터의 소유권을 유지하고 열린 형식으로 저장하며 다양한 엔진을 사용할 수 있도록 하는 전략을 발표했습니다. 이번 서밋에서는 20만 개 이상의 맞춤형 AI 모델이 Databricks 플랫폼에서 구축되었으며, 코드 없는 방식으로 LLM을 미세 조정할 수 있는 시설을 제공할 예정이라고 발표했습니다. 이를 통해 Databricks는 Data Intelligence를 실현하고자 합니다.

  • 3-3. Databricks의 AI, BI 및 거버넌스 향상 강조

  • Databricks는 Mosaic AI를 통해 기존의 머신 러닝 기능뿐만 아니라 생성형 AI 및 LLM 기능도 포함한 여러 AI 기능을 강조했습니다. Mosaic AI는 RAG 애플리케이션을 구축하기 위한 에이전트 프레임워크, SQL 기능, Python 기능, 모델 엔드포인트, 원격 함수, 검색자를 포함한 도구 카탈로그를 제공합니다. 또한 벡터 검색 기능이 이제 일반 제공(GA) 되었다고 발표했습니다. Databricks는 Unity Catalog를 통해 더욱 향상된 데이터 거버넌스 기능을 제공한다고 발표했습니다. Unity Catalog는 데이터와 AI 모델을 모두 관리할 수 있으며, 새로운 ABAC(속성 기반 접근 제어) 기능을 통해 데이터 접근 권한을 더욱 세부적으로 관리할 수 있습니다. 또한 Lakehouse Federation 기능을 통해 외부 Databricks 레이크하우스 및 다양한 데이터 플랫폼의 테이블을 연합할 수 있게 되었습니다.

4. 기타 관련 기술 및 협업

  • 4-1. 기술 산업의 혁신적 솔루션 및 파트너십 개요

  • Fauna는 분산 문서-관계형 데이터베이스로, 클라우드 API로 제공되며 새로운 스키마 기능과 타입을 도입하여 조직이 비즈니스 및 애플리케이션의 변화하는 요구에 맞게 데이터베이스 스키마를 쉽게 발전시킬 수 있도록 지원합니다. 이는 전통적으로 관계형 데이터베이스와 관련된 기능들을 문서 모델로 제공하는 Fauna의 미션에 기반하여, 현대 애플리케이션의 요구를 충족시키기 위해 혁신하고 있습니다. 또한 Boomi와 Connor Group은 엔터프라이즈 GenAI 거버넌스 프레임워크를 도입하여, AI 구현에 대한 구조적인 접근 방식을 제공합니다. 전문가들은 데이터 패브릭 아키텍처 채택을 위한 기술 및 모범 사례를 논의하고 있으며, ID Dataweb과 IBM은 ID 데이터 검증 워크플로우를 IBM Security Verify와 통합하여 아이덴티티 액세스 관리(IAM)를 강화하고 있습니다. NetApp의 Spot은 FinOps 인증 플랫폼을 획득하고 두 개의 새로운 제품 모듈을 발표하면서 비용 인텔리전스와 청구 엔진을 제공하고 있습니다.

  • 4-2. Sigma Computing을 통한 클라우드 데이터웨어하우스 AI 기능 활용

  • 클라우드 데이터웨어하우스인 Snowflake와 Databricks는 최근 대형 언어 모델(LLM)을 지원한다고 발표했습니다. LLM은 자연어 상호작용을 통해 데이터 처리와 분석을 강화하며 복잡한 작업을 자동화하고 고급 언어 이해를 통해 더 깊은 통찰력을 제공합니다. Sigma에서는 LLM 기능을 활용하여 데이터 분석, 시각화 및 상호작용을 더욱 직관적이고 통찰력 있게 만듭니다. Snowflake Cortex는 LLM 기능을 제공하는 완전 관리형 서비스로, SQL 함수를 통해 AI 애플리케이션 구축에 집중할 수 있도록 모델 최적화와 GPU 인프라를 처리합니다. Databricks는 ai_analyze_sentiment(), ai_classify(), ai_translate() 등의 내장 AI SQL 함수를 통해 감정 분석, 분류, 번역 작업을 수행합니다. Sigma의 사용자 정의 함수와 통합된 AI 기능을 사용하면 추가 복잡성 없이 효율적이고 쉽게 사용할 수 있습니다.

5. 결론

  • 이 리포트는 Snowflake와 Databricks의 AI 및 데이터 관리 전략을 비교 분석하며, 각각의 주요 발견과 의미를 요약하고 있습니다. Snowflake는 데이터와 AI 전략의 통합을 강조하며, Snowflake Cortex AI와 Snowflake Arctic을 통해 고성능 AI 도구와 노코드 인터페이스를 제공하고, NVIDIA와의 협력을 통해 AI 애플리케이션 개발을 촉진합니다. 반면, Databricks는 Databricks Lakehouse를 통해 클라우드 기반의 통합 데이터 관리 시스템을 제공하며, Mosaic AI와 Unity Catalog를 통해 AI와 데이터 거버넌스 기능을 강화합니다. 이 두 플랫폼은 각각의 강점이 있으며, 사용자의 필요에 따라 최적의 솔루션을 선택하는 것이 중요합니다. 리포트의 한계로는 실제 사례에서의 적용 결과가 부족하다는 점을 들 수 있으며, 향후 연구에서는 이러한 플랫폼들이 실제 환경에서 어떻게 성능을 발휘하는지에 대한 구체적인 데이터가 필요합니다. 이를 통해 각 솔루션의 실질적 적용 가능성을 평가하고 미래 발전 방향을 모색할 수 있을 것입니다.