Your browser does not support JavaScript!

스노우플레이크와 데이터브릭스의 AI 및 데이터 전략 비교 분석

일일 보고서 2024년 06월 27일
goover

목차

  1. 요약
  2. 스노우플레이크의 주요 발표 및 기술 현황
  3. 데이터브릭스의 주요 발표 및 기술 현황
  4. 스노우플레이크와 데이터브릭스의 파트너십과 협업
  5. 스노우플레이크와 데이터브릭스의 데이터 및 AI 거버넌스 전략
  6. 결론

1. 요약

  • 이 리포트는 스노우플레이크와 데이터브릭스의 AI 및 데이터 전략을 비교 분석하고 있습니다. 스노우플레이크는 2024년 컨퍼런스에서 Snowflake Cortex AI와 엔터프라이즈 LLM인 '아크틱' 등 주요 기술 혁신을 발표하였으며, 높은 데이터 거버넌스를 강조합니다. 데이터브릭스는 동일해 2024년 데이터 및 AI 서밋에서 Compound AI와 Mosaic AI를 통한 맞춤형 AI 모델 구축과 운용을 고도화하고 있음을 밝혔습니다. 또한, 두 기업은 각각 NVIDIA 및 Tabular와의 파트너십을 통해 전략적 협업을 강화하고 있습니다. 주요 발표와 기술 동향을 통해 두 기업이 AI 및 데이터 전략에서 강점을 지니고 있음을 확인할 수 있습니다.

2. 스노우플레이크의 주요 발표 및 기술 현황

  • 2-1. Snowflake Cortex AI와 ML의 최신 혁신 사항

  • 스노우플레이크는 2024년 연례 사용자 컨퍼런스인 '스노우플레이크 서밋 2024'에서 Snowflake Cortex AI의 최신 혁신 사항을 발표하였습니다. 이번 혁신 사항에는 대화형 환경을 향상시키는 기능이 포함되어, 기업들이 몇 분 안에 챗봇을 개발할 수 있게 되었습니다. 또한, 업계 최고 수준의 LLM 및 서버리스 파인튜닝에 접근할 수 있는 새로운 노코드 인터랙티브 인터페이스가 도입되었습니다. 이를 통해 사용자는 특정 산업군의 요구에 맞게 AI를 맞춤화할 수 있으며, Snowflake ML과 통합된 경험을 통해 개발자들이 ML 라이프사이클 전반에 걸쳐 모델을 구축, 발견 및 관리할 수 있게 되었습니다. Snowflake Cortex Analyst와 Snowflake Cortex Search는 구조적 및 비구조적 데이터에 대해 신속한 챗봇 개발을 가능하게 하며, Cortex Guard는 사용 가능한 모델의 안전성과 사용성을 보장하는 기능을 제공합니다. 또한 Snowflake Copilot을 통해 텍스트-투-SQL 기능을 강화하여 SQL 사용자들이 생산성을 높일 수 있도록 지원합니다.

  • 2-2. 스노우플레이크의 엔터프라이즈 LLM '아크틱' 출시

  • 스노우플레이크는 엔터프라이즈 수준의 대규모 언어 모델(LLM)인 '아크틱'을 2024년 6월 24일에 출시하였습니다. 아크틱은 아파치 2.0 라이선스 기반의 오픈소스 모델로, 최고의 개방성과 성능을 자랑합니다. 스노우플레이크는 MoE(Mixture-of-Experts) 방식을 통해 아크틱을 설계하여, SQL 코드 생성 및 명령 이행 등 다양한 기준에서 최고의 성능을 발휘합니다. 아크틱은 추론과 학습 방식을 선택할 수 있는 유연성을 제공하며, 엔비디아의 NIM, 텐서RT-LLM, vLLM, 허깅페이스 등의 프레임워크와 호환됩니다. 또한, 스노우플레이크 코텍스에서 서버리스 추론을 통해 아크틱을 즉시 사용할 수 있습니다. 이는 스노우플레이크의 데이터 클라우드에서 기업들이 AI 및 데이터 전략을 효과적으로 실행할 수 있도록 지원합니다.

  • 2-3. Snowflake의 데이터 클라우드 전략과 데이터 거버넌스 강화

  • 스노우플레이크는 데이터 전략 없이는 AI 전략도 성공할 수 없다고 강조하며, AI 데이터 클라우드로의 전환을 고도화하고 있습니다. 데이터 거버넌스를 확보하기 위해 개방형 데이터 카탈로그인 폴라리스 카탈로그를 공개하였습니다. 이는 데이터 레이크하우스 및 기타 모던 아키텍처를 지원하는 오픈소스 데이터 테이블 포맷인 아파치 아이스버그를 기반으로 합니다. 고객은 별도의 데이터 플랫폼 실행환경을 구축하지 않고도 데이터 파운데이션을 강화할 수 있습니다. 또한, 스노우플레이크는 호라이즌 솔루션을 통해 통합된 컴플라이언스, 보안, 개인정보보호, 상호운용성 및 액세스 권한을 제공하며, 데이터 리니지와 ML 에셋 리니지 기능도 제공합니다. 이를 통해 데이터와 AI 모델의 라이프사이클을 전체적으로 관리할 수 있습니다. 스노우플레이크는 모든 사용자가 다양한 활용 사례를 쉽게 찾아낼 수 있도록 유니버설 서치 기능과 AI 기반 오브젝트 설명 기능을 도입하였습니다.

3. 데이터브릭스의 주요 발표 및 기술 현황

  • 3-1. Databricks의 Lakehouse와 AI, BI 및 거버넌스 혁신 발표

  • 데이터브릭스는 샌프란시스코에서 열린 데이터 및 AI 서밋(DAIS)에서 'Compound AI'라는 주제로 고객의 데이터에 맞춤화된 대규모 언어 모델(LLM)을 만드는 것에 중점을 두었습니다. 이번 서밋에 16,000명이 현장 참석했고, 44,000명이 온라인으로 등록했습니다. CEO Ali Ghodsi와 CTO Matei Zaharia가 주도한 첫 날과 둘째 날 기조 연설은 각각 6시간 동안 진행되었으며, 공개 테이블 형식, AI, BI, 오픈 소스 Unity Catalog, Apache Spark 4.0 등에 대한 여러 발표가 있었습니다. 데이터브릭스는 Tabular를 인수하면서 Apache Iceberg의 창시자인 Ryan Blue와 그의 팀을 합류시켰습니다. 이를 통해 데이터브릭스는 Delta Lake와 Iceberg 두 가지 형식의 전문 지식과 리소스를 통합하여 데이터 형식의 분열을 줄이려는 목표를 가지고 있습니다.

  • 3-2. Compound AI와 Mosaic AI를 통한 AI 모델 구축과 운용

  • 데이터브릭스의 'Compound AI'는 고객의 데이터에 맞는 맞춤형 LLM을 구축하여, 모델이 컨텍스트를 기본적으로 이해할 수 있도록 합니다. DAIS 첫날 기조 연설에서 데이터브릭스는 20만 개 이상의 맞춤형 AI 모델이 데이터브릭스 플랫폼에서 구축되었음을 발표했습니다. 또한, 데이터브릭스는 노코드로 LLM을 미세 조정할 수 있는 기능을 제공한다고 발표했습니다. 'Mosaic AI'는 데이터브릭스의 기존 머신 러닝 기능과 최신 생성형 AI(GenAI) 및 LLM 기능을 통합한 브랜드입니다. 새로운 기능으로는 RAG 애플리케이션 구축을 위한 에이전트 프레임워크, AI 관련 SQL 함수, Python 함수, 모델 엔드포인트 등을 인벤토리하고 큐레이션할 수 있는 도구 카탈로그, 평가 및 교육 기능이 있습니다. 벡터 검색 기능은 이제 일반 이용 가능(GA) 상태입니다. 또한, Shutterstock과 협력하여 텍스트에서 이미지를 생성하는 AI 모델 'ImageAI'를 개발했습니다.

4. 스노우플레이크와 데이터브릭스의 파트너십과 협업

  • 4-1. 스노우플레이크와 NVIDIA의 파트너십: AI 애플리케이션 개발 강화

  • 2024년 스노우플레이크 서밋에서 스노우플레이크는 NVIDIA와의 새로운 협력을 발표하였습니다. 이 파트너십은 스노우플레이크의 AI 데이터 클라우드 기능과 NVIDIA의 고급 AI 모델 및 하드웨어를 결합하여 고객과 파트너가 맞춤형 AI 애플리케이션을 쉽게 구축할 수 있도록 합니다. 스노우플레이크는 NVIDIA AI Enterprise 소프트웨어를 통합하여 Cortex AI에 NeMo Retriever 마이크로서비스를 추가하였으며, 이를 통해 맞춤형 모델로의 연결 기능을 향상시키고 정확한 비즈니스 응답을 보장합니다. 또한, 스노우플레이크 Arctic, 엔터프라이즈급 대형 언어 모델(LLM)은 NVIDIA TensorRT-LLM의 지원을 받아 성능을 최적화하였습니다. 스노우플레이크의 CEO Sridhar Ramaswamy는 이 협업에 대해 "NVIDIA의 가속 컴퓨팅과 소프트웨어의 전체 스택을 스노우플레이크의 최신 AI 기능과 결합함으로써, 모든 산업의 고객이 기업 데이터를 통해 맞춤형 AI 애플리케이션을 쉽게 구축할 수 있게 되었습니다."라고 언급했습니다. 또한, NVIDIA의 CEO Jensen Huang는 "데이터는 AI 산업 혁명의 필수 원료입니다. NVIDIA와 스노우플레이크는 기업들이 고유의 비즈니스 데이터를 세련되게 만들어 가치 있는 생성 AI로 변환할 수 있도록 도울 것입니다."라고 말했습니다. 이번 협업 발표는 스노우플레이크와 NVIDIA의 통합 AI 인프라와 컴퓨팅 플랫폼 제공을 목적으로 한 기존 협력을 기반으로 하였습니다.

  • 4-2. 데이터브릭스의 Tabular 인수와 개방형 테이블 형식 채택

  • 2024년 샌프란시스코에서 열린 데이터브릭스 데이터 및 AI 서밋에서 데이터브릭스는 Tabular 인수를 발표하였습니다. Tabular는 개방형 테이블 형식인 Apache Iceberg의 창시자들에 의해 설립된 회사로, 이번 인수를 통해 데이터브릭스는 Iceberg와 Delta Lake 두 형식 모두에 대한 전문 지식을 확보하게 되었습니다. 데이터브릭스의 CEO Ali Ghodsi는 개막 연설에서 데이터 보안과 거버넌스가 중요한 문제이며, 데이터 형식의 파편화는 용납할 수 없다고 밝혔습니다. 그는 데이터의 개방형 형식으로 저장하고 벤더 종속성을 피하며, 여러 엔진을 사용할 수 있어야 한다고 강조하였습니다. 이 인수를 통해 데이터브릭스는 Iceberg 및 Delta Lake 형식 모두에 대한 통합 계층인 Delta UniForm 레이어를 도입하여, 서로 다른 형식 간의 차이를 추상화하고 고객이 두 가지 형식 중 하나를 선택해야 하는 문제를 해결하려고 합니다. 데이터브릭스는 'Compound AI'라는 주제로 맞춤형 대형 언어 모델(LLM)을 고객 데이터로 미세 조정하는 것이 주요 주제였습니다. 데이터브릭스는 200,000개 이상의 맞춤형 AI 모델이 그들의 플랫폼에서 생성되었으며, 고객이 데이터를 통해 AI를 쉽게 활용할 수 있도록 돕고 있다고 밝혔습니다.

5. 스노우플레이크와 데이터브릭스의 데이터 및 AI 거버넌스 전략

  • 5-1. 스노우플레이크의 MLOps 및 데이터 거버넌스 강화

  • 2024년 6월 4일, 스노우플레이크는 'Snowflake Cortex AI'의 혁신과 개선을 통해 고객들이 쉽고 효율적으로 AI를 활용할 수 있도록 만드는 새로운 기능을 발표했습니다. 이 발표에는 다음의 주요 내용이 포함되었습니다: - 'Snowflake Cortex Guard': Meta의 Llama Guard를 활용하여 데이터와 자산의 유해 콘텐츠를 필터링하고 플래그를 붙이는 기능. - 'Document AI': 고급 문서 처리 기능을 제공하며 Snowflake의 멀티모달 LLM인 'Snowflake Arctic-TILT'를 통해 고효율 문서 처리가 가능. - 'Snowflake Copilot': 텍스트를 SQL로 변환하는 보조 도구로, Mistral Large와 Snowflake의 자체 SQL 생성 모델을 결합하여 SQL 사용자의 생산성을 높임. - 'Snowflake ML': 중앙집중식 MLOps 기능 제공으로 모델과 특징, 메타데이터를 관리하고, 모델 레지스트리와 기능 스토어 등을 통해서 ML 수명 주기 전반에 대한 통합 관리 기능 제공.

  • 5-2. 데이터브릭스의 Unity Catalog 오픈 소스화와 거버넌스 전략

  • 데이터브릭스는 2024년 샌프란시스코에서 개최된 데이터 및 AI 서밋에서 Unity Catalog를 오픈 소스로 전환했음을 발표했습니다. CEO Ali Ghodsi는 데이터와 AI의 거버넌스를 통합 관리하고, 어떤 엔진이나 클라이언트에서도 접근 가능하도록 하기 위한 조치라고 설명했습니다. 주요 내용은 다음과 같습니다: - 'Unity Catalog' 공개: GitHub 리포를 통해 오픈 소스로 공개되며, 데이터 테이블뿐만 아니라 파일, AI 모델, AI 도구까지도 통합 관리 가능. - 'Lakehouse Federation' 일반 제공: 데이터 가상화 기술을 이용해 외부 데이터브릭스 레이크하우스와 비데이터브릭스 플랫폼 (MySQL, PostgreSQL, Snowflake 등) 데이터 접근 가능. - 'Delta Sharing' 기능 확장: 데이터브릭스 테이블 뿐만 아니라 다양한 플랫폼과 데이터 공유 가능. - 'Mosaic AI'와 통합: 머신 러닝과 생성형 AI (GenAI) 기능을 통합한 프레임워크와 도구 제공, 평가 및 훈련 기능 강화, 벡터 검색 기능 일반 제공.

6. 결론

  • 이번 리포트를 통해 스노우플레이크와 데이터브릭스는 서로 다른 접근 방식을 통해 AI 및 데이터 전략을 성공적으로 추진하고 있음을 알 수 있습니다. 스노우플레이크는 Snowflake Cortex AI와 Snowflake Arctic 같은 통합 플랫폼을 통해 AI와 데이터 거버넌스를 강화하는 데 집중하고 있습니다. 반면, 데이터브릭스는 Databricks Lakehouse와 Compound AI 등을 통해 더 유연한 데이터 통합과 맞춤형 AI 모델 구축을 강조하고 있습니다. 이러한 전략적 차이는 각 기업이 기술 혁신과 파트너십을 극대화하려는 노력을 반영하고 있습니다. 이 연구의 한계는 장기적 전략과 실제 적용 사례 분석의 부족으로, 향후 연구에서는 이를 보완하고 더 심층적인 분석이 필요할 것입니다. 나아가, 이러한 기술 혁신들이 실제 비즈니스 환경에서 어떻게 적용될 수 있을지에 대한 실질적 제안을 포함하는 것이 중요합니다.

7. 용어집

  • 7-1. Snowflake Cortex AI [기술]

  • Snowflake Cortex AI는 엔터프라이즈 AI를 쉽게, 효율적으로, 신뢰할 수 있게 활용할 수 있도록 돕는 플랫폼입니다. 주요 기능으로는 맞춤형 챗봇 경험 제공, 모델 튜닝, 코드 없는 AI 개발 등이 있으며, NVIDIA와의 파트너십을 통해 사용자 맞춤형 AI 데이터 애플리케이션을 제공합니다.

  • 7-2. Databricks Lakehouse [기술]

  • Databricks Lakehouse는 데이터와 AI를 통합 관리하는 플랫폼으로, 최신 AI, BI 및 데이터 거버넌스 솔루션을 제공합니다. Compound AI와 Mosaic AI를 통해 AI 모델을 정확하고 쉽게 사용할 수 있도록 돕습니다. 또한, Unity Catalog를 오픈 소스화하여 데이터 및 AI 자산의 거버넌스와 연결성을 강화합니다.

  • 7-3. Snowflake Arctic [기술]

  • Snowflake Arctic은 엔터프라이즈급 대형 언어 모델로, SQL 코드 생성과 명령 실행 등의 고급 기능을 제공합니다. Apache 2.0 라이선스를 기반으로 하며, NVIDIA NIM, TensorRT-LLM 등의 프레임워크를 사용해 사용자 지정이 가능합니다. Amazon EC2 P5 인스턴스를 사용해 비용을 절감하고 성능을 높였습니다.

8. 출처 문서