Your browser does not support JavaScript!

Dataiku와 Snowflake의 통합 AI 솔루션: 간단하고 강력한 분석 플랫폼

일일 보고서 2024년 06월 28일
goover

목차

  1. 요약
  2. 통합 플랫폼의 주요 기능
  3. Dataiku의 역할
  4. Snowflake의 역할
  5. Aimpoint Digital의 기여
  6. 결론

1. 요약

  • 본 리포트에서는 Dataiku와 Snowflake를 결합하여 제공하는 강력한 분석 플랫폼의 기능과 이점들을 설명합니다. 주요 내용으로는 두 플랫폼이 통합되어 제공하는 사용자 친화적 인터페이스, 성능 향상, 운영화 및 확장성, 비용 절감 등의 특징이 있습니다. 또한, Aimpoint Digital의 기여로 인해 이 통합 솔루션이 더욱 완성도 높은 플랫폼이 되었음을 강조합니다. Dataiku는 Snowflake와 같은 클라우드 데이터 소스와의 연결성을 제공하며, Snowflake는 다양한 프로그래밍 언어와 탄력적인 데이터 처리 기능을 지원합니다. 이를 통해 사용자는 데이터 분석과 머신러닝 모델을 보다 효율적으로 운영할 수 있습니다.

2. 통합 플랫폼의 주요 기능

  • 2-1. 사용자 친화적 인터페이스

  • Dataiku는 Snowflake에 저장된 데이터를 간편하게 액세스하고 분석할 수 있도록 사용자 친화적인 인터페이스를 제공합니다. 이를 통해 데이터 변환 파이프라인과 머신러닝 모델을 쉽게 운영화할 수 있습니다. 사용자는 '호스트', '데이터베이스', '웨어하우스', '역할', '스키마'와 같은 매개변수를 설정하여 Snowflake와 연결할 수 있으며, 이 외에도 '빠른 쓰기' 기능을 통해 대용량 데이터를 외부 스테이지(예: Amazon S3, Azure Blob, Google Cloud Storage)를 통해 Snowflake에 일괄 적재할 수 있습니다.

  • 2-2. 성능 향상

  • Dataiku와 Snowflake를 함께 사용하면 빅데이터 처리가 필요한 경우에도 탄력적인 컴퓨팅 성능을 제공하여 데이터 분석 요구 사항을 충족할 수 있습니다. 'In-database (SQL)' 실행 엔진을 통해 데이터 이동 없이 Snowflake에서 직접 SQL 스크립트를 실행할 수 있어, 읽기/쓰기 과정에서 발생하는 시간을 최소화할 수 있습니다. 또한, Snowpark를 통해 네이티브 SQL, Python, Java, Scala 언어를 지원하며, 이를 통해 성능을 크게 향상시킬 수 있습니다.

  • 2-3. 운영화 및 확장성

  • Dataiku와 Snowflake는 여러 협업 그룹이 성능 저하 없이 동일한 데이터에 액세스할 수 있도록 지원합니다. 이를 통해 데이터 파이프라인과 머신러닝 모델 운영화가 가능해지며, 확장성이 뛰어난 클라우드 컴퓨팅 환경을 활용할 수 있습니다. 또한, SQL 파이프라인 기능을 통해 연속된 여러 레시피 단계를 단일 SQL 쿼리로 처리하여 계산 속도를 높일 수 있습니다.

  • 2-4. 비용 통제

  • Dataiku와 Snowflake의 통합 솔루션은 사용자가 필요한 만큼만 계산 리소스를 사용하는 방식으로 비용을 효과적으로 관리할 수 있도록 합니다. Snowflake와의 통합을 통해 고객은 필요에 따라 확장 가능한 클라우드 컴퓨팅을 사용할 수 있으며, 이러한 계산 작업에 대한 비용도 효율적으로 관리할 수 있습니다.

3. Dataiku의 역할

  • 3-1. 연결 및 데이터셋 지원

  • Dataiku의 연결 기능은 사용자들이 Dataiku 내에서 Snowflake와 같은 클라우드 기반 데이터 소스와 상호 작용할 수 있게 합니다. '호스트'(Host), '데이터베이스'(Database), '웨어하우스'(Warehouse), '역할'(Role), '스키마'(Schema) 등 기본 매개변수를 설정할 수 있습니다. '호스트'를 제외한 나머지 옵션들은 기본적으로 사용자의 기본 객체를 사용하도록 빈 상태로 두어도 됩니다. 프로젝트 변수도 사용해 특정 기간 동안 'HR' 웨어하우스를 사용할지, 혹은 '금융' 웨어하우스를 사용할지와 같은 방식으로 매우 유연하게 제어할 수 있습니다. 추가로 '빠른 쓰기'(Fast Write) 기능을 설정해 Amazon S3, Azure Blob, Google Cloud Storage 등의 외부 스테이지를 통해 Snowflake에 객체를 대량으로 로드할 수 있습니다. 인증 관점에서 OAuth, 전역 자격 증명, 사용자별 자격 증명 등을 이용할 수 있으며, 이 연결을 모든 분석가들이나 특정 사용자 그룹에게 사용할 수 있게 설정할 수 있습니다.

  • 3-2. 레시피 계산

  • Dataiku에서 레시피의 계산 엔진을 제어할 수 있습니다. 원본 데이터셋이 Snowflake에 저장된 경우, '인-데이터베이스(SQL)' 실행 엔진이나 'DSS' 실행 엔진 중에서 선택할 수 있습니다. '인-데이터베이스(SQL)' 레시피 엔진이 가능할 경우, 대체로 더 빠른 계산을 제공합니다. 이 엔진은 사용자의 레시피를 SQL 스크립트로 변환하여 데이터가 있는 데이터베이스 내부에서 실행되기 때문에, Dataiku 외부로 데이터를 이동하지 않아서 읽기/쓰기 과정에서 시간을 최소화합니다. 그러나 모든 레시피 구성 요소가 '인-데이터베이스(SQL)' 계산을 지원하지는 않기 때문에, SQL 코드 레시피를 사용하거나 'DSS' 레시피 엔진을 사용하는 대체 방안을 고려해야 합니다. Snowflake 크레딧은 인-데이터베이스(SQL) 레시피 엔진을 사용할 때 소비됩니다.

  • 3-3. Snowpark 통합

  • Snowpark는 SQL, Python, Java, Scala를 지원하는 Snowflake의 개발자 프레임워크입니다. 이를 통해 Dataiku 플랫폼 내에서도 Snowflake의 탄력적이고 안전한 데이터 처리를 사용할 수 있습니다. Python 코드 레시피를 통해 Snowpark를 Dataiku와 통합하는 방법을 예시로, Snowpark 세션을 Dataiku Snowflake 연결을 통해 시작할 수 있습니다. Snowpark를 사용하면 메모리에서 큰 데이터셋을 다룰 필요가 없어 Python 코드 작업을 간소화할 수 있습니다. Snowpark를 Dataiku 플랫폼 내에서 사용할 경우에는 Snowflake 크레딧이 소비됩니다.

  • 3-4. SQL 파이프라인

  • SQL 파이프라인은 읽기/쓰기 단계를 최소화하여 흐름의 계산 속도를 높이는 메커니즘을 제공합니다. SQL 파이프라이닝을 활성화하면, Dataiku는 연속된 레시피 단계를 Snowflake가 처리할 수 있는 단일 SQL 쿼리로 결합합니다. 중간 데이터셋을 더 이상 생성하지 않도록 하는 것도 가능합니다. 중간 데이터셋을 물리적으로 만들고자 할 때는 데이터셋 설정에서 '빌드 가상화 허용' 옵션을 통해 이를 설정할 수 있습니다.

4. Snowflake의 역할

  • 4-1. SQL 파이프라인 최적화

  • Dataiku와 Snowflake의 통합 솔루션에서 SQL 파이프라인 최적화는 중요한 요소입니다. Dataiku는 Snowflake 내에서 데이터 전송과 변환 작업을 수행할 수 있는 기능을 제공하여, 데이터 이동을 최소화하고 처리 시간을 단축시킵니다. 이는 데이터 파이프라인의 각 단계를 SQL 쿼리로 결합하여 Snowflake에서 직접 처리하게 함으로써 이루어집니다.

  • 4-2. Snowpark 지원

  • Snowpark는 Snowflake의 개발자 프레임워크로, SQL 뿐만 아니라 Python, Java, Scala 등 다양한 프로그래밍 언어를 지원합니다. Snowpark를 사용하면 Snowflake의 탄력적인 데이터 처리 기능을 통해 대규모 데이터셋을 효율적으로 처리할 수 있습니다. Dataiku 내에서 Python 코드 레시피를 통해 Snowpark를 통합하면 성능을 크게 향상시킬 수 있습니다.

  • 4-3. 다양한 프로그래밍 언어 지원

  • Snowflake는 SQL 외에도 Python, Java, Scala 등 다양한 프로그래밍 언어를 지원하여 개발자가 익숙한 언어로 작업할 수 있게 합니다. 이를 통해 Snowflake의 데이터 처리 능력을 최대한 활용할 수 있으며, Dataiku와의 통합으로 다양한 언어를 사용한 데이터 분석 및 머신러닝 작업이 가능해집니다.

5. Aimpoint Digital의 기여

  • 5-1. 최고 수준의 데이터 전문가

  • Aimpoint Digital은 최상급의 데이터 과학자, 데이터 엔지니어, 경영 컨설턴트, 데이터 전문가로 구성된 강력한 팀을 보유하고 있습니다. 이들은 첨단 기술을 사용하여 엔드 투 엔드 분석 애플리케이션을 개발, 개선 및 배포합니다.

  • 5-2. Snowflake Elite Partner 인식

  • Aimpoint Digital은 Snowflake로부터 2023년 Snowflake Elite Partner로 인정받았습니다. 이는 Aimpoint Digital 팀의 뛰어난 기술력과 Snowflake 플랫폼의 효율적 활용 능력을 나타냅니다.

  • 5-3. Dataiku 파트너 오브 더 이어

  • Aimpoint Digital은 2023년에 Dataiku로부터 '파트너 오브 더 이어'로 선정되었습니다. 이는 Aimpoint Digital의 데이터 분석 및 기계 학습 모델 관리에서의 높은 성과를 인정받은 결과입니다.

6. 결론

  • Dataiku와 Snowflake의 통합 솔루션은 IT 전문가와 비즈니스 사용자 모두에게 매우 유용한 도구입니다. 이 솔루션은 사용자 친화적 인터페이스와 뛰어난 성능, 높은 확장성과 비용 관리의 이점을 제공합니다. 특히, Aimpoint Digital의 기여로 인해 이 솔루션은 더욱 전문적이고 완성된 형태로 제공됩니다. 앞으로 이 플랫폼을 통해 다양한 업계에서 데이터 분석 및 머신러닝 프로젝트를 더욱 효율적으로 실행할 수 있을 것으로 기대됩니다. 다만, 리포트에서 다뤄지지 않은 구체적인 사례 연구나 예제들이 추가된다면, 실제 적용 가능성에 대한 이해가 더욱 높아질 것입니다. 따라서, 향후 리포트에서는 다양한 산업 분야에서의 실질적인 응용 사례를 추가하여 이해를 도울 필요가 있습니다.

7. 용어집

  • 7-1. Dataiku [분석 플랫폼]

  • Dataiku는 데이터 분석과 기계 학습을 위한 통합 환경을 제공하는 도구입니다. Snowflake와 결합하여 사용자의 다양한 요구를 충족시키는 강력한 분석 솔루션을 제공합니다.

  • 7-2. Snowflake [데이터 플랫폼]

  • Snowflake는 데이터 저장소와 분석을 위한 클라우드 기반 데이터 플랫폼으로, SQL, Python 등 다양한 프로그래밍 언어를 지원합니다. Dataiku와의 통합을 통해 성능을 극대화하고 비용을 절감할 수 있습니다.

  • 7-3. Aimpoint Digital [컨설팅 회사]

  • Aimpoint Digital은 Dataiku와 Snowflake의 파트너로서, 이들 도구를 최적화하는 데 전문성을 갖추고 있습니다. Snowflake Elite Partner와 Dataiku의 Partner of the Year로 인정받고 있습니다.

8. 출처 문서