데이터 웨어하우스 vs 데이터 마트 vs 데이터 레이크
데이터 레이크와 데이터 웨어하우스라는 용어는 종종 혼동되며 때로는 같은 의미로 사용되기도 합니다. 실제로 둘 다 방대한 데이터셋을 저장하는 데 사용되지만, 데이터 레이크와 데이터 웨어하우스는 서로 다르며 서로 보완적인 관계가 될 수도 있습니다.
- 데이터 레이크 - 구조화된 데이터, 반구조화된 데이터 또는 비구조화된 데이터를 모두 포함할 수 있는 거대한 데이터 저장소입니다.
- 데이터 웨어하우스 - 특정 목적을 위해 이미 처리된 구조화되고 필터링된 데이터를 저장하는 저장소입니다. 다시 말해, 데이터 웨어하우스는 잘 정리되어 있으며 명확하게 정의된 데이터를 포함합니다.
- 데이터 마트 - 데이터 웨어하우스의 하위 집합으로, 공급망 관리 애플리케이션과 같은 특정 목적을 위해 특정 기업의 비즈니스 부서에서 사용됩니다.
데이터 레이크라는 용어를 만든 James Dixon은 비유를 통해 차이를 설명합니다. “데이터 마트를 정제되고 포장되어 쉽게 소비할 수 있도록 구조화된 생수 저장소라고 생각한다면, 데이터 레이크는 더 자연스러운 상태의 큰 물덩어리입니다. 데이터 레이크의 내용은 원천에서 흘러들어와 호수를 채우며, 다양한 사용자가 그 안을 살펴보거나, 더 깊이 들어가 보거나, 샘플을 떠갈 수 있습니다.”
데이터 레이크는 데이터 웨어하우스와 함께 사용할 수 있습니다. 예를 들어 데이터 레이크를 데이터 웨어하우스의 수집 및 스테이징 저장소로 활용할 수 있습니다. 또한 데이터 웨어하우스나 다른 데이터 구조로 데이터를 전달하기 전에 데이터 레이크에서 데이터를 정제하거나 정리할 수 있습니다.
정제되지 않은 데이터 레이크는 거버넌스나 품질 판단이 적용되지 않은 채 데이터 늪이 될 위험이 있으며, 서로 다른 품질의 데이터를 뒤섞어 ‘흐리게’ 만들어 수집된 데이터를 바탕으로 내리는 의사결정의 타당성을 신뢰하기 어렵게 하고, 결국 데이터 수집의 가치를 크게 떨어뜨립니다.
다음 다이어그램은 일반적인 데이터 레이크 기술 스택을 보여줍니다. 데이터 레이크에는 확장 가능한 스토리지와 컴퓨팅 자원, 데이터를 관리하기 위한 데이터 처리 도구, 데이터 과학자·비즈니스 사용자·기술 인력을 위한 분석 및 보고 도구, 그리고 공통 데이터 거버넌스·보안·운영 시스템이 포함됩니다.
데이터 레이크는 기업 데이터 센터나 클라우드에서 구현할 수 있습니다. 많은 초기 도입 기업은 온프레미스로 데이터 레이크를 구축했습니다. 데이터 레이크가 점점 보편화되면서, 많은 주류 도입 기업은 가치 실현 시간을 단축하고 TCO를 줄이며 비즈니스 민첩성을 높이기 위해 클라우드 기반 데이터 레이크를 검토하고 있습니다.
온프레미스 데이터 레이크는 CAPEX와 OPEX 부담이 큽니다
데이터 레이크는 범용 서버와 로컬(내부) 스토리지를 사용해 기업 데이터 센터에 구축할 수 있습니다. 오늘날 대부분의 온프레미스 데이터 레이크는 인기 있는 고성능 컴퓨팅 프레임워크인 Hadoop의 상용 또는 오픈소스 버전을 데이터 플랫폼으로 사용합니다. (TDWI 설문조사에 따르면 응답자의 53%가 Hadoop을 데이터 플랫폼으로 사용하고 있으며, 관계형 데이터베이스 관리 시스템을 사용하는 비율은 6%에 불과합니다.)
수백 대 또는 수천 대의 서버를 결합해 대규모 데이터셋을 저장하고 처리할 수 있는 확장 가능하고 복원력 있는 Hadoop 클러스터를 구축할 수 있습니다. 아래 다이어그램은 Apache Hadoop 기반 온프레미스 데이터 레이크의 기술 스택을 보여줍니다.
기술 스택은 다음과 같습니다:
온프레미스 데이터 레이크는 높은 성능과 강력한 보안을 제공하지만, 배포, 관리, 유지보수 및 확장에 드는 비용과 복잡성이 매우 큽니다. 온프레미스 데이터 레이크의 단점은 다음과 같습니다:
길고 복잡한 구축 기간
자체 데이터 레이크를 구축하려면 상당한 시간, 노력, 비용이 필요합니다. 시스템을 설계하고 아키텍처를 정의해야 하며, 보안 및 관리 시스템과 모범 사례를 수립해야 하고, 컴퓨팅, 스토리지 및 네트워킹 인프라를 조달하고 구축 및 테스트해야 하며, 모든 소프트웨어 구성 요소를 식별하고 설치 및 구성해야 합니다. 온프레미스 데이터 레이크를 실제 운영 환경에 올리기까지는 보통 수개월이 걸리며, 종종 1년이 넘기도 합니다.
높은 CAPEX
초기 장비 투자 비용이 크면 ROI가 낮고 회수 기간이 긴 불균형한 비즈니스 모델로 이어집니다. 서버, 디스크, 네트워크 인프라는 모두 최대 트래픽 수요와 향후 용량 요구를 충족하도록 과도하게 설계되므로, 유휴 컴퓨팅 자원과 사용하지 않는 스토리지 및 네트워크 용량에 대해서도 계속 비용을 지불하게 됩니다.
높은 OPEX
전력, 냉각, 랙 공간에 대한 반복 비용, 월별 하드웨어 유지보수 및 소프트웨어 지원 비용, 지속적인 하드웨어 관리 비용이 모두 높은 운영 비용으로 이어집니다.
높은 위험
비즈니스 연속성을 확보하기 위해 실시간 데이터를 보조 데이터 센터에 복제하는 일은 많은 기업이 감당하기 어려울 정도로 비용이 큽니다. 많은 기업은 데이터를 테이프나 디스크에 백업합니다. 재난이 발생하면 시스템을 재구축하고 운영을 복구하는 데 며칠에서 몇 주가 걸릴 수 있습니다.
복잡한 시스템 관리
온프레미스 데이터 레이크를 운영하는 것은 자원 소모가 큰 작업으로, 귀중하고 비용이 많이 드는 IT 인력을 더 전략적인 업무에서 빼앗아 갑니다.
클라우드 데이터 레이크는 장비 비용과 복잡성을 제거합니다
퍼블릭 클라우드에서 데이터 레이크를 구현하면 장비 비용과 불편함을 피하면서 빅데이터 이니셔티브를 더 빠르게 추진할 수 있습니다. 클라우드 기반 데이터 레이크의 일반적인 장점은 다음과 같습니다:
빠른 가치 실현
인프라 설계 작업과 하드웨어 조달, 설치 및 가동 작업을 제거함으로써 배포 시간을 수개월에서 수주로 단축할 수 있습니다.
CAPEX 없음
초기 자본 지출을 피하고, 비용을 비즈니스 요구와 더 잘 맞추며, 다른 프로그램을 위한 자본 예산을 확보할 수 있습니다.
장비 운영 비용 없음
장비 운영에 들어가는 지속 비용(전력, 냉각, 부동산), 연간 하드웨어 유지보수 비용, 반복되는 시스템 관리 비용을 없앨 수 있습니다.
즉시 가능한 무한 확장성
빠르게 변화하는 비즈니스 요구를 충족하고 고객 만족도를 높이기 위해, 필요할 때마다 컴퓨팅 및 스토리지 용량을 추가할 수 있습니다(업무 요구에 신속하게 대응).
독립적 확장
내부 스토리지를 사용하는 온프레미스 Hadoop 구현과 달리, 클라우드 구현에서는 컴퓨팅과 스토리지 용량을 독립적으로 확장해 비용을 최적화하고 자원을 최대한 활용할 수 있습니다.
낮은 위험
재난 발생 시 복원력을 높이고 지속적인 가용성을 보장하기 위해 지역 간 데이터 복제를 수행할 수 있습니다.
단순화된 운영
클라우드 제공업체가 물리적 인프라를 관리하므로, IT 인력이 비즈니스를 지원하는 전략적 업무에 집중할 수 있습니다.
1세대 클라우드 스토리지 서비스는 데이터 레이크에 너무 비싸고 복잡합니다
온프레미스 데이터 레이크와 비교하면, 클라우드 기반 데이터 레이크는 배포, 확장, 운영이 훨씬 쉽고 비용도 적게 듭니다. 하지만 AWS S3, Microsoft Azure Blob Storage, Google Cloud Platform Storage 같은 1세대 클라우드 오브젝트 스토리지 서비스는 본질적으로 비용이 많이 들고(많은 경우 온프레미스 스토리지 솔루션만큼 비쌉니다) 복잡합니다. 많은 기업이 데이터 레이크 이니셔티브를 위해 더 단순하고 저렴한 스토리지 서비스를 찾고 있습니다. 1세대 클라우드 오브젝트 스토리지 서비스의 한계는 다음과 같습니다:
비싸고 혼란스러운 서비스 계층
기존 클라우드 공급업체는 여러 종류의 스토리지 서비스를 판매합니다. 각 계층은 서로 다른 목적을 위해 설계되며, 예를 들어 활성 데이터용 기본 스토리지, 재해 복구용 활성 아카이브 스토리지, 장기 보관용 비활성 아카이브 스토리지가 있습니다. 각 계층은 고유한 성능 및 복원력 특성, SLA, 요금 체계를 갖습니다. 여러 요금 변수로 구성된 복잡한 비용 구조는 현명한 선택을 어렵게 하고, 비용 예측과 예산 관리를 복잡하게 만듭니다.
벤더 종속성
각 서비스 제공업체는 고유한 API를 지원합니다. 서비스를 변경하려면 기존 스토리지 관리 도구와 애플리케이션을 다시 작성하거나 교체해야 하므로 비용과 시간이 많이 듭니다. 더 심각한 점은, 기존 공급업체가 클라우드 밖으로 데이터를 이동할 때 과도한 데이터 전송(egress) 요금을 부과해 공급업체 전환이나 다중 공급업체 활용이 비싸진다는 것입니다.
계층형 스토리지 서비스에 주의하세요
1세대 클라우드 스토리지 제공업체는 혼란스러운 계층형 스토리지 서비스를 제공합니다. 각 스토리지 계층은 특정 유형의 데이터를 위해 설계되며, 고유한 성능 특성, SLA, 요금제(복잡한 비용 구조 포함)를 갖습니다.
공급업체마다 포트폴리오는 조금씩 다르지만, 이러한 계층형 서비스는 일반적으로 세 가지 데이터 범주에 최적화되어 있습니다.
활성 데이터
운영 체제, 애플리케이션 또는 사용자가 즉시 접근할 수 있는 실시간 데이터입니다. 활성 데이터는 자주 액세스되며 엄격한 읽기/쓰기 성능 요구사항이 있습니다.
활성 아카이브
가끔 액세스되며 온라인에서 즉시 사용할 수 있는 데이터입니다(오프라인 또는 원격 소스에서 복원하거나 재수화할 필요가 없음). 예로는 빠른 재해 복구를 위한 백업 데이터나, 필요할 때 짧은 시간 내에 접근할 수 있는 대용량 동영상 파일이 있습니다.
비활성 아카이브
드물게 액세스되는 데이터입니다. 규정 준수를 위해 장기 보관되는 데이터가 여기에 해당합니다. 전통적으로 비활성 데이터는 테이프에 보관되어 오프사이트에 저장됩니다.
기존 클라우드 스토리지 공급업체에서는 특정 애플리케이션에 가장 적합한 스토리지 계층과 최적의 가치를 찾는 일이 매우 어려울 수 있습니다. 예를 들어 Microsoft Azure는 General Purpose v1, General Purpose v2, Blob Storage, Premium Blob Storage의 네 가지 오브젝트 스토리지 옵션을 제공합니다. 각 옵션은 고유한 가격과 성능 특성을 갖습니다. 또한 일부(모든 것은 아님) 옵션은 hot 스토리지(자주 액세스하는 데이터용), cool 스토리지(드물게 액세스하는 데이터용), archive 스토리지(매우 드물게 액세스하는 데이터용)라는 세 가지 스토리지 계층을 지원하며, 각각 별도의 SLA와 요금이 적용됩니다. 선택지가 너무 많고 가격 변수도 복잡해, 충분히 검토된 결정을 내리고 비용을 정확히 예산화하기가 거의 불가능합니다.
IDrive® e2는 클라우드 스토리지는 단순해야 한다고 믿습니다. 혼란스러운 스토리지 계층과 복잡한 요금 체계를 가진 기존 클라우드 스토리지 서비스와 달리, 우리는 예측 가능하고 저렴하며 이해하기 쉬운 단일 제품을 제공하여 어떤 클라우드 스토리지 요구사항도 충족합니다. IDrive® e2는 활성 데이터, 활성 아카이브, 비활성 아카이브 등 어떤 데이터 스토리지 계층에도 사용할 수 있습니다.
데이터 레이크를 위한 IDrive® e2 핫 클라우드 스토리지
IDrive® e2 핫 클라우드 스토리지는 어떤 용도에도 사용할 수 있는 매우 경제적이고 빠르며 신뢰할 수 있는 클라우드 오브젝트 스토리지입니다. 혼란스러운 스토리지 계층과 복잡한 요금 체계를 가진 1세대 클라우드 스토리지 서비스와 달리, IDrive® e2는 이해하기 쉽고 확장 비용도 매우 효율적입니다. IDrive® e2는 방대한 원시 데이터를 저장하기에 이상적입니다.
데이터 레이크에서 IDrive® e2의 주요 장점은 다음과 같습니다:
합리적인 요금
IDrive® e2 핫 클라우드 스토리지는 GB당 월 $0.004의 정액 요금입니다. 이는 Amazon S3 Standard의 GB당 월 $.023, Google Multi-Regional의 GB당 월 $.026, Azure RA-GRS Hot의 GB당 월 $.046과 비교할 수 있습니다.
AWS, Microsoft Azure, Google Cloud Platform과 달리, 우리는 스토리지에서 데이터를 가져오는 데 추가 요금(egress 요금)을 부과하지 않습니다. 또한 API 호출에 대해서도 추가 요금을 부과하지 않습니다.
우수한 성능
IDrive® e2의 병렬화된 시스템 아키텍처는 1세대 클라우드 스토리지 서비스보다 더 빠른 읽기/쓰기 성능과 훨씬 빠른 첫 바이트 응답 속도를 제공합니다.
강력한 데이터 내구성 및 보호
IDrive® e2 핫 클라우드 스토리지는 뛰어난 데이터 내구성, 무결성, 보안을 제공하도록 설계되었습니다. 선택적 데이터 불변성 기능은 실수로 인한 삭제와 관리상 실수를 방지하고, 멀웨어, 버그, 바이러스에 대한 보호를 제공하며, 규정 준수도 향상합니다.
Apache Hadoop 데이터 레이크를 위한 IDrive® e2 핫 클라우드 스토리지
Apache Hadoop에서 데이터 레이크를 운영하는 경우, 아래 다이어그램과 같이 IDrive® e2 핫 클라우드 스토리지를 HDFS의 저렴한 대안으로 사용할 수 있습니다. IDrive® e2 핫 클라우드 스토리지는 AWS S3 API와 완벽하게 호환됩니다. 오픈소스 Apache Hadoop 배포판의 일부인 Hadoop Amazon S3A 커넥터를 사용하면 Amazon S3와 IDrive® e2 같은 다른 호환 클라우드 스토리지를 다양한 MapReduce 흐름에 통합할 수 있습니다.
IDrive® e2 핫 클라우드 스토리지를 멀티클라우드 데이터 레이크 구현의 일부로 사용하면 선택지를 넓히고 벤더 종속성을 피할 수 있습니다. 멀티클라우드 접근 방식은 최고 수준의 제공업체를 활용해 데이터 레이크의 컴퓨팅과 스토리지 리소스를 독립적으로 확장할 수 있게 합니다.
프라이빗 클라우드를 IDrive® e2에 직접 연결할 수도 있습니다. 1세대 클라우드 스토리지 공급업체와 달리 IDrive® e2에서는 데이터 전송(egress) 요금을 절대 지불하지 않습니다. 즉, IDrive® e2 밖으로 데이터를 자유롭게 이동할 수 있습니다.
경제적인 비즈니스 연속성과 재해 복구
IDrive® e2는 복원력과 높은 가용성을 위해 여러 지역에 분산된 데이터 센터에서 호스팅됩니다. 아래와 같이 IDrive® e2 리전 간에 데이터를 복제해 비즈니스 연속성, 재해 복구, 데이터 보호를 구현할 수 있습니다.
예를 들어 다음과 같이 세 개의 서로 다른 IDrive® e2 데이터 센터(리전)에 데이터를 복제할 수 있습니다:
- IDrive® e2 데이터 센터 1은 활성 데이터 스토리지(기본 스토리지)용입니다.
- IDrive® e2 데이터 센터 2는 백업 및 복구용 활성 아카이브로 사용되며, 데이터 센터 1에 접근할 수 없을 때의 핫 스탠바이 역할을 합니다.
- IDrive® e2 데이터 센터 3은 불변 데이터 저장소로 사용되어 관리상의 실수, 실수로 인한 삭제, 랜섬웨어로부터 데이터를 보호합니다. 불변 데이터 객체는 IDrive® e2를 포함한 누구도 삭제하거나 수정할 수 없습니다.