데이터 레이크를 위한
클라우드 오브젝트 스토리지

클라우드 데이터 레이크로 온프레미스 장비 비용과 복잡성을 피하세요

급성장하는 글로벌 데이터 영역

데이터 성장이 급격히 증가하고 있습니다. 모바일 기기, 지능형 센서 및 스마트 엔드포인트의 수가 계속 증가함에 따라 생성되는 데이터의 다양성, 양, 속도가 끊임없이 늘어나고 있습니다. IDC 전망에 따르면, 연결된 기기와 스마트 시스템이 확산됨에 따라 전 세계 연간 데이터 생성량이 2018년 33제타바이트(ZB)에서 2025년에는 175ZB로 증가할 것으로 예측됩니다. (1ZB = 1조 GB)

이렇게 정제된 원시 데이터 또는 빅데이터는 고객 행동 및 시장 트렌드에 대한 귀중한 인사이트를 제공할 수 있습니다. 기업들은 이를 활용하여 비즈니스 방식을 혁신할 수 있습니다. 그러나 기존 온프레미스 스토리지 솔루션이나 AWS, Microsoft Azure 또는 Google Cloud Platform의 1세대 클라우드 스토리지 서비스를 사용하여 이러한 방대한 과거 데이터셋을 장기간 저장하는 것은 비용이 많이 드는 일입니다.

하지만 유틸리티 요금제와 단순함을 제공하는 새로운 세대의 클라우드 스토리지로 인해 이 모든 것이 바뀌려 하고 있습니다. Cloud Storage 2.0을 통해 어떤 유형의 데이터든, 어떤 목적으로든, 얼마나 오래든 IDrive^® e2의 핫 클라우드 스토리지에 비용 효율적으로 저장할 수 있습니다. 더 이상 어떤 데이터를 수집할지, 어디에 저장할지, 얼마나 오래 보관할지에 대한 어려운 결정을 내릴 필요가 없습니다.

이 차세대 클라우드 스토리지는 데이터 레이크 구축에 이상적입니다. 데이터 레이크는 어떤 목적으로든 방대한 양의 원시 데이터를 수집할 수 있는 광대한 스토리지 저장소입니다. 250명 이상의 데이터 관리 전문가를 대상으로 한 TDWI 설문 조사에 따르면, 응답자의 거의 절반이 이미 프로덕션 환경에서 데이터 레이크를 운영 중(23%)이거나 12개월 이내에 운영할 계획(24%)이라고 답했습니다.

개요

데이터 레이크란 무엇인가요?

데이터 레이크는 서로 다른 형태의 데이터를 원본 형식 그대로 안전하게 저장하기 위한 전사적 시스템입니다. 데이터 레이크에는 기존의 정형 데이터 저장소에서는 찾기 어려운 다양한 데이터(예: 센서 데이터, 클릭스트림 데이터, 소셜 미디어 데이터, 위치 데이터, 서버 및 네트워크 장치의 로그 데이터)와 함께 전통적인 정형 및 반정형 데이터도 포함됩니다. 데이터 레이크는 스키마 정의나 데이터 변환에 따른 기존의 제약과 번거로움 없이, 기업 전반의 데이터를 분석을 위한 단일 저장소로 통합하여 전통적인 기업 정보 사일로를 해소합니다.

데이터 레이크는 고급 분석, 머신 러닝, 그리고 새로운 데이터 기반 비즈니스 관행의 토대를 마련합니다. 데이터 과학자, 비즈니스 분석가 및 기술 전문가는 상용 또는 오픈소스 데이터 분석, 시각화, 비즈니스 인텔리전스 도구 중에서 필요에 맞는 도구를 선택해 분석을 수행할 수 있습니다. 또한 다양한 공급업체 솔루션을 통해 기업은 데이터 레이크 투자에서 수익을 창출하고 원시 데이터를 비즈니스 가치로 전환할 수 있습니다. 이러한 솔루션은 비기술 직군의 비즈니스 사용자를 위한 셀프서비스 데이터 탐색 도구부터 데이터 과학자를 위한 고급 데이터 마이닝 플랫폼까지 폭넓게 제공합니다.

사물인터넷(IoT) 구현에서의 데이터 레이크는 로컬 데이터를 처리하고 분석한 뒤 데이터 레이크로 전송하기 위한 에지 컴퓨팅 장치를 포함합니다. 예를 들어, 에지 서버는 실시간 분석을 수행하고, 로컬 비즈니스 로직을 실행하며, 고유한 이력적 또는 전역적 가치가 없는 데이터를 걸러낼 수 있습니다.

데이터 웨어하우스 vs 데이터 마트 vs 데이터 레이크

데이터 레이크와 데이터 웨어하우스라는 용어는 종종 혼동되며 때로는 같은 의미로 사용되기도 합니다. 실제로 둘 다 방대한 데이터셋을 저장하는 데 사용되지만, 데이터 레이크와 데이터 웨어하우스는 서로 다르며 서로 보완적인 관계가 될 수도 있습니다.

데이터 레이크 - 구조화된 데이터, 반구조화된 데이터 또는 비구조화된 데이터를 모두 포함할 수 있는 거대한 데이터 저장소입니다.
데이터 웨어하우스 - 특정 목적을 위해 이미 처리된 구조화되고 필터링된 데이터를 저장하는 저장소입니다. 다시 말해, 데이터 웨어하우스는 잘 정리되어 있으며 명확하게 정의된 데이터를 포함합니다.
데이터 마트 - 데이터 웨어하우스의 하위 집합으로, 공급망 관리 애플리케이션과 같은 특정 목적을 위해 특정 기업의 비즈니스 부서에서 사용됩니다.

데이터 레이크라는 용어를 만든 James Dixon은 비유를 통해 차이를 설명합니다. “데이터 마트를 정제되고 포장되어 쉽게 소비할 수 있도록 구조화된 생수 저장소라고 생각한다면, 데이터 레이크는 더 자연스러운 상태의 큰 물덩어리입니다. 데이터 레이크의 내용은 원천에서 흘러들어와 호수를 채우며, 다양한 사용자가 그 안을 살펴보거나, 더 깊이 들어가 보거나, 샘플을 떠갈 수 있습니다.”

데이터 레이크는 데이터 웨어하우스와 함께 사용할 수 있습니다. 예를 들어 데이터 레이크를 데이터 웨어하우스의 수집 및 스테이징 저장소로 활용할 수 있습니다. 또한 데이터 웨어하우스나 다른 데이터 구조로 데이터를 전달하기 전에 데이터 레이크에서 데이터를 정제하거나 정리할 수 있습니다.

정제되지 않은 데이터 레이크는 거버넌스나 품질 판단이 적용되지 않은 채 데이터 늪이 될 위험이 있으며, 서로 다른 품질의 데이터를 뒤섞어 ‘흐리게’ 만들어 수집된 데이터를 바탕으로 내리는 의사결정의 타당성을 신뢰하기 어렵게 하고, 결국 데이터 수집의 가치를 크게 떨어뜨립니다.

다음 다이어그램은 일반적인 데이터 레이크 기술 스택을 보여줍니다. 데이터 레이크에는 확장 가능한 스토리지와 컴퓨팅 자원, 데이터를 관리하기 위한 데이터 처리 도구, 데이터 과학자·비즈니스 사용자·기술 인력을 위한 분석 및 보고 도구, 그리고 공통 데이터 거버넌스·보안·운영 시스템이 포함됩니다.

데이터 레이크는 기업 데이터 센터나 클라우드에서 구현할 수 있습니다. 많은 초기 도입 기업은 온프레미스로 데이터 레이크를 구축했습니다. 데이터 레이크가 점점 보편화되면서, 많은 주류 도입 기업은 가치 실현 시간을 단축하고 TCO를 줄이며 비즈니스 민첩성을 높이기 위해 클라우드 기반 데이터 레이크를 검토하고 있습니다.

온프레미스 데이터 레이크는 CAPEX와 OPEX 부담이 큽니다

데이터 레이크는 범용 서버와 로컬(내부) 스토리지를 사용해 기업 데이터 센터에 구축할 수 있습니다. 오늘날 대부분의 온프레미스 데이터 레이크는 인기 있는 고성능 컴퓨팅 프레임워크인 Hadoop의 상용 또는 오픈소스 버전을 데이터 플랫폼으로 사용합니다. (TDWI 설문조사에 따르면 응답자의 53%가 Hadoop을 데이터 플랫폼으로 사용하고 있으며, 관계형 데이터베이스 관리 시스템을 사용하는 비율은 6%에 불과합니다.)

수백 대 또는 수천 대의 서버를 결합해 대규모 데이터셋을 저장하고 처리할 수 있는 확장 가능하고 복원력 있는 Hadoop 클러스터를 구축할 수 있습니다. 아래 다이어그램은 Apache Hadoop 기반 온프레미스 데이터 레이크의 기술 스택을 보여줍니다.

기술 스택은 다음과 같습니다:

Hadoop MapReduce: 대규모 범용 하드웨어 클러스터에서 방대한 데이터를 병렬로 처리하는 애플리케이션을 안정적이고 내결함성 있게 쉽게 작성할 수 있도록 하는 소프트웨어 프레임워크입니다.
Hadoop YARN: 작업 스케줄링과 클러스터 리소스 관리를 위한 프레임워크입니다.
Hadoop Distributed File System (HDFS): 저비용 서버와 저렴한 내부 디스크 드라이브에서 실행되도록 특별히 설계된 고성능 파일 시스템입니다.

온프레미스 데이터 레이크는 높은 성능과 강력한 보안을 제공하지만, 배포, 관리, 유지보수 및 확장에 드는 비용과 복잡성이 매우 큽니다. 온프레미스 데이터 레이크의 단점은 다음과 같습니다:

길고 복잡한 구축 기간

자체 데이터 레이크를 구축하려면 상당한 시간, 노력, 비용이 필요합니다. 시스템을 설계하고 아키텍처를 정의해야 하며, 보안 및 관리 시스템과 모범 사례를 수립해야 하고, 컴퓨팅, 스토리지 및 네트워킹 인프라를 조달하고 구축 및 테스트해야 하며, 모든 소프트웨어 구성 요소를 식별하고 설치 및 구성해야 합니다. 온프레미스 데이터 레이크를 실제 운영 환경에 올리기까지는 보통 수개월이 걸리며, 종종 1년이 넘기도 합니다.

높은 CAPEX

초기 장비 투자 비용이 크면 ROI가 낮고 회수 기간이 긴 불균형한 비즈니스 모델로 이어집니다. 서버, 디스크, 네트워크 인프라는 모두 최대 트래픽 수요와 향후 용량 요구를 충족하도록 과도하게 설계되므로, 유휴 컴퓨팅 자원과 사용하지 않는 스토리지 및 네트워크 용량에 대해서도 계속 비용을 지불하게 됩니다.

높은 OPEX

전력, 냉각, 랙 공간에 대한 반복 비용, 월별 하드웨어 유지보수 및 소프트웨어 지원 비용, 지속적인 하드웨어 관리 비용이 모두 높은 운영 비용으로 이어집니다.

높은 위험

비즈니스 연속성을 확보하기 위해 실시간 데이터를 보조 데이터 센터에 복제하는 일은 많은 기업이 감당하기 어려울 정도로 비용이 큽니다. 많은 기업은 데이터를 테이프나 디스크에 백업합니다. 재난이 발생하면 시스템을 재구축하고 운영을 복구하는 데 며칠에서 몇 주가 걸릴 수 있습니다.

복잡한 시스템 관리

온프레미스 데이터 레이크를 운영하는 것은 자원 소모가 큰 작업으로, 귀중하고 비용이 많이 드는 IT 인력을 더 전략적인 업무에서 빼앗아 갑니다.

클라우드 데이터 레이크는 장비 비용과 복잡성을 제거합니다

퍼블릭 클라우드에서 데이터 레이크를 구현하면 장비 비용과 불편함을 피하면서 빅데이터 이니셔티브를 더 빠르게 추진할 수 있습니다. 클라우드 기반 데이터 레이크의 일반적인 장점은 다음과 같습니다:

빠른 가치 실현

인프라 설계 작업과 하드웨어 조달, 설치 및 가동 작업을 제거함으로써 배포 시간을 수개월에서 수주로 단축할 수 있습니다.

CAPEX 없음

초기 자본 지출을 피하고, 비용을 비즈니스 요구와 더 잘 맞추며, 다른 프로그램을 위한 자본 예산을 확보할 수 있습니다.

장비 운영 비용 없음

장비 운영에 들어가는 지속 비용(전력, 냉각, 부동산), 연간 하드웨어 유지보수 비용, 반복되는 시스템 관리 비용을 없앨 수 있습니다.

즉시 가능한 무한 확장성

빠르게 변화하는 비즈니스 요구를 충족하고 고객 만족도를 높이기 위해, 필요할 때마다 컴퓨팅 및 스토리지 용량을 추가할 수 있습니다(업무 요구에 신속하게 대응).

독립적 확장

내부 스토리지를 사용하는 온프레미스 Hadoop 구현과 달리, 클라우드 구현에서는 컴퓨팅과 스토리지 용량을 독립적으로 확장해 비용을 최적화하고 자원을 최대한 활용할 수 있습니다.

낮은 위험

재난 발생 시 복원력을 높이고 지속적인 가용성을 보장하기 위해 지역 간 데이터 복제를 수행할 수 있습니다.

단순화된 운영

클라우드 제공업체가 물리적 인프라를 관리하므로, IT 인력이 비즈니스를 지원하는 전략적 업무에 집중할 수 있습니다.

1세대 클라우드 스토리지 서비스는 데이터 레이크에 너무 비싸고 복잡합니다

온프레미스 데이터 레이크와 비교하면, 클라우드 기반 데이터 레이크는 배포, 확장, 운영이 훨씬 쉽고 비용도 적게 듭니다. 하지만 AWS S3, Microsoft Azure Blob Storage, Google Cloud Platform Storage 같은 1세대 클라우드 오브젝트 스토리지 서비스는 본질적으로 비용이 많이 들고(많은 경우 온프레미스 스토리지 솔루션만큼 비쌉니다) 복잡합니다. 많은 기업이 데이터 레이크 이니셔티브를 위해 더 단순하고 저렴한 스토리지 서비스를 찾고 있습니다. 1세대 클라우드 오브젝트 스토리지 서비스의 한계는 다음과 같습니다:

비싸고 혼란스러운 서비스 계층

기존 클라우드 공급업체는 여러 종류의 스토리지 서비스를 판매합니다. 각 계층은 서로 다른 목적을 위해 설계되며, 예를 들어 활성 데이터용 기본 스토리지, 재해 복구용 활성 아카이브 스토리지, 장기 보관용 비활성 아카이브 스토리지가 있습니다. 각 계층은 고유한 성능 및 복원력 특성, SLA, 요금 체계를 갖습니다. 여러 요금 변수로 구성된 복잡한 비용 구조는 현명한 선택을 어렵게 하고, 비용 예측과 예산 관리를 복잡하게 만듭니다.

벤더 종속성

각 서비스 제공업체는 고유한 API를 지원합니다. 서비스를 변경하려면 기존 스토리지 관리 도구와 애플리케이션을 다시 작성하거나 교체해야 하므로 비용과 시간이 많이 듭니다. 더 심각한 점은, 기존 공급업체가 클라우드 밖으로 데이터를 이동할 때 과도한 데이터 전송(egress) 요금을 부과해 공급업체 전환이나 다중 공급업체 활용이 비싸진다는 것입니다.

계층형 스토리지 서비스에 주의하세요

1세대 클라우드 스토리지 제공업체는 혼란스러운 계층형 스토리지 서비스를 제공합니다. 각 스토리지 계층은 특정 유형의 데이터를 위해 설계되며, 고유한 성능 특성, SLA, 요금제(복잡한 비용 구조 포함)를 갖습니다.

공급업체마다 포트폴리오는 조금씩 다르지만, 이러한 계층형 서비스는 일반적으로 세 가지 데이터 범주에 최적화되어 있습니다.

활성 데이터

운영 체제, 애플리케이션 또는 사용자가 즉시 접근할 수 있는 실시간 데이터입니다. 활성 데이터는 자주 액세스되며 엄격한 읽기/쓰기 성능 요구사항이 있습니다.

활성 아카이브

가끔 액세스되며 온라인에서 즉시 사용할 수 있는 데이터입니다(오프라인 또는 원격 소스에서 복원하거나 재수화할 필요가 없음). 예로는 빠른 재해 복구를 위한 백업 데이터나, 필요할 때 짧은 시간 내에 접근할 수 있는 대용량 동영상 파일이 있습니다.

비활성 아카이브

드물게 액세스되는 데이터입니다. 규정 준수를 위해 장기 보관되는 데이터가 여기에 해당합니다. 전통적으로 비활성 데이터는 테이프에 보관되어 오프사이트에 저장됩니다.

기존 클라우드 스토리지 공급업체에서는 특정 애플리케이션에 가장 적합한 스토리지 계층과 최적의 가치를 찾는 일이 매우 어려울 수 있습니다. 예를 들어 Microsoft Azure는 General Purpose v1, General Purpose v2, Blob Storage, Premium Blob Storage의 네 가지 오브젝트 스토리지 옵션을 제공합니다. 각 옵션은 고유한 가격과 성능 특성을 갖습니다. 또한 일부(모든 것은 아님) 옵션은 hot 스토리지(자주 액세스하는 데이터용), cool 스토리지(드물게 액세스하는 데이터용), archive 스토리지(매우 드물게 액세스하는 데이터용)라는 세 가지 스토리지 계층을 지원하며, 각각 별도의 SLA와 요금이 적용됩니다. 선택지가 너무 많고 가격 변수도 복잡해, 충분히 검토된 결정을 내리고 비용을 정확히 예산화하기가 거의 불가능합니다.

IDrive^® e2는 클라우드 스토리지는 단순해야 한다고 믿습니다. 혼란스러운 스토리지 계층과 복잡한 요금 체계를 가진 기존 클라우드 스토리지 서비스와 달리, 우리는 예측 가능하고 저렴하며 이해하기 쉬운 단일 제품을 제공하여 어떤 클라우드 스토리지 요구사항도 충족합니다. IDrive^® e2는 활성 데이터, 활성 아카이브, 비활성 아카이브 등 어떤 데이터 스토리지 계층에도 사용할 수 있습니다.

데이터 레이크를 위한 IDrive^® e2 핫 클라우드 스토리지

IDrive^® e2 핫 클라우드 스토리지는 어떤 용도에도 사용할 수 있는 매우 경제적이고 빠르며 신뢰할 수 있는 클라우드 오브젝트 스토리지입니다. 혼란스러운 스토리지 계층과 복잡한 요금 체계를 가진 1세대 클라우드 스토리지 서비스와 달리, IDrive^® e2는 이해하기 쉽고 확장 비용도 매우 효율적입니다. IDrive^® e2는 방대한 원시 데이터를 저장하기에 이상적입니다.

데이터 레이크에서 IDrive^® e2의 주요 장점은 다음과 같습니다:

합리적인 요금

IDrive^® e2 핫 클라우드 스토리지는 GB당 월 $0.004의 정액 요금입니다. 이는 Amazon S3 Standard의 GB당 월 $.023, Google Multi-Regional의 GB당 월 $.026, Azure RA-GRS Hot의 GB당 월 $.046과 비교할 수 있습니다.

AWS, Microsoft Azure, Google Cloud Platform과 달리, 우리는 스토리지에서 데이터를 가져오는 데 추가 요금(egress 요금)을 부과하지 않습니다. 또한 API 호출에 대해서도 추가 요금을 부과하지 않습니다.

우수한 성능

IDrive^® e2의 병렬화된 시스템 아키텍처는 1세대 클라우드 스토리지 서비스보다 더 빠른 읽기/쓰기 성능과 훨씬 빠른 첫 바이트 응답 속도를 제공합니다.

강력한 데이터 내구성 및 보호

IDrive^® e2 핫 클라우드 스토리지는 뛰어난 데이터 내구성, 무결성, 보안을 제공하도록 설계되었습니다. 선택적 데이터 불변성 기능은 실수로 인한 삭제와 관리상 실수를 방지하고, 멀웨어, 버그, 바이러스에 대한 보호를 제공하며, 규정 준수도 향상합니다.

Apache Hadoop 데이터 레이크를 위한 IDrive^® e2 핫 클라우드 스토리지

Apache Hadoop에서 데이터 레이크를 운영하는 경우, 아래 다이어그램과 같이 IDrive^® e2 핫 클라우드 스토리지를 HDFS의 저렴한 대안으로 사용할 수 있습니다. IDrive^® e2 핫 클라우드 스토리지는 AWS S3 API와 완벽하게 호환됩니다. 오픈소스 Apache Hadoop 배포판의 일부인 Hadoop Amazon S3A 커넥터를 사용하면 Amazon S3와 IDrive^® e2 같은 다른 호환 클라우드 스토리지를 다양한 MapReduce 흐름에 통합할 수 있습니다.

IDrive^® e2 핫 클라우드 스토리지를 멀티클라우드 데이터 레이크 구현의 일부로 사용하면 선택지를 넓히고 벤더 종속성을 피할 수 있습니다. 멀티클라우드 접근 방식은 최고 수준의 제공업체를 활용해 데이터 레이크의 컴퓨팅과 스토리지 리소스를 독립적으로 확장할 수 있게 합니다.

프라이빗 클라우드를 IDrive^® e2에 직접 연결할 수도 있습니다. 1세대 클라우드 스토리지 공급업체와 달리 IDrive^® e2에서는 데이터 전송(egress) 요금을 절대 지불하지 않습니다. 즉, IDrive^® e2 밖으로 데이터를 자유롭게 이동할 수 있습니다.

경제적인 비즈니스 연속성과 재해 복구

IDrive^® e2는 복원력과 높은 가용성을 위해 여러 지역에 분산된 데이터 센터에서 호스팅됩니다. 아래와 같이 IDrive^® e2 리전 간에 데이터를 복제해 비즈니스 연속성, 재해 복구, 데이터 보호를 구현할 수 있습니다.

예를 들어 다음과 같이 세 개의 서로 다른 IDrive^® e2 데이터 센터(리전)에 데이터를 복제할 수 있습니다:

IDrive^® e2 데이터 센터 1은 활성 데이터 스토리지(기본 스토리지)용입니다.
IDrive^® e2 데이터 센터 2는 백업 및 복구용 활성 아카이브로 사용되며, 데이터 센터 1에 접근할 수 없을 때의 핫 스탠바이 역할을 합니다.
IDrive^® e2 데이터 센터 3은 불변 데이터 저장소로 사용되어 관리상의 실수, 실수로 인한 삭제, 랜섬웨어로부터 데이터를 보호합니다. 불변 데이터 객체는 IDrive^® e2를 포함한 누구도 삭제하거나 수정할 수 없습니다.

영업팀에 문의하세요

맞춤 견적, 마이그레이션 요건에 대해 자세히 알아보거나 IDrive^® e2를 시작하기 전에 데모를 요청하려면 영업팀에 문의하세요.

영업팀 문의

데이터 레이크를 위한 클라우드 오브젝트 스토리지