データウェアハウス vs データマート vs データレイク
データレイクとデータウェアハウスは混同されがちですが、両者は異なります(補完的に使うことも可能です)。
- データレイク:構造化・半構造化・非構造化など、あらゆる種類のデータを格納できる大規模なデータプール。
- データウェアハウス:特定目的のために処理・整理された構造化データのリポジトリ。
- データマート:特定部門や用途向けに構築されたデータウェアハウスのサブセット。
データレイクという言葉の生みの親であるJames Dixonは、次のように例えています。「データマートはボトル入りの水(消費しやすいように浄化・パッケージ化・構造化されたもの)、データレイクは自然な状態の大きな水域。データレイクにはさまざまなソースからデータが流れ込み、利用者は調査したり、飛び込んだり、サンプルを取ったりできる。」
データレイクはデータウェアハウスと併用できます。たとえば、データウェアハウスの着地点やステージングリポジトリとしてデータレイクを利用し、データのキュレーションやクレンジング後にデータウェアハウスへ投入できます。
キュレーションされていないデータレイクは、ガバナンスや品質管理が行われず「データスワンプ」と化すリスクがあり、混在した品質のデータが意思決定の信頼性を損なう恐れがあります。
以下は、一般的なデータレイクの技術スタックを示しています。データレイクには、スケーラブルなストレージとコンピュートリソース、データ管理ツール、分析・レポートツール、共通のガバナンス・セキュリティ・運用システムが含まれます。
データレイクは、企業のデータセンターやクラウドで構築できます。初期導入者はオンプレミスで展開していましたが、現在はクラウド型データレイクでTCO削減やビジネスの俊敏性向上を目指す企業が増えています。
オンプレミスデータレイクはCAPEX・OPEXが高い
企業データセンターでコモディティサーバーとローカルストレージを使ってデータレイクを構築できます。現在、多くのオンプレミスデータレイクは、Hadoopの商用またはオープンソース版をデータプラットフォームとして利用しています。(TDWI調査では、53%がHadoop、6%がリレーショナルデータベースを使用)
数百~数千台のサーバーを組み合わせて、スケーラブルかつ高可用なHadoopクラスターを構築し、膨大なデータセットを保存・処理できます。下図は、Apache Hadoopによるオンプレミスデータレイクの技術スタック例です。
技術スタックの主な構成:
オンプレミスデータレイクは高性能・高セキュリティですが、導入・運用・拡張が非常に複雑かつ高コストです。主なデメリット:
導入に時間がかかる
自社でデータレイクを構築するには、多大な時間・労力・コストがかかります。システム設計・アーキテクチャ策定、セキュリティ・管理体制の構築、インフラ調達・設置・テスト、ソフトウェアの選定・導入・設定など、稼働まで数か月~1年以上かかることもあります。
高い初期投資(CAPEX)
サーバーやディスク、ネットワーク機器などの初期投資が大きく、ROIや回収期間が長くなります。ピーク需要や将来の拡張を見越して過剰に設備投資するため、未使用リソースにもコストが発生します。
高い運用コスト(OPEX)
電力・冷却・ラックスペース、ハードウェア保守・サポート、運用管理などの継続的なコストがかかります。
高リスク
事業継続性(データの二重化など)を確保するには多大なコストがかかります。多くの企業はテープやディスクへのバックアップに頼っており、災害時の復旧に数日~数週間かかることもあります。
複雑なシステム管理
オンプレミスデータレイクの運用は、貴重なIT人材のリソースを多く消費します。
クラウドデータレイクで機器コストと複雑さを解消
パブリッククラウドでデータレイクを構築すれば、機器コストや運用負担を回避し、ビッグデータ活用を加速できます。主なメリット:
迅速な導入
インフラ設計や機器調達・設置作業が不要なため、導入期間を数か月から数週間に短縮できます。
初期投資不要
初期投資を回避し、ビジネス要件に応じてコストを最適化できます。
機器運用コスト不要
電力・冷却・不動産、ハードウェア保守、運用管理などのコストを削減できます。
即時かつ無限のスケーラビリティ
ビジネス要件の変化に応じて、コンピュートやストレージ容量をオンデマンドで拡張できます。
独立したスケーリング
オンプレミスHadoopのようなサーバー内蔵ストレージと異なり、クラウドではコンピュートとストレージを独立して拡張でき、コスト最適化が可能です。
リスク低減
複数リージョンへのデータ複製で、災害時の可用性と継続性を確保できます。
運用の簡素化
物理インフラの管理はクラウド事業者が担うため、ITスタッフは戦略的業務に集中できます。
第一世代クラウドストレージはコスト・複雑さが課題
オンプレミスと比べてクラウド型データレイクは導入・運用が容易で低コストですが、AWS S3やMicrosoft Azure Blob Storage、Google Cloud Platform Storageなどの第一世代クラウドオブジェクトストレージは依然として高コストかつ複雑です。多くの企業が、よりシンプルで手頃なストレージサービスを求めています。主な課題:
高価で複雑なサービス階層
従来型クラウドベンダーは、用途ごとに複数のストレージ階層を提供しています。各階層は性能や可用性、価格体系が異なり、複雑な料金体系でコスト予測や管理が困難です。
ベンダーロックイン
各サービスプロバイダーは独自APIを採用しており、乗り換えにはツールやアプリの書き換えが必要です。さらに、データ転送(エグレス)料金が高額なため、他社への移行や複数サービスの併用が困難です。
階層型ストレージサービスに注意
第一世代クラウドストレージは、用途ごとに異なる階層型サービスを提供しています。各階層は性能やSLA、料金体系が異なります。
ベンダーごとに若干異なりますが、一般的に3つのデータクラス向けに最適化されています。
アクティブデータ
OSやアプリ、ユーザーが頻繁にアクセスするライブデータ。高い読み書き性能が求められます。
アクティブアーカイブ
たまにアクセスされるが、即時オンラインで利用可能なデータ。例:災害復旧用バックアップや大容量動画ファイルなど。
インアクティブアーカイブ
ほとんどアクセスされない長期保存データ。例:法規制対応のための長期保存データなど。
従来型クラウドベンダーで最適なストレージクラスやコストを見極めるのは困難です。たとえばMicrosoft Azureは、General Purpose v1/v2、Blob Storage、Premium Blob Storageなど4種類のオブジェクトストレージを提供し、それぞれにホット・クール・アーカイブなどの階層があり、料金や性能も異なります。選択肢や価格変数が多すぎて、最適な判断や正確な予算管理が難しくなっています。
IDrive® e2では、クラウドストレージはシンプルであるべきだと考えています。複雑な階層や料金体系はなく、1つの製品であらゆるクラウドストレージ要件に対応し、予測可能で手頃な価格を提供します。IDrive® e2は、アクティブデータ、アクティブアーカイブ、インアクティブアーカイブのいずれにも利用できます。
IDrive® e2 ホットクラウドストレージ
IDrive® e2ホットクラウドストレージは、あらゆる用途に経済的・高速・信頼性の高いクラウドオブジェクトストレージです。複雑な階層や料金体系はなく、シンプルかつコスト効率に優れています。膨大な生データの保存に最適です。
IDrive® e2がデータレイクに最適な理由:
低価格
IDrive® e2ホットクラウドストレージは、1GBあたり月額$0.004の定額です。Amazon S3 Standard($0.023/GB/月)、Google Multi-Regional($0.026/GB/月)、Azure RA-GRS Hot($0.046/GB/月)と比較してください。
AWS、Microsoft Azure、Google Cloud Platformとは異なり、データ取得(エグレス)料金やAPIコールの追加料金はありません。
高性能
IDrive® e2の並列化アーキテクチャにより、第一世代クラウドストレージよりも高速な読み書き性能とタイム・トゥ・ファーストバイトを実現します。
高いデータ耐久性と保護
IDrive® e2ホットクラウドストレージは、極めて高いデータ耐久性・整合性・セキュリティを実現しています。オプションのデータイミュータビリティ機能により、誤削除や管理ミス、マルウェア・バグ・ウイルスからデータを保護し、法規制対応も強化できます。
Apache Hadoopデータレイクにも最適
Apache Hadoopでデータレイクを運用している場合、IDrive® e2ホットクラウドストレージはHDFSの手頃な代替手段となります。IDrive® e2はAWS S3 APIと完全互換で、HadoopのAmazon S3Aコネクタを使ってMapReduceフローに統合できます。
IDrive® e2ホットクラウドストレージは、マルチクラウド型データレイクの一部としても利用でき、選択肢の拡大やベンダーロックイン回避に役立ちます。マルチクラウドにより、コンピュートとストレージを独立して拡張し、最適なサービスを選択できます。
プライベートクラウドからIDrive® e2へ直接接続することも可能です。第一世代クラウドストレージと異なり、IDrive® e2ではデータ転送(エグレス)料金が発生しません。つまり、自由にデータを移動できます。
経済的な事業継続性・災害対策
IDrive® e2は、複数の地理的に分散したデータセンターで運用されており、高い可用性と耐障害性を実現しています。複数リージョンへのデータ複製で、事業継続性や災害対策、データ保護が可能です。
たとえば、3つのIDrive® e2データセンター(リージョン)にデータを複製できます:
- IDrive® e2データセンター1:アクティブデータ保存(プライマリストレージ)
- IDrive® e2データセンター2:バックアップ・リカバリー用アクティブアーカイブ(センター1障害時のホットスタンバイ)
- IDrive® e2データセンター3:イミュータブルデータストア(管理ミスや誤削除、ランサムウェア対策)。イミュータブルデータは、IDrive® e2を含む誰も削除・変更できません。