DWH

レイクハウスとは?〜 最近耳にする技術トレンド 〜

こんにちは、毛利です!

これまで、フリーのアナリティクスエジニアとして、3年で7社のデータ分析組織に入り、

  • データ分析基盤構築の導入構築(技術選定から立ち上げ)
  • 既存のデータ分析環境の拡張(機能追加)
  • メタデータ管理などのデータ活用業務

など様々な役割でサポートしております。

その中で、

「レイクハウスをよく聞くが何が知りたい。」

「レイクハウス導入のメリット/デメリットは?」

「レイクハウスがフィットするデータ基盤は?」

といったお悩みを聞くことが増えてきました。

本記事では、

  • これまでのデータレイクの振り返り
  • 新しいデータレイクハウス(Data Lake House)の考え方
  • データレイクハウスのアーキテクチャ
  • クラウドサービス(AWS、Snowflake、Databrisk)におけるデータレイクハウス

について整理しています。

これにより、

  • データレイクおよびレイクハウスの概念の把握
  • データレイクハウスのアーキテクチャ理解
  • データレイクハウスの各社のトレンド理解
  • 自社の導入効果をイメージ

という流れになっております。

最後まで是非ご覧ください!

1. データレイク(Data Lake)とレイクハウス(Data Lakehouse)の比較

データレイクハウスのデータ統合と管理の強化

レイクハウスは、データウェアハウス(DWH)とデータレイクの機能を統合した新しいデータアーキテクチャです。

これにより、構造化、半構造化、非構造化データを一元管理し、ビジネスインテリジェンス(BI)やAIを含む幅広いデータ活用が可能となります。

レイクハウスは、次のような特徴を持ちます。

  • ACID((原子性、一貫性、隔離性、耐久性))トランザクションをサポートすることで、データの整合性と信頼性を確保。
  • コスト最適化のために、分析リソース(コンピュート)とデータ保存リソース(ストレージ)を分離。
  • オープンフォーマットを採用し、他のシステムやツールとの互換性が高く、データの可移植性が確保されています。

データレイク(Data Lake)とレイクハウス(Lake House)の特徴の違い

データレイクとレイクハウスの共通点と違いは以下の通りです。

共通点:

  1. 両方とも大量のデータを保管・管理するためのシステム。
  2. 構造化、半構造化、非構造化データを扱う能力を持つ。

違い:

  1. データレイクは主にデータの保存に特化しており、非構造化データや生のデータを保管するのに適している。
  2. レイクハウスはデータレイクの機能に加えて、データウェアハウスの機能を統合しており、データの整合性やトランザクション処理をサポートする。

これらの違いにより、レイクハウスはデータレイクよりも複雑なデータ操作や分析に適しています。

レイクハウスの選定について

レイクハウスは以下のような組織に効果的です。

  1. データ集約型組織:大量の構造化・非構造化データを扱う組織で、データの整合性や高度な分析が必要な場合。
  2. 革新的なデータ分析を求める組織:ビジネスインテリジェンスやAIを活用して新たな洞察を得たい組織。

導入すべきでない組織:

  1. 小規模なデータ操作のみの組織:データの量が少なく、シンプルな分析で十分な場合。
  2. 高度なデータインフラに投資するリソースが限られている組織:初期投資や運用コストが負担になる場合。

つまり、ビッグデータのデータ基盤を構築済みで、一定数のダッシュボードが存在するような組織に効果的で、スポットのデータ分析で問題がない組織は効果ができにくい傾向があります。

 

2: レイクハウスアーキテクチャの理解

レイクハウスの基本的な設計原則

レイクハウスでは、

  • 構造データ(テキスト、位置情報など) -> ビッグデータ含む列型DWH層
  • 非構造化データ(画像、映像、音声など) -> クラウドストレージ などの目的別データ層

と分離することを基本にしています。

 

まとめ

整理すると以下のとおりです。

  1. レイクハウスアーキテクチャは、データウェアハウスの機能とデータレイクの機能を統合し、構造化、半構造化、非構造化データを一元管理できる。
  2. 構造データはビッグデータを含む列型データウェアハウス層に、非構造化データはクラウドストレージなどの目的別データ層に分離して保存。
  3. レイクハウスはACIDトランザクションのサポート、コスト最適化、オープンフォーマットの採用を特徴とし、データの整合性と可移植性を高める。

最後に

さいごまでご覧いただきありがとうございます。

新しい技術やサービスを導入する際の不安や疑問は、どんなに優れたサービスであっても避けられません。

特に、

  • 「導入そのものに不安がある」
  • 「初期構築や数値検証の解釈についてサポートしてほしい」

という声を多く耳にします。

私たちの目的は、ただBigQueryの特徴を伝えるだけではありません。

ツールを実際のビジネス現場で最大限活用していただくためのサポートも役目と考えています。

無料でお問い合わせ可能ですので、お気軽にご相談ください。

-DWH