Mímisbrunnr知恵の泉

← データエンジニアリング 一覧

🎓 レベル:標準 | 重要度:A(必須)

📎 前提:正規化と非正規化のトレードオフ列指向ストレージと分析クエリ | 関連:データレイクとオブジェクトストレージメダリオンアーキテクチャ

要点(BLUF)

概念 ── なぜ分析を分けるのか

業務DB(注文・在庫)で重い分析クエリを回すと、本番の更新が詰まります。そこで分析用の別系を用意し、業務DBからデータを取り込んで集約するのがDWHです。OLTP(更新・1行操作)とOLAP(分析・大量集計)は要件が正反対なので、物理的に分けるのが定石です(→ 正規化と非正規化のトレードオフ)。

flowchart LR
    OLTP["業務DB(OLTP・正規化・行指向)"] --> ETL["取り込み・変換"]
    ETL --> DWH["DWH(OLAP・次元モデル・列指向)"]
    DWH --> BI["BI・分析・レポート"]

仕組み ── 列指向 + MPP + スキーマオンライト

設計の勘所 ── クラウドDWHの計算・ストレージ分離

かつてのDWHは計算とストレージが一体(増やすなら両方同時)でした。クラウドDWHは両者を分離します。

観点従来型(一体)クラウド型(分離)
スケール計算と容量が連動各々独立に増減
課金常時確保使った計算・保存分だけ
同時実行取り合い仮想ウェアハウスを分けて隔離

データは安価なオブジェクトストレージに置き、必要なときだけ計算クラスタを起動して読む。これにより「普段は安く貯め、重い分析のときだけ計算を借りる」が可能になり、ELT(→ ETLとELT)の前提を作りました。

なぜそうするか ── 整った中央に集約する価値

なぜ各部署のDBを直接見ず、DWHに集約するのか。(1) 単一の真実(single source of truth):売上の定義が部署ごとに食い違う事態を防ぐ。(2) 性能:分析専用に最適化された物理で速い。(3) 本番保護:業務DBに分析負荷をかけない。集約・整形のコストを払ってでも、「全社が同じ整ったデータを安全に・速く見られる」状態は組織にとって価値が大きい。次章の層構造(→ メダリオンアーキテクチャ)はこの「整える」を段階化したものです。

⚠️ よくある落とし穴

対応ラボ

なし(概念回)。DWHでの層別変換は メダリオンアーキテクチャ のラボ(bronze/silver/gold)で確認。

関連

第5章 データウェアハウスとレイクハウス 目次