Mímisbrunnr知恵の泉

← データエンジニアリング 一覧

🎓 レベル:基礎 | 重要度:A(必須)

📎 前提:現代データスタックの地図 | 関連:SQL変換とdbtデータウェアハウス

要点(BLUF)

概念 ── 変換の場所が違うだけ

flowchart LR
    subgraph ETL["ETL(ロード前に変換)"]
      E1["抽出"] --> T1["変換(別エンジン)"] --> L1["ロード(整形済み)"]
    end
    subgraph ELT["ELT(ロード後に変換)"]
      E2["抽出"] --> L2["ロード(生のまま)"] --> T2["変換(DWH内SQL)"]
    end

工程の文字を並べ替えただけに見えますが、生データを残すか捨てるかという運用上の大差を生みます。

設計の勘所 ── ETL と ELT の比較

観点ETLELT
変換の場所専用処理層(Spark等)DWH/レイク内(SQL・dbt)
生データ残らない(整形後のみ保存)残る(後から再変換可能)
前提ストレージ高価・DWH非力ストレージ安価・DWH強力
機密処理ロード前にマスキング可能ロード後(生がDWHに入る点に注意)
典型オンプレ時代・規制が厳しい領域現代クラウドデータスタック

なぜそうするか ── 「生を残す」価値

なぜELTが主流になったのか。鍵は**「生データを安く貯められるようになった」**こと。

ただしELTは生データがそのままDWHに入るため、個人情報のマスキングや権限管理(→ データガバナンスとカタログ)を後段でしっかり設計する必要があります。規制が厳しくロード前マスキングが必須なら、今もETLが選ばれます。

⚠️ よくある落とし穴

対応ラボ

なし(概念回)。実際の取り込み・変換・テストは データ取り込み(バッチ・CDC)SQL変換とdbt のラボで扱う。

関連

第4章 ETLとデータパイプライン 目次