Mímisbrunnr知恵の泉

data engineering // 分析の下回り

データエンジニアリング

データエンジニアリングは、ひとことで言えば「分析の下回り」です。データを集めて・整えて・届ける基盤。スタースキーマでモデル化し、ETL/ELTで運び、DWH/レイクハウスに貯め、Sparkで分散処理し、Kafka/Airflowで流す。統計・MLが使えるデータを供給する土台を体系化します。

なぜ学ぶのか

  • 分析の前段が分かる。「使えるデータ」がどう作られるか、収集から提供までを掴めます。
  • SQLとモデリングが書ける。正規化・スタースキーマ・ウィンドウ関数を手で動かせます。
  • パイプラインを設計できる。冪等性・データ品質・オーケストレーションを押さえます。

こんな場面で役立つ

  • モデリング正規化・スタースキーマ・次元モデリング
  • ETLELT・CDC・dbt・データ品質テスト
  • 分散MapReduce・Sparkで大規模データを処理
  • ストリームKafka・Airflowでイベントを流す

ここでは、SQLはSQLite/DuckDBで実行確認し、ETL変換はpandas/Sparkの最小例で示し、スキーマ・パイプラインはMermaidで描く方針です。全体像からモデリング・SQL・ETL・DWH/レイクハウス・分散処理・ストリーミングまでを体系化しました。分析・モデルは統計機械学習、分散理論は分散システムへ相互リンク。

カリキュラム(全7章)

目次・インデックス

第1章 ── データエンジニアリングの全体像

第2章 ── データモデリング

第3章 ── SQLとクエリ最適化

第4章 ── ETLとデータパイプライン

第5章 ── データウェアハウスとレイクハウス

第6章 ── 分散処理

第7章 ── ストリーミングとオーケストレーション