data engineering // 分析の下回り
データエンジニアリング
データエンジニアリングは、ひとことで言えば「分析の下回り」です。データを集めて・整えて・届ける基盤。スタースキーマでモデル化し、ETL/ELTで運び、DWH/レイクハウスに貯め、Sparkで分散処理し、Kafka/Airflowで流す。統計・MLが使えるデータを供給する土台を体系化します。
なぜ学ぶのか
- 分析の前段が分かる。「使えるデータ」がどう作られるか、収集から提供までを掴めます。
- SQLとモデリングが書ける。正規化・スタースキーマ・ウィンドウ関数を手で動かせます。
- パイプラインを設計できる。冪等性・データ品質・オーケストレーションを押さえます。
こんな場面で役立つ
- モデリング正規化・スタースキーマ・次元モデリング
- ETLELT・CDC・dbt・データ品質テスト
- 分散MapReduce・Sparkで大規模データを処理
- ストリームKafka・Airflowでイベントを流す
ここでは、SQLはSQLite/DuckDBで実行確認し、ETL変換はpandas/Sparkの最小例で示し、スキーマ・パイプラインはMermaidで描く方針です。全体像からモデリング・SQL・ETL・DWH/レイクハウス・分散処理・ストリーミングまでを体系化しました。分析・モデルは統計・機械学習、分散理論は分散システムへ相互リンク。
カリキュラム(全7章)
目次・インデックス
第1章 ── データエンジニアリングの全体像
- 第1章 データエンジニアリングの全体像 目次 基礎 必須
- データエンジニアリングとは・役割 基礎 必須
- バッチ処理とストリーム処理 基礎 必須
- 現代データスタックの地図 標準 必須
第2章 ── データモデリング
- 第2章 データモデリング 目次 基礎 必須
- リレーショナルモデルと正規化 基礎 必須
- ER図とスキーマ設計 標準 必須
- スタースキーマと次元モデリング 標準 必須
- 正規化と非正規化のトレードオフ 標準 必須
第3章 ── SQLとクエリ最適化
- 第3章 SQLとクエリ最適化 目次 基礎 必須
- SQLの基礎(結合・集約・サブクエリ) 基礎 必須
- ウィンドウ関数 標準 必須
- インデックスと実行計画 標準 必須
- 列指向ストレージと分析クエリ 発展 必須
- ファイルフォーマットとシリアライゼーション 発展
第4章 ── ETLとデータパイプライン
- 第4章 ETLとデータパイプライン 目次 標準 必須
- ETLとELT 基礎 必須
- データ取り込み(バッチ・CDC) 標準 必須
- べき等性と再実行 標準 必須
- データ品質とテスト 標準 必須
- SQL変換とdbt 標準 必須
第5章 ── データウェアハウスとレイクハウス
- 第5章 データウェアハウスとレイクハウス 目次 標準 必須
- データウェアハウス 標準 必須
- データレイクとオブジェクトストレージ 標準 必須
- レイクハウスとテーブルフォーマット 発展 必須
- メダリオンアーキテクチャ 標準 必須
第6章 ── 分散処理
- 第6章 分散処理 目次 標準 必須
- MapReduceの考え方 標準 必須
- Sparkの基礎 標準 必須
- シャッフルとパーティショニング 発展 必須
第7章 ── ストリーミングとオーケストレーション
- 第7章 ストリーミングとオーケストレーション 目次 標準 必須
- メッセージキューとイベントストリーミング 標準 必須
- ストリーム処理 発展 必須
- ワークフローオーケストレーション 標準 必須
- データガバナンスとカタログ 標準 必須