🗺️ このノートは 第1章「データエンジニアリングの全体像」のハブ です。
第1章 ── データエンジニアリングの全体像
データエンジニアリングは「分析を支える土台づくり」です。どんなに優れた統計モデルも機械学習も、手元に整ったデータが届いていなければ動きません。この章では、データエンジニアが何をする人で(01-01)、処理を「まとめてやる(バッチ)」か「来た端から流す(ストリーム)」かをどう選び(01-02)、現代のツール群がどう繋がって1つの基盤になっているか(01-03)を俯瞰します。
ここで全体地図を持っておくと、第2章以降のモデリング・SQL・ETL・DWHが「ライフサイクルのどの段か」として一本につながります。
トピック一覧
- データエンジニアリングとは・役割 — ライフサイクル(生成→取り込み→保存→変換→提供)と役割分担
- バッチ処理とストリーム処理 — 鮮度とコスト・複雑さのトレードオフ
- 現代データスタックの地図 — 収集・保存・変換・提供のツール地図
この章の位置づけ
- 分析・モデルそのものは 機械学習/統計 へ、汎用インフラは クラウド・インフラ へ wikilink で繋ぐ
- 次章 第2章 データモデリング 目次 から、届けるデータを「どう持つか(構造)」の設計に入る