🗺️ このノートは データエンジニアリング テキストの最上位ハブ です(Mímisbrunnr インフラ・システム系)。
データエンジニアリング 全体目次
統計・機械学習・時系列といった分析の「下回り」=データを「集めて・整えて・届ける」基盤を体系化します。データソースから生データを取り込み、変換して、分析やBIがすぐ使える形でウェアハウス/レイクハウスに届けるまでの一連の流れ(データエンジニアリング・ライフサイクル)を、動くSQLと最小の変換コードで確かめながら進めます。
このサイトの位置づけ(境界)
- データ供給基盤が主役:分析・モデルそのものは 機械学習/統計 へ、分散の一貫性・合意の理論は 分散システム へ、汎用の計算・保存基盤は クラウド・インフラ へ、特徴量ストア等のML用データ基盤は MLOps へ wikilink で繋ぐ
- ライフサイクル:生成 → 取り込み → 保存 → 変換 → 提供(横断テーマ:データ管理・DataOps・オーケストレーション・セキュリティ)
章別目次
第1章 データエンジニアリングの全体像 — 第1章 データエンジニアリングの全体像 目次
第2章 データモデリング — 第2章 データモデリング 目次
第3章 SQLとクエリ最適化 — 第3章 SQLとクエリ最適化 目次
第4章 ETLとデータパイプライン — 第4章 ETLとデータパイプライン 目次
第5章 データウェアハウスとレイクハウス — 第5章 データウェアハウスとレイクハウス 目次
第6章 分散処理 — 第6章 分散処理 目次
第7章 ストリーミングとオーケストレーション — 第7章 ストリーミングとオーケストレーション 目次
関連分野(Mímisbrunnr)
- 機械学習・統計・時系列分析(このデータ基盤の上で動く分析・モデリング)
- 分散システム(一貫性・合意・レプリケーションの理論)
- クラウド・インフラ(汎用の計算・ストレージ・コンテナ運用)
- MLOps(特徴量ストア・ML用データパイプライン)