🎓 第2章:データと特徴量の基盤
第2章 データと特徴量の基盤
モデルの性能の大半は、アルゴリズムよりもデータと特徴量で決まります。この章は「MLを運用・実装する」視点から、データと特徴量を本番で安定供給する基盤に集中します。データのバージョニング、特徴量変換のパイプライン化、学習と推論で同じ特徴量を一貫して出す特徴量ストア、そして最も多い本番事故である学習/推論スキューの防止——MLの燃料供給ラインを設計します。汎用のデータ基盤理論はデータエンジニアリング分野、特徴量の作り方そのものは機械学習分野へ wikilink します。
トピック一覧
- 学習データの管理とデータバージョニング — 標準
- 特徴量エンジニアリングのパイプライン化 — 標準
- 特徴量ストア — 発展
- 学習推論スキューの防止 — 標準
この章の要点
- データバージョニング:データもコードと同じく版管理。内容ハッシュ・スナップショットで「どのデータで学習したか」を固定する。
- 特徴量パイプライン:特徴量変換をコード化・再利用可能に。学習と推論で同じ変換を共有するのが大原則。
- 特徴量ストア:特徴量を一元管理し、オフライン(学習)とオンライン(推論)で一貫供給する専用基盤。
- 学習/推論スキュー:学習時と推論時で前処理・統計量がずれると静かに精度が落ちる。最頻出の本番事故。
関連章
- 第1章 MLOpsの全体像 — MLパイプラインの全体設計(変換共有の原則)
- 第6章 監視と継続的学習 — ドリフトはデータ側の変化
- 機械学習:特徴量エンジニアリングと前処理(特徴量の作り方)
- データエンジニアリング:データエンジニアリング 全体目次(汎用データ基盤)