🎓 第2章：データと特徴量の基盤

第2章データと特徴量の基盤

モデルの性能の大半は、アルゴリズムよりもデータと特徴量で決まります。この章は「MLを運用・実装する」視点から、データと特徴量を本番で安定供給する基盤に集中します。データのバージョニング、特徴量変換のパイプライン化、学習と推論で同じ特徴量を一貫して出す特徴量ストア、そして最も多い本番事故である学習/推論スキューの防止——MLの燃料供給ラインを設計します。汎用のデータ基盤理論はデータエンジニアリング分野、特徴量の作り方そのものは機械学習分野へ wikilink します。

トピック一覧

この章の要点

データバージョニング：データもコードと同じく版管理。内容ハッシュ・スナップショットで「どのデータで学習したか」を固定する。
特徴量パイプライン：特徴量変換をコード化・再利用可能に。学習と推論で同じ変換を共有するのが大原則。
特徴量ストア：特徴量を一元管理し、オフライン（学習）とオンライン（推論）で一貫供給する専用基盤。
学習/推論スキュー：学習時と推論時で前処理・統計量がずれると静かに精度が落ちる。最頻出の本番事故。

上位ハブ

MLOps・AI基盤全体目次

第2章 データと特徴量の基盤

トピック一覧

この章の要点

関連章

上位ハブ

第2章データと特徴量の基盤