特徴量ストア

← MLOps 一覧

🎓 レベル：発展　|　重要度：B（推奨）

📎 前提：特徴量エンジニアリングのパイプライン化　|　関連：学習推論スキューの防止

要点（BLUF）

特徴量ストアは「特徴量を一元管理し、学習と推論に一貫供給する専用基盤」です。同じ特徴量定義から、学習にはオフライン（履歴・バッチ）、推論にはオンライン（最新値・低遅延）を出し分けます。
最大の価値は学習/推論の一貫性（学習推論スキューの防止）と特徴量の共有・再利用。一度定義した特徴量を複数チーム・複数モデルが使い回せます。
学習データを作るときはポイントインタイム結合が必須。「予測時点で実際に手に入った値」だけを使わないと、未来の情報が漏れる（データリーク）。特徴量ストアはこの時間整合を仕組みで担保します。

1. なぜ専用基盤が要るのか

特徴量パイプライン（特徴量エンジニアリングのパイプライン化）を fit/transform で正しく作っても、運用が大きくなると次の問題が出ます：

二重実装：学習はバッチ SQL、推論は API という別経路で特徴量を作り、ずれる。
再利用できない：「ユーザーの過去30日の購入額」を各チームが別々に再実装する。
時間整合が難しい：学習データを作るとき、うっかり「予測時点より後」の値を使ってリークする。

特徴量ストアは、特徴量を一度定義したら学習・推論で同じ実体を共有することでこれを解きます。

2. オフラインストアとオンラインストアの二面性

flowchart TB
  D["特徴量定義（1つのコード）"] --> P["特徴量計算パイプライン"]
  P --> OFF["オフラインストア（履歴・大容量）"]
  P --> ON["オンラインストア（最新値・低遅延KVS）"]
  OFF -->|"ポイントインタイム結合"| TR["学習データ生成"]
  ON -->|"低遅延ルックアップ"| SV["オンライン推論"]

	オフラインストア	オンラインストア
用途	学習データ生成・分析	オンライン推論
内容	特徴量の全履歴	エンティティごとの最新値
求められる性能	大容量・スループット	低遅延（数ミリ秒）
実体例	データウェアハウス・列指向	KVS・インメモリ

同じ特徴量定義から両方を生成するので、学習と推論で値がずれません。

3. ポイントインタイム結合（point-in-time join）

学習データを作るとき、各ラベル（予測対象イベント）の発生時刻における特徴量を取らねばなりません。「今の最新値」を全行に貼ると、未来の情報が過去のラベルに漏れます（リーク）。

flowchart LR
  E["ラベル：2026-03-01のイベント"] --> J["この時刻 以前 の最新特徴量だけ取得"]
  F["特徴量履歴（時刻つき）"] --> J
  J --> R["時間整合した学習行"]

4. 動く最小例：オフライン/オンラインストアとポイントインタイム結合

最小の特徴量ストアを作り、(a) オンラインは最新値を返す、(b) 学習データ生成はポイントインタイム結合で過去時点の値を返す、ことを確認します。

import pandas as pd

# 特徴量の履歴（user_id, 観測時刻, 特徴量値）
feature_history = pd.DataFrame({
    "user_id": [1, 1, 1, 2, 2],
    "event_time": pd.to_datetime(
        ["2026-01-01", "2026-02-01", "2026-03-15", "2026-01-10", "2026-03-01"]),
    "spend_30d": [100, 150, 220, 80, 130],
})

# オンラインストア：各userの最新値だけ（推論用）
online = (feature_history.sort_values("event_time")
          .groupby("user_id").tail(1).set_index("user_id")["spend_30d"])
print("=== オンラインストア（最新値・推論用）===")
print(online.to_string())

# ラベル：予測したいイベントとその発生時刻
labels = pd.DataFrame({
    "user_id": [1, 2],
    "label_time": pd.to_datetime(["2026-02-15", "2026-02-15"]),
    "y": [1, 0],
})

# ポイントインタイム結合：label_time 以前 の最新特徴量を貼る
def point_in_time_join(labels, history):
    rows = []
    for _, r in labels.iterrows():
        past = history[(history.user_id == r.user_id) &
                       (history.event_time <= r.label_time)]
        val = past.sort_values("event_time")["spend_30d"].iloc[-1] if len(past) else None
        rows.append(val)
    out = labels.copy(); out["spend_30d"] = rows
    return out

train = point_in_time_join(labels, feature_history)
print("\n=== 学習データ（ポイントインタイム結合・2026-02-15時点）===")
print(train.to_string(index=False))

出力：

=== オンラインストア（最新値・推論用）===
user_id
2    130
1    220

=== 学習データ（ポイントインタイム結合・2026-02-15時点）===
 user_id label_time  y  spend_30d
       1 2026-02-15  1        150
       2 2026-02-15  0         80

出力の意味：オンラインストアは推論用に各ユーザーの最新値（user1=220, user2=130）を返します。一方、学習データ生成では 2026-02-15 時点で実際に手に入っていた値だけを使うので、user1 は 150（3-15 の 220 はまだ未来なので使わない）、user2 は 80（3-01 の 130 は未来）になりました。もし最新値 220/130 を学習に貼っていたら、未来の情報が漏れてオフラインでは高精度・本番で崩れる典型的リークになります。特徴量ストアはこの時間整合を構造的に守ります。

5. 運用の勘所

必要になってから導入する：特徴量ストアは強力だが運用コストも高い。モデル数・チーム数が増え、特徴量の再利用やスキューが課題になってから入れる。
オフラインとオンラインの整合を監視する：両ストアの値がずれていないか定期チェック（スキューの早期検知）。
特徴量にメタデータとオーナーを付ける：定義・更新頻度・所有者を登録し、再利用とガバナンスを両立する。
鮮度（freshness）を管理する：オンライン値が古いと推論が劣化する。更新遅延を監視する。

なぜそうするのか

特徴量ストアの本質的な価値は「学習と推論で同じ特徴量を、時間整合を保って供給する」ことです。手作りでこれを保つのは、規模が大きくなると人間には不可能になります（二重実装・リーク・再実装が必ず混入する）。専用基盤に時間整合と一貫供給を任せることで、スキューとリークという2大事故を構造的に防げます。

⚠️ よくある落とし穴

ポイントインタイム結合を忘れて最新値を貼る：未来情報のリーク。オフライン高精度・本番崩壊の典型。
オフラインとオンラインで別ロジックを書く：値がずれてスキューになる。同じ定義から生成する。
小規模なのに導入する：モデルが1個なら過剰投資。素朴な特徴量パイプライン（特徴量エンジニアリングのパイプライン化）で十分なことも多い。
鮮度を放置する：オンライン特徴量が更新されず古いまま推論し続ける。

対応 lab

なし（概念ノート）。最小ストアとポイントインタイム結合は本文 §4 に同梱。