条件付き期待値とフィルトレーション

🎓 レベル：発展　|　重要度：A（必須） 📎 前提：確率過程とは、条件付き確率（統計）

要点（BLUF）

条件付き期待値 $\mathbb{E}[X\mid \mathcal{G}]$ は「情報 $\mathcal{G}$ を知った上での $X$ の最良予測」。二乗誤差を最小にする予測（ $L^2$ 射影）です。
タワー則 $\mathbb{E}[\mathbb{E}[X\mid\mathcal{G}]]=\mathbb{E}[X]$ ：粗い情報で予測してから平均すると、元の平均に戻る。
フィルトレーション $\{\mathcal{F}_n\}$ は時間とともに増えていく情報の系列（ $\mathcal{F}_0\subseteq\mathcal{F}_1\subseteq\cdots$ ）。過程が $\mathcal{F}_n$ で測れる（適合）とき、過去の観測情報を表します。

概念

マルチンゲールを定義するには、まず「現時点で持っている情報の下での期待値」を厳密にする必要があります。それが条件付き期待値で、確率変数を「知っている情報で粗視化したもの」。情報が増えていく様子を表すのがフィルトレーションです。時刻が進むほど観測が積み重なり、不確実性が（少しずつ）減っていきます。

数式による定式化

確率変数 $X$ （ $\mathbb{E}|X|<\infty$ ）と部分 $\sigma$ -加法族 $\mathcal{G}\subseteq\mathcal{F}$ に対し、条件付き期待値 $\mathbb{E}[X\mid\mathcal{G}]$ は次を満たす $\mathcal{G}$ -可測な確率変数：

\int_G \mathbb{E}[X\mid\mathcal{G}]\,dP = \int_G X\,dP \qquad (\forall G\in\mathcal{G})

主要な性質：

\text{（タワー則）}\quad \mathbb{E}[\mathbb{E}[X\mid\mathcal{G}]] = \mathbb{E}[X], \qquad \mathbb{E}[\mathbb{E}[X\mid\mathcal{F}]\mid\mathcal{G}]=\mathbb{E}[X\mid\mathcal{G}]\ (\mathcal{G}\subseteq\mathcal{F})

\text{（既知量の引き出し）}\quad \mathbb{E}[YX\mid\mathcal{G}] = Y\,\mathbb{E}[X\mid\mathcal{G}] \quad (Y \text{ は }\mathcal{G}\text{-可測})

$L^2$ では $\mathbb{E}[X\mid\mathcal{G}]$ は「 $\mathcal{G}$ -可測な関数の中で $\mathbb{E}[(X-Z)^2]$ を最小にする $Z$ 」、すなわち射影です。フィルトレーションは増大する $\sigma$ -加法族の族 $\mathcal{F}_0\subseteq\mathcal{F}_1\subseteq\cdots$ で、過程 $X_n$ が各 $\mathcal{F}_n$ -可測なとき**適合（adapted）**といいます。

直観

要するに $\mathbb{E}[X\mid\mathcal{G}]$ は「情報 $\mathcal{G}$ の解像度でぼかした $X$ 」。 $\mathcal{G}$ が細かいほど予測は鋭く、粗いほどぼやけます。タワー則は「粗くぼかしてから全体平均しても、いきなり全体平均しても同じ」。フィルトレーションは「時間とともにピントが合っていくカメラ」で、観測が進むほど世界の解像度が上がります。

具体例

粗い情報 $G\in\{0,1,2\}$ と $X=G+\text{雑音}$ について、条件付き期待値が群ごとの平均、タワー則が成立、そして真の条件付き期待値が二乗誤差最小（最良予測）であることを確認します。

import numpy as np
rng = np.random.default_rng(1)
N = 2_000_000
g = rng.integers(0, 3, N)                 # 粗い情報 G
X = g*1.0 + rng.normal(0, 1, N)           # E[X|G=g]=g
condexp = np.array([X[g == k].mean() for k in range(3)])
print("E[X|G=k] =", np.round(condexp, 3), "(理論 0,1,2)")
tower = sum((g == k).mean()*condexp[k] for k in range(3))
print(f"E[E[X|G]]={tower:.4f}  vs  E[X]={X.mean():.4f} (タワー則)")
mse_true = ((X - g)**2).mean()
mse_wrong = ((X - (g + 0.5))**2).mean()
print(f"MSE(真の条件期待値)={mse_true:.3f} < MSE(ずらした予測)={mse_wrong:.3f}")
# E[X|G=k] = [0.001 1.001 2.003] (理論 0,1,2)
# E[E[X|G]]=1.0013  vs  E[X]=1.0013 (タワー則)
# MSE(真の条件期待値)=1.000 < MSE(ずらした予測)=1.248

条件付き期待値は群平均（ $\approx0,1,2$ ）、タワー則は厳密に成立、真の条件付き期待値（ $=G$ ）からずらすと二乗誤差が増える＝条件付き期待値が最良予測です。

他過程との関係

マルコフ連鎖とは・遷移行列のマルコフ性は、条件付き期待値の言葉で $\mathbb{E}[f(X_{n+1})\mid\mathcal{F}_n]=\mathbb{E}[f(X_{n+1})\mid X_n]$ （過去全体で条件づけても現在だけで条件づけても同じ）と書けます。
フィルトレーションは停止時刻と任意停止定理の停止時刻（ $\{T\le n\}\in\mathcal{F}_n$ ）と伊藤積分の被積分過程の可測性で本質的に効きます。

数式の直観的意味

条件付き期待値が射影であることは、ピタゴラスの定理 $\mathbb{E}[X^2]=\mathbb{E}[\mathbb{E}[X\mid\mathcal{G}]^2]+\mathbb{E}[(X-\mathbb{E}[X\mid\mathcal{G}])^2]$ （予測の分散＋残差の分散）を与えます。「説明された分散＋説明されない分散」という回帰の分解は、まさにこの射影構造です。マルチンゲールの収束や不等式は、すべてこの幾何（直交性）に支えられています。

⚠️ よくある誤解

$\mathbb{E}[X\mid\mathcal{G}]$ は数ではなく確率変数（ $\mathcal{G}$ -可測な）。具体的な事象 $G=g$ を代入して初めて数になります。
タワー則の向きに注意。情報を粗くする方向（ $\mathcal{G}\subseteq\mathcal{F}$ ）で $\mathbb{E}[\mathbb{E}[X\mid\mathcal{F}]\mid\mathcal{G}]=\mathbb{E}[X\mid\mathcal{G}]$ 。「粗いほうが勝つ」と覚えます。
適合性は予言の禁止。 $X_n$ は $\mathcal{F}_n$ で測れる（時刻 $n$ までの情報で決まる）必要があり、未来を覗く過程は適合しません。

対応シミュレーション

本文コードの群の数や雑音分散を変えても、群平均＝条件付き期待値・タワー則・最良予測の3点は保たれます。