Mímisbrunnr知恵の泉

← 確率過程 一覧

🎓 レベル:発展 | 重要度:A(必須) 📎 前提:確率過程とは、条件付き確率(統計)

要点(BLUF)

概念

マルチンゲールを定義するには、まず「現時点で持っている情報の下での期待値」を厳密にする必要があります。それが条件付き期待値で、確率変数を「知っている情報で粗視化したもの」。情報が増えていく様子を表すのがフィルトレーションです。時刻が進むほど観測が積み重なり、不確実性が(少しずつ)減っていきます。

数式による定式化

確率変数 XXEX<\mathbb{E}|X|<\infty)と部分 σ\sigma-加法族 GF\mathcal{G}\subseteq\mathcal{F} に対し、条件付き期待値 E[XG]\mathbb{E}[X\mid\mathcal{G}] は次を満たす G\mathcal{G}-可測な確率変数:

GE[XG]dP=GXdP(GG)\int_G \mathbb{E}[X\mid\mathcal{G}]\,dP = \int_G X\,dP \qquad (\forall G\in\mathcal{G})

主要な性質:

(タワー則)E[E[XG]]=E[X],E[E[XF]G]=E[XG] (GF)\text{(タワー則)}\quad \mathbb{E}[\mathbb{E}[X\mid\mathcal{G}]] = \mathbb{E}[X], \qquad \mathbb{E}[\mathbb{E}[X\mid\mathcal{F}]\mid\mathcal{G}]=\mathbb{E}[X\mid\mathcal{G}]\ (\mathcal{G}\subseteq\mathcal{F}) (既知量の引き出し)E[YXG]=YE[XG](Y は G-可測)\text{(既知量の引き出し)}\quad \mathbb{E}[YX\mid\mathcal{G}] = Y\,\mathbb{E}[X\mid\mathcal{G}] \quad (Y \text{ は }\mathcal{G}\text{-可測})

L2L^2 では E[XG]\mathbb{E}[X\mid\mathcal{G}] は「G\mathcal{G}-可測な関数の中で E[(XZ)2]\mathbb{E}[(X-Z)^2] を最小にする ZZ」、すなわち射影です。フィルトレーションは増大する σ\sigma-加法族の族 F0F1\mathcal{F}_0\subseteq\mathcal{F}_1\subseteq\cdots で、過程 XnX_n が各 Fn\mathcal{F}_n-可測なとき**適合(adapted)**といいます。

直観

要するに E[XG]\mathbb{E}[X\mid\mathcal{G}] は「情報 G\mathcal{G} の解像度でぼかした XX」。G\mathcal{G} が細かいほど予測は鋭く、粗いほどぼやけます。タワー則は「粗くぼかしてから全体平均しても、いきなり全体平均しても同じ」。フィルトレーションは「時間とともにピントが合っていくカメラ」で、観測が進むほど世界の解像度が上がります。

具体例

粗い情報 G{0,1,2}G\in\{0,1,2\}X=G+雑音X=G+\text{雑音} について、条件付き期待値が群ごとの平均、タワー則が成立、そして真の条件付き期待値が二乗誤差最小(最良予測)であることを確認します。

import numpy as np
rng = np.random.default_rng(1)
N = 2_000_000
g = rng.integers(0, 3, N)                 # 粗い情報 G
X = g*1.0 + rng.normal(0, 1, N)           # E[X|G=g]=g
condexp = np.array([X[g == k].mean() for k in range(3)])
print("E[X|G=k] =", np.round(condexp, 3), "(理論 0,1,2)")
tower = sum((g == k).mean()*condexp[k] for k in range(3))
print(f"E[E[X|G]]={tower:.4f}  vs  E[X]={X.mean():.4f} (タワー則)")
mse_true = ((X - g)**2).mean()
mse_wrong = ((X - (g + 0.5))**2).mean()
print(f"MSE(真の条件期待値)={mse_true:.3f} < MSE(ずらした予測)={mse_wrong:.3f}")
# E[X|G=k] = [0.001 1.001 2.003] (理論 0,1,2)
# E[E[X|G]]=1.0013  vs  E[X]=1.0013 (タワー則)
# MSE(真の条件期待値)=1.000 < MSE(ずらした予測)=1.248

条件付き期待値は群平均(0,1,2\approx0,1,2)、タワー則は厳密に成立、真の条件付き期待値(=G=G)からずらすと二乗誤差が増える=条件付き期待値が最良予測です。

他過程との関係

数式の直観的意味

条件付き期待値が射影であることは、ピタゴラスの定理 E[X2]=E[E[XG]2]+E[(XE[XG])2]\mathbb{E}[X^2]=\mathbb{E}[\mathbb{E}[X\mid\mathcal{G}]^2]+\mathbb{E}[(X-\mathbb{E}[X\mid\mathcal{G}])^2](予測の分散+残差の分散)を与えます。「説明された分散+説明されない分散」という回帰の分解は、まさにこの射影構造です。マルチンゲールの収束や不等式は、すべてこの幾何(直交性)に支えられています。

⚠️ よくある誤解

対応シミュレーション

本文コードの群の数や雑音分散を変えても、群平均=条件付き期待値・タワー則・最良予測の3点は保たれます。

関連