フィッシャー情報との接続

🎓 レベル：発展　|　重要度：B（重要）

📎 前提：KLダイバージェンス　|　関連：統計（最尤推定・CRLB）

要点（BLUF）

フィッシャー情報 $\mathcal I(\theta)$ は「データがパラメータ $\theta$ についてどれだけ情報を持つか」を測る量。KL の局所版（2次近似の係数）です。
$D(p_\theta\,\|\,p_{\theta+\delta})\approx \tfrac12\,\mathcal I(\theta)\,\delta^2$ （底 $e$ 、nat）。KL は近接する分布間では2次形式で、その曲率がフィッシャー情報。
クラメール・ラオ下界（CRLB）：不偏推定量の分散は $\ge 1/(n\,\mathcal I(\theta))$ 。情報が多いほど（ $\mathcal I$ が大きいほど）精度を上げられる。最尤推定はこの下界を漸近的に達成。詳細な推定論は統計分野へ。

1. フィッシャー情報の定義

パラメータ $\theta$ を持つ分布 $p_\theta(x)$ について、対数尤度の $\theta$ 微分（スコア） $s_\theta(x)=\frac{\partial}{\partial\theta}\log p_\theta(x)$ の分散が フィッシャー情報：

\mathcal I(\theta) = \mathbb E_{p_\theta}\!\big[s_\theta(X)^2\big] = -\,\mathbb E_{p_\theta}\!\left[\frac{\partial^2}{\partial\theta^2}\log p_\theta(X)\right]

スコアの期待値は 0 なので、これはスコアの「ばらつき」。尤度が $\theta$ に対して鋭く尖っている（曲率が大きい）ほどフィッシャー情報は大きく、 $\theta$ をはっきり区別できます。

2. KL の2次近似がフィッシャー情報

$\theta$ を $\theta+\delta$ にわずかに動かしたときの KL を $\delta$ でテイラー展開すると、0次・1次が消えて2次が主項になります（底 $e$ 、nat）：

D(p_\theta\,\|\,p_{\theta+\delta}) = \tfrac12\,\mathcal I(\theta)\,\delta^2 + O(\delta^3)

つまり KL は「分布のパラメータ空間における2乗距離」のように振る舞い、その計量（メトリック）がフィッシャー情報です（情報幾何の出発点）。KL 自体は非対称（KLダイバージェンス）ですが、近接極限では対称な2次形式に化けます。

3. コード：KL の2次近似と CRLB（底 e, nat）

ベルヌーイ分布 $p(\theta)$ （ $\mathcal I(\theta)=1/(\theta(1-\theta))$ ）で、(1) KL が $\tfrac12\mathcal I\delta^2$ に近づくこと、(2) 最尤推定（標本平均）の分散が CRLB $1/(n\mathcal I)$ を達成することを確かめます。

import numpy as np
# フィッシャー情報とKLの2次近似（nat）。ベルヌーイ I(θ)=1/(θ(1-θ))
def KL_nat(t1,t2):
    return t1*np.log(t1/t2)+(1-t1)*np.log((1-t1)/(1-t2))
theta=0.3
Ifisher=1/(theta*(1-theta))
print(f"theta={theta}: フィッシャー情報 I(θ)=1/(θ(1-θ)) = {Ifisher:.4f} (nat基準)")
print(f"{'δ':>8}{'KL(実際)':>14}{'(1/2)I δ^2':>14}")
for d in [0.1,0.05,0.01,0.001]:
    kl=KL_nat(theta,theta+d)
    approx=0.5*Ifisher*d**2
    print(f"{d:>8}{kl:>14.6e}{approx:>14.6e}")

# CRLB: 分散 >= 1/(n I(θ))。n標本の最尤推定の分散を実験
rng=np.random.default_rng(5)
n=50; reps=200000
X=(rng.random((reps,n))<theta).astype(int)
theta_hat=X.mean(1)   # ベルヌーイMLE=標本平均
crlb=1/(n*Ifisher)
print("-"*40)
print(f"n={n}: MLEの分散(実験) = {theta_hat.var():.6f}")
print(f"CRLB = 1/(n I(θ)) = {crlb:.6f}   (MLEは下限を達成: 比 {theta_hat.var()/crlb:.3f})")

出力：

theta=0.3: フィッシャー情報 I(θ)=1/(θ(1-θ)) = 4.7619 (nat基準)
       δ        KL(実際)    (1/2)I δ^2
     0.1  2.160085e-02  2.380952e-02
    0.05  5.630377e-03  5.952381e-03
    0.01  2.351694e-04  2.380952e-04
   0.001  2.377939e-06  2.380952e-06
----------------------------------------
n=50: MLEの分散(実験) = 0.004206
CRLB = 1/(n I(θ)) = 0.004200   (MLEは下限を達成: 比 1.001)

出力の意味：上段—— $\delta$ を小さくするほど、実際の KL が $\tfrac12\mathcal I\delta^2$ にぴたり近づきます（ $\delta=0.001$ で6桁一致）。KL の局所的な曲率がフィッシャー情報であることの数値的な証拠です。下段——50標本の最尤推定（標本平均）の分散 $0.004206$ が、理論下限 CRLB $0.004200$ とほぼ一致（比 1.001）。フィッシャー情報が推定精度の天井を決め、最尤推定はその天井に張り付く。情報が多い（ $\mathcal I$ 大）ほど、より小さい分散で $\theta$ を当てられます。

4. 数式の直観的意味

フィッシャー情報は「データ1個あたり、パラメータについて何 nat 得られるか」のローカルな尺度。CRLB $\mathrm{Var}(\hat\theta)\ge 1/(n\mathcal I)$ は「情報を $n$ 個集めれば分散は $1/n$ で縮むが、それ以上は無理」という推定の物理限界で、情報理論の符号化定理（シャノンの情報源符号化定理）が「圧縮の限界」を与えるのと同じ精神です。両者とも「情報量が達成可能性の天井を決める」。なお、サンプル数 $n$ の系列について「真の $\theta$ と候補 $\theta'$ を見分けられる確率」を支配するのも KL で、これは仮説検定の誤り指数（型の方法）として統計へ繋がります。

5. 境界（重複を避ける）

推定論の本体（一致性・漸近正規性・CRLB の証明・十分統計量）は 統計分野で扱います。ここでは「KL の2次近似＝フィッシャー情報」という情報理論側の接続だけを示します。
最尤推定が交差エントロピー最小化に等しいこと（KLダイバージェンス・クロスエントロピーと最尤）と合わせると、「KL → 最尤 → フィッシャー情報 → CRLB」という1本の糸が見えます。

⚠️ よくある誤解

「フィッシャー情報とシャノン情報は同じ」ではない：シャノン情報（エントロピー・相互情報量）は分布の不確かさ、フィッシャー情報はパラメータの推定しやすさ。接点は KL の2次近似であって、同一物ではありません。
「KL は常に2次形式」ではない：2次形式は近接極限のみ。離れた分布では高次項が効き、非対称性も顕在化します。
「CRLB はどんな推定量にも成り立つ」ではない：基本形は不偏推定量への下界。バイアスを許せば下回る推定量もあります（バイアス-バリアンスのトレードオフ）。
「底はどちらでもいい」ではない：本ノートの2次近似は nat（底 $e$ ） 基準。bit で測るなら $\mathcal I$ を $\log_2 e$ 倍して揃えます。

対応シミュレーション

本文のコードで KL の2次近似とCRLB達成を実証済み。