Mímisbrunnr知恵の泉

← 情報理論 一覧

🎓 レベル:発展 | 重要度:B(重要)

📎 前提:KLダイバージェンス | 関連:統計(最尤推定・CRLB)

要点(BLUF)

1. フィッシャー情報の定義

パラメータ θ\theta を持つ分布 pθ(x)p_\theta(x) について、対数尤度の θ\theta 微分(スコア)sθ(x)=θlogpθ(x)s_\theta(x)=\frac{\partial}{\partial\theta}\log p_\theta(x) の分散が フィッシャー情報

I(θ)=Epθ ⁣[sθ(X)2]=Epθ ⁣[2θ2logpθ(X)]\mathcal I(\theta) = \mathbb E_{p_\theta}\!\big[s_\theta(X)^2\big] = -\,\mathbb E_{p_\theta}\!\left[\frac{\partial^2}{\partial\theta^2}\log p_\theta(X)\right]

スコアの期待値は 0 なので、これはスコアの「ばらつき」。尤度が θ\theta に対して鋭く尖っている(曲率が大きい)ほどフィッシャー情報は大きく、θ\theta をはっきり区別できます。

2. KL の2次近似がフィッシャー情報

θ\thetaθ+δ\theta+\delta にわずかに動かしたときの KL を δ\delta でテイラー展開すると、0次・1次が消えて2次が主項になります(ee、nat):

D(pθpθ+δ)=12I(θ)δ2+O(δ3)D(p_\theta\,\|\,p_{\theta+\delta}) = \tfrac12\,\mathcal I(\theta)\,\delta^2 + O(\delta^3)

つまり KL は「分布のパラメータ空間における2乗距離」のように振る舞い、その計量(メトリック)がフィッシャー情報です(情報幾何の出発点)。KL 自体は非対称(KLダイバージェンス)ですが、近接極限では対称な2次形式に化けます。

3. コード:KL の2次近似と CRLB(底 e, nat)

ベルヌーイ分布 p(θ)p(\theta)I(θ)=1/(θ(1θ))\mathcal I(\theta)=1/(\theta(1-\theta)))で、(1) KL が 12Iδ2\tfrac12\mathcal I\delta^2 に近づくこと、(2) 最尤推定(標本平均)の分散が CRLB 1/(nI)1/(n\mathcal I) を達成することを確かめます。

import numpy as np
# フィッシャー情報とKLの2次近似(nat)。ベルヌーイ I(θ)=1/(θ(1-θ))
def KL_nat(t1,t2):
    return t1*np.log(t1/t2)+(1-t1)*np.log((1-t1)/(1-t2))
theta=0.3
Ifisher=1/(theta*(1-theta))
print(f"theta={theta}: フィッシャー情報 I(θ)=1/(θ(1-θ)) = {Ifisher:.4f} (nat基準)")
print(f"{'δ':>8}{'KL(実際)':>14}{'(1/2)I δ^2':>14}")
for d in [0.1,0.05,0.01,0.001]:
    kl=KL_nat(theta,theta+d)
    approx=0.5*Ifisher*d**2
    print(f"{d:>8}{kl:>14.6e}{approx:>14.6e}")

# CRLB: 分散 >= 1/(n I(θ))。n標本の最尤推定の分散を実験
rng=np.random.default_rng(5)
n=50; reps=200000
X=(rng.random((reps,n))<theta).astype(int)
theta_hat=X.mean(1)   # ベルヌーイMLE=標本平均
crlb=1/(n*Ifisher)
print("-"*40)
print(f"n={n}: MLEの分散(実験) = {theta_hat.var():.6f}")
print(f"CRLB = 1/(n I(θ)) = {crlb:.6f}   (MLEは下限を達成: 比 {theta_hat.var()/crlb:.3f})")

出力:

theta=0.3: フィッシャー情報 I(θ)=1/(θ(1-θ)) = 4.7619 (nat基準)
       δ        KL(実際)    (1/2)I δ^2
     0.1  2.160085e-02  2.380952e-02
    0.05  5.630377e-03  5.952381e-03
    0.01  2.351694e-04  2.380952e-04
   0.001  2.377939e-06  2.380952e-06
----------------------------------------
n=50: MLEの分散(実験) = 0.004206
CRLB = 1/(n I(θ)) = 0.004200   (MLEは下限を達成: 比 1.001)

出力の意味:上段——δ\delta を小さくするほど、実際の KL が 12Iδ2\tfrac12\mathcal I\delta^2 にぴたり近づきます(δ=0.001\delta=0.001 で6桁一致)。KL の局所的な曲率がフィッシャー情報であることの数値的な証拠です。下段——50標本の最尤推定(標本平均)の分散 0.0042060.004206 が、理論下限 CRLB 0.0042000.004200 とほぼ一致(比 1.001)。フィッシャー情報が推定精度の天井を決め、最尤推定はその天井に張り付く。情報が多い(I\mathcal I 大)ほど、より小さい分散で θ\theta を当てられます。

4. 数式の直観的意味

フィッシャー情報は「データ1個あたり、パラメータについて何 nat 得られるか」のローカルな尺度。CRLB Var(θ^)1/(nI)\mathrm{Var}(\hat\theta)\ge 1/(n\mathcal I) は「情報を nn 個集めれば分散は 1/n1/n で縮むが、それ以上は無理」という推定の物理限界で、情報理論の符号化定理(シャノンの情報源符号化定理)が「圧縮の限界」を与えるのと同じ精神です。両者とも「情報量が達成可能性の天井を決める」。なお、サンプル数 nn の系列について「真の θ\theta と候補 θ\theta' を見分けられる確率」を支配するのも KL で、これは仮説検定の誤り指数(型の方法)として統計へ繋がります。

5. 境界(重複を避ける)

⚠️ よくある誤解

対応シミュレーション

関連ノート