🎓 レベル:発展 | 重要度:B(重要)
📎 前提:KLダイバージェンス | 関連:統計(最尤推定・CRLB)
要点(BLUF)
- フィッシャー情報 は「データがパラメータ についてどれだけ情報を持つか」を測る量。KL の局所版(2次近似の係数)です。
- (底 、nat)。KL は近接する分布間では2次形式で、その曲率がフィッシャー情報。
- クラメール・ラオ下界(CRLB):不偏推定量の分散は 。情報が多いほど( が大きいほど)精度を上げられる。最尤推定はこの下界を漸近的に達成。詳細な推定論は統計分野へ。
1. フィッシャー情報の定義
パラメータ を持つ分布 について、対数尤度の 微分(スコア) の分散が フィッシャー情報:
スコアの期待値は 0 なので、これはスコアの「ばらつき」。尤度が に対して鋭く尖っている(曲率が大きい)ほどフィッシャー情報は大きく、 をはっきり区別できます。
2. KL の2次近似がフィッシャー情報
を にわずかに動かしたときの KL を でテイラー展開すると、0次・1次が消えて2次が主項になります(底 、nat):
つまり KL は「分布のパラメータ空間における2乗距離」のように振る舞い、その計量(メトリック)がフィッシャー情報です(情報幾何の出発点)。KL 自体は非対称(KLダイバージェンス)ですが、近接極限では対称な2次形式に化けます。
3. コード:KL の2次近似と CRLB(底 e, nat)
ベルヌーイ分布 ()で、(1) KL が に近づくこと、(2) 最尤推定(標本平均)の分散が CRLB を達成することを確かめます。
import numpy as np
# フィッシャー情報とKLの2次近似(nat)。ベルヌーイ I(θ)=1/(θ(1-θ))
def KL_nat(t1,t2):
return t1*np.log(t1/t2)+(1-t1)*np.log((1-t1)/(1-t2))
theta=0.3
Ifisher=1/(theta*(1-theta))
print(f"theta={theta}: フィッシャー情報 I(θ)=1/(θ(1-θ)) = {Ifisher:.4f} (nat基準)")
print(f"{'δ':>8}{'KL(実際)':>14}{'(1/2)I δ^2':>14}")
for d in [0.1,0.05,0.01,0.001]:
kl=KL_nat(theta,theta+d)
approx=0.5*Ifisher*d**2
print(f"{d:>8}{kl:>14.6e}{approx:>14.6e}")
# CRLB: 分散 >= 1/(n I(θ))。n標本の最尤推定の分散を実験
rng=np.random.default_rng(5)
n=50; reps=200000
X=(rng.random((reps,n))<theta).astype(int)
theta_hat=X.mean(1) # ベルヌーイMLE=標本平均
crlb=1/(n*Ifisher)
print("-"*40)
print(f"n={n}: MLEの分散(実験) = {theta_hat.var():.6f}")
print(f"CRLB = 1/(n I(θ)) = {crlb:.6f} (MLEは下限を達成: 比 {theta_hat.var()/crlb:.3f})")
出力:
theta=0.3: フィッシャー情報 I(θ)=1/(θ(1-θ)) = 4.7619 (nat基準)
δ KL(実際) (1/2)I δ^2
0.1 2.160085e-02 2.380952e-02
0.05 5.630377e-03 5.952381e-03
0.01 2.351694e-04 2.380952e-04
0.001 2.377939e-06 2.380952e-06
----------------------------------------
n=50: MLEの分散(実験) = 0.004206
CRLB = 1/(n I(θ)) = 0.004200 (MLEは下限を達成: 比 1.001)
出力の意味:上段—— を小さくするほど、実際の KL が にぴたり近づきます( で6桁一致)。KL の局所的な曲率がフィッシャー情報であることの数値的な証拠です。下段——50標本の最尤推定(標本平均)の分散 が、理論下限 CRLB とほぼ一致(比 1.001)。フィッシャー情報が推定精度の天井を決め、最尤推定はその天井に張り付く。情報が多い( 大)ほど、より小さい分散で を当てられます。
4. 数式の直観的意味
フィッシャー情報は「データ1個あたり、パラメータについて何 nat 得られるか」のローカルな尺度。CRLB は「情報を 個集めれば分散は で縮むが、それ以上は無理」という推定の物理限界で、情報理論の符号化定理(シャノンの情報源符号化定理)が「圧縮の限界」を与えるのと同じ精神です。両者とも「情報量が達成可能性の天井を決める」。なお、サンプル数 の系列について「真の と候補 を見分けられる確率」を支配するのも KL で、これは仮説検定の誤り指数(型の方法)として統計へ繋がります。
5. 境界(重複を避ける)
- 推定論の本体(一致性・漸近正規性・CRLB の証明・十分統計量)は 統計分野で扱います。ここでは「KL の2次近似=フィッシャー情報」という情報理論側の接続だけを示します。
- 最尤推定が交差エントロピー最小化に等しいこと(KLダイバージェンス・クロスエントロピーと最尤)と合わせると、「KL → 最尤 → フィッシャー情報 → CRLB」という1本の糸が見えます。
⚠️ よくある誤解
- 「フィッシャー情報とシャノン情報は同じ」ではない:シャノン情報(エントロピー・相互情報量)は分布の不確かさ、フィッシャー情報はパラメータの推定しやすさ。接点は KL の2次近似であって、同一物ではありません。
- 「KL は常に2次形式」ではない:2次形式は近接極限のみ。離れた分布では高次項が効き、非対称性も顕在化します。
- 「CRLB はどんな推定量にも成り立つ」ではない:基本形は不偏推定量への下界。バイアスを許せば下回る推定量もあります(バイアス-バリアンスのトレードオフ)。
- 「底はどちらでもいい」ではない:本ノートの2次近似は nat(底 ) 基準。bit で測るなら を 倍して揃えます。
対応シミュレーション
- 本文のコードで KL の2次近似とCRLB達成を実証済み。
関連ノート
- KLダイバージェンス(前提・KL の定義と最尤との関係)
- 情報不等式とデータ処理不等式(前提・十分統計量)
- クロスエントロピーと最尤(最尤=交差エントロピー最小化)
- 第2章 相互情報量とダイバージェンス 目次
- 情報理論 全体目次