Mímisbrunnr知恵の泉

← 情報理論 一覧

🎓 レベル:発展 | 重要度:B(重要)

📎 前提:相互情報量KLダイバージェンス | 効く先:シャノンの通信路符号化定理

要点(BLUF)

1. 情報不等式が親

D(pq)0D(p\|q)\ge 0KLダイバージェンス)から、情報理論の主要な不等式がドミノ式に出ます。

「分布間の隔たりは非負」という一点が、これら全部を支えています。

2. データ処理不等式

確率変数が XYZX\to Y\to Z の順にマルコフ連鎖をなす(ZZXX に直接依らず YY だけを通じて依存する、p(zx,y)=p(zy)p(z\mid x,y)=p(z\mid y))とき、

I(X;Z)I(X;Y),I(X;Z)I(Y;Z)I(X;Z) \le I(X;Y), \qquad I(X;Z) \le I(Y;Z)

証明は相互情報量の連鎖則を2通りに展開して比べます。I(X;Y,Z)=I(X;Y)+I(X;ZY)=I(X;Z)+I(X;YZ)I(X;Y,Z)=I(X;Y)+I(X;Z\mid Y)=I(X;Z)+I(X;Y\mid Z)。マルコフ性から I(X;ZY)=0I(X;Z\mid Y)=0 なので、I(X;Y)=I(X;Z)+I(X;YZ)I(X;Z)I(X;Y)=I(X;Z)+I(X;Y\mid Z)\ge I(X;Z)

意味YY を受け取った後、YY だけを使ってどんな加工 Z=g(Y)Z=g(Y)(決定的でもランダムでも)をしても、XX についての情報は増えない。ノイズの上にいくら処理を重ねても元の信号を超える情報は取り出せません。

3. コード:データ処理不等式(底2, bit)

XX(公正な2値)を通信路1 p(yx)p(y\mid x) に通し、その出力をさらに通信路2 p(zy)p(z\mid y) に通す(2段の劣化)。I(X;Z)I(X;Y)I(X;Z)\le I(X;Y) を確かめます。

import numpy as np
def H(p):
    p=np.asarray(p,float).ravel(); p=p[p>0]; return -np.sum(p*np.log2(p))
def MI(P):
    px=P.sum(1); py=P.sum(0); return H(px)+H(py)-H(P)

px=np.array([0.5,0.5])
Py_x=np.array([[0.9,0.1],[0.2,0.8]])   # 通信路1 p(y|x)
Pz_y=np.array([[0.8,0.2],[0.3,0.7]])   # 通信路2 p(z|y)(さらにノイズ)

Pxy=Py_x*px[:,None]                    # 同時 p(x,y)
Ixy=MI(Pxy)
Pxz=np.zeros((2,2))                    # p(x,z)=Σ_y p(x)p(y|x)p(z|y)
for x in range(2):
    for z in range(2):
        Pxz[x,z]=px[x]*sum(Py_x[x,y]*Pz_y[y,z] for y in range(2))
Ixz=MI(Pxz)
print(f"I(X;Y) = {Ixy:.4f} bit")
print(f"I(X;Z) = {Ixz:.4f} bit")
print(f"データ処理不等式 I(X;Z) <= I(X;Y) : {Ixz <= Ixy}  (情報は処理で増えない)")

出力:

I(X;Y) = 0.3973 bit
I(X;Z) = 0.0926 bit
データ処理不等式 I(X;Z) <= I(X;Y) : True  (情報は処理で増えない)

出力の意味:1段目で XX について 0.39730.3973 bit 得られていたのに、2段目の通信路をさらに通すと I(X;Z)=0.0926I(X;Z)=0.0926 bit に減りました——後段の処理は情報を増やせず、ふつうは減らすZZYY から作られているので、XX について YY が知っている以上のことは原理的に分かりません。この単調性が、通信路を縦続接続したときの性能低下や、推定器が生データ以上の精度を出せない理由を統一的に説明します。

4. 十分統計量との関係

統計学の 十分統計量 T(Y)T(Y) は「YY から TT を計算しても XX(パラメータ)についての情報を失わない」もの。情報理論では、XYT(Y)X\to Y\to T(Y) で DPI の等号 I(X;T)=I(X;Y)I(X;T)=I(X;Y) が成り立つこと、と言い換えられます。一般の加工は情報を捨てる(不等号)が、十分統計量だけは捨てない(等号)。最尤推定・CRLB との接続は フィッシャー情報との接続 と統計分野で扱います。

5. 数式の直観的意味

DPI は「アルゴリズムは無からは情報を作れない」という保証です。前処理・特徴抽出・モデルの中間層——どんな加工も入力が持つ情報の範囲内でしか働けない(特徴選択と情報利得)。通信では、中継器でいくら整形しても受信端の情報は送信端を超えない。だからこそ、誤り訂正は「容量の範囲内で冗長性をあらかじめ足しておく」しかなく、受信後の後処理で情報を増やすことはできません(シャノンの通信路符号化定理)。これは強力な「できないことの証明」です。

⚠️ よくある誤解

対応シミュレーション

関連ノート