情報不等式とデータ処理不等式

← 情報理論一覧

🎓 レベル：発展　|　重要度：B（重要）

📎 前提：相互情報量、KLダイバージェンス　|　効く先：シャノンの通信路符号化定理

要点（BLUF）

すべての基本不等式の親は 情報不等式 $D(p\,\|\,q)\ge 0$ 。ここから「条件づけはエントロピーを下げる」「相互情報量は非負」が出ます。
データ処理不等式（DPI）： $X\to Y\to Z$ がマルコフ連鎖（ $Z$ は $Y$ を介してのみ $X$ に依存）なら $I(X;Z)\le I(X;Y)$ 。生データを後から加工しても、元の情報量は増えない。
系： $Y$ が $X$ の 十分統計量 なら情報を失わず $I(X;Y)=I(X;\,$ 元データ $)$ 。等号が成り立つのが「情報を捨てない加工」。

1. 情報不等式が親

$D(p\|q)\ge 0$ （KLダイバージェンス）から、情報理論の主要な不等式がドミノ式に出ます。

$I(X;Y)=D\big(p(x,y)\|p(x)p(y)\big)\ge 0$ → 相互情報量は非負。
$I(X;Y)=H(Y)-H(Y\mid X)\ge 0$ → 条件づけはエントロピーを下げる $H(Y\mid X)\le H(Y)$ 。
$H(X)\le\log|\mathcal X|$ （一様で最大、エントロピーの性質と最大エントロピー）も $q=$ 一様の KL から。

「分布間の隔たりは非負」という一点が、これら全部を支えています。

2. データ処理不等式

確率変数が $X\to Y\to Z$ の順にマルコフ連鎖をなす（ $Z$ は $X$ に直接依らず $Y$ だけを通じて依存する、 $p(z\mid x,y)=p(z\mid y)$ ）とき、

I(X;Z) \le I(X;Y), \qquad I(X;Z) \le I(Y;Z)

証明は相互情報量の連鎖則を2通りに展開して比べます。 $I(X;Y,Z)=I(X;Y)+I(X;Z\mid Y)=I(X;Z)+I(X;Y\mid Z)$ 。マルコフ性から $I(X;Z\mid Y)=0$ なので、 $I(X;Y)=I(X;Z)+I(X;Y\mid Z)\ge I(X;Z)$ 。

意味： $Y$ を受け取った後、 $Y$ だけを使ってどんな加工 $Z=g(Y)$ （決定的でもランダムでも）をしても、 $X$ についての情報は増えない。ノイズの上にいくら処理を重ねても元の信号を超える情報は取り出せません。

3. コード：データ処理不等式（底2, bit）

$X$ （公正な2値）を通信路1 $p(y\mid x)$ に通し、その出力をさらに通信路2 $p(z\mid y)$ に通す（2段の劣化）。 $I(X;Z)\le I(X;Y)$ を確かめます。

import numpy as np
def H(p):
    p=np.asarray(p,float).ravel(); p=p[p>0]; return -np.sum(p*np.log2(p))
def MI(P):
    px=P.sum(1); py=P.sum(0); return H(px)+H(py)-H(P)

px=np.array([0.5,0.5])
Py_x=np.array([[0.9,0.1],[0.2,0.8]])   # 通信路1 p(y|x)
Pz_y=np.array([[0.8,0.2],[0.3,0.7]])   # 通信路2 p(z|y)（さらにノイズ）

Pxy=Py_x*px[:,None]                    # 同時 p(x,y)
Ixy=MI(Pxy)
Pxz=np.zeros((2,2))                    # p(x,z)=Σ_y p(x)p(y|x)p(z|y)
for x in range(2):
    for z in range(2):
        Pxz[x,z]=px[x]*sum(Py_x[x,y]*Pz_y[y,z] for y in range(2))
Ixz=MI(Pxz)
print(f"I(X;Y) = {Ixy:.4f} bit")
print(f"I(X;Z) = {Ixz:.4f} bit")
print(f"データ処理不等式 I(X;Z) <= I(X;Y) : {Ixz <= Ixy}  (情報は処理で増えない)")

出力：

I(X;Y) = 0.3973 bit
I(X;Z) = 0.0926 bit
データ処理不等式 I(X;Z) <= I(X;Y) : True  (情報は処理で増えない)

出力の意味：1段目で $X$ について $0.3973$ bit 得られていたのに、2段目の通信路をさらに通すと $I(X;Z)=0.0926$ bit に減りました——後段の処理は情報を増やせず、ふつうは減らす。 $Z$ は $Y$ から作られているので、 $X$ について $Y$ が知っている以上のことは原理的に分かりません。この単調性が、通信路を縦続接続したときの性能低下や、推定器が生データ以上の精度を出せない理由を統一的に説明します。

4. 十分統計量との関係

統計学の 十分統計量 $T(Y)$ は「 $Y$ から $T$ を計算しても $X$ （パラメータ）についての情報を失わない」もの。情報理論では、 $X\to Y\to T(Y)$ で DPI の等号 $I(X;T)=I(X;Y)$ が成り立つこと、と言い換えられます。一般の加工は情報を捨てる（不等号）が、十分統計量だけは捨てない（等号）。最尤推定・CRLB との接続はフィッシャー情報との接続と統計分野で扱います。

5. 数式の直観的意味

DPI は「アルゴリズムは無からは情報を作れない」という保証です。前処理・特徴抽出・モデルの中間層——どんな加工も入力が持つ情報の範囲内でしか働けない（特徴選択と情報利得）。通信では、中継器でいくら整形しても受信端の情報は送信端を超えない。だからこそ、誤り訂正は「容量の範囲内で冗長性をあらかじめ足しておく」しかなく、受信後の後処理で情報を増やすことはできません（シャノンの通信路符号化定理）。これは強力な「できないことの証明」です。

⚠️ よくある誤解

「巧妙な後処理で情報を増やせる」ではない： $Z=g(Y)$ がどんなに賢くても $I(X;Z)\le I(X;Y)$ 。増やせるのは見かけの使いやすさだけで、情報量そのものは増えません。
「DPI は決定的な関数だけ」ではない： $Z$ が $Y$ のランダム関数（追加ノイズ）でも成り立ちます。マルコフ性 $X\to Y\to Z$ が条件。
「等号は滅多に成り立たない」ではない：可逆な変換（全単射）や十分統計量では等号。情報を捨てない加工は珍しくありません。
「条件づけは相互情報量も必ず下げる」ではない：エントロピーは下がりますが、相互情報量 $I(X;Y\mid Z)$ は $I(X;Y)$ より増えることもあります（相互情報量）。DPI はあくまでマルコフ連鎖の話。

対応シミュレーション

本文のコードで2段通信路の $I(X;Z)\le I(X;Y)$ を実証済み。