レート歪み理論入門

🎓 レベル：発展　|　重要度：A（必須）

📎 前提：微分エントロピー、シャノンの情報源符号化定理　|　関連：相互情報量

要点（BLUF）

レート歪み理論 は「完全復元はあきらめ、平均歪み $D$ までは許す」非可逆（lossy）圧縮の理論限界を与えます。連続源は無限の情報量を持つので、有限ビットで送るには必ず歪みが要ります。
レート歪み関数 $R(D)=\min_{p(\hat x\mid x):\,\mathbb E[d]\le D} I(X;\hat X)$ 。ガウス源・2乗誤差なら

R(D)=\tfrac12\log_2\frac{\sigma^2}{D}\ (0<D\le\sigma^2),\qquad D(R)=\sigma^2\,2^{-2R}

$D(R)$ は 1ビット増やすと歪みが 1/4（パワーで 6 dB 改善）。JPEG・MP3・H.264 など、非可逆圧縮の品質とビットレートの交換則の理論的な底です。

1. なぜ歪みが必要か

連続値 $X$ を完全に表すには無限ビットが要ります（微分エントロピーの基準が $-\log_2\Delta\to\infty$ 、微分エントロピー）。だから有限レートで送るなら、再生 $\hat X$ は元 $X$ と必ずずれる。そのずれを歪み $d(x,\hat x)$ で測り（典型は2乗誤差 $d=(x-\hat x)^2$ ）、平均歪み $\mathbb E[d(X,\hat X)]\le D$ という条件のもとで、必要なレート（bit/サンプル）の最小値を求めるのがレート歪み理論です。情報源符号化定理（シャノンの情報源符号化定理）が「歪み0のときの限界＝エントロピー」だったのを、「歪み $D$ を許すと限界はどう下がるか」へ一般化します。

2. レート歪み関数

レート歪み関数は、歪み制約を満たす条件付き分布の中で相互情報量を最小化したもの：

R(D) = \min_{p(\hat x\mid x):\ \mathbb E[d(X,\hat X)]\le D} I(X;\hat X)

「再生 $\hat X$ が元 $X$ について最低限持つべき情報量」。 $D$ を大きく許すほど $\hat X$ は雑でよく、 $R(D)$ は下がります。分散 $\sigma^2$ のガウス源＋2乗誤差では解析的に解けて

R(D)=\begin{cases}\tfrac12\log_2\dfrac{\sigma^2}{D} & 0<D\le\sigma^2\\[4pt]0 & D>\sigma^2\end{cases}

$D=\sigma^2$ で $R=0$ ——「平均値 0 を返すだけ（何も送らない）」で歪みは源の分散 $\sigma^2$ に等しいので、それ以上歪んでよいならビット不要。逆向きに解くと 歪み・レート関数 $D(R)=\sigma^2 2^{-2R}$ 。

3. コード：ガウス源のレート歪み（底2, bit）

$R(D)$ と $D(R)$ を計算し、「1ビットで歪み1/4」を確かめます。

import numpy as np
# レート歪み（ガウス源・2乗誤差歪み）。σ^2=1
sigma2=1.0
print("ガウス源(分散1)・2乗誤差のレート歪み関数 R(D)=0.5 log2(σ^2/D)")
print(f"{'歪み D':>8}{'R(D) bit':>12}")
for D in [1.0,0.5,0.25,0.1,0.01]:
    R=max(0.0, 0.5*np.log2(sigma2/D))
    print(f"{D:>8}{R:>12.4f}")
print("-"*40)
# 逆向き：レート R bit で達成できる最小歪み D(R)=σ^2 2^{-2R}
print("歪み・レート関数 D(R)=σ^2 2^(-2R)：1ビット増やすと歪みは1/4")
for R in [0,1,2,3]:
    D=sigma2*2**(-2*R)
    print(f"  R={R} bit -> D={D:.4f}  (= σ^2 / 4^R)")

出力：

ガウス源(分散1)・2乗誤差のレート歪み関数 R(D)=0.5 log2(σ^2/D)
    歪み D    R(D) bit
     1.0      0.0000
     0.5      0.5000
    0.25      1.0000
     0.1      1.6610
    0.01      3.3219
----------------------------------------
歪み・レート関数 D(R)=σ^2 2^(-2R)：1ビット増やすと歪みは1/4
  R=0 bit -> D=1.0000  (= σ^2 / 4^R)
  R=1 bit -> D=0.2500  (= σ^2 / 4^R)
  R=2 bit -> D=0.0625  (= σ^2 / 4^R)
  R=3 bit -> D=0.0156  (= σ^2 / 4^R)

出力の意味：歪み $D$ を許すほど必要レートは下がり、 $D=\sigma^2=1$ なら $R=0$ （何も送らず平均値で代用）、 $D=0.01$ まで精密にするには $3.32$ bit/サンプル。逆に固定レートで見ると、 $R$ を1ビット増やすたびに歪みが $1\to0.25\to0.0625\to0.0156$ とぴったり 1/4 ずつ減ります。2乗誤差はパワーなので、1ビット＝歪みパワー 1/4＝ $10\log_{10}4\approx6$ dB の改善。これが「オーディオやビデオのビットレートを1ビット/サンプル上げると SN が約 6 dB 良くなる」という工学の経験則の理論的な正体です。JPEG の品質スライダーや MP3 のビットレート選択は、この $R(D)$ 曲線上のどこで妥協するかを選んでいるわけです。

4. 数式の直観的意味

レート歪みは情報源符号化（シャノンの情報源符号化定理）の「歪みを許す版」で、通信路容量（通信路容量）と双対の関係にあります。容量は「相互情報量の最大化（送れる量の上限）」、レート歪みは「相互情報量の最小化（送るべき量の下限）」。どちらも $I(X;\cdot)$ の最適化として書け、Blahut-Arimoto アルゴリズムで数値的に解けます。 $\frac12\log_2(\sigma^2/D)$ という形がガウス通信路容量 $\frac12\log_2(1+\mathrm{SNR})$ とそっくりなのは偶然ではなく、「信号パワー対歪みパワーの比」が「信号対雑音比」と同じ役割を果たすから。非可逆圧縮とノイズ通信は、情報理論では同じ数式の表と裏です。

⚠️ よくある誤解

「レート歪みは非可逆圧縮の実アルゴリズム」ではない：理論的限界を与えるだけ。JPEG/MP3 はこの限界に近づこうとする実装で、限界そのものではありません。
「歪みを許せばいくらでもビットを減らせる」ではない： $R(D)\ge0$ で、 $D=\sigma^2$ （源の分散）でレート0に到達。それ以上は減りません（送らないのが最善）。
「2乗誤差が唯一の歪み尺度」ではない：知覚的な歪み（人間の目・耳に合わせた重み）など別の $d$ も使えます。 $R(D)$ の形は歪み尺度に依存します。
「無歪み圧縮の特別な場合」ではない： $D\to0$ で連続源では $R\to\infty$ 。無歪み（エントロピー限界）は離散源の話で、連続源は必ず歪みが要ります。

対応シミュレーション

本文のコードでガウス源の $R(D)$ と $D(R)$ （1ビットで歪み1/4）を実証済み。