変分推論の考え方｜ベイズ統計

🎓 レベル：発展　|　重要度：A（必須）

📎 前提：収束診断　|　関連：事前・尤度・事後・周辺尤度・オートエンコーダとVAE（機械学習）

要点（BLUF）

**変分推論（VI）**は、事後を解く代わりに、扱いやすい分布族 $q$ の中で事後に最も近いものを最適化で探す。MCMC（第4章）より速いが、近似です。
ELBO（証拠下界）の最大化＝事後との KL ダイバージェンス最小化。恒等式 $\log p(D)=\mathrm{ELBO}(q)+\mathrm{KL}(q\,\|\,\text{事後})$ から、 $\mathrm{ELBO}\le\log p(D)$ で、等号は $q=$ 事後のとき。
ELBO は正規化定数 $p(D)$ を知らずに計算できる（ $q$ の下での期待値だけ）。実装で $\log p(D)-\mathrm{ELBO}=\mathrm{KL}$ を実証します。

1. 発想：推論を最適化問題にする

MCMC は事後からサンプルを取りました。変分推論はまったく違うアプローチを取ります——事後分布そのものを、扱いやすい分布 $q(\theta)$ で近似し、 $q$ を事後に近づける最適化問題として解きます。

サンプリングではなく最適化なので、速い（大規模データ・高次元で有利）。
代わりに近似（ $q$ の表現力が足りなければ真の事後とずれる）。

近さの尺度には KL ダイバージェンス $\mathrm{KL}(q\,\|\,p(\theta\mid D))=\mathbb E_q[\log q(\theta)-\log p(\theta\mid D)]$ を使い、これを最小化する $q$ を探します。ところが KL の中に未知の事後 $p(\theta\mid D)=p(D,\theta)/p(D)$ が入っていて、正規化定数 $p(D)$ が邪魔です。ここで ELBO が効きます。

2. ELBO の導出：log p(D) = ELBO + KL

任意の $q(\theta)$ について、対数周辺尤度を変形します（イェンセンの不等式）。

\log p(D)=\log\int p(D,\theta)\,d\theta=\log\int q(\theta)\frac{p(D,\theta)}{q(\theta)}\,d\theta\ \ge\ \underbrace{\mathbb E_q\!\Big[\log\frac{p(D,\theta)}{q(\theta)}\Big]}_{\mathrm{ELBO}(q)}

この下界が ELBO（Evidence Lower BOund, 証拠下界）。さらに厳密に差を取ると、

\log p(D)-\mathrm{ELBO}(q)=\mathbb E_q\!\Big[\log\frac{q(\theta)}{p(\theta\mid D)}\Big]=\mathrm{KL}\big(q\,\|\,p(\theta\mid D)\big)

すなわち

\boxed{\ \log p(D)=\mathrm{ELBO}(q)+\mathrm{KL}\big(q\,\|\,p(\theta\mid D)\big)\ }

$\log p(D)$ は $q$ に依らない定数。KL $\ge0$ なので $\mathrm{ELBO}\le\log p(D)$ で、ELBO を最大化することは KL を最小化することと完全に等価です。しかも ELBO は $\mathbb E_q[\log p(D,\theta)-\log q(\theta)]$ ——計算できる同時分布 $p(D,\theta)=p(D\mid\theta)p(\theta)$ と $q$ だけで書け、厄介な $p(D)$ が要りません。これがなぜサンプリングかの正規化定数の壁を、VI が越える仕組みです。

3. コードで log p(D) = ELBO + KL を確かめる

共役な正規モデル（ $\theta\sim\mathcal N(0,1)$ 、 $y_i\sim\mathcal N(\theta,\sigma^2)$ ）で、閉形式の事後と $\log p(D)$ を真値に、ガウス変分 $q=\mathcal N(m,s^2)$ の ELBO が $\log p(D)-\mathrm{KL}$ になることを確かめます。

import numpy as np
from scipy import stats
from scipy.integrate import trapezoid          # numpy 2.0+ で np.trapz は廃止

rng = np.random.default_rng(0)
sigma = 1.0
y = rng.normal(0.8, sigma, size=8); n = len(y); ybar = y.mean()

# 閉形式の事後 N(mu_n, s_n²)（正規-正規）
prec_n = 1.0 + n/sigma**2                       # 事前精度1 + データ精度
mu_n = (n/sigma**2 * ybar)/prec_n; s_n = np.sqrt(1/prec_n)

# 真の log 周辺尤度（グリッド数値積分）
th = np.linspace(-5, 5, 20000)
loglik = -0.5*np.sum((y[:,None]-th[None,:])**2,axis=0)/sigma**2 - n*0.5*np.log(2*np.pi*sigma**2)
logprior = stats.norm(0,1).logpdf(th)
log_pD = np.log(trapezoid(np.exp(loglik+logprior), th))
print(f"事後 N({mu_n:.4f},{s_n:.4f}²),  log p(D)={log_pD:.4f}\n")

def elbo_mc(m, s, N=400000):                     # ELBO を q からのサンプルで近似
    z = rng.normal(m, s, N)
    ll = -0.5*np.sum((y[:,None]-z[None,:])**2,axis=0)/sigma**2 - n*0.5*np.log(2*np.pi*sigma**2)
    return np.mean(ll + stats.norm(0,1).logpdf(z) - stats.norm(m,s).logpdf(z))

def kl_gauss(m, s):                              # KL(N(m,s²) || 事後 N(mu_n,s_n²))
    return np.log(s_n/s) + (s**2 + (m-mu_n)**2)/(2*s_n**2) - 0.5

print(f"{'q=N(m,s)':<16}{'ELBO':>10}{'logp(D)-ELBO':>14}{'KL(q||post)':>13}")
for (m, s) in [(mu_n, s_n), (mu_n, s_n*1.5), (mu_n+0.5, s_n), (0.0, 1.0)]:
    e = elbo_mc(m, s)
    print(f"({m:.3f},{s:.3f}) {e:>10.4f}{log_pD-e:>14.4f}{kl_gauss(m,s):>13.4f}")

出力：

事後 N(1.0240,0.3333²),  log p(D)=-10.2791

q=N(m,s)              ELBO  logp(D)-ELBO  KL(q||post)
(1.024,0.333)  -10.2791        0.0000       0.0000
(1.024,0.500)  -10.4980        0.2189       0.2195
(1.524,0.333)  -11.4048        1.1257       1.1250
(0.000,1.000)  -17.8946        7.6155       7.6199

出力の意味： $q$ を事後そのもの $\mathcal N(1.024,0.333^2)$ にすると、ELBO ＝ $\log p(D)=-10.28$ （KL $=0$ 、ギャップ $0$ ）——下界が周辺尤度に到達します。 $q$ を事後からずらすほど ELBO は下がり、その下がり幅がちょうど $\mathrm{KL}(q\,\|\,\text{事後})$ に一致します（分散をずらすと $0.219$ 、平均をずらすと $1.13$ 、事前のままだと $7.62$ ）。だから「ELBO を上げる＝事後に近づける」。これが変分推論の最適化が目指すものです。

4. MCMC との対比

	MCMC（第4章）	変分推論
やること	事後からサンプル	事後を $q$ で近似（最適化）
精度	漸近的に厳密	$q$ の表現力まで（近似）
速度	遅い（高次元・大規模で重い）	速い（勾配最適化・ミニバッチ可）
不確実性	正しく出る	しばしば過小評価（mode-seeking）

$\mathrm{KL}(q\,\|\,p)$ を最小化する VI は、 $q$ が事後の一つの峰に集中しがちで、分散を過小評価する傾向があります（平均場近似と座標上昇法で実例）。速度と精度のトレードオフで、MCMC と使い分けます。次節から、 $q$ をどう構成して最適化するか（平均場・CAVI、確率的 VI・再パラメータ化）を具体化します。

⚠️ よくある誤解

「ELBO は適当な下界」ではない： $\log p(D)-\mathrm{ELBO}=\mathrm{KL}(q\,\|\,\text{事後})$ という厳密な等式。ELBO 最大化は KL 最小化そのもの。
「VI は MCMC の劣化版」ではない：速度が要る大規模・高次元では VI が現実的。精度が要れば MCMC。目的で選ぶ道具です。
「ELBO が高いほど真のモデルが良い」ではない：ELBO は周辺尤度の下界で、 $q$ の質にも依存します。モデル比較に使うときは注意（情報量規準WAICとDIC）。
「KL は対称」ではない：VI が使う $\mathrm{KL}(q\,\|\,p)$ は mode-seeking（過小分散）、逆向き $\mathrm{KL}(p\,\|\,q)$ は mass-covering で性質が違います。