🎓 レベル:標準 | 重要度:A(必須)
📎 前提:ベイズ更新と逐次推論 | 数理:ベイズ推定・MAP推定(統計)・正則化の理論(機械学習)
要点(BLUF)
- ベイズの出力は分布(事後)そのものですが、「1つの値で答えて」と言われたら点推定します。このときどの損失関数を最小化するかで答えが変わります。
- 二乗損失なら事後平均、絶対損失なら事後中央値、0-1損失なら MAP(最頻値)。これは選択ではなく数学的な帰結です。
- 事後が対称なら3つは一致しますが、非対称ならずれます。だから「ベイズの点推定」と言うときは、暗に損失関数を選んでいることを意識します。
1. 点推定 = 期待損失の最小化
真値 を推定値 で代用したときの「まずさ」を損失 で測ります。 は事後分布に従う確率変数なので、事後で平均した期待損失を最小化する がベイズ推定量です。
ここで損失関数を3通り入れると、それぞれ有名な要約統計量が出てきます。
2. 損失関数ごとの最適点
二乗損失 → 事後平均。期待損失を で微分して0と置くと、
絶対損失 → 事後中央値。期待絶対偏差を最小にするのは中央値、という統計の標準結果がそのまま効きます。
0-1損失(外したら一律ペナルティ)→ MAP(事後最頻値)。連続では「 の近傍に確率が最も集まる点」、すなわち事後密度を最大化する点になります。
graph TD POST["事後分布 P(θ|D)"] --> L1["二乗損失"] POST --> L2["絶対損失"] POST --> L3["0-1損失"] L1 --> M1["事後平均"] L2 --> M2["事後中央値"] L3 --> M3["MAP(最頻値)"]
3. コードで3つのずれを見る
非対称な事後 (左に偏る)で、3つの点推定を計算して重ねます。
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import japanize_matplotlib # 日本語ラベル用
# 非対称な事後分布の例:Beta(2, 6)(左に偏る)
post = stats.beta(2, 6)
theta = np.linspace(0, 1, 500)
pdf = post.pdf(theta)
mean = post.mean() # 二乗損失で最適
median = post.median() # 絶対損失で最適
mode = theta[np.argmax(pdf)] # 0-1損失で最適(MAP)
print(f"事後平均 (二乗損失) = {mean:.3f}")
print(f"事後中央値(絶対損失) = {median:.3f}")
print(f"MAP/最頻値(0-1損失) = {mode:.3f}")
plt.figure(figsize=(7, 4))
plt.plot(theta, pdf, lw=2, label="事後 Beta(2,6)")
plt.axvline(mean, color="C1", ls="--", label=f"平均 {mean:.2f}")
plt.axvline(median, color="C2", ls="-.", label=f"中央値 {median:.2f}")
plt.axvline(mode, color="C3", ls=":", label=f"MAP {mode:.2f}")
plt.xlabel("θ"); plt.ylabel("事後密度")
plt.title("損失関数ごとに最適な点推定が違う(非対称な事後)")
plt.legend(); plt.tight_layout(); plt.show()
出力:
事後平均 (二乗損失) = 0.250
事後中央値(絶対損失) = 0.228
MAP/最頻値(0-1損失) = 0.166
出力の意味:非対称な事後では、平均(0.250)>中央値(0.228)>MAP(0.166)と3つがはっきりずれます。平均は裾の重い側(右)に引っ張られ、MAP は密度のピーク(左)に来ます。MAP の 0.166 は解析値 と一致します(グリッド解像度の差だけ)。もし事後が対称なら3つは重なり、どの損失でも同じ答えになります。
4. MAP は最尤・正則化と地続き
MAP は事後密度の最大化、すなわち「尤度 × 事前」の最大化です。
- 事前が一様なら は定数になり、MAP は最尤推定に一致します(最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)(統計))。
- 事前がガウスなら が の形になり、MAP は L2 正則化(リッジ)に一致します。ラプラス事前なら L1(Lasso)。これは機械学習の 正則化の理論 とちょうど裏表の関係です。
⚠️ よくある誤解
- 「MAP がベイズ推定の代表」ではない:MAP は点推定の一種で、事後分布の豊かな情報(不確実性・形)を1点に潰してしまいます。ベイズの強みは分布を保つことなので、点が必要なとき以外は事後そのものを使います。
- 「平均・中央値・MAP はだいたい同じ」ではない:対称な事後では一致しますが、非対称・多峰では大きくずれます。どれを報告するかは損失(目的)次第です。
- 「MAP は事後平均の近似」ではない:両者は別の損失の最適解で、近い保証はありません。歪んだ分布では特に違います。
関連ノート
- ベイズ更新と逐次推論
- 信用区間と事後予測分布(次のトピック・点でなく区間と予測)
- ベイズ推定・MAP推定(統計)
- 正則化の理論(機械学習・MAP=正則化)
- ベイズ統計テキスト 全体目次