🎓 レベル:基礎 | 重要度:A(必須)
📎 数理:事前分布・事後分布・ベイズ更新(統計)・最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)(統計)
要点(BLUF)
- 頻度論は確率を「長期的な頻度」、パラメータ を「未知だが固定された値」と見ます。推定は点(最尤推定など)と信頼区間で表します。
- ベイズは確率を「信念の度合い」、パラメータ を「確率変数」と見ます。データを観測する前の信念(事前分布)を、データ(尤度)で更新して事後分布を得ます。
- 一番の違いは出力の形:頻度論は「点+信頼区間」、ベイズは「分布そのもの(事後分布)」。不確実性を分布として丸ごと扱えるのがベイズの強みです。
1. 確率の解釈が違う
同じ「確率」という言葉を、2つの流派は違う意味で使います。
- 頻度論(frequentist):確率は「無限に繰り返したときの相対頻度」。コインの表が出る確率 0.5 とは「無限回投げれば半分が表」という意味。パラメータ は固定された真値で、確率変数ではありません。
- ベイズ(Bayesian):確率は「命題に対する信念の度合い」。「このコインの表の確率は 0.5 くらいだと思う」という主観的だが定量的な信念を確率で表します。 自体が確率変数です。
この違いが、推論の組み立て方すべてに効いてきます。
flowchart LR
subgraph F["頻度論"]
D1["データ"] --> E1["点推定: 最尤など"]
E1 --> C1["信頼区間"]
end
subgraph B["ベイズ"]
PR["事前分布 P(θ)"] --> PO["事後分布 P(θ|D)"]
LK["データ: 尤度 P(D|θ)"] --> PO
PO --> C2["信用区間・事後予測"]
end
2. ベイズの定理:信念をデータで更新する
ベイズ推論の心臓部はベイズの定理です。パラメータ 、観測データ について:
各項の名前と役割:
- … 事前分布(prior):データを見る前の への信念
- … 尤度(likelihood): を仮定したときデータが出る確率
- … 事後分布(posterior):データを見た後の更新された信念
- … 周辺尤度(evidence): に依らない規格化定数
分母 は を含まないので、形だけ見るなら次の比例関係で十分です。
要するに:「事後 ∝ 尤度 × 事前」。手持ちの信念(事前)に、データの証拠(尤度)を掛けて、更新した信念(事後)を得る——これがベイズ推論のすべての出発点です。
3. コインの例:最尤推定 vs ベイズ事後分布
具体例で違いを体感します。コインを 回投げて 回表が出たとき、表の確率 を推定します。
- 頻度論(最尤推定):尤度 を最大化して 。点が1つ返ります。
- ベイズ: の事前を一様分布 とすると、二項尤度との積で事後は になります(この「ベータ×二項→ベータ」の閉形式は第2章の共役で扱います)。分布が返ります。
実際に動かして比べてみましょう。
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import japanize_matplotlib # 日本語ラベル用
# コインを n 回投げて k 回表が出たデータ
n, k = 20, 14
# --- 頻度論:最尤推定(点推定) ---
p_mle = k / n
print(f"最尤推定 p_hat = {p_mle:.3f}")
# --- ベイズ:一様事前 Beta(1,1) × 二項尤度 → 事後 Beta(1+k, 1+n-k) ---
a_post, b_post = 1 + k, 1 + (n - k)
posterior = stats.beta(a_post, b_post)
lo, hi = posterior.interval(0.95) # 95% 信用区間
print(f"事後平均 E[p|D] = {posterior.mean():.3f}")
print(f"95%信用区間 = [{lo:.3f}, {hi:.3f}]")
# 事後分布を描く
p_grid = np.linspace(0, 1, 300)
plt.figure(figsize=(7, 4))
plt.plot(p_grid, posterior.pdf(p_grid), lw=2, label=f"事後分布 Beta({a_post},{b_post})")
plt.axvline(p_mle, color="crimson", ls="--", label=f"最尤推定 {p_mle:.2f}")
plt.fill_between(p_grid, posterior.pdf(p_grid),
where=(p_grid >= lo) & (p_grid <= hi), alpha=0.2, label="95%信用区間")
plt.xlabel("表の確率 p"); plt.ylabel("事後密度")
plt.title("頻度論の点推定 vs ベイズの事後分布")
plt.legend(); plt.tight_layout(); plt.show()
出力はおよそ次のようになります。
最尤推定 p_hat = 0.700
事後平均 E[p|D] = 0.682
95%信用区間 = [0.478, 0.854]
出力の意味:頻度論は という1点を返すだけですが、ベイズは の分布全体を返します。事後分布の山の位置(平均 0.68)が「もっともらしい値」、裾の広がりが「まだ残る不確実性」を表します。95%信用区間 は「 がこの区間に入る確率が 95%」とそのまま読めます——頻度論の信頼区間が「区間を作る手続きが 95% の確率で真値を含む」という回りくどい意味だったのと対照的です。
4. データが増えると信念が尖る(ベイズ更新の予告)
ベイズの自然さは、データが増えるほど事後分布が尖って(不確実性が減って)いく様子に現れます。同じコインで投げる回数を増やしてみます。
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import japanize_matplotlib
p_grid = np.linspace(0, 1, 300)
plt.figure(figsize=(7, 4))
# 真の確率 0.7 のコインを、観測数を増やしながら事後を描く
true_p = 0.7
rng = np.random.default_rng(0)
for n in [5, 20, 100, 500]:
k = rng.binomial(n, true_p) # n 回中 k 回表
post = stats.beta(1 + k, 1 + n - k) # 一様事前からの事後
plt.plot(p_grid, post.pdf(p_grid), lw=2, label=f"n={n}, k={k}")
plt.axvline(true_p, color="black", ls=":", label="真の p = 0.7")
plt.xlabel("表の確率 p"); plt.ylabel("事後密度")
plt.title("観測数が増えると事後分布が真値の周りに尖る")
plt.legend(); plt.tight_layout(); plt.show()
出力の意味:観測数 が小さいうちは事後分布は幅広く(不確実性が大きい)、 が増えるほど真値 の周りに鋭く集中します。これがベイズ更新——データが増えるほど事前の影響は薄れ、事後はデータに語らせた形へ収束していく(ベイズ更新と逐次推論 で詳述)。頻度論の点推定も に近づきますが、ベイズは「どれくらい確信しているか」を分布の幅として常に持ち続ける点が違います。
5. どちらを使うのか
優劣ではなく道具の違いです。
- ベイズが効く場面:データが少なく事前知識を活かしたい/不確実性を分布として下流の意思決定に渡したい/階層構造のあるデータ(第5章)。
- 頻度論が効く場面:大量データで事前の影響が無視できる/計算を軽くしたい/「客観性」を重んじる文脈。
- 実は両者は地続きで、一様(無情報)事前のベイズ事後の最頻値は最尤推定に一致し、ガウス事前の MAP 推定は L2 正則化に一致します(正則化の理論(機械学習))。
⚠️ よくある誤解
- 「ベイズは主観的だから科学的でない」:事前は恣意ではなく、無情報事前・弱情報事前など設計の作法があり(無情報事前と弱情報事前 で扱う)、感度分析で頑健性も確認できます。むしろ仮定を明示するぶん透明です。
- 「信頼区間=95%の確率で真値を含む区間」ではない:それはベイズの信用区間の読み方。頻度論の信頼区間は「区間を作る手続き」が 95% の確率で真値を覆う、という意味で、特定の1区間に対して確率は語れません。
- 「事後 ∝ 尤度 × 事前」で正規化を忘れる:比例関係で形は分かりますが、確率密度として使うには で割って積分を1にする必要があります。共役なら閉形式(第2章)、一般には MCMC(第4章)でこの正規化を回避・近似します。
関連ノート
- 第1章 ベイズ推論の枠組み 目次
- 事前・尤度・事後・周辺尤度(次のトピック・各項を深掘り)
- 事前分布・事後分布・ベイズ更新(統計・ベイズの定理の土台)
- 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)(統計・頻度論側の点推定)
- 正則化の理論(機械学習・MAP=正則化の接続)
- ベイズ統計テキスト 全体目次