頻度論とベイズの違い

← ベイズ統計一覧

🎓 レベル：基礎　|　重要度：A（必須）

📎 数理：事前分布・事後分布・ベイズ更新（統計）・最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論）（統計）

要点（BLUF）

頻度論は確率を「長期的な頻度」、パラメータ $\theta$ を「未知だが固定された値」と見ます。推定は点（最尤推定など）と信頼区間で表します。
ベイズは確率を「信念の度合い」、パラメータ $\theta$ を「確率変数」と見ます。データを観測する前の信念（事前分布）を、データ（尤度）で更新して事後分布を得ます。
一番の違いは出力の形：頻度論は「点＋信頼区間」、ベイズは「分布そのもの（事後分布）」。不確実性を分布として丸ごと扱えるのがベイズの強みです。

1. 確率の解釈が違う

同じ「確率」という言葉を、2つの流派は違う意味で使います。

頻度論（frequentist）：確率は「無限に繰り返したときの相対頻度」。コインの表が出る確率 0.5 とは「無限回投げれば半分が表」という意味。パラメータ $\theta$ は固定された真値で、確率変数ではありません。
ベイズ（Bayesian）：確率は「命題に対する信念の度合い」。「このコインの表の確率は 0.5 くらいだと思う」という主観的だが定量的な信念を確率で表します。 $\theta$ 自体が確率変数です。

この違いが、推論の組み立て方すべてに効いてきます。

flowchart LR
  subgraph F["頻度論"]
    D1["データ"] --> E1["点推定: 最尤など"]
    E1 --> C1["信頼区間"]
  end
  subgraph B["ベイズ"]
    PR["事前分布 P(θ)"] --> PO["事後分布 P(θ|D)"]
    LK["データ: 尤度 P(D|θ)"] --> PO
    PO --> C2["信用区間・事後予測"]
  end

2. ベイズの定理：信念をデータで更新する

ベイズ推論の心臓部はベイズの定理です。パラメータ $\theta$ 、観測データ $D$ について：

P(\theta \mid D) = \frac{P(D \mid \theta)\,P(\theta)}{P(D)}

各項の名前と役割：

$P(\theta)$ … 事前分布（prior）：データを見る前の $\theta$ への信念
$P(D \mid \theta)$ … 尤度（likelihood）： $\theta$ を仮定したときデータが出る確率
$P(\theta \mid D)$ … 事後分布（posterior）：データを見た後の更新された信念
$P(D) = \int P(D\mid\theta)P(\theta)\,d\theta$ … 周辺尤度（evidence）： $\theta$ に依らない規格化定数

分母 $P(D)$ は $\theta$ を含まないので、形だけ見るなら次の比例関係で十分です。

P(\theta \mid D) \;\propto\; P(D \mid \theta)\,P(\theta)

要するに：「事後 ∝ 尤度 × 事前」。手持ちの信念（事前）に、データの証拠（尤度）を掛けて、更新した信念（事後）を得る——これがベイズ推論のすべての出発点です。

3. コインの例：最尤推定 vs ベイズ事後分布

具体例で違いを体感します。コインを $n$ 回投げて $k$ 回表が出たとき、表の確率 $p$ を推定します。

頻度論（最尤推定）：尤度 $P(k\mid p)\propto p^k(1-p)^{n-k}$ を最大化して $\hat p = k/n$ 。点が1つ返ります。
ベイズ： $p$ の事前を一様分布 $\mathrm{Beta}(1,1)$ とすると、二項尤度との積で事後は $\mathrm{Beta}(1+k,\,1+n-k)$ になります（この「ベータ×二項→ベータ」の閉形式は第2章の共役で扱います）。分布が返ります。

実際に動かして比べてみましょう。

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import japanize_matplotlib  # 日本語ラベル用

# コインを n 回投げて k 回表が出たデータ
n, k = 20, 14

# --- 頻度論：最尤推定（点推定） ---
p_mle = k / n
print(f"最尤推定  p_hat = {p_mle:.3f}")

# --- ベイズ：一様事前 Beta(1,1) × 二項尤度 → 事後 Beta(1+k, 1+n-k) ---
a_post, b_post = 1 + k, 1 + (n - k)
posterior = stats.beta(a_post, b_post)
lo, hi = posterior.interval(0.95)  # 95% 信用区間
print(f"事後平均  E[p|D] = {posterior.mean():.3f}")
print(f"95%信用区間 = [{lo:.3f}, {hi:.3f}]")

# 事後分布を描く
p_grid = np.linspace(0, 1, 300)
plt.figure(figsize=(7, 4))
plt.plot(p_grid, posterior.pdf(p_grid), lw=2, label=f"事後分布 Beta({a_post},{b_post})")
plt.axvline(p_mle, color="crimson", ls="--", label=f"最尤推定 {p_mle:.2f}")
plt.fill_between(p_grid, posterior.pdf(p_grid),
                 where=(p_grid >= lo) & (p_grid <= hi), alpha=0.2, label="95%信用区間")
plt.xlabel("表の確率 p"); plt.ylabel("事後密度")
plt.title("頻度論の点推定 vs ベイズの事後分布")
plt.legend(); plt.tight_layout(); plt.show()

出力はおよそ次のようになります。

最尤推定  p_hat = 0.700
事後平均  E[p|D] = 0.682
95%信用区間 = [0.478, 0.854]

出力の意味：頻度論は $\hat p = 0.70$ という1点を返すだけですが、ベイズは $p$ の分布全体を返します。事後分布の山の位置（平均 0.68）が「もっともらしい値」、裾の広がりが「まだ残る不確実性」を表します。95%信用区間 $[0.48, 0.85]$ は「 $p$ がこの区間に入る確率が 95%」とそのまま読めます——頻度論の信頼区間が「区間を作る手続きが 95% の確率で真値を含む」という回りくどい意味だったのと対照的です。

4. データが増えると信念が尖る（ベイズ更新の予告）

ベイズの自然さは、データが増えるほど事後分布が尖って（不確実性が減って）いく様子に現れます。同じコインで投げる回数を増やしてみます。

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import japanize_matplotlib

p_grid = np.linspace(0, 1, 300)
plt.figure(figsize=(7, 4))

# 真の確率 0.7 のコインを、観測数を増やしながら事後を描く
true_p = 0.7
rng = np.random.default_rng(0)
for n in [5, 20, 100, 500]:
    k = rng.binomial(n, true_p)              # n 回中 k 回表
    post = stats.beta(1 + k, 1 + n - k)      # 一様事前からの事後
    plt.plot(p_grid, post.pdf(p_grid), lw=2, label=f"n={n}, k={k}")

plt.axvline(true_p, color="black", ls=":", label="真の p = 0.7")
plt.xlabel("表の確率 p"); plt.ylabel("事後密度")
plt.title("観測数が増えると事後分布が真値の周りに尖る")
plt.legend(); plt.tight_layout(); plt.show()

出力の意味：観測数 $n$ が小さいうちは事後分布は幅広く（不確実性が大きい）、 $n$ が増えるほど真値 $p=0.7$ の周りに鋭く集中します。これがベイズ更新——データが増えるほど事前の影響は薄れ、事後はデータに語らせた形へ収束していく（ベイズ更新と逐次推論で詳述）。頻度論の点推定も $\hat p\to 0.7$ に近づきますが、ベイズは「どれくらい確信しているか」を分布の幅として常に持ち続ける点が違います。

5. どちらを使うのか

優劣ではなく道具の違いです。

ベイズが効く場面：データが少なく事前知識を活かしたい／不確実性を分布として下流の意思決定に渡したい／階層構造のあるデータ（第5章）。
頻度論が効く場面：大量データで事前の影響が無視できる／計算を軽くしたい／「客観性」を重んじる文脈。
実は両者は地続きで、一様（無情報）事前のベイズ事後の最頻値は最尤推定に一致し、ガウス事前の MAP 推定は L2 正則化に一致します（正則化の理論（機械学習））。

⚠️ よくある誤解

「ベイズは主観的だから科学的でない」：事前は恣意ではなく、無情報事前・弱情報事前など設計の作法があり（無情報事前と弱情報事前で扱う）、感度分析で頑健性も確認できます。むしろ仮定を明示するぶん透明です。
「信頼区間＝95%の確率で真値を含む区間」ではない：それはベイズの信用区間の読み方。頻度論の信頼区間は「区間を作る手続き」が 95% の確率で真値を覆う、という意味で、特定の1区間に対して確率は語れません。
「事後 ∝ 尤度 × 事前」で正規化を忘れる：比例関係で形は分かりますが、確率密度として使うには $P(D)$ で割って積分を1にする必要があります。共役なら閉形式（第2章）、一般には MCMC（第4章）でこの正規化を回避・近似します。