推定量の信頼区間｜シミュレーション

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：収束率と誤差（√n則）　|　関連：ブートストラップ信頼区間

要点（BLUF）

モンテカルロ推定は必ず誤差を伴うので、点推定だけでなく信頼区間で「±いくつ」を添えるのが必須です。
中心極限定理から、95% 信頼区間は $\hat{\theta} \pm 1.96\,\dfrac{s}{\sqrt{n}}$ （ $s$ は標本標準偏差）。
5000回の実験で、この区間が真値をカバーした割合は 0.954（目標 0.95）。被覆率が正しいことを実測します。

1. なぜ信頼区間が要るか

「推定値は 1.7197 です」だけでは、それがどれくらい信頼できるのか分かりません。サンプルが少なければ大きくブレ、多ければ精度が高い——その不確かさの幅を一緒に報告するのが信頼区間です。モンテカルロでは標準誤差が計算できるので、信頼区間は安価に付けられます。これを怠ると、検証で「理論値と一致したか」を判断する基準も失います。

2. 正規近似信頼区間

中心極限定理より、推定量 $\hat{\theta}_n = \frac{1}{n}\sum g(X_i)$ は近似的に $\mathcal{N}(\theta,\ \sigma^2/n)$ に従います。真の $\sigma$ は未知なので、標本標準偏差 $s$ （不偏分散の平方根）で置き換えます。 $n$ が大きければ $z$ 値を使えて、信頼水準 $1-\alpha$ の区間は

\left[\ \hat{\theta}_n - z_{1-\alpha/2}\,\frac{s}{\sqrt{n}},\quad \hat{\theta}_n + z_{1-\alpha/2}\,\frac{s}{\sqrt{n}}\ \right]

95% なら $z_{0.975} = 1.96$ 。標準誤差 $s/\sqrt{n}$ に 1.96 を掛けた幅を点推定の両側に取るだけです。 $n$ が小さいときは $t$ 分布を使いますが、モンテカルロでは $n$ が大きいので正規近似で十分なことがほとんどです。

3. 被覆率の検証：本当に95%か

信頼区間が正しければ、「95% 区間」は実験を多数回繰り返したとき約95%が真値を含むはずです。これを実測します（ $\int_0^1 e^x dx$ 、真値 $e-1$ ）。

import numpy as np

# 乱数シードを固定
rng = np.random.default_rng(22)
true = np.e - 1
n = 10_000
trials = 5_000
covered = 0

for t in range(trials):
    x = rng.random(n)
    g = np.exp(x)
    mean = g.mean()
    se = g.std(ddof=1) / np.sqrt(n)        # 標準誤差（標本SD/√n）
    lo, hi = mean - 1.96*se, mean + 1.96*se
    if lo <= true <= hi:                    # 区間が真値を含むか
        covered += 1

print(f"95%信頼区間の被覆率（{trials}回）= {covered/trials:.4f}  (目標 0.95)")

出力：

95%信頼区間の被覆率（5000回）= 0.9540  (目標 0.95)

出力の意味：5000回の独立な実験のうち 95.4% で、構成した区間が真値 $e-1$ を含みました。目標の 95% とよく一致——正規近似信頼区間が正しく機能しています。逆に言えば、約5%は真値を外すのが設計通りで、「信頼区間が真値を含む確率95%」という頻度論的な意味そのものです。

4. 区間の使い方と縮め方

import numpy as np
rng = np.random.default_rng(99)
n = 10_000
x = rng.random(n); g = np.exp(x)
mean = g.mean(); se = g.std(ddof=1)/np.sqrt(n)
print(f"推定 = {mean:.4f} +/- {1.96*se:.4f}  -> [{mean-1.96*se:.4f}, {mean+1.96*se:.4f}]")

出力例：

推定 = 1.7211 +/- 0.0097  -> [1.7115, 1.7308]

区間幅は $2 \times 1.96\,s/\sqrt{n}$ なので、幅を半分にするにはサンプルを4倍（ $1/\sqrt{n}$ 則、収束率と誤差（√n則））。サンプルを増やさず幅を縮めるには、 $s$ そのものを下げる分散減少法が効きます。なお、平均でなく分位点や複雑な統計量の区間が欲しいときは、正規近似が使えないのでブートストラップに頼ります。

数式の直観的意味

信頼区間は「推定値を中心に、標準誤差という物差しで95%ぶんの揺らぎを囲った範囲」です。1.96 は標準正規分布で中央95%を挟む臨界値（両裾2.5%ずつ）。 $s/\sqrt{n}$ が「1回の推定がどれだけブレるか」の見積もりで、それを1.96倍した幅に真値が入る——というのが頻度論の保証。被覆率0.954が0.95に一致するのは、中心極限定理による正規近似が $n=10000$ で十分良いことの証拠です。 $n$ が小さく $g$ が歪んでいると正規近似がずれ、被覆率が95%から外れることがあります（その対処がブートストラップやスチューデント化）。

⚠️ よくある誤解・落とし穴

「真値が区間に入る確率95%」という解釈の罠：真値は固定で、ランダムなのは区間の方。正しくは「この手順で区間を作ると95%の試行で真値を含む」。
「標本標準偏差ではなく母標準偏差を使う」：未知の $\sigma$ は標本 $s$ （ddof=1）で代用。ddof=0 だと若干過小評価します。
「区間が狭い＝正確」ではない：偏った推定量だと、狭い区間が真値を外し続けます。不偏性が前提（モンテカルロ積分の原理）。
「正規近似はいつでも使える」ではない： $n$ が小さい・ $g$ が極端に歪む・分散が無限だと近似が崩れ、被覆率がずれます。
「区間を狭めるには $n$ だけ」ではない：分散減少法で $s$ を下げれば、同じ $n$ でも区間が狭まります。

対応シミュレーション参照

本文の被覆率検証（default_rng(22)、5000回で0.954）。区間幅の縮小は第4章分散減少法目次へ。