← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:B(標準)

要点(BLUF)

ベイズ推定では、データを観測したあとの分布である事後分布 π(θx)\pi(\theta\mid x) がすべての答えを持っています。ただ「分布まるごと」では報告しづらいので、1つの値に要約したいことがあります。これが点推定です。要約のしかたは3つあり、どれを選ぶかは「どんな損失関数で間違いを測るか」で決まります。

  二乗誤差損失    事後平均 E[θx]絶対誤差損失    事後中央値 median(θx)0-1損失    MAP argmaxθπ(θx)  \boxed{\; \begin{aligned} \text{二乗誤差損失} &\;\longrightarrow\; \text{事後平均}\ E[\theta\mid x]\\ \text{絶対誤差損失} &\;\longrightarrow\; \text{事後中央値}\ \mathrm{median}(\theta\mid x)\\ \text{0-1損失} &\;\longrightarrow\; \text{MAP}\ \arg\max_\theta \pi(\theta\mid x) \end{aligned} \;}

要するに「損失関数を決めれば、最適な点推定は自動的に1つに決まる」ということです。準1級ではこれらの計算と信用区間、1級ではこの最適性そのもの(ベイズリスクの最小化)を導けるかが問われます。


1. なぜ点推定が要るのか

ベイズ推定の出発点は事後分布です(導出は 事前分布・事後分布・ベイズ更新)。ベイズの定理から

π(θx)=f(xθ)π(θ)f(xθ)π(θ)dθ    f(xθ)π(θ)\pi(\theta\mid x)=\frac{f(x\mid\theta)\,\pi(\theta)}{\displaystyle\int f(x\mid\theta)\,\pi(\theta)\,d\theta}\;\propto\; f(x\mid\theta)\,\pi(\theta)

事後分布は「θ\theta がどのあたりにありそうか」をすべて語っているので、本来はこれを丸ごと報告するのが理想です。しかし「結局 θ\theta はいくつなの?」と1つの数字を求められる場面(論文の点推定値、システムへの代入値)では、分布を1点に要約しなければなりません。

ここで問題になるのが「どの1点を選ぶか」です。事後分布が左右対称の山なら平均でも中央値でも頂点でも同じですが、歪んだ分布だと3つはバラバラになります。どれを選ぶべきかは、後で見るように「間違いをどう罰するか(損失関数)」で決まります。


2. 統計的決定理論の枠組み(1級の土台)

損失関数で最適推定量が変わる

歪んだ事後 Beta(2,5) では 最頻値(0.20)<中央値(0.26)<平均(0.29)。二乗誤差損失→平均、絶対誤差→中央値、0-1損失→最頻値(MAP)。図は simulations/loss_suiteiryo_keijou.py で生成。

3つの点推定が損失関数に対応する仕組みを理解するには、まずベイズリスク事後リスクを定義します。ここは1級の理論問題で直接問われる部分です。

2.1 損失関数とリスク関数

推定値を θ^=δ(x)\hat\theta=\delta(x)(データ xx から決める推定量)、真の値を θ\theta とします。損失関数 L(θ,δ(x))L(\theta,\delta(x)) は「θ\thetaδ(x)\delta(x) と推定したときの罰」です。

これをデータの分布で平均したものがリスク関数(頻度論的リスク)です。

R(θ,δ)=Exθ[L(θ,δ(x))]=L(θ,δ(x))f(xθ)dxR(\theta,\delta)=E_{x\mid\theta}\big[L(\theta,\delta(x))\big]=\int L(\theta,\delta(x))\,f(x\mid\theta)\,dx

要するに「真の θ\theta を固定したとき、データのばらつきも込みで平均してどれだけ損するか」です。

2.2 ベイズリスク

リスク関数はまだ θ\theta の関数なので「どの推定量が一番良いか」を一意に決められません(θ\theta ごとに勝ち負けが変わる)。そこで事前分布 π(θ)\pi(\theta) で平均します。これがベイズリスクです。

r(π,δ)=R(θ,δ)π(θ)dθr(\pi,\delta)=\int R(\theta,\delta)\,\pi(\theta)\,d\theta

ベイズリスクを最小にする推定量 δ\deltaベイズ推定量と呼びます。要するに「事前の重みも込みで、平均的に一番損が小さい推定方式」です。

2.3 ベイズリスク → 事後リスクへの分解(最重要)

ここがすべての鍵です。ベイズリスクの積分の順序を入れ替えます。

r(π,δ)= ⁣ ⁣L(θ,δ(x))f(xθ)π(θ)dxdθ= ⁣ ⁣L(θ,δ(x))π(θx)m(x)=f(xθ)π(θ)dθdx={L(θ,δ(x))π(θx)dθ}事後リスク(事後期待損失)m(x)dx\begin{aligned} r(\pi,\delta) &=\int\!\!\int L(\theta,\delta(x))\,f(x\mid\theta)\,\pi(\theta)\,dx\,d\theta\\ &=\int\!\!\int L(\theta,\delta(x))\,\underbrace{\pi(\theta\mid x)\,m(x)}_{=\,f(x\mid\theta)\pi(\theta)}\,d\theta\,dx\\ &=\int\underbrace{\left\{\int L(\theta,\delta(x))\,\pi(\theta\mid x)\,d\theta\right\}}_{\text{事後リスク(事後期待損失)}}\,m(x)\,dx \end{aligned}

途中で同時分布を f(xθ)π(θ)=π(θx)m(x)f(x\mid\theta)\pi(\theta)=\pi(\theta\mid x)\,m(x)m(x)m(x)xx の周辺分布)と書き換えました。

中括弧の中が事後リスク(事後期待損失)

ρ(δ(x)x)=L(θ,δ(x))π(θx)dθ=E[L(θ,δ(x))x]\rho(\delta(x)\mid x)=\int L(\theta,\delta(x))\,\pi(\theta\mid x)\,d\theta=E\big[L(\theta,\delta(x))\mid x\big]

です。m(x)0m(x)\ge0 なので、xx ごとに事後リスクを最小化すれば、ベイズリスク全体も最小化されることがわかります。

これが核心:ベイズ推定量は「観測した xx のもとで、事後分布に関する期待損失を最小にする点」を選べばよい。頻度論の積分(データ全体での平均)を考えなくていい——目の前のデータに対する事後分布だけ見ればよい、ということです。これがベイズの実務的なありがたみです。

以降、損失関数 LL を具体的に入れて、最適な点推定を求めます。


3. 二乗誤差損失 → 事後平均(導出)

二乗誤差損失 L(θ,d)=(θd)2L(\theta,d)=(\theta-d)^2 を使います。事後リスクは

ρ(dx)=E[(θd)2x]\rho(d\mid x)=E\big[(\theta-d)^2\mid x\big]

これを dd で最小化します。やり方は2通りあり、どちらも同じ結論になります。

方法A:微分してゼロと置く

dd で微分します(期待値の中の微分は dd に対してだけ効きます)。

dddE[(θd)2x]=E[2(θd)x]=2(E[θx]d)\frac{d}{dd}\,E\big[(\theta-d)^2\mid x\big] =E\big[-2(\theta-d)\mid x\big] =-2\big(E[\theta\mid x]-d\big)

ゼロと置くと

2(E[θx]d)=0      θ^=d=E[θx]  -2\big(E[\theta\mid x]-d\big)=0 \;\Longrightarrow\; \boxed{\;\hat\theta=d^\star=E[\theta\mid x]\;}

二階微分は E[2x]=2>0E[2\mid x]=2>0 なので、これは確かに最小です。

方法B:分散・期待値への分解(こちらが定石)

事後リスクを「E[θx]E[\theta\mid x] からのズレ」で書き直します。

E[(θd)2x]=E[(θE[θx]+E[θx]d)2x]=E[(θE[θx])2x]=Var[θx] (dに無関係)+(E[θx]d)20, dに依存\begin{aligned} E\big[(\theta-d)^2\mid x\big] &=E\big[(\theta-E[\theta\mid x]+E[\theta\mid x]-d)^2\mid x\big]\\ &=\underbrace{E\big[(\theta-E[\theta\mid x])^2\mid x\big]}_{=\,\mathrm{Var}[\theta\mid x]\ (\,d\,\text{に無関係}\,)} +\underbrace{(E[\theta\mid x]-d)^2}_{\ge 0,\ d\,\text{に依存}} \end{aligned}

(交差項は E[θE[θx]x]=0E[\theta-E[\theta\mid x]\mid x]=0 より消えます。)第1項は事後分散で dd に依存しません。第2項は二乗なので d=E[θx]d=E[\theta\mid x] のときちょうどゼロになり最小です。

  θ^平均=E[θx]  \boxed{\;\hat\theta_{\text{平均}}=E[\theta\mid x]\;}

要するに「二乗で罰すると、最適な要約は事後平均」。これは「データのばらつきを二乗誤差で測れば最良の予測は平均値」という、回帰や条件付き期待値(点推定(推定量の良さ:不偏性・一致性・有効性・十分性) の MSE)でおなじみの事実の、ベイズ版です。慣例として、単に「ベイズ推定量」と言えばこの事後平均を指すことが多いです。


4. 絶対誤差損失 → 事後中央値(導出)

絶対誤差損失 L(θ,d)=θdL(\theta,d)=\lvert\theta-d\rvert を使います。事後リスクは

ρ(dx)=E[θdx]\rho(d\mid x)=E\big[\,\lvert\theta-d\rvert\mid x\big]

これを dd で微分します。θd\lvert\theta-d\rvertθ>d\theta>d(dθ)-(d-\theta) つまり傾き 1-1dd に関して)、θ<d\theta<d で傾き +1+1 なので、

dddE[θdx]=P(θ<dx)d側の傾き+1P(θ>dx)θ側の傾き1\frac{d}{dd}\,E\big[\,\lvert\theta-d\rvert\mid x\big] =\underbrace{P(\theta< d\mid x)}_{d\,\text{側の傾き}+1}-\underbrace{P(\theta> d\mid x)}_{\theta\,\text{側の傾き}-1}

ゼロと置くと

P(θ<dx)=P(θ>dx)=12      θ^中央値=median(θx)  P(\theta<d\mid x)=P(\theta>d\mid x)=\tfrac12 \;\Longrightarrow\; \boxed{\;\hat\theta_{\text{中央値}}=\mathrm{median}(\theta\mid x)\;}

要するに「絶対値で罰すると、最適な要約は事後中央値」。事後分布を左右半々に割る点です。直観的には「絶対誤差は外れ値(裾の遠い値)を二乗ほど重く罰しない」ので、平均より裾の影響を受けにくい中央値が選ばれる、と理解できます。


5. 0-1損失 → MAP推定(導出)

0-1損失は「ピタリ当たれば損失0、外れたら損失1」です。連続パラメータでは、推定値の周りの微小幅 ε\varepsilon だけ許す損失

Lε(θ,d)={0θdε1θd>εL_\varepsilon(\theta,d)= \begin{cases}0 & \lvert\theta-d\rvert\le\varepsilon\\ 1 & \lvert\theta-d\rvert>\varepsilon\end{cases}

を考え、ε0\varepsilon\to0 の極限を取ります。事後リスクは「許容幅の外にある確率」

ρ(dx)=P(θd>εx)=1P(θdεx)\rho(d\mid x)=P\big(\lvert\theta-d\rvert>\varepsilon\mid x\big)=1-P\big(\lvert\theta-d\rvert\le\varepsilon\mid x\big)

これを最小化するには第2項(許容幅内に入る事後確率)を最大化すればよく、ε\varepsilon が小さいとき

P(θdεx)2επ(dx)P\big(\lvert\theta-d\rvert\le\varepsilon\mid x\big)\approx 2\varepsilon\,\pi(d\mid x)

なので、事後密度 π(dx)\pi(d\mid x) が最大の点を選ぶのが最適です。これが**MAP推定(最大事後確率推定, Maximum A Posteriori)**です。

  θ^MAP=argmaxθπ(θx)  \boxed{\;\hat\theta_{\mathrm{MAP}}=\arg\max_\theta \pi(\theta\mid x)\;}

要するに「外す/外さないの0-1で罰すると、最適な要約は事後分布の山頂(最頻値)」。離散パラメータなら L(θ,d)=1(θd)L(\theta,d)=\mathbf 1(\theta\ne d) そのもので、事後確率最大のカテゴリを選ぶ、という素直な話になります。

flowchart LR
  subgraph 損失関数
    L1["二乗誤差<br/>(θ−d)²"]
    L2["絶対誤差<br/>|θ−d|"]
    L3["0-1損失<br/>1(θ≠d)"]
  end
  subgraph 最適な点推定
    E1["事後平均<br/>E[θ|x]"]
    E2["事後中央値<br/>median(θ|x)"]
    E3["MAP<br/>argmax π(θ|x)"]
  end
  L1 == 最小化 ==> E1
  L2 == 最小化 ==> E2
  L3 == 最小化 ==> E3

6. MAP と MLE の関係

MAP は事後密度の最大化です。事後分布は π(θx)f(xθ)π(θ)\pi(\theta\mid x)\propto f(x\mid\theta)\,\pi(\theta) なので、対数を取って分母(θ\theta に無関係な周辺尤度)を無視すると

θ^MAP=argmaxθ[logf(xθ)+logπ(θ)]\hat\theta_{\mathrm{MAP}} =\arg\max_\theta\big[\log f(x\mid\theta)+\log\pi(\theta)\big]

一方、最尤推定(MLE, 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論))は

θ^MLE=argmaxθlogf(xθ)\hat\theta_{\mathrm{MLE}}=\arg\max_\theta\log f(x\mid\theta)

両者を見比べると、MAP は MLE の目的関数に事前項 logπ(θ)\log\pi(\theta) を足しただけです。ここから2つの重要な帰結が出ます。

6.1 事前が一様なら MAP = MLE

事前分布が一様 π(θ)=定数\pi(\theta)=\text{定数} なら logπ(θ)\log\pi(\theta)θ\theta に依存しない定数になり、最大化に効きません。よって

π(θ)1    θ^MAP=θ^MLE\pi(\theta)\propto 1 \;\Longrightarrow\; \hat\theta_{\mathrm{MAP}}=\hat\theta_{\mathrm{MLE}}

要するに「事前知識が『どの値も平等』なら、MAP は MLE に一致する」。逆に言えば、MAP は「事前という追加情報で MLE を補正したもの」と読めます。

6.2 MAP は「正則化付き MLE」

事前項 logπ(θ)\log\pi(\theta) は、極端な θ\theta を罰して推定を引き戻す働きをします。これは機械学習の正則化項と数学的に同じものです。

事前分布 π(θ)\pi(\theta)logπ(θ)-\log\pi(\theta)(罰金項)対応する正則化
ガウス N(0,τ2)N(0,\tau^2)θ22τ2+定数\dfrac{\theta^2}{2\tau^2}+\text{定数}L2(リッジ)
ラプラス(両側指数)θb+定数\dfrac{\lvert\theta\rvert}{b}+\text{定数}L1(ラッソ)

要するに「MLE を最大化する代わりに、事前で重みを掛けて引き戻したのが MAP」。ガウス事前 ⇔ リッジ、ラプラス事前 ⇔ ラッソという対応は準1級〜1級で頻出の論点です(正則化(リッジ・Lasso) と裏表)。

⚠️ MAP は「点」を取るだけなので、事後分布を1点に潰してしまい不確かさ(分散)の情報を捨てます。これがフルベイズ(事後分布を丸ごと使う・事後平均を取る)との違いです。MAP は最適化問題(点を1つ探す)に帰着するため計算が軽い、というのが実務上の利点です。


7. 信用区間(credible interval)

点推定だけでなく、ベイズでは「区間」で不確かさを報告できます。**信用区間(credible interval)**は、事後分布で確率 1α1-\alpha を占める区間です。

P(θ[L,U]x)=LUπ(θx)dθ=1αP\big(\theta\in[L,U]\mid x\big)=\int_L^U \pi(\theta\mid x)\,d\theta=1-\alpha

区間の取り方は主に2つあります。

信頼区間との解釈の違い(最重要・頻出)

信用区間(ベイズ)と信頼区間(頻度論, 区間推定(母平均・母比率・母分散の信頼区間)は、見た目の「95%区間」が同じでも解釈が決定的に違います

信用区間(ベイズ)信頼区間(頻度論)
何が確率変数かθ\theta(区間は固定)区間の端点(θ\theta は固定の定数)
「95%」の意味この区間に θ\theta が入る確率が95%同じ手続きを繰り返すと95%の区間が真値を覆う
直接言えるか言える:「θ\theta[L,U][L,U] にある確率は95%」言えない:個々の区間が真値を含む確率は0か1

要するに「信用区間は、誰もが言いたくなる『θ\theta がこの区間にある確率が95%』を本当に言える」。頻度論の信頼区間ではこの言い方は誤り(区間ごとに当たり外れが決まっており、確率はあくまで手続きの長期的な被覆率を指す)です。直観に合う解釈ができるのがベイズ信用区間の強みです。

⚠️ 「95%信頼区間 = 真値がそこにある確率95%」は頻度論では誤解です。この直接的解釈ができるのは信用区間(ベイズ)だけ。準1級・1級でこの区別はよく問われます。


8. 引っかけ・頻出論点


試験での問われ方(級ごとの差)

ベイズ法は準1級・1級とも出題範囲ですが、毎回必ず出るわけではありません(出題範囲・配点は改訂されうるため要最新確認)。級で問われる深さが明確に違います。

準1級レベル

ここで問われるのは「計算と区別」。事後分布から事後平均・MAP を実際に計算できるか、信用区間を求められるか、信用区間と信頼区間の解釈の違いを答えられるか。

1級レベル

ここで問われるのは「理論と最適性」。損失関数・リスク関数・ベイズリスクを定義し、各損失に対してベイズ推定量が事後平均/中央値/MAP になることを自分で導出できるか。

推定量の評価の一般論は 点推定(推定量の良さ:不偏性・一致性・有効性・十分性)、最尤法との接続は 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)、区間の頻度論側は 区間推定(母平均・母比率・母分散の信頼区間) が前提です。


よくある疑問(Q&A)

Q1. 「ベイズ推定量」と言われたら、事後平均・中央値・MAP のどれを指しますか?

文脈によります。損失関数を指定せずに「ベイズ推定量」と言えば、慣例的に二乗誤差損失に対応する事後平均を指すことが多いです。ただし統計的決定理論の文脈では「ベイズ推定量=指定された損失のもとでベイズリスクを最小にする推定量」という一般的な意味なので、損失が絶対誤差なら中央値、0-1なら MAP がベイズ推定量です。問題文に損失関数の指定があるかを必ず確認してください。

Q2. MAP と事後平均、結局どちらを使えばいいですか?

目的次第です。事後分布が対称ならどちらも同じなので悩む必要はありません。歪んでいる場合、(1) 二乗誤差で評価される・期待値として意味のある量なら事後平均、(2) 計算を軽くしたい・最適化として解きたい(高次元で積分が困難)ならMAP が便利です。ただし MAP は分布の山頂1点なので不確かさを捨てている点に注意。実務のフルベイズでは事後平均+信用区間で報告するのが標準的です。

Q3. MAP が「正則化付き MLE」とはどういう意味ですか?

MAP は argmax[logf(xθ)+logπ(θ)]\arg\max[\log f(x\mid\theta)+\log\pi(\theta)] です。第1項は MLE の対数尤度、第2項 logπ(θ)\log\pi(\theta) が「事前」です。ガウス事前を入れると logπ(θ)\log\pi(\theta)θ2/(2τ2)-\theta^2/(2\tau^2)(マイナスの二乗ペナルティ)になり、これはL2正則化(リッジ)とまったく同じ式です。ラプラス事前なら θ/b-\lvert\theta\rvert/b で**L1正則化(ラッソ)**に対応します。要するに「正則化項は事前分布の対数の符号反転」であり、機械学習の正則化はこっそりベイズをやっている、と読めます。

Q4. 95%信用区間と95%信頼区間は、同じ95%なのに何が違うのですか?

確率の宣言対象が違います。信用区間は「θ\theta がこの区間に入る確率が95%」と θ\theta 自体について確率を述べられます(θ\theta を確率変数として扱うベイズの立場)。信頼区間は「同じ手続きを無限回繰り返せば95%の区間が真値を覆う」という手続きの性質で、個々の区間が真値を含む確率は0か1(θ\theta は固定の定数だから)です。多くの人が信頼区間を「真値がここにある確率95%」と誤解しますが、それを正しく言えるのは信用区間だけです。

Q5. 事後分布が左右対称なら、3つの点推定は本当に全部一致しますか?

はい。正規分布のように平均まわりに対称な単峰分布では、平均=中央値=最頻値(山頂)が一致するので、事後平均・事後中央値・MAP はすべて同じ値になります。だから「3つの違い」が問題になるのは非対称な事後分布のときだけです。例えばベータ事後 Beta(2,5)\mathrm{Beta}(2,5) は左に偏るので、事後平均 2/70.2862/7\approx0.286 と MAP 1/5=0.21/5=0.2 は明確にずれます。試験ではこの非対称ケースが狙われます。


まとめ


関連ノート