← 統計検定テキスト 一覧
📊 対象級:準1級 ・ 1級 | 重要度:B(標準)
要点(BLUF)
事前分布と事後分布が同じ分布族 になるとき、その事前分布を尤度に対する**共役事前分布(conjugate prior)**と呼びます。ご利益はただ一つ、事後分布が積分なしで解析的に求まる ことです。
事前 p ( θ ) と尤度 p ( x ∣ θ ) が共役 ⟺ 事後 p ( θ ∣ x ) が事前と同じ分布族 \boxed{\;\text{事前}\ p(\theta)\ \text{と尤度}\ p(x\mid\theta)\ \text{が共役}\ \Longleftrightarrow\ \text{事後}\ p(\theta\mid x)\ \text{が事前と同じ分布族}\;} 事前 p ( θ ) と尤度 p ( x ∣ θ ) が共役 ⟺ 事後 p ( θ ∣ x ) が事前と同じ分布族
要するに「うまく相性の良い事前分布を選んでおけば、ベイズ更新がパラメータの足し算 で済む」ということです。代表は次の3組です。
尤度(データの分布) 共役事前 事後 二項・ベルヌーイ ベータ B e t a ( a , b ) \mathrm{Beta}(a,b) Beta ( a , b ) ベータ ポアソン ガンマ G a m m a ( α , β ) \mathrm{Gamma}(\alpha,\beta) Gamma ( α , β ) ガンマ 正規(分散既知) 正規 N ( μ 0 , σ 0 2 ) \mathcal N(\mu_0,\sigma_0^2) N ( μ 0 , σ 0 2 ) 正規
1. なぜ共役性がうれしいのか
ベイズ更新の中心は次の式でした(詳細は 事前分布・事後分布・ベイズ更新 )。
p ( θ ∣ x ) = p ( x ∣ θ ) p ( θ ) ∫ p ( x ∣ θ ) p ( θ ) d θ p(\theta\mid x)=\frac{p(x\mid\theta)\,p(\theta)}{\displaystyle\int p(x\mid\theta)\,p(\theta)\,d\theta} p ( θ ∣ x ) = ∫ p ( x ∣ θ ) p ( θ ) d θ p ( x ∣ θ ) p ( θ )
分母の積分(正規化定数 、エビデンス)が曲者です。一般の事前分布ではこの積分が解析的に解けず、数値積分や MCMC が必要になります。
ところが事前を共役 に選ぶと、分子 p ( x ∣ θ ) p ( θ ) p(x\mid\theta)p(\theta) p ( x ∣ θ ) p ( θ ) を θ \theta θ について見たときの関数形(カーネル )が、再び同じ分布族のカーネルになります。すると「事後はこの分布族で、パラメータはこれ」と一目で読み取れて 、分母の積分は計算するまでもなく正規化定数として埋まります。
flowchart LR
P["事前 p(θ)<br/>(分布族 F)"] --> M["× 尤度 p(x∣θ)"]
M --> K["分子のカーネルを見る"]
K --> Q{"分布族 F の<br/>カーネル形か?"}
Q -- はい(共役) --> Post["事後 p(θ∣x)<br/>(同じ分布族 F・積分不要)"]
Q -- いいえ --> Num["正規化積分が必要<br/>(数値積分 / MCMC)"]
要するに「共役性 = 事後の分布族が事前と同じだとわかっているので、正規化定数を計算せずパラメータだけ更新すればよい」という計算上のショートカットです。
ここでキーになるカーネル という言葉を押さえます。確率密度から「θ \theta θ に依存しない定数係数」を全部 ∝ \propto ∝ の右に追い出した、θ \theta θ を含む本体部分のことです。たとえばガンマ分布なら
G a m m a ( θ ∣ α , β ) = β α Γ ( α ) ⏟ 定数 θ α − 1 e − β θ ⏟ カーネル ∝ θ α − 1 e − β θ \mathrm{Gamma}(\theta\mid\alpha,\beta)=\underbrace{\frac{\beta^\alpha}{\Gamma(\alpha)}}_{\text{定数}}\,\underbrace{\theta^{\alpha-1}e^{-\beta\theta}}_{\text{カーネル}}
\;\propto\;\theta^{\alpha-1}e^{-\beta\theta} Gamma ( θ ∣ α , β ) = 定数 Γ ( α ) β α カーネル θ α − 1 e − β θ ∝ θ α − 1 e − β θ
事後分布を求めるときは、このカーネルの形だけ を見比べれば分布族とパラメータが決まります。
2. ベータ‐二項/ベルヌーイの共役性(完全導出)
成功確率 θ ∈ [ 0 , 1 ] \theta\in[0,1] θ ∈ [ 0 , 1 ] を推定する問題です。n n n 回中 k k k 回成功したとします。
2.1 尤度のカーネル
二項尤度は
p ( k ∣ θ ) = ( n k ) θ k ( 1 − θ ) n − k ∝ θ k ( 1 − θ ) n − k p(k\mid\theta)=\binom{n}{k}\theta^{k}(1-\theta)^{n-k}\;\propto\;\theta^{k}(1-\theta)^{n-k} p ( k ∣ θ ) = ( k n ) θ k ( 1 − θ ) n − k ∝ θ k ( 1 − θ ) n − k
( n k ) \binom{n}{k} ( k n ) は θ \theta θ を含まないので ∝ \propto ∝ の外(定数)です。要するに尤度のカーネルは θ k ( 1 − θ ) n − k \theta^{k}(1-\theta)^{n-k} θ k ( 1 − θ ) n − k 。
2.2 事前のカーネル
事前にベータ分布 B e t a ( a , b ) \mathrm{Beta}(a,b) Beta ( a , b ) を置きます。
p ( θ ) = 1 B ( a , b ) θ a − 1 ( 1 − θ ) b − 1 ∝ θ a − 1 ( 1 − θ ) b − 1 p(\theta)=\frac{1}{B(a,b)}\theta^{a-1}(1-\theta)^{b-1}\;\propto\;\theta^{a-1}(1-\theta)^{b-1} p ( θ ) = B ( a , b ) 1 θ a − 1 ( 1 − θ ) b − 1 ∝ θ a − 1 ( 1 − θ ) b − 1
B ( a , b ) B(a,b) B ( a , b ) はベータ関数(正規化定数)。ベータ分布の素性は 指数分布・ガンマ分布・ベータ分布 、二項・ベルヌーイは ベルヌーイ分布・二項分布 を参照してください。
2.3 事後 = カーネルの積
事後はベイズの定理より、尤度 × 事前に比例します。指数法則で肩を足すだけ です。
p ( θ ∣ k ) ∝ θ k ( 1 − θ ) n − k ⏟ 尤度 ⋅ θ a − 1 ( 1 − θ ) b − 1 ⏟ 事前 = θ ( a + k ) − 1 ( 1 − θ ) ( b + n − k ) − 1 \begin{aligned}
p(\theta\mid k)
&\propto \underbrace{\theta^{k}(1-\theta)^{n-k}}_{\text{尤度}}\cdot\underbrace{\theta^{a-1}(1-\theta)^{b-1}}_{\text{事前}}\\[4pt]
&= \theta^{(a+k)-1}\,(1-\theta)^{(b+n-k)-1}
\end{aligned} p ( θ ∣ k ) ∝ 尤度 θ k ( 1 − θ ) n − k ⋅ 事前 θ a − 1 ( 1 − θ ) b − 1 = θ ( a + k ) − 1 ( 1 − θ ) ( b + n − k ) − 1
最後の式は B e t a ( a + k , b + n − k ) \mathrm{Beta}(a+k,\ b+n-k) Beta ( a + k , b + n − k ) のカーネルそのものです。よって
θ ∼ B e t a ( a , b ) , k ∼ B i n ( n , θ ) ⟹ θ ∣ k ∼ B e t a ( a + k , b + n − k ) \boxed{\;\theta\sim\mathrm{Beta}(a,b),\ k\sim\mathrm{Bin}(n,\theta)\ \Longrightarrow\ \theta\mid k\sim\mathrm{Beta}(a+k,\ b+n-k)\;} θ ∼ Beta ( a , b ) , k ∼ Bin ( n , θ ) ⟹ θ ∣ k ∼ Beta ( a + k , b + n − k )
要するに「事前のベータと尤度の二項を掛けると、肩の指数が足し算されて再びベータになる」。これがベータ‐二項共役の正体です。正規化定数(ベータ関数)は最後に自動的に決まるので、計算する必要がありません。
2.4 ハイパーパラメータ a , b a,b a , b の意味(擬似観測)
更新則 a → a + k a\to a+k a → a + k 、b → b + ( n − k ) b\to b+(n-k) b → b + ( n − k ) を眺めると、a a a は成功回数、b b b は失敗回数に足し込まれて います。つまり事前パラメータは
a a a … 「データを見る前にすでに成功を a a a 回くらい見た気がする」という擬似的な成功回数
b b b … 同じく擬似的な失敗回数
と解釈できます。これを擬似観測(pseudo-count)/事前標本サイズ と呼びます。B e t a ( 1 , 1 ) \mathrm{Beta}(1,1) Beta ( 1 , 1 ) は一様分布で「成功も失敗も1回ずつ仮に見た」=ほぼ情報なし、B e t a ( 100 , 100 ) \mathrm{Beta}(100,100) Beta ( 100 , 100 ) は「成功失敗を各100回見た」=「θ = 0.5 \theta=0.5 θ = 0.5 あたりだ」という強い確信 を表します。a + b a+b a + b が大きいほど事前が強く、少々のデータでは動きません。
要するに「事前分布のパラメータは、まだ取っていない仮想のデータ件数 として読める」ということです。これは共役事前を直観的に解釈する最大の手がかりです。
3. ガンマ‐ポアソンの共役性(完全導出)
単位時間あたりの平均発生回数 λ > 0 \lambda>0 λ > 0 を推定する問題です。観測 x 1 , … , x n x_1,\dots,x_n x 1 , … , x n が独立にポアソン分布に従うとします(ポアソン分布 )。
3.1 尤度のカーネル
p ( x 1 , … , x n ∣ λ ) = ∏ i = 1 n λ x i e − λ x i ! = λ ∑ x i e − n λ ∏ x i ! ∝ λ ∑ x i e − n λ p(x_1,\dots,x_n\mid\lambda)=\prod_{i=1}^{n}\frac{\lambda^{x_i}e^{-\lambda}}{x_i!}
=\frac{\lambda^{\sum x_i}\,e^{-n\lambda}}{\prod x_i!}
\;\propto\;\lambda^{\sum x_i}\,e^{-n\lambda} p ( x 1 , … , x n ∣ λ ) = i = 1 ∏ n x i ! λ x i e − λ = ∏ x i ! λ ∑ x i e − nλ ∝ λ ∑ x i e − nλ
∏ x i ! \prod x_i! ∏ x i ! は λ \lambda λ を含まないので定数。尤度のカーネルは λ ∑ x i e − n λ \lambda^{\sum x_i}e^{-n\lambda} λ ∑ x i e − nλ です。
3.2 事前のカーネル
事前にガンマ分布 G a m m a ( α , β ) \mathrm{Gamma}(\alpha,\beta) Gamma ( α , β ) (形状 α \alpha α ・レート β \beta β )を置きます。
p ( λ ) = β α Γ ( α ) λ α − 1 e − β λ ∝ λ α − 1 e − β λ p(\lambda)=\frac{\beta^\alpha}{\Gamma(\alpha)}\lambda^{\alpha-1}e^{-\beta\lambda}\;\propto\;\lambda^{\alpha-1}e^{-\beta\lambda} p ( λ ) = Γ ( α ) β α λ α − 1 e − β λ ∝ λ α − 1 e − β λ
3.3 事後 = カーネルの積
p ( λ ∣ x ) ∝ λ ∑ x i e − n λ ⏟ 尤度 ⋅ λ α − 1 e − β λ ⏟ 事前 = λ ( α + ∑ x i ) − 1 e − ( β + n ) λ \begin{aligned}
p(\lambda\mid x)
&\propto \underbrace{\lambda^{\sum x_i}e^{-n\lambda}}_{\text{尤度}}\cdot\underbrace{\lambda^{\alpha-1}e^{-\beta\lambda}}_{\text{事前}}\\[4pt]
&= \lambda^{\,(\alpha+\sum x_i)-1}\;e^{-(\beta+n)\lambda}
\end{aligned} p ( λ ∣ x ) ∝ 尤度 λ ∑ x i e − nλ ⋅ 事前 λ α − 1 e − β λ = λ ( α + ∑ x i ) − 1 e − ( β + n ) λ
これは G a m m a ( α + ∑ x i , β + n ) \mathrm{Gamma}\!\left(\alpha+\sum x_i,\ \beta+n\right) Gamma ( α + ∑ x i , β + n ) のカーネルです。よって
λ ∼ G a m m a ( α , β ) , x i ∼ P o i s s o n ( λ ) ⟹ λ ∣ x ∼ G a m m a ( α + ∑ x i , β + n ) \boxed{\;\lambda\sim\mathrm{Gamma}(\alpha,\beta),\ x_i\sim\mathrm{Poisson}(\lambda)\ \Longrightarrow\ \lambda\mid x\sim\mathrm{Gamma}\!\left(\alpha+\textstyle\sum x_i,\ \beta+n\right)\;} λ ∼ Gamma ( α , β ) , x i ∼ Poisson ( λ ) ⟹ λ ∣ x ∼ Gamma ( α + ∑ x i , β + n )
要するに「形状 α \alpha α には観測の総回数 ∑ x i \sum x_i ∑ x i を、レート β \beta β には観測した期間(標本数) n n n を足す」だけ。ここでも α \alpha α は擬似的な総発生回数、β \beta β は擬似的な観測期間と読めます(α / β \alpha/\beta α / β が事前平均で、これは事前に見込んだ発生率)。
4. 正規‐正規(分散既知)の共役性
データの分散 σ 2 \sigma^2 σ 2 が既知 で、平均 μ \mu μ だけを推定する問題です。ここでは精度(precision) τ = 1 / σ 2 \tau=1/\sigma^2 τ = 1/ σ 2 で書くと式が一番すっきりします。精度とは「分散の逆数 = どれだけ尖って情報が詰まっているか」です。
4.1 設定
データ:x 1 , … , x n ∼ N ( μ , 1 / τ ) x_1,\dots,x_n\sim\mathcal N(\mu,\ 1/\tau) x 1 , … , x n ∼ N ( μ , 1/ τ ) 、標本平均 x ˉ \bar x x ˉ 、データ精度 τ \tau τ (既知)
事前:μ ∼ N ( μ 0 , 1 / τ 0 ) \mu\sim\mathcal N(\mu_0,\ 1/\tau_0) μ ∼ N ( μ 0 , 1/ τ 0 ) 、事前平均 μ 0 \mu_0 μ 0 ・事前精度 τ 0 \tau_0 τ 0
4.2 事後分布(結果)
尤度・事前ともに μ \mu μ の二次式 exp { − 1 2 ( ⋯ ) μ 2 + ( ⋯ ) μ } \exp\{-\tfrac12(\cdots)\mu^2+(\cdots)\mu\} exp { − 2 1 ( ⋯ ) μ 2 + ( ⋯ ) μ } の形なので、掛け合わせて指数の肩を平方完成すると、再び正規分布のカーネルになります(正規 × 正規 = 正規)。結果は
μ ∣ x ∼ N ( μ n , 1 / τ n ) , τ n = τ 0 + n τ , μ n = τ 0 μ 0 + n τ x ˉ τ 0 + n τ \boxed{\;\mu\mid x\sim\mathcal N\!\left(\mu_n,\ 1/\tau_n\right),\qquad
\tau_n=\tau_0+n\tau,\qquad
\mu_n=\frac{\tau_0\,\mu_0+n\tau\,\bar x}{\tau_0+n\tau}\;} μ ∣ x ∼ N ( μ n , 1/ τ n ) , τ n = τ 0 + n τ , μ n = τ 0 + n τ τ 0 μ 0 + n τ x ˉ
二つの式の読み方が、このトピックで最も大切です。
(i) 事後精度は精度の足し算。
τ n ⏟ 事後精度 = τ 0 ⏟ 事前精度 + n τ ⏟ データの精度( n 個ぶん) \underbrace{\tau_n}_{\text{事後精度}}=\underbrace{\tau_0}_{\text{事前精度}}+\underbrace{n\tau}_{\text{データの精度(}n\text{個ぶん)}} 事後精度 τ n = 事前精度 τ 0 + データの精度( n 個ぶん) n τ
要するに「情報(精度)は加算される」。データが増える(n ↑ n\uparrow n ↑ )ほど事後精度が上がり、事後分布は鋭くなります。
(ii) 事後平均は精度を重みにした加重平均。
μ n = τ 0 τ 0 + n τ μ 0 + n τ τ 0 + n τ x ˉ \mu_n=\frac{\tau_0}{\tau_0+n\tau}\,\mu_0+\frac{n\tau}{\tau_0+n\tau}\,\bar x μ n = τ 0 + n τ τ 0 μ 0 + τ 0 + n τ n τ x ˉ
事前平均 μ 0 \mu_0 μ 0 と標本平均 x ˉ \bar x x ˉ を、それぞれの精度を重みにして混ぜた 形です。要するに「自信のある(精度の高い)側に事後平均が寄る」。データが少なければ事前 μ 0 \mu_0 μ 0 寄り、データが多ければ標本平均 x ˉ \bar x x ˉ 寄りになり、n → ∞ n\to\infty n → ∞ で μ n → x ˉ \mu_n\to\bar x μ n → x ˉ (データに支配される)。
xychart-beta
title "正規‐正規:データが増えると事後は標本平均へ寄り鋭くなる"
x-axis "μ" 0 --> 10
y-axis "密度" 0 --> 1
line "事前 N(2, 大きい分散)" [0.18, 0.22, 0.25, 0.24, 0.20, 0.16, 0.12, 0.09, 0.06, 0.04, 0.03]
line "事後(少数データ)" [0.05, 0.10, 0.20, 0.34, 0.40, 0.34, 0.22, 0.12, 0.06, 0.03, 0.01]
line "事後(多数データ)" [0.00, 0.00, 0.01, 0.06, 0.30, 0.62, 0.30, 0.06, 0.01, 0.00, 0.00]
注:上のグラフは形状のイメージです(厳密な数値ではありません)。事前(なだらか)→少数データ→多数データ(鋭く標本平均付近に集中)と、精度が上がるにつれ尖っていく様子を表します。
なお正規分布で何を未知にするか で共役相手が変わります(後述の引っかけ)。ここで扱ったのは「分散既知・平均未知」のケースです。
5. 共役ペアの一覧表
代表的な共役ペアと、事後パラメータの更新則をまとめます。∝ \propto ∝ ベースでカーネルを足し算する、という骨格はすべて共通です。
尤度(データ) 推定する母数 共役事前 事後(更新則) ベルヌーイ/二項 B i n ( n , θ ) \mathrm{Bin}(n,\theta) Bin ( n , θ ) 成功確率 θ \theta θ B e t a ( a , b ) \mathrm{Beta}(a,b) Beta ( a , b ) B e t a ( a + k , b + n − k ) \mathrm{Beta}(a+k,\ b+n-k) Beta ( a + k , b + n − k ) ポアソン P o i s s o n ( λ ) \mathrm{Poisson}(\lambda) Poisson ( λ ) 発生率 λ \lambda λ G a m m a ( α , β ) \mathrm{Gamma}(\alpha,\beta) Gamma ( α , β ) G a m m a ( α + ∑ x i , β + n ) \mathrm{Gamma}(\alpha+\sum x_i,\ \beta+n) Gamma ( α + ∑ x i , β + n ) 正規(分散既知) 平均 μ \mu μ N ( μ 0 , 1 / τ 0 ) \mathcal N(\mu_0,\,1/\tau_0) N ( μ 0 , 1/ τ 0 ) N ( μ n , 1 / τ n ) \mathcal N(\mu_n,\,1/\tau_n) N ( μ n , 1/ τ n ) (§4)正規(平均既知) 分散 σ 2 \sigma^2 σ 2 逆ガンマ I n v - G a m m a \mathrm{Inv\text{-}Gamma} Inv - Gamma 逆ガンマ(更新) 多項分布 カテゴリ確率 θ \boldsymbol\theta θ ディリクレ D i r ( α ) \mathrm{Dir}(\boldsymbol\alpha) Dir ( α ) D i r ( α + c o u n t ) \mathrm{Dir}(\boldsymbol\alpha+\mathbf{count}) Dir ( α + count ) 指数分布 レート λ \lambda λ G a m m a ( α , β ) \mathrm{Gamma}(\alpha,\beta) Gamma ( α , β ) G a m m a ( α + n , β + ∑ x i ) \mathrm{Gamma}(\alpha+n,\ \beta+\sum x_i) Gamma ( α + n , β + ∑ x i )
ベータ‐二項とディリクレ‐多項が「比率の事前」、ガンマ‐ポアソン/ガンマ‐指数が「カウント・待ち時間の事前」、という対応で覚えると整理しやすいです。
6. 指数型分布族と共役事前(1級)
ここから1級レベル。なぜ「ちょうど良い共役相手」が存在するのか、その種明かしです。
代表的な共役ペアが偶然ではないのは、これらの尤度がすべて**指数型分布族(exponential family)**に属するからです。指数型分布族の密度は、自然パラメータ η \eta η ・十分統計量 T ( x ) T(x) T ( x ) を使って次の共通形に書けます。
p ( x ∣ η ) = h ( x ) exp ( η ⊤ T ( x ) − A ( η ) ) p(x\mid\eta)=h(x)\,\exp\!\big(\eta^\top T(x)-A(\eta)\big) p ( x ∣ η ) = h ( x ) exp ( η ⊤ T ( x ) − A ( η ) )
ここで A ( η ) A(\eta) A ( η ) は対数分配関数(正規化を担う)です。n n n 個の独立観測に対する尤度は、肩の十分統計量が和 になって
p ( x 1 : n ∣ η ) ∝ exp ( η ⊤ ∑ i T ( x i ) − n A ( η ) ) p(x_{1:n}\mid\eta)\propto\exp\!\Big(\eta^\top\!\textstyle\sum_i T(x_i)-nA(\eta)\Big) p ( x 1 : n ∣ η ) ∝ exp ( η ⊤ ∑ i T ( x i ) − n A ( η ) )
この尤度に対し、同じ関数形 を η \eta η の関数として与えた事前を取ります。
p ( η ∣ χ , ν ) ∝ exp ( η ⊤ χ − ν A ( η ) ) \boxed{\;p(\eta\mid\boldsymbol\chi,\nu)\propto\exp\!\big(\eta^\top\boldsymbol\chi-\nu\,A(\eta)\big)\;} p ( η ∣ χ , ν ) ∝ exp ( η ⊤ χ − ν A ( η ) )
すると事後は
p ( η ∣ x 1 : n ) ∝ exp ( η ⊤ ( χ + ∑ i T ( x i ) ) − ( ν + n ) A ( η ) ) p(\eta\mid x_{1:n})\propto\exp\!\Big(\eta^\top\big(\boldsymbol\chi+\textstyle\sum_i T(x_i)\big)-(\nu+n)A(\eta)\Big) p ( η ∣ x 1 : n ) ∝ exp ( η ⊤ ( χ + ∑ i T ( x i ) ) − ( ν + n ) A ( η ) )
となり、ハイパーパラメータが χ → χ + ∑ i T ( x i ) \boldsymbol\chi\to\boldsymbol\chi+\sum_i T(x_i) χ → χ + ∑ i T ( x i ) 、ν → ν + n \nu\to\nu+n ν → ν + n と更新されるだけで同じ形 に戻ります。これが共役事前の一般原理 です。
要するに「指数型分布族は、尤度と肩の関数形をそろえた事前を取れば必ず共役になる」。ベータ‐二項・ガンマ‐ポアソン・正規‐正規はすべてこの一般論の具体例にすぎません。
ハイパーパラメータ ν \nu ν は前節までの擬似観測数 (事前標本サイズ)に、χ \boldsymbol\chi χ は擬似的な十分統計量の和 に対応します。指数型分布族の枠組みでは、§2〜§4で見た「擬似観測としての解釈」が統一的に説明できます。逆に、指数型分布族でない 尤度には一般にきれいな共役事前は存在しません(だから一様分布の上限推定などでは共役の議論が崩れます)。
7. ⚠️ 引っかけポイント
共役は「計算の便宜」であって「正しさの保証」ではない。
共役事前を選ぶと事後が解析的に求まりますが、それは事前分布の選択が正しいことを意味しません 。共役は数学的な相性の良さの話であり、その事前が現実の事前知識を正しく表しているかは別問題です。「共役だから正しい」は誤り。データが十分多ければ事後はどの事前からでも似た所に収束する(事前分布・事後分布・ベイズ更新 のベイズ更新)ので、共役性は主に小標本での計算簡便化のメリットだと理解してください。
ハイパーパラメータは擬似観測数として読む。
B e t a ( a , b ) \mathrm{Beta}(a,b) Beta ( a , b ) の a , b a,b a , b や G a m m a ( α , β ) \mathrm{Gamma}(\alpha,\beta) Gamma ( α , β ) の α , β \alpha,\beta α , β は「すでに見た仮想データの件数」に対応します(§2.4・§3.3)。a + b a+b a + b や β , ν \beta,\nu β , ν が大きいほど事前が強く、データに動かされにくくなります。「無情報のつもりで大きな値を入れる」のは逆に強い事前を入れることになり、誤りです。
正規分布は「何を未知にするか」で共役相手が違う。
平均 μ \mu μ 未知・分散既知 → 共役は正規分布 (§4)
分散 σ 2 \sigma^2 σ 2 未知・平均既知 → 共役は逆ガンマ分布 (精度 τ \tau τ で見ればガンマ分布)
平均・分散とも未知 → 共役は正規‐逆ガンマ(NIG)の同時事前
「正規の共役は正規」と短絡すると、分散を推定する問題で間違えます。
レート β \beta β とスケール 1 / β 1/\beta 1/ β の取り違え。
ガンマ分布は「レート母数 β \beta β 」と「スケール母数 1 / β 1/\beta 1/ β 」の2流儀があります。更新則 β → β + n \beta\to\beta+n β → β + n はレート表記 でのものです。スケール表記の式と混ぜると符号・逆数を間違えるので、どちらの流儀かを必ず確認します。
「事後 = 事前 × 尤度」は比例関係。 等号で書くと正規化定数を落として誤りになります。∝ \propto ∝ で書き、最後に分布族から正規化定数を回復するのが定石です。
よくある疑問(Q&A)
Q1. 共役事前分布を使うと、正しい(真の)事後分布が得られるのですか?
得られる事後分布は、その事前分布を仮定したうえでの 正しい事後分布です。ただし「その事前分布が現実を正しく表しているか」は共役性とは無関係です。共役性が保証するのは「事後が事前と同じ分布族になり、解析的に計算できる」ことだけで、事前の妥当性は別途吟味が要ります。要するに、共役は計算の便宜 であってモデルの正しさの保証ではない 、というのが最重要の注意点です。
Q2. B e t a ( a , b ) \mathrm{Beta}(a,b) Beta ( a , b ) の a , b a,b a , b はどう決めればいいのですか?
a , b a,b a , b は「事前にどれだけ成功・失敗を見たと仮定するか」という擬似観測数 として決めます。事前情報がほぼ無いなら B e t a ( 1 , 1 ) \mathrm{Beta}(1,1) Beta ( 1 , 1 ) (一様)や B e t a ( 0.5 , 0.5 ) \mathrm{Beta}(0.5,0.5) Beta ( 0.5 , 0.5 ) (ジェフリーズ事前)。「成功率は7割くらいで、根拠は10件程度」という確信があれば B e t a ( 7 , 3 ) \mathrm{Beta}(7,3) Beta ( 7 , 3 ) のように、和 a + b a+b a + b で確信の強さ、比 a / ( a + b ) a/(a+b) a / ( a + b ) で事前平均を表現します。要するに「比で位置、和で強さ」を調整します。
Q3. なぜ共役性の証明で正規化定数を無視してよいのですか?
事後分布は密度なので、θ \theta θ について積分すると必ず1になります。だからカーネル(θ \theta θ を含む本体)の形さえ分布族と一致すれば、正規化定数はその分布族の定義から自動的に一意に決まります 。途中で定数を追いかける手間が省けるので、∝ \propto ∝ でカーネルだけ追うのが定石です。試験でも「∝ \propto ∝ をうまく使って記述量を減らす」ことが評価されます。
Q4. データが増えると事前分布の影響はどうなりますか?
弱くなります。たとえば正規‐正規の事後平均 μ n = τ 0 μ 0 + n τ x ˉ τ 0 + n τ \mu_n=\dfrac{\tau_0\mu_0+n\tau\bar x}{\tau_0+n\tau} μ n = τ 0 + n τ τ 0 μ 0 + n τ x ˉ は、n → ∞ n\to\infty n → ∞ で μ n → x ˉ \mu_n\to\bar x μ n → x ˉ (標本平均)に近づき、事前 μ 0 \mu_0 μ 0 の寄与が消えます。ベータ‐二項でも a + k , b + n − k a+k,\ b+n-k a + k , b + n − k のうち k , n − k k,\ n-k k , n − k が支配的になります。要するに「データが十分多ければ、どんな(妥当な)事前から出発しても事後はほぼ同じ所に落ち着く」。共役事前のメリットが効くのは主に小標本 のときです。
Q5. 共役事前分布はいつも存在しますか?
いいえ。きれいな共役事前が存在するのは、尤度が指数型分布族 に属するときに限られます(§6)。指数型でない尤度(例:自由度未知の t t t 分布、一様分布の区間端の推定など)には一般に閉じた形の共役事前がなく、数値積分や MCMC(ベイズ推定・MAP推定 以降で扱う計算手法)に頼ることになります。要するに「共役は便利だが、使える尤度は限られている」ということです。
試験での問われ方(級ごとの差)
ベイズの事後分布計算は準1級・1級ともに出題されます。級で深さ が明確に違います。
準1級レベル
代表的な共役ペア(特にベータ‐二項・ガンマ‐ポアソン・正規‐正規)について、事後分布のパラメータを実際に計算 できるかが問われる。
与えられたデータと事前パラメータから、事後分布の分布族と更新後パラメータ を答える(例:B e t a ( 2 , 3 ) \mathrm{Beta}(2,3) Beta ( 2 , 3 ) に「n = 10 n=10 n = 10 で k = 4 k=4 k = 4 成功」→ 事後 B e t a ( 6 , 9 ) \mathrm{Beta}(6,9) Beta ( 6 , 9 ) )。
事後平均・事後分散・MAP 推定値(ベイズ推定・MAP推定 )の計算。
∝ \propto ∝ を使ってカーネルから事後分布を導く論述(2021年の論述で正規‐正規が出題された実績あり。要最新確認 )。
公式ワークブックではベイズ法の章で共役事前が扱われます。
1級レベル
個別のペア計算に加え、指数型分布族に共役事前が一般に存在する という理論(§6)と、その構成を扱える深さが求められる。
指数型分布族の自然パラメータ・十分統計量から、共役事前の関数形を構成する。
ハイパーパラメータの更新則 χ → χ + ∑ T ( x i ) \boldsymbol\chi\to\boldsymbol\chi+\sum T(x_i) χ → χ + ∑ T ( x i ) 、ν → ν + n \nu\to\nu+n ν → ν + n を導く。
共役性とジェフリーズ事前・無情報事前との関係、事前の強さ(擬似観測数)が推定に与える影響の議論。
多変量・階層モデルへの拡張(共役性が崩れる場面と、その際の計算手法の選択)。
推定量の一般論は ベイズ推定・MAP推定 、ベイズ更新の枠組み全体は 事前分布・事後分布・ベイズ更新 が前提です。
まとめ
共役事前分布 = 事後が事前と同じ分布族になる事前。ご利益は正規化積分が不要で、事後がパラメータの更新だけで求まる こと。
証明の骨格はどれも同じ:尤度のカーネル × 事前のカーネル = 同じ分布族のカーネル (∝ \propto ∝ で肩を足す)。
ベータ‐二項:B e t a ( a , b ) → B e t a ( a + k , b + n − k ) \mathrm{Beta}(a,b)\to\mathrm{Beta}(a+k,\ b+n-k) Beta ( a , b ) → Beta ( a + k , b + n − k )
ガンマ‐ポアソン:G a m m a ( α , β ) → G a m m a ( α + ∑ x i , β + n ) \mathrm{Gamma}(\alpha,\beta)\to\mathrm{Gamma}(\alpha+\sum x_i,\ \beta+n) Gamma ( α , β ) → Gamma ( α + ∑ x i , β + n )
正規‐正規(分散既知):事後精度 τ n = τ 0 + n τ \tau_n=\tau_0+n\tau τ n = τ 0 + n τ 、事後平均は精度の加重平均 μ n = τ 0 μ 0 + n τ x ˉ τ 0 + n τ \mu_n=\dfrac{\tau_0\mu_0+n\tau\bar x}{\tau_0+n\tau} μ n = τ 0 + n τ τ 0 μ 0 + n τ x ˉ
ハイパーパラメータは擬似観測数 として読める(比で位置、和で確信の強さ)。
1級では指数型分布族 が共役事前を持つ一般原理が背景。指数型でない尤度には一般に共役事前がない。
⚠️ 共役は計算の便宜 であって正しさの保証ではない 。正規分布は未知母数(平均か分散か)で共役相手が変わる。
関連ノート