← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:B(標準)

要点(BLUF)

事前分布と事後分布が同じ分布族になるとき、その事前分布を尤度に対する**共役事前分布(conjugate prior)**と呼びます。ご利益はただ一つ、事後分布が積分なしで解析的に求まることです。

  事前 p(θ) と尤度 p(xθ) が共役  事後 p(θx) が事前と同じ分布族  \boxed{\;\text{事前}\ p(\theta)\ \text{と尤度}\ p(x\mid\theta)\ \text{が共役}\ \Longleftrightarrow\ \text{事後}\ p(\theta\mid x)\ \text{が事前と同じ分布族}\;}

要するに「うまく相性の良い事前分布を選んでおけば、ベイズ更新がパラメータの足し算で済む」ということです。代表は次の3組です。

尤度(データの分布)共役事前事後
二項・ベルヌーイベータ Beta(a,b)\mathrm{Beta}(a,b)ベータ
ポアソンガンマ Gamma(α,β)\mathrm{Gamma}(\alpha,\beta)ガンマ
正規(分散既知)正規 N(μ0,σ02)\mathcal N(\mu_0,\sigma_0^2)正規

1. なぜ共役性がうれしいのか

ベイズ更新の中心は次の式でした(詳細は 事前分布・事後分布・ベイズ更新)。

p(θx)=p(xθ)p(θ)p(xθ)p(θ)dθp(\theta\mid x)=\frac{p(x\mid\theta)\,p(\theta)}{\displaystyle\int p(x\mid\theta)\,p(\theta)\,d\theta}

分母の積分(正規化定数、エビデンス)が曲者です。一般の事前分布ではこの積分が解析的に解けず、数値積分や MCMC が必要になります。

ところが事前を共役に選ぶと、分子 p(xθ)p(θ)p(x\mid\theta)p(\theta)θ\theta について見たときの関数形(カーネル)が、再び同じ分布族のカーネルになります。すると「事後はこの分布族で、パラメータはこれ」と一目で読み取れて、分母の積分は計算するまでもなく正規化定数として埋まります。

flowchart LR
  P["事前 p(θ)<br/>(分布族 F)"] --> M["× 尤度 p(x∣θ)"]
  M --> K["分子のカーネルを見る"]
  K --> Q{"分布族 F の<br/>カーネル形か?"}
  Q -- はい(共役) --> Post["事後 p(θ∣x)<br/>(同じ分布族 F・積分不要)"]
  Q -- いいえ --> Num["正規化積分が必要<br/>(数値積分 / MCMC)"]

要するに「共役性 = 事後の分布族が事前と同じだとわかっているので、正規化定数を計算せずパラメータだけ更新すればよい」という計算上のショートカットです。

ここでキーになるカーネルという言葉を押さえます。確率密度から「θ\theta に依存しない定数係数」を全部 \propto の右に追い出した、θ\theta を含む本体部分のことです。たとえばガンマ分布なら

Gamma(θα,β)=βαΓ(α)定数θα1eβθカーネル    θα1eβθ\mathrm{Gamma}(\theta\mid\alpha,\beta)=\underbrace{\frac{\beta^\alpha}{\Gamma(\alpha)}}_{\text{定数}}\,\underbrace{\theta^{\alpha-1}e^{-\beta\theta}}_{\text{カーネル}} \;\propto\;\theta^{\alpha-1}e^{-\beta\theta}

事後分布を求めるときは、このカーネルの形だけを見比べれば分布族とパラメータが決まります。


2. ベータ‐二項/ベルヌーイの共役性(完全導出)

成功確率 θ[0,1]\theta\in[0,1] を推定する問題です。nn 回中 kk 回成功したとします。

2.1 尤度のカーネル

二項尤度は

p(kθ)=(nk)θk(1θ)nk    θk(1θ)nkp(k\mid\theta)=\binom{n}{k}\theta^{k}(1-\theta)^{n-k}\;\propto\;\theta^{k}(1-\theta)^{n-k}

(nk)\binom{n}{k}θ\theta を含まないので \propto の外(定数)です。要するに尤度のカーネルは θk(1θ)nk\theta^{k}(1-\theta)^{n-k}

2.2 事前のカーネル

事前にベータ分布 Beta(a,b)\mathrm{Beta}(a,b) を置きます。

p(θ)=1B(a,b)θa1(1θ)b1    θa1(1θ)b1p(\theta)=\frac{1}{B(a,b)}\theta^{a-1}(1-\theta)^{b-1}\;\propto\;\theta^{a-1}(1-\theta)^{b-1}

B(a,b)B(a,b) はベータ関数(正規化定数)。ベータ分布の素性は 指数分布・ガンマ分布・ベータ分布、二項・ベルヌーイは ベルヌーイ分布・二項分布 を参照してください。

2.3 事後 = カーネルの積

事後はベイズの定理より、尤度 × 事前に比例します。指数法則で肩を足すだけです。

p(θk)θk(1θ)nk尤度θa1(1θ)b1事前=θ(a+k)1(1θ)(b+nk)1\begin{aligned} p(\theta\mid k) &\propto \underbrace{\theta^{k}(1-\theta)^{n-k}}_{\text{尤度}}\cdot\underbrace{\theta^{a-1}(1-\theta)^{b-1}}_{\text{事前}}\\[4pt] &= \theta^{(a+k)-1}\,(1-\theta)^{(b+n-k)-1} \end{aligned}

最後の式は Beta(a+k, b+nk)\mathrm{Beta}(a+k,\ b+n-k) のカーネルそのものです。よって

  θBeta(a,b), kBin(n,θ)  θkBeta(a+k, b+nk)  \boxed{\;\theta\sim\mathrm{Beta}(a,b),\ k\sim\mathrm{Bin}(n,\theta)\ \Longrightarrow\ \theta\mid k\sim\mathrm{Beta}(a+k,\ b+n-k)\;}

要するに「事前のベータと尤度の二項を掛けると、肩の指数が足し算されて再びベータになる」。これがベータ‐二項共役の正体です。正規化定数(ベータ関数)は最後に自動的に決まるので、計算する必要がありません。

2.4 ハイパーパラメータ a,ba,b の意味(擬似観測)

更新則 aa+ka\to a+kbb+(nk)b\to b+(n-k) を眺めると、aa は成功回数、bb は失敗回数に足し込まれています。つまり事前パラメータは

と解釈できます。これを擬似観測(pseudo-count)/事前標本サイズと呼びます。Beta(1,1)\mathrm{Beta}(1,1) は一様分布で「成功も失敗も1回ずつ仮に見た」=ほぼ情報なし、Beta(100,100)\mathrm{Beta}(100,100) は「成功失敗を各100回見た」=「θ=0.5\theta=0.5 あたりだ」という強い確信を表します。a+ba+b が大きいほど事前が強く、少々のデータでは動きません。

要するに「事前分布のパラメータは、まだ取っていない仮想のデータ件数として読める」ということです。これは共役事前を直観的に解釈する最大の手がかりです。


3. ガンマ‐ポアソンの共役性(完全導出)

単位時間あたりの平均発生回数 λ>0\lambda>0 を推定する問題です。観測 x1,,xnx_1,\dots,x_n が独立にポアソン分布に従うとします(ポアソン分布)。

3.1 尤度のカーネル

p(x1,,xnλ)=i=1nλxieλxi!=λxienλxi!    λxienλp(x_1,\dots,x_n\mid\lambda)=\prod_{i=1}^{n}\frac{\lambda^{x_i}e^{-\lambda}}{x_i!} =\frac{\lambda^{\sum x_i}\,e^{-n\lambda}}{\prod x_i!} \;\propto\;\lambda^{\sum x_i}\,e^{-n\lambda}

xi!\prod x_i!λ\lambda を含まないので定数。尤度のカーネルは λxienλ\lambda^{\sum x_i}e^{-n\lambda} です。

3.2 事前のカーネル

事前にガンマ分布 Gamma(α,β)\mathrm{Gamma}(\alpha,\beta)(形状 α\alpha・レート β\beta)を置きます。

p(λ)=βαΓ(α)λα1eβλ    λα1eβλp(\lambda)=\frac{\beta^\alpha}{\Gamma(\alpha)}\lambda^{\alpha-1}e^{-\beta\lambda}\;\propto\;\lambda^{\alpha-1}e^{-\beta\lambda}

3.3 事後 = カーネルの積

p(λx)λxienλ尤度λα1eβλ事前=λ(α+xi)1  e(β+n)λ\begin{aligned} p(\lambda\mid x) &\propto \underbrace{\lambda^{\sum x_i}e^{-n\lambda}}_{\text{尤度}}\cdot\underbrace{\lambda^{\alpha-1}e^{-\beta\lambda}}_{\text{事前}}\\[4pt] &= \lambda^{\,(\alpha+\sum x_i)-1}\;e^{-(\beta+n)\lambda} \end{aligned}

これは Gamma ⁣(α+xi, β+n)\mathrm{Gamma}\!\left(\alpha+\sum x_i,\ \beta+n\right) のカーネルです。よって

  λGamma(α,β), xiPoisson(λ)  λxGamma ⁣(α+xi, β+n)  \boxed{\;\lambda\sim\mathrm{Gamma}(\alpha,\beta),\ x_i\sim\mathrm{Poisson}(\lambda)\ \Longrightarrow\ \lambda\mid x\sim\mathrm{Gamma}\!\left(\alpha+\textstyle\sum x_i,\ \beta+n\right)\;}

要するに「形状 α\alpha には観測の総回数 xi\sum x_i を、レート β\beta には観測した期間(標本数) nn を足す」だけ。ここでも α\alpha は擬似的な総発生回数、β\beta は擬似的な観測期間と読めます(α/β\alpha/\beta が事前平均で、これは事前に見込んだ発生率)。


4. 正規‐正規(分散既知)の共役性

データの分散 σ2\sigma^2既知で、平均 μ\mu だけを推定する問題です。ここでは精度(precision) τ=1/σ2\tau=1/\sigma^2 で書くと式が一番すっきりします。精度とは「分散の逆数 = どれだけ尖って情報が詰まっているか」です。

4.1 設定

4.2 事後分布(結果)

尤度・事前ともに μ\mu の二次式 exp{12()μ2+()μ}\exp\{-\tfrac12(\cdots)\mu^2+(\cdots)\mu\} の形なので、掛け合わせて指数の肩を平方完成すると、再び正規分布のカーネルになります(正規 × 正規 = 正規)。結果は

  μxN ⁣(μn, 1/τn),τn=τ0+nτ,μn=τ0μ0+nτxˉτ0+nτ  \boxed{\;\mu\mid x\sim\mathcal N\!\left(\mu_n,\ 1/\tau_n\right),\qquad \tau_n=\tau_0+n\tau,\qquad \mu_n=\frac{\tau_0\,\mu_0+n\tau\,\bar x}{\tau_0+n\tau}\;}

二つの式の読み方が、このトピックで最も大切です。

(i) 事後精度は精度の足し算。

τn事後精度=τ0事前精度+nτデータの精度(n個ぶん)\underbrace{\tau_n}_{\text{事後精度}}=\underbrace{\tau_0}_{\text{事前精度}}+\underbrace{n\tau}_{\text{データの精度(}n\text{個ぶん)}}

要するに「情報(精度)は加算される」。データが増える(nn\uparrow)ほど事後精度が上がり、事後分布は鋭くなります。

(ii) 事後平均は精度を重みにした加重平均。

μn=τ0τ0+nτμ0+nττ0+nτxˉ\mu_n=\frac{\tau_0}{\tau_0+n\tau}\,\mu_0+\frac{n\tau}{\tau_0+n\tau}\,\bar x

事前平均 μ0\mu_0 と標本平均 xˉ\bar x を、それぞれの精度を重みにして混ぜた形です。要するに「自信のある(精度の高い)側に事後平均が寄る」。データが少なければ事前 μ0\mu_0 寄り、データが多ければ標本平均 xˉ\bar x 寄りになり、nn\to\inftyμnxˉ\mu_n\to\bar x(データに支配される)。

xychart-beta
  title "正規‐正規:データが増えると事後は標本平均へ寄り鋭くなる"
  x-axis "μ" 0 --> 10
  y-axis "密度" 0 --> 1
  line "事前 N(2, 大きい分散)" [0.18, 0.22, 0.25, 0.24, 0.20, 0.16, 0.12, 0.09, 0.06, 0.04, 0.03]
  line "事後(少数データ)" [0.05, 0.10, 0.20, 0.34, 0.40, 0.34, 0.22, 0.12, 0.06, 0.03, 0.01]
  line "事後(多数データ)" [0.00, 0.00, 0.01, 0.06, 0.30, 0.62, 0.30, 0.06, 0.01, 0.00, 0.00]

注:上のグラフは形状のイメージです(厳密な数値ではありません)。事前(なだらか)→少数データ→多数データ(鋭く標本平均付近に集中)と、精度が上がるにつれ尖っていく様子を表します。

なお正規分布で何を未知にするかで共役相手が変わります(後述の引っかけ)。ここで扱ったのは「分散既知・平均未知」のケースです。


5. 共役ペアの一覧表

代表的な共役ペアと、事後パラメータの更新則をまとめます。\propto ベースでカーネルを足し算する、という骨格はすべて共通です。

尤度(データ)推定する母数共役事前事後(更新則)
ベルヌーイ/二項 Bin(n,θ)\mathrm{Bin}(n,\theta)成功確率 θ\thetaBeta(a,b)\mathrm{Beta}(a,b)Beta(a+k, b+nk)\mathrm{Beta}(a+k,\ b+n-k)
ポアソン Poisson(λ)\mathrm{Poisson}(\lambda)発生率 λ\lambdaGamma(α,β)\mathrm{Gamma}(\alpha,\beta)Gamma(α+xi, β+n)\mathrm{Gamma}(\alpha+\sum x_i,\ \beta+n)
正規(分散既知)平均 μ\muN(μ0,1/τ0)\mathcal N(\mu_0,\,1/\tau_0)N(μn,1/τn)\mathcal N(\mu_n,\,1/\tau_n)(§4)
正規(平均既知)分散 σ2\sigma^2逆ガンマ Inv-Gamma\mathrm{Inv\text{-}Gamma}逆ガンマ(更新)
多項分布カテゴリ確率 θ\boldsymbol\thetaディリクレ Dir(α)\mathrm{Dir}(\boldsymbol\alpha)Dir(α+count)\mathrm{Dir}(\boldsymbol\alpha+\mathbf{count})
指数分布レート λ\lambdaGamma(α,β)\mathrm{Gamma}(\alpha,\beta)Gamma(α+n, β+xi)\mathrm{Gamma}(\alpha+n,\ \beta+\sum x_i)

ベータ‐二項とディリクレ‐多項が「比率の事前」、ガンマ‐ポアソン/ガンマ‐指数が「カウント・待ち時間の事前」、という対応で覚えると整理しやすいです。


6. 指数型分布族と共役事前(1級)

ここから1級レベル。なぜ「ちょうど良い共役相手」が存在するのか、その種明かしです。

代表的な共役ペアが偶然ではないのは、これらの尤度がすべて**指数型分布族(exponential family)**に属するからです。指数型分布族の密度は、自然パラメータ η\eta・十分統計量 T(x)T(x) を使って次の共通形に書けます。

p(xη)=h(x)exp ⁣(ηT(x)A(η))p(x\mid\eta)=h(x)\,\exp\!\big(\eta^\top T(x)-A(\eta)\big)

ここで A(η)A(\eta) は対数分配関数(正規化を担う)です。nn 個の独立観測に対する尤度は、肩の十分統計量がになって

p(x1:nη)exp ⁣(η ⁣iT(xi)nA(η))p(x_{1:n}\mid\eta)\propto\exp\!\Big(\eta^\top\!\textstyle\sum_i T(x_i)-nA(\eta)\Big)

この尤度に対し、同じ関数形η\eta の関数として与えた事前を取ります。

  p(ηχ,ν)exp ⁣(ηχνA(η))  \boxed{\;p(\eta\mid\boldsymbol\chi,\nu)\propto\exp\!\big(\eta^\top\boldsymbol\chi-\nu\,A(\eta)\big)\;}

すると事後は

p(ηx1:n)exp ⁣(η(χ+iT(xi))(ν+n)A(η))p(\eta\mid x_{1:n})\propto\exp\!\Big(\eta^\top\big(\boldsymbol\chi+\textstyle\sum_i T(x_i)\big)-(\nu+n)A(\eta)\Big)

となり、ハイパーパラメータが χχ+iT(xi)\boldsymbol\chi\to\boldsymbol\chi+\sum_i T(x_i)νν+n\nu\to\nu+n と更新されるだけで同じ形に戻ります。これが共役事前の一般原理です。

要するに「指数型分布族は、尤度と肩の関数形をそろえた事前を取れば必ず共役になる」。ベータ‐二項・ガンマ‐ポアソン・正規‐正規はすべてこの一般論の具体例にすぎません。

ハイパーパラメータ ν\nu は前節までの擬似観測数(事前標本サイズ)に、χ\boldsymbol\chi擬似的な十分統計量の和に対応します。指数型分布族の枠組みでは、§2〜§4で見た「擬似観測としての解釈」が統一的に説明できます。逆に、指数型分布族でない尤度には一般にきれいな共役事前は存在しません(だから一様分布の上限推定などでは共役の議論が崩れます)。


7. ⚠️ 引っかけポイント

  1. 共役は「計算の便宜」であって「正しさの保証」ではない。 共役事前を選ぶと事後が解析的に求まりますが、それは事前分布の選択が正しいことを意味しません。共役は数学的な相性の良さの話であり、その事前が現実の事前知識を正しく表しているかは別問題です。「共役だから正しい」は誤り。データが十分多ければ事後はどの事前からでも似た所に収束する(事前分布・事後分布・ベイズ更新 のベイズ更新)ので、共役性は主に小標本での計算簡便化のメリットだと理解してください。

  2. ハイパーパラメータは擬似観測数として読む。 Beta(a,b)\mathrm{Beta}(a,b)a,ba,bGamma(α,β)\mathrm{Gamma}(\alpha,\beta)α,β\alpha,\beta は「すでに見た仮想データの件数」に対応します(§2.4・§3.3)。a+ba+bβ,ν\beta,\nu が大きいほど事前が強く、データに動かされにくくなります。「無情報のつもりで大きな値を入れる」のは逆に強い事前を入れることになり、誤りです。

  3. 正規分布は「何を未知にするか」で共役相手が違う。

    • 平均 μ\mu 未知・分散既知 → 共役は正規分布(§4)
    • 分散 σ2\sigma^2 未知・平均既知 → 共役は逆ガンマ分布(精度 τ\tau で見ればガンマ分布)
    • 平均・分散とも未知 → 共役は正規‐逆ガンマ(NIG)の同時事前

    「正規の共役は正規」と短絡すると、分散を推定する問題で間違えます。

  4. レート β\beta とスケール 1/β1/\beta の取り違え。 ガンマ分布は「レート母数 β\beta」と「スケール母数 1/β1/\beta」の2流儀があります。更新則 ββ+n\beta\to\beta+nレート表記でのものです。スケール表記の式と混ぜると符号・逆数を間違えるので、どちらの流儀かを必ず確認します。

  5. 「事後 = 事前 × 尤度」は比例関係。 等号で書くと正規化定数を落として誤りになります。\propto で書き、最後に分布族から正規化定数を回復するのが定石です。


よくある疑問(Q&A)

Q1. 共役事前分布を使うと、正しい(真の)事後分布が得られるのですか?

得られる事後分布は、その事前分布を仮定したうえでの正しい事後分布です。ただし「その事前分布が現実を正しく表しているか」は共役性とは無関係です。共役性が保証するのは「事後が事前と同じ分布族になり、解析的に計算できる」ことだけで、事前の妥当性は別途吟味が要ります。要するに、共役は計算の便宜であってモデルの正しさの保証ではない、というのが最重要の注意点です。

Q2. Beta(a,b)\mathrm{Beta}(a,b)a,ba,b はどう決めればいいのですか?

a,ba,b は「事前にどれだけ成功・失敗を見たと仮定するか」という擬似観測数として決めます。事前情報がほぼ無いなら Beta(1,1)\mathrm{Beta}(1,1)(一様)や Beta(0.5,0.5)\mathrm{Beta}(0.5,0.5)(ジェフリーズ事前)。「成功率は7割くらいで、根拠は10件程度」という確信があれば Beta(7,3)\mathrm{Beta}(7,3) のように、和 a+ba+b で確信の強さ、比 a/(a+b)a/(a+b) で事前平均を表現します。要するに「比で位置、和で強さ」を調整します。

Q3. なぜ共役性の証明で正規化定数を無視してよいのですか?

事後分布は密度なので、θ\theta について積分すると必ず1になります。だからカーネル(θ\theta を含む本体)の形さえ分布族と一致すれば、正規化定数はその分布族の定義から自動的に一意に決まります。途中で定数を追いかける手間が省けるので、\propto でカーネルだけ追うのが定石です。試験でも「\propto をうまく使って記述量を減らす」ことが評価されます。

Q4. データが増えると事前分布の影響はどうなりますか?

弱くなります。たとえば正規‐正規の事後平均 μn=τ0μ0+nτxˉτ0+nτ\mu_n=\dfrac{\tau_0\mu_0+n\tau\bar x}{\tau_0+n\tau} は、nn\to\inftyμnxˉ\mu_n\to\bar x(標本平均)に近づき、事前 μ0\mu_0 の寄与が消えます。ベータ‐二項でも a+k, b+nka+k,\ b+n-k のうち k, nkk,\ n-k が支配的になります。要するに「データが十分多ければ、どんな(妥当な)事前から出発しても事後はほぼ同じ所に落ち着く」。共役事前のメリットが効くのは主に小標本のときです。

Q5. 共役事前分布はいつも存在しますか?

いいえ。きれいな共役事前が存在するのは、尤度が指数型分布族に属するときに限られます(§6)。指数型でない尤度(例:自由度未知の tt 分布、一様分布の区間端の推定など)には一般に閉じた形の共役事前がなく、数値積分や MCMC(ベイズ推定・MAP推定 以降で扱う計算手法)に頼ることになります。要するに「共役は便利だが、使える尤度は限られている」ということです。


試験での問われ方(級ごとの差)

ベイズの事後分布計算は準1級・1級ともに出題されます。級で深さが明確に違います。

準1級レベル

代表的な共役ペア(特にベータ‐二項・ガンマ‐ポアソン・正規‐正規)について、事後分布のパラメータを実際に計算できるかが問われる。

1級レベル

個別のペア計算に加え、指数型分布族に共役事前が一般に存在するという理論(§6)と、その構成を扱える深さが求められる。

推定量の一般論は ベイズ推定・MAP推定、ベイズ更新の枠組み全体は 事前分布・事後分布・ベイズ更新 が前提です。


まとめ


関連ノート