← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:B(標準)

要点(BLUF)

ベイズ推定の答えは事後分布 π(θx)\pi(\theta\mid x) ですが、その正規化定数 f(xθ)π(θ)dθ\int f(x\mid\theta)\pi(\theta)\,d\theta が高次元では解析的に解けません。そこで「正規化定数を知らなくても事後分布から標本を取る」工夫が MCMC(マルコフ連鎖モンテカルロ) です。目標の事後分布 π\pi定常分布に持つマルコフ連鎖を作り、それを長く回して出てきた点の列を π\pi からの標本とみなします。

  α(θ,θ)=min ⁣(1, π(θ)q(θθ)π(θ)q(θθ))  \boxed{\; \alpha(\theta,\theta')=\min\!\left(1,\ \frac{\pi(\theta')\,q(\theta\mid\theta')}{\pi(\theta)\,q(\theta'\mid\theta)}\right) \;}

これがメトロポリス・ヘイスティングス法の受容確率です。要するに「提案 θ\theta' をこの確率で受け入れる連鎖を作ると、その定常分布がちょうど π\pi になる」。核心は π\pi が比 π(θ)/π(θ)\pi(\theta')/\pi(\theta) でしか現れないので、厄介な正規化定数が約分で消えることです。準1級では概念とこの受容確率の計算、1級では「受容確率が詳細釣り合いを満たす→π\pi が定常分布になる」導出と収束理論が問われます。


1. なぜ MCMC が要るのか(正規化定数の壁)

ベイズの定理(ベイズの定理)から、事後分布は

π(θx)=f(xθ)π(θ)f(xθ)π(θ)dθ=f(xθ)π(θ)Z\pi(\theta\mid x)=\frac{f(x\mid\theta)\,\pi(\theta)}{\displaystyle\int f(x\mid\theta)\,\pi(\theta)\,d\theta} =\frac{f(x\mid\theta)\,\pi(\theta)}{Z}

と書けます(事前分布・事後分布・ベイズ更新)。分子(尤度×事前)は θ\theta を代入すればいつでも計算できます。問題は分母の正規化定数(周辺尤度)

Z=m(x)=f(xθ)π(θ)dθZ=m(x)=\int f(x\mid\theta)\,\pi(\theta)\,d\theta

です。これは θ\theta の全空間にわたる積分で、要するに「分子を全部足したらいくつになるか」という規格化の係数です。

1.1 何が困るのか

ベイズ推定で実際に欲しいのは事後分布そのものより、そこからの期待値です。例えば事後平均(ベイズ推定・MAP推定

E[θx]=θπ(θx)dθ=θf(xθ)π(θ)dθZE[\theta\mid x]=\int \theta\,\pi(\theta\mid x)\,d\theta =\frac{\int \theta\,f(x\mid\theta)\,\pi(\theta)\,d\theta}{Z}

を求めるには、分子も分母も積分が要ります。共役な組み合わせ共役事前分布)なら ZZ も期待値も手計算で出ますが、現実のモデルはほとんど非共役です。さらに θ\theta が高次元(パラメータが何十個もある階層モデルなど)になると、ZZ の積分は次元の呪いで数値積分も歯が立ちません。

1.2 MCMC の発想

そこで発想を変えます。「ZZ を計算する」のではなく、「π(θx)\pi(\theta\mid x) から大量に標本 θ(1),,θ(N)\theta^{(1)},\dots,\theta^{(N)} を取り、期待値を標本平均で近似する」。

E[g(θ)x]1Nt=1Ng(θ(t))E[g(\theta)\mid x]\approx \frac{1}{N}\sum_{t=1}^{N} g(\theta^{(t)})

これは普通のモンテカルロ積分です。問題は「正規化されていない事後 f(xθ)π(θ)f(x\mid\theta)\pi(\theta) しか分からないのに、どうやってそこから標本を取るか」。その標本生成を、π\pi を定常分布とするマルコフ連鎖で実現するのが MCMC です。連鎖を回して得た点の列が、約束された性質(後述のエルゴード性)のもとで π\pi からの標本になります。

核心の一言:MCMC は ZZ を一切計算しません。後で見るように、受容確率に π\piでしか現れないため、ZZ は分子分母で約分されて消えます。これが「正規化定数が解けなくてもベイズ計算できる」理由です。


2. マルコフ連鎖の基礎(最小限)

MCMC を理解するのに必要なマルコフ連鎖の道具だけ整理します。連鎖そのものの一般論は 確率過程(マルコフ連鎖・ポアソン過程) に譲り、ここでは「目標分布を定常分布にする」ために要る概念に絞ります。

2.1 マルコフ性と推移核

マルコフ連鎖は「次の状態が、現在の状態だけで決まり、過去には依存しない」確率過程です。

P(θt+1θt,θt1,,θ0)=P(θt+1θt)P(\theta_{t+1}\mid \theta_t,\theta_{t-1},\dots,\theta_0)=P(\theta_{t+1}\mid \theta_t)

要するに「1個前の状態さえ分かれば、それより昔は忘れてよい」。遷移のルールを推移核(遷移核) P(θθ)P(\theta\to\theta') で表します(離散なら推移確率行列 PP、連続なら推移密度 P(θ,θ)P(\theta,\theta'))。

2.2 定常分布

分布 π\pi が推移核 PP定常分布であるとは、π\pi から出発した1ステップ後の分布がまた π\pi に戻ることです。

π(θ)=π(θ)P(θθ)dθ(離散なら π=πP)\pi(\theta')=\int \pi(\theta)\,P(\theta\to\theta')\,d\theta \qquad(\text{離散なら}\ \pi=\pi P)

要するに「π\pi にいったん落ち着いたら、連鎖を進めても分布が π\pi のまま動かない」。MCMC の目標は、欲しい事後分布 π(θx)\pi(\theta\mid x) をこの定常分布に持つような推移核 PP人工的に設計することです。

2.3 連鎖が「ちゃんと使える」ための条件

定常分布を持つだけでなく、どこから始めても定常分布に近づき、標本平均が真の期待値に収束することが要ります。そのための条件が以下です。

条件意味(要するに)
既約性(irreducibility)どの状態からどの状態へも有限ステップで到達できる。状態空間に「行けない孤島」がない
非周期性(aperiodicity)周期的にしか戻れない、ということがない。決まったリズムで循環しない
エルゴード性(ergodicity)既約かつ非周期 → 初期値によらず分布が一意の定常分布に収束する

エルゴード性が成り立つと、エルゴード定理により時間平均が空間平均(期待値)に一致します。

1Nt=1Ng(θ(t)) N Eπ[g(θ)]\frac{1}{N}\sum_{t=1}^{N} g(\theta^{(t)})\ \xrightarrow[N\to\infty]{}\ E_\pi[g(\theta)]

要するに「1本の連鎖を長く回した平均が、定常分布での期待値に収束する」。これが「連鎖の出力を π\pi の標本として使ってよい」理論的な根拠です。

2.4 詳細釣り合い(detailed balance)

定常分布の式 π=πP\pi=\pi P を直接設計するのは難しい(全状態の積分が絡む大域的な条件)です。そこで、もっと強くて局所的で扱いやすい条件を使います。それが**詳細釣り合い(可逆性)**です。

  π(θ)P(θθ)=π(θ)P(θθ)(すべての θ,θ)  \boxed{\;\pi(\theta)\,P(\theta\to\theta')=\pi(\theta')\,P(\theta'\to\theta)\quad(\text{すべての}\ \theta,\theta')\;}

要するに「θ\theta から θ\theta' への正味の流れと、θ\theta' から θ\theta への流れが釣り合っている」。状態間を行き来する確率の流れがどのペアでも左右対称、というイメージです。詳細釣り合いを満たす連鎖を**可逆(reversible)**と呼びます。

重要:詳細釣り合いは定常性の十分条件です(必要ではない)。詳細釣り合いさえ示せば、π=πP\pi=\pi P を直接確かめなくても π\pi が定常分布だと保証されます。証明は次節。


3. 詳細釣り合い → 定常分布の導出(1級の核心)

詳細釣り合いを満たせば π\pi が定常分布になることを示します。ここは1級で論述させられる部分なので、省略せず追います。

仮定π(θ)P(θθ)=π(θ)P(θθ)\pi(\theta)\,P(\theta\to\theta')=\pi(\theta')\,P(\theta'\to\theta) がすべての θ,θ\theta,\theta' で成り立つ。

示したいことπ(θ)P(θθ)dθ=π(θ)\displaystyle\int \pi(\theta)\,P(\theta\to\theta')\,d\theta=\pi(\theta')(つまり π=πP\pi=\pi P)。

両辺の左側を出発点に、詳細釣り合いで被積分関数を入れ替えます。

π(θ)P(θθ)dθ=π(θ)P(θθ)dθ(詳細釣り合いで置換)=π(θ)P(θθ)dθ(π(θ) は θ に無関係なので外へ)=π(θ)1(P(θθ)dθ=1 は遷移核の規格化)=π(θ)\begin{aligned} \int \pi(\theta)\,P(\theta\to\theta')\,d\theta &=\int \pi(\theta')\,P(\theta'\to\theta)\,d\theta &&(\text{詳細釣り合いで置換})\\[2pt] &=\pi(\theta')\int P(\theta'\to\theta)\,d\theta &&(\pi(\theta')\ \text{は}\ \theta\ \text{に無関係なので外へ})\\[2pt] &=\pi(\theta')\cdot 1 &&\left(\int P(\theta'\to\theta)\,d\theta=1\ \text{は遷移核の規格化}\right)\\[2pt] &=\pi(\theta') \end{aligned}

最後の鍵は「θ\theta' から出てどこかへ行く確率の合計は1」という、推移核そのものの性質 P(θθ)dθ=1\int P(\theta'\to\theta)\,d\theta=1 です。これで π=πP\pi=\pi P、すなわち π\pi が定常分布だと示せました。\blacksquare

要するに:詳細釣り合い(局所的な流れの対称性)を「全部の θ\theta について足す(積分する)」と、右辺は遷移確率の総和が1になって π(θ)\pi(\theta') がそのまま残る。だからペアごとの釣り合いを設計するだけで、大域的な定常性が自動的に手に入る。これが MCMC の設計戦略の土台です。

あとは「目標 π\pi について詳細釣り合いを満たす推移核を、実際にどう作るか」。それがメトロポリス・ヘイスティングス法です。


4. メトロポリス・ヘイスティングス法

メトロポリス法:二峰性の目標分布に標本ヒストグラムが一致し、トレースが2つの山を行き来する

図は simulations/mcmc_metropolis.py で生成。

4.1 アルゴリズム

現在地 θ\theta から、次の手順で次の点 θnext\theta_{\text{next}} を決めます。

  1. 提案:提案分布(遷移分布)q(θθ)q(\theta'\mid\theta) から候補 θ\theta' を1つ生成する(例:現在地中心の正規分布 θN(θ,σ2)\theta'\sim N(\theta,\sigma^2) でふらつかせる)。
  2. 受容確率の計算
α(θ,θ)=min ⁣(1, π(θ)q(θθ)π(θ)q(θθ))\alpha(\theta,\theta')=\min\!\left(1,\ \frac{\pi(\theta')\,q(\theta\mid\theta')}{\pi(\theta)\,q(\theta'\mid\theta)}\right)
  1. 採否の決定uUniform(0,1)u\sim \text{Uniform}(0,1) を引き、uαu\le\alpha なら受容して θnext=θ\theta_{\text{next}}=\theta'、そうでなければ棄却して θnext=θ\theta_{\text{next}}=\theta(その場にとどまる)。
  2. これを繰り返し、得られた点列 θ(1),θ(2),\theta^{(1)},\theta^{(2)},\dotsπ\pi からの標本とみなす。

要するに「当てずっぽうに次の点を提案し、事後密度が上がるなら基本受け入れ、下がるならその比に応じた確率で受け入れる」。下がる方向も時々受け入れるからこそ、山頂に貼り付かず分布全体をうろつけます。

flowchart TD
  A["現在地 θ"] --> B["提案分布 q から候補 θ' を生成"]
  B --> C["受容確率を計算<br/>α = min(1, π(θ')q(θ&#124;θ') / π(θ)q(θ'&#124;θ))"]
  C --> D["一様乱数 u ~ U(0,1) を引く"]
  D --> E{"u ≤ α ?"}
  E -- "Yes(受容)" --> F["θ_next = θ'(移動)"]
  E -- "No(棄却)" --> G["θ_next = θ(その場にとどまる)"]
  F --> H["θ_next を標本に記録"]
  G --> H
  H --> A

4.2 正規化定数が消える(核心)

受容確率の π\piπ(θ)/π(θ)\pi(\theta')/\pi(\theta) でしか現れません。事後分布 π(θ)=f(xθ)π0(θ)Z\pi(\theta)=\dfrac{f(x\mid\theta)\pi_0(\theta)}{Z}π0\pi_0 は事前、ZZ は正規化定数)を代入すると

π(θ)π(θ)=f(xθ)π0(θ)/Zf(xθ)π0(θ)/Z=f(xθ)π0(θ)f(xθ)π0(θ)\frac{\pi(\theta')}{\pi(\theta)} =\frac{f(x\mid\theta')\pi_0(\theta')/Z}{f(x\mid\theta)\pi_0(\theta)/Z} =\frac{f(x\mid\theta')\pi_0(\theta')}{f(x\mid\theta)\pi_0(\theta)}

ZZ が分子分母で約分されて消えました。 つまり受容確率は「尤度×事前」(計算できる分子)だけで決まり、解けない正規化定数 ZZ を一切使いません

α=min ⁣(1, f(xθ)π0(θ)q(θθ)f(xθ)π0(θ)q(θθ))\alpha=\min\!\left(1,\ \frac{f(x\mid\theta')\,\pi_0(\theta')\,q(\theta\mid\theta')}{f(x\mid\theta)\,\pi_0(\theta)\,q(\theta'\mid\theta)}\right)

要するに「ZZ が分からなくてもベイズ計算ができる、最大の理由がこの約分」。第1節で立てた壁を、ここで突破しています。

4.3 対称提案 → メトロポリス法

提案分布が対称 q(θθ)=q(θθ)q(\theta'\mid\theta)=q(\theta\mid\theta)(正規分布 N(θ,σ2)N(\theta,\sigma^2) や一様な小ステップなど、行きと帰りの提案確率が等しい)なら、qq の比が1になって受容確率は

  α=min ⁣(1, π(θ)π(θ))  \boxed{\;\alpha=\min\!\left(1,\ \frac{\pi(\theta')}{\pi(\theta)}\right)\;}

これが元祖メトロポリス法です。要するに「提案が対称なら、受容確率は事後密度の比だけ」。π(θ)π(θ)\pi(\theta')\ge\pi(\theta)(密度が上がる)なら比が1以上で α=1\alpha=1、必ず受容。下がるなら比そのものの確率で受容。メトロポリス・ヘイスティングス法は、これを非対称な提案でも使えるよう qq の補正項を入れて一般化したものです。

準1級の頻出計算:「現在 θ\theta、提案 θ\theta' のとき、対称提案での受容確率を求めよ」。π\pi は正規化前の値(尤度×事前)でよいので、π(θ)π(θ)\dfrac{\pi(\theta')}{\pi(\theta)} を計算して min(1,)\min(1,\cdot) を取るだけです。


5. 受容確率が詳細釣り合いを満たす導出(1級の核心)

「なぜこの受容確率なら π\pi が定常分布になるのか」を示します。第3節で「詳細釣り合いを満たせば π\pi は定常分布」と証明済みなので、ここでは MH の推移核が π\pi について詳細釣り合いを満たすことを示せば十分です。

MH の推移核(θθ\theta\ne\theta' のとき、実際に θθ\theta\to\theta' へ移る密度)は「提案する確率 × 受容する確率」

P(θθ)=q(θθ)α(θ,θ)(θθ)P(\theta\to\theta')=q(\theta'\mid\theta)\,\alpha(\theta,\theta') \qquad(\theta\ne\theta')

です。これが詳細釣り合い π(θ)P(θθ)=π(θ)P(θθ)\pi(\theta)P(\theta\to\theta')=\pi(\theta')P(\theta'\to\theta) を満たすことを示します。左辺は

π(θ)P(θθ)=π(θ)q(θθ)min ⁣(1, π(θ)q(θθ)π(θ)q(θθ))\pi(\theta)\,P(\theta\to\theta') =\pi(\theta)\,q(\theta'\mid\theta)\,\min\!\left(1,\ \frac{\pi(\theta')\,q(\theta\mid\theta')}{\pi(\theta)\,q(\theta'\mid\theta)}\right)

ここで min(1,r)\min(1,r) の中の分母 π(θ)q(θθ)\pi(\theta)q(\theta'\mid\theta) を外の係数と組ませると、一般公式 amin(1,b/a)=min(a,b)a\cdot\min(1,\,b/a)=\min(a,b)a>0a>0)が使えます。a=π(θ)q(θθ)a=\pi(\theta)q(\theta'\mid\theta)b=π(θ)q(θθ)b=\pi(\theta')q(\theta\mid\theta') として

π(θ)P(θθ)=min ⁣(π(θ)q(θθ)a, π(θ)q(θθ)b)\pi(\theta)\,P(\theta\to\theta') =\min\!\Big(\underbrace{\pi(\theta)\,q(\theta'\mid\theta)}_{a},\ \underbrace{\pi(\theta')\,q(\theta\mid\theta')}_{b}\Big)

この式は aabb を入れ替えても同じmin\min は対称:min(a,b)=min(b,a)\min(a,b)=\min(b,a))です。θ\thetaθ\theta' を全部入れ替えた右辺を計算すると

π(θ)P(θθ)=min ⁣(π(θ)q(θθ)b, π(θ)q(θθ)a)=min(a,b)\pi(\theta')\,P(\theta'\to\theta) =\min\!\Big(\underbrace{\pi(\theta')\,q(\theta\mid\theta')}_{b},\ \underbrace{\pi(\theta)\,q(\theta'\mid\theta)}_{a}\Big) =\min(a,b)

両者ともに min(a,b)\min(a,b) になり、一致します。

π(θ)P(θθ)=min(a,b)=π(θ)P(θθ)\pi(\theta)\,P(\theta\to\theta')=\min(a,b)=\pi(\theta')\,P(\theta'\to\theta)

よって MH の推移核は π\pi について詳細釣り合いを満たし、第3節の結果から π\pi が定常分布になります。\blacksquare

要するに:受容確率を min(1,b/a)\min(1,\,b/a) という形に取った瞬間、π(θ)P(θθ)\pi(\theta)P(\theta\to\theta') が対称な量 min(a,b)\min(a,b) に化ける。min\min が左右対称だから詳細釣り合いが自動的に成り立つ。この「min\min にすると対称になる」仕掛けこそ、受容確率があの形である理由です。なお棄却して θ\theta にとどまる確率は両辺に同じだけ寄与するので、上の θθ\theta\ne\theta' の議論で十分です。

エルゴード性(既約・非周期)は、提案分布 qq が状態空間全体に正の確率を割り振っていれば(例:全空間で正の正規分布の提案)満たされます。詳細釣り合い(定常性)+エルゴード性で、連鎖の標本平均が事後期待値に収束することが保証されます。


6. ギブスサンプリング

ギブスサンプリングは、パラメータが多次元 θ=(θ1,,θd)\theta=(\theta_1,\dots,\theta_d) のときに使える MCMC の特別な形です。発想は「1成分ずつ、他を固定したときの条件付き分布から順に引く」。

各ステップで、θj\theta_j 以外を今の値に固定した完全条件付き分布(full conditional)

π(θjθ1,,θj1,θj+1,,θd, x)\pi(\theta_j\mid \theta_1,\dots,\theta_{j-1},\theta_{j+1},\dots,\theta_d,\ x)

から θj\theta_j を1つサンプリングし、これを j=1,,dj=1,\dots,d と順に回して1サイクルとします。たとえば2次元なら

θ1(t+1)π(θ1θ2(t),x),θ2(t+1)π(θ2θ1(t+1),x)\theta_1^{(t+1)}\sim \pi(\theta_1\mid \theta_2^{(t)},x),\qquad \theta_2^{(t+1)}\sim \pi(\theta_2\mid \theta_1^{(t+1)},x)

要するに「多次元の同時分布を直接扱う代わりに、1変数ずつの条件付き分布に分解して順番にサンプリングする」。

ギブスの利点と前提

要するに:ギブスは「条件付き分布が綺麗に出る問題」専用の MH。問題の構造(共役性)に乗れるなら受容判定なしで回せる分お得、というのが位置づけです。


7. 収束診断

MCMC(メトロポリス法):標本が二峰の目標分布を埋め、トレースがバーンインを経て2つの山を行き来する過程

図(アニメ)は simulations/mcmc_metropolis_anim.py で生成。連鎖が歩きながら標本のヒストグラムが目標分布の形に埋まり、バーンインの助走後に2つの山を往復して定常状態に入る様子を動きで示す。

MCMC の出力は理論上は無限ステップで π\pi に収束しますが、有限回では「まだ定常に達していない初期」や「強い相関で実質的な情報量が少ない」問題があります。これを点検するのが収束診断です。

診断何を見るか(要するに)
バーンイン(burn-in)初期の数百〜数千ステップは初期値の影響が残るので捨てる。定常に落ち着く前の助走区間
トレースプロットサンプル値を時間軸で折れ線にする。水平な帯状にばらつけば収束、ドリフトや張り付きがあれば未収束
自己相関(autocorrelation)連続する標本は相関する(前の点から少しずらすだけだから)。相関が強いほど「同じような点」が並び、実質の情報が少ない
有効サンプルサイズ(ESS)自己相関を考慮した「実質の独立標本数」。NN 個取っても相関が強いと ESS は NN より大幅に小さい
Gelman–Rubin(R^\hat R初期値を変えた複数チェーンを回し、チェーン間とチェーン内の分散を比較。R^1\hat R\approx 1 なら収束、11 から大きく外れると未収束

要するに「標本が本当に π\pi を代表しているか(初期の影響が抜けたか・相関で痩せていないか)を確かめる作業」。有効サンプルサイズの直観は

ESSN1+2k1ρk\text{ESS}\approx \frac{N}{1+2\sum_{k\ge1}\rho_k}

ρk\rho_k はラグ kk の自己相関)で、相関 ρk\rho_k が大きいほど分母が膨らみ ESS が減ります。要するに「相関が強いほど、たくさん取っても独立標本としては少ししか得していない」。


8. 引っかけ・頻出論点


試験での問われ方(級ごとの差)

MCMC は準1級・1級の出題範囲ですが、毎回必ず出るわけではありません(出題範囲・配点は改訂されうるため要最新確認)。級で問われる深さが明確に違います。

準1級レベル

ここで問われるのは「概念と手順、受容確率の計算」。なぜ MCMC が要るか(正規化定数の壁)を説明でき、メトロポリス法の手順をたどれ、与えられた π\pi の値から受容確率を計算できるか。

1級レベル

ここで問われるのは「理論と導出」。詳細釣り合いの定義から π\pi が定常分布になることを導き、MH の受容確率がなぜその形かを詳細釣り合いから説明できるか。収束理論(エルゴード性)まで。

最尤法・尤度の扱いは 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)、事後分布の作り方は 事前分布・事後分布・ベイズ更新 が前提です。


よくある疑問(Q&A)

Q1. なぜ「正規化定数が解けない」ことが、わざわざマルコフ連鎖を作る理由になるのですか?

正規化定数 Z=f(xθ)π0(θ)dθZ=\int f(x\mid\theta)\pi_0(\theta)d\theta が解析的に解けず、高次元では数値積分も無理だからです。普通の棄却サンプリングや逆変換法は分布の規格化された形を要求しますが、MCMC はπ(θ)/π(θ)\pi(\theta')/\pi(\theta) しか使わないので ZZ が約分で消え、規格化なしで標本が取れます。「ZZ を求めずに事後から標本を取る」唯一現実的な道がマルコフ連鎖を回すことだ、というのが理由です。

Q2. 受容確率が下がる方向(事後密度が低い候補)も時々受け入れるのはなぜですか? 山頂だけ取れば十分では?

山頂(MAP)だけ取ると事後分布の形が再現できないからです。MCMC が欲しいのは1点ではなく分布全体(から期待値や信用区間を計算する、ベイズ推定・MAP推定)。下がる方向も比 π(θ)/π(θ)\pi(\theta')/\pi(\theta) の確率で受け入れるからこそ、密度の高いところに長く、低いところに短く滞在し、滞在時間の割合が事後確率に比例します。下がる方向を全く受け入れないと山頂に貼り付いて、分布の裾を一切サンプリングできません。

Q3. メトロポリス法とメトロポリス・ヘイスティングス法は何が違うのですか?

提案分布 qq対称か非対称かだけの違いです。メトロポリス法は対称提案(q(θθ)=q(θθ)q(\theta'\mid\theta)=q(\theta\mid\theta')、正規分布での提案など)専用で、受容確率は min(1,π(θ)/π(θ))\min(1,\pi(\theta')/\pi(\theta))。メトロポリス・ヘイスティングス法はこれを非対称提案でも正しく動くよう一般化し、補正項 q(θθ)/q(θθ)q(\theta\mid\theta')/q(\theta'\mid\theta) を掛けます。対称なら補正項が1になり MH がメトロポリスに退化します。つまりメトロポリスは MH の特殊ケースです。

Q4. 棄却された場合、その回は標本としてどう扱いますか?

棄却したら次の状態は現在地と同じ値になり、それを1つの標本として記録します。「棄却=記録なし」ではありません。同じ点が連続して記録されるのは、その点の事後確率が高く滞在が長いことの表れで、これがあるからこそ滞在時間が事後確率に比例します。これを誤解して棄却時に何も記録しないと、滞在時間の重み付けが壊れて事後分布が歪みます。

Q5. ギブスサンプリングはメトロポリス法と全く別物ですか?

別物ではなく、ギブスは受容確率がつねに1になる MH の特殊ケースと見なせます。完全条件付き分布からそのまま引くので「提案が必ず受容される」状況に相当します。だから受容判定が要りません。ただし使える条件が厳しく、各成分の完全条件付き分布が既知でサンプリング可能(共役モデルなど)でなければなりません。引けない成分があればその成分だけ通常の MH を使う「メトロポリス内ギブス」になります。


まとめ


関連ノート