← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:B(標準)

要点(BLUF)


1. なぜ3つもあるのか

同じ帰無仮説 H0:θ=θ0H_0:\theta=\theta_0 を、尤度の情報を使って検定する方法が3通りある、という話です。すべて「最尤推定(MLE)の漸近理論」を土台にしています。前提として 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論) の尤度・対数尤度、推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式) のフィッシャー情報量 I(θ)I(\theta) を使います。

記号を先に固めます。

直観の核を1枚の図にします。対数尤度のグラフ (θ)\ell(\theta) を頭に描いてください。山の頂点が θ^\hat\theta、横軸上のどこかに帰無値 θ0\theta_0 があります。3つの検定は、この山の「どこを測るか」が違うだけです。

graph TD
    LL["対数尤度曲線 ℓ(θ)<br/>頂点 = 非制約MLE θ̂"]
    LL -->|"頂点と θ0 の<br/>高さの差を測る"| LRT["尤度比検定 LRT<br/>−2 ln λ = 2{ℓ(θ̂) − ℓ(θ0)}"]
    LL -->|"θ̂ と θ0 の<br/>横方向の距離を測る"| WALD["Wald 検定<br/>(θ̂ − θ0)² · I(θ̂)"]
    LL -->|"θ0 での<br/>接線の傾きを測る"| SCORE["スコア検定 ラオ検定<br/>U(θ0)² / I(θ0)"]
    LRT -->|"漸近的に一致"| CHI["χ²_r 分布<br/>(r = 制約の数)"]
    WALD -->|"漸近的に一致"| CHI
    SCORE -->|"漸近的に一致"| CHI

要するに:同じ山を「縦に測る(LRT)/横に測る(Wald)/傾きで測る(スコア)」の3視点。標本が大きければ山は放物線に近づき、3つの測り方は同じ値に収束します。


2. 3統計量の定式化

尤度比・Wald・スコア:同じ対数尤度曲線を3通りの距離で測る(縦の差・接線の傾き・横の距離)

図は simulations/lr_wald_score_kika.py で生成。

ここではパラメータが1次元、制約が1個(r=1r=1)の場合で式を書きます。多次元への一般化は後述します。

尤度比検定(LRT, Likelihood Ratio Test)

尤度比 λ\lambda を「制約付き尤度 ÷ 非制約尤度」で定義します。

λ=L(θ0)L(θ^)=supθΘ0L(θ)supθΘL(θ)\lambda=\frac{L(\theta_0)}{L(\hat\theta)}=\frac{\sup_{\theta\in\Theta_0}L(\theta)}{\sup_{\theta\in\Theta}L(\theta)}

分子は帰無仮説の枠 Θ0\Theta_0 の中での最大尤度、分母は全空間 Θ\Theta での最大尤度です。Θ0Θ\Theta_0\subset\Theta なので必ず 0<λ10<\lambda\le 1H0H_0 が正しければ λ\lambda は1に近く、外れているほど0に近づきます。

検定統計量は対数を取って 2-2 倍します。

2lnλ=2{(θ^)(θ0)} d χr2-2\ln\lambda = 2\bigl\{\ell(\hat\theta)-\ell(\theta_0)\bigr\}\ \xrightarrow{d}\ \chi^2_r

要するに:頂点の高さ (θ^)\ell(\hat\theta) と帰無値での高さ (θ0)\ell(\theta_0)を2倍したもの。H0H_0 が外れているほど頂点との段差が大きくなり、統計量が大きくなって棄却に向かいます。この χr2\chi^2_r 収束が Wilksの定理です。

Wald検定

MLEの漸近正規性を使います。正則条件の下で

θ^ approx N ⁣(θ, I(θ^)1)\hat\theta \ \overset{\text{approx}}{\sim}\ N\!\bigl(\theta,\ I(\hat\theta)^{-1}\bigr)

が成り立つので、θ^\hat\thetaθ0\theta_0 からの「ずれ」で測り、その分散 I(θ^)1I(\hat\theta)^{-1} で標準化して2乗します。

W=(θ^θ0)2I(θ^) d χr2W=(\hat\theta-\theta_0)^2\, I(\hat\theta)\ \xrightarrow{d}\ \chi^2_r

要するに:頂点の位置 θ^\hat\theta が帰無値 θ0\theta_0 から横にどれだけ離れているかを、情報量で重みづけして測る。θ^\hat\thetaI(θ^)I(\hat\theta) だけで計算できるのが利点(帰無仮説の下の再推定が要らない)。

スコア検定(ラオ検定, Score / Rao Test)

帰無値 θ0\theta_0 における**スコア(傾き)**を見ます。θ^\hat\theta が真値に近ければ U(θ^)=0U(\hat\theta)=0(頂点では傾き0)ですが、θ0\theta_0 が頂点から外れていれば U(θ0)0U(\theta_0)\ne 0。この傾きの大きさを、スコアの分散 I(θ0)I(\theta_0) で標準化して2乗します。

S=U(θ0)2I(θ0) d χr2S=\frac{U(\theta_0)^2}{I(\theta_0)}\ \xrightarrow{d}\ \chi^2_r

要するに:頂点(非制約MLE)を一切計算せず、帰無値 θ0\theta_0 での接線の急さだけで「θ0\theta_0 は頂点からどれくらいズレているか」を測る。θ0\theta_0 での評価だけで済むのが利点。

多次元(制約 r>1r>1)への一般化

パラメータが pp 次元ベクトル θ\boldsymbol\thetarr 個の等式制約を置く場合、上の3式はベクトル・行列版になります(II はフィッシャー情報行列)。

W=(θ^θ0) ⁣I(θ^)(θ^θ0),S=U(θ0) ⁣I(θ0)1U(θ0)W=(\hat{\boldsymbol\theta}-\boldsymbol\theta_0)^{\!\top} I(\hat{\boldsymbol\theta})\,(\hat{\boldsymbol\theta}-\boldsymbol\theta_0), \qquad S=U(\boldsymbol\theta_0)^{\!\top} I(\boldsymbol\theta_0)^{-1} U(\boldsymbol\theta_0)

いずれも自由度 rrχ2\chi^2 へ収束します。χ2\chi^2 分布そのものは t分布・カイ二乗分布・F分布(標本分布の三役) を参照。


3. 導出:なぜ3つとも漸近 χ² で一致するのか

ここが1級の核心です。「対数尤度を頂点まわりで2次までテイラー展開する」——この一手で3統計量が同じ二次形式に潰れる、という筋を追います。

ステップ1:対数尤度を θ^\hat\theta まわりで2次展開する

(θ)\ell(\theta) を非制約MLE θ^\hat\theta のまわりでテイラー展開し、θ=θ0\theta=\theta_0 を代入します。

(θ0)(θ^)+(θ^)=0(θ0θ^)+12(θ^)(θ0θ^)2\ell(\theta_0)\approx \ell(\hat\theta)+\underbrace{\ell'(\hat\theta)}_{=\,0}\,(\theta_0-\hat\theta)+\frac{1}{2}\ell''(\hat\theta)\,(\theta_0-\hat\theta)^2

要するに:頂点では傾き (θ^)=U(θ^)=0\ell'(\hat\theta)=U(\hat\theta)=0 なので1次の項が消える。残るのは「定数項+2次の項」だけ。これが「標本が大きいと対数尤度は放物線に見える」の数式的な中身です。

ステップ2:曲率をフィッシャー情報量に置き換える

2階微分 (θ^)-\ell''(\hat\theta)観測情報量で、大数の法則により期待値であるフィッシャー情報量に近づきます。

(θ^)  I(θ^)  I(θ0)-\ell''(\hat\theta)\ \approx\ I(\hat\theta)\ \approx\ I(\theta_0)

θ^\hat\theta は一致推定量なので θ^pθ\hat\theta\xrightarrow{p}\theta、よって I(θ^)I(\hat\theta)I(θ0)I(\theta_0) は漸近的に同じ。)これをステップ1に入れて整理すると、

2{(θ^)(θ0)}  (θ^θ0)2I(θ^)2\bigl\{\ell(\hat\theta)-\ell(\theta_0)\bigr\}\ \approx\ (\hat\theta-\theta_0)^2\, I(\hat\theta)

要するに:左辺はLRT統計量、右辺はWald統計量そのもの。2次展開しただけで LRTW\mathrm{LRT}\approx W が出ました。Waldは「対数尤度を放物線で近似したときのLRT」と言えます。

ステップ3:スコアを線形化して結びつける

次にスコア U(θ0)U(\theta_0)θ^\hat\theta のまわりで1次展開します(U(θ^)=0U(\hat\theta)=0 を使う)。

U(θ0)U(θ^)+U(θ^)(θ0θ^)=0+(θ^)(θ0θ^)I(θ0)(θ^θ0)U(\theta_0)\approx U(\hat\theta)+U'(\hat\theta)\,(\theta_0-\hat\theta) = 0+\ell''(\hat\theta)\,(\theta_0-\hat\theta)\approx -\,I(\theta_0)\,(\hat\theta-\theta_0)

これがスコアとずれを結ぶ要の関係式です。両辺を2乗して I(θ0)I(\theta_0) で割ると、

U(θ0)2I(θ0)  I(θ0)2(θ^θ0)2I(θ0)=(θ^θ0)2I(θ0)\frac{U(\theta_0)^2}{I(\theta_0)}\ \approx\ \frac{I(\theta_0)^2(\hat\theta-\theta_0)^2}{I(\theta_0)}=(\hat\theta-\theta_0)^2\, I(\theta_0)

要するに:左辺はスコア統計量 SS、右辺はWald統計量 WW(情報量を θ0\theta_0 で評価した版)。つまり SWS\approx W。ステップ2と合わせて LRTWS\mathrm{LRT}\approx W\approx S が示せました。

ステップ4:漸近分布を確定する

ずれ (θ^θ0)(\hat\theta-\theta_0) は、H0H_0 の下でMLEの漸近正規性により

I(θ0)(θ^θ0) d N(0,1)\sqrt{I(\theta_0)}\,(\hat\theta-\theta_0)\ \xrightarrow{d}\ N(0,1)

に従います。これを2乗したものが W=(θ^θ0)2I(θ0)W=(\hat\theta-\theta_0)^2 I(\theta_0) なので、標準正規の2乗=自由度1のカイ二乗として

W d χ12W\ \xrightarrow{d}\ \chi^2_1

制約が rr 個なら、独立な標準正規 rr 個の2乗和になるので χr2\chi^2_rWW に漸近同値だった LRT・スコアも同じ χr2\chi^2_r に収束します。\blacksquare

まとめると導出の骨は3つだけ:(1) 対数尤度を2次展開すると1次項が消える、(2) 曲率=フィッシャー情報量、(3) スコア I\approx -I\cdotずれ。この3つで「高さ・横距離・傾き」が同じ二次形式に化けます。

graph LR
    A["対数尤度 ℓ を θ̂ まわりで<br/>2次テイラー展開<br/>(1次項は U(θ̂)=0 で消える)"] --> B["LRT = 2{ℓ(θ̂)−ℓ(θ0)}<br/>≈ (θ̂−θ0)² I"]
    A --> C["スコアを線形化<br/>U(θ0) ≈ −I(θ0)(θ̂−θ0)"]
    C --> D["S = U(θ0)²/I(θ0)<br/>≈ (θ̂−θ0)² I"]
    B --> E["3統計量が同じ二次形式<br/>(θ̂−θ0)² I に一致"]
    D --> E
    E --> F["√I (θ̂−θ0) → N(0,1)<br/>その2乗 → χ²_r"]

4. 具体例

例1:正規分布の母平均(分散既知)

X1,,XnN(μ,σ2)X_1,\dots,X_n\sim N(\mu,\sigma^2)σ2\sigma^2 既知。H0:μ=μ0H_0:\mu=\mu_0 を検定します。対数尤度から

U(μ)=n(Xˉμ)σ2,I(μ)=nσ2,μ^=XˉU(\mu)=\frac{n(\bar X-\mu)}{\sigma^2},\qquad I(\mu)=\frac{n}{\sigma^2},\qquad \hat\mu=\bar X

3統計量を計算すると、いずれも

W=S=2lnλ=n(Xˉμ0)2σ2=(Xˉμ0σ/n)2=Z2W=S=-2\ln\lambda=\frac{n(\bar X-\mu_0)^2}{\sigma^2}=\left(\frac{\bar X-\mu_0}{\sigma/\sqrt n}\right)^2=Z^2

になり、完全に一致します(ZZ は標準正規検定統計量)。

要するに:正規・分散既知では対数尤度が厳密に放物線なので、2次展開が近似でなく等式になり、3検定が一致します。3検定がズレるのは対数尤度が非対称(歪んでいる)ときだけです。

例2:二項分布の成功確率

XBin(n,p)X\sim \mathrm{Bin}(n,p)、観測値 xxp^=x/n\hat p=x/nH0:p=p0H_0:p=p_0 を検定します。

U(p)=xpnx1p,I(p)=np(1p)U(p)=\frac{x}{p}-\frac{n-x}{1-p},\qquad I(p)=\frac{n}{p(1-p)}

各統計量は次の形になります。

W=(p^p0)2p^(1p^)/n,S=(p^p0)2p0(1p0)/n,2lnλ=2 ⁣[xlnp^p0+(nx)ln1p^1p0]W=\frac{(\hat p-p_0)^2}{\hat p(1-\hat p)/n},\qquad S=\frac{(\hat p-p_0)^2}{p_0(1-p_0)/n},\qquad -2\ln\lambda=2\!\left[x\ln\frac{\hat p}{p_0}+(n-x)\ln\frac{1-\hat p}{1-p_0}\right]

要するに:Waldは分母に p^(1p^)\hat p(1-\hat p)(推定値で分散を見積もる)、スコアは分母に p0(1p0)p_0(1-p_0)(帰無値で分散を見積もる)。ここが両者の決定的な違いで、p^\hat p が0や1に近いとWaldの分散がほぼ0になり統計量が暴れます。比率の検定で「スコア型(Wilson)信頼区間の方が安定」と言われる理由です。


5. 試験での問われ方(級ごとの差)

このトピックは導出が準1級・1級で共通のため級セクションでは切らず、ここで級差をまとめます。

準1級:概念・使い分けが中心。「3検定がそれぞれ対数尤度の何(高さ/横距離/傾き)を見ているか」「どの検定がどのMLEだけで計算できるか」「自由度=制約の数」を問う選択・空欄補充レベル。2lnλdχr2-2\ln\lambda\xrightarrow{d}\chi^2_r の事実(Wilksの定理)と自由度の決め方を答えられれば十分なことが多いです。年度により出題比重は変わるため要最新確認

1級:導出・漸近論まで。対数尤度の2次展開から3統計量の漸近同値を示す、特定分布(正規・二項・ポアソン・指数など)で3統計量を具体的に計算させる、尤度比統計量の分布を導く、といった記述が問われます。スコア U(θ0)I(θ0)(θ^θ0)U(\theta_0)\approx -I(\theta_0)(\hat\theta-\theta_0) の線形化や、正則条件への言及まで踏み込めると安全です。

graph TD
    Q["手元にあるMLEは?"]
    Q -->|"両方のMLEがある"| L["尤度比検定 LRT<br/>(最も信頼できる・不変)"]
    Q -->|"非制約MLE θ̂ だけ"| W2["Wald 検定<br/>(モデルを1回だけ当てはめ)"]
    Q -->|"制約MLE θ0 だけ"| S2["スコア検定<br/>(帰無の下だけで済む)"]

⚠️ 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. 3つはどう使い分ける? 計算量の観点で。 A. 必要なMLEが違うのが本質です。LRTは制約付き・非制約の両方のMLEが要る(最も手間だが最も信頼できる)。Waldは非制約MLE θ^\hat\theta だけで済む(モデルを1回当てはめれば良い)。スコアは制約MLE(=帰無の下の推定)だけで済み、非制約MLEを一切計算しなくてよい。だから「複雑なフルモデルを当てはめたくない」場面ではスコア、「制約モデルが解けない」場面ではWaldが選ばれます。

Q2. なぜWaldだけ再パラメータ化で答えが変わるの? A. Waldは「θ^\hat\theta を頂点とする放物線近似の上で横距離を測る」検定だからです。θ\thetag(θ)g(\theta) に変換すると尤度の形(曲がり方)が変わり、放物線近似も別物になるため、(θ^θ0)2I(\hat\theta-\theta_0)^2 I の値が変わります。一方LRTは尤度のそのもの(高さの差)なので、軸の取り替えで高さは変わらず不変。スコアも不変(UUII が変換に整合して打ち消し合う)。実務的含意:Waldで非有意でもLRTでは有意、ということが起こり得ます。

Q3. 自由度はどう決まる? なぜ「制約の数」なの? A. 帰無仮説で固定したパラメータの数が自由度です。導出ステップ4で見たように、各制約が1個の標準正規を生み、その2乗が χ12\chi^2_1。独立な制約 rr 個なら χ12\chi^2_1rr 個足されて χr2\chi^2_r になります。「自由パラメータをいくつ潰したか」=失った自由度の数、と理解すると直観的です。総パラメータ数ではない点に注意。

Q4. 有限標本ではどれが保守的(厳しめ)? A. 一概には言えませんが、傾向としてWaldは尤度が歪むと不安定で、信頼区間が広がりすぎたり(保守的)狭まりすぎたり(リベラル)します。特に二項で p^\hat p が0/1付近のとき分散推定 p^(1p^)\hat p(1-\hat p) がほぼ0になり統計量が暴走します。LRTは比較的頑健スコアは帰無の下で分散を評価するぶん境界付近でも安定しやすい。小標本ではLRTかスコアを優先するのが定石です。

Q5. Wilksの定理が成り立たないのはどんなとき? A. 正則条件が崩れるときです。代表例は θ0\theta_0パラメータ空間の境界にある場合(分散が0、混合モデルで一成分の混合比が0、など)。このとき θ^\hat\theta がその境界に張り付くので漸近正規性が崩れ、2lnλ-2\ln\lambda は標準の χr2\chi^2_r ではなく χ2\chi^2 の混合分布(例:12χ02+12χ12\frac12\chi^2_0+\frac12\chi^2_1)などになります。他にも、真の分布がモデル族に入っていない(誤特定)、情報量が特異、サンプルに依存して台が変わる(一様分布の端点など)場合も標準理論が使えません。


まとめ


関連ノート