← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:A(頻出)

最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)

要点(BLUF)

方法原理ひとことで
最尤法(MLE)観測データを最も起こりやすくする母数を選ぶ尤度 L(θ)L(\theta) を最大化する θ^\hat\theta
モーメント法(MM)標本モーメント=母モーメントを解く1nXik=E[Xk]\frac1n\sum X_i^k = E[X^k] を母数について解く

本文

1. 最尤法の原理:データを最も起こりやすくする母数を選ぶ

対数尤度の頂点が最尤推定値

コイン10回中7回表のときの対数尤度。頂点 p=0.7(=k/n)が最尤推定値。図は simulations/yuudo_mle_keijou.py で生成。

母数 θ\theta を持つ分布から i.i.d. 標本 X1,,XnX_1,\dots,X_n を取り、実現値 x1,,xnx_1,\dots,x_n を観測したとします。確率(密度)関数を f(x;θ)f(x;\theta) とすると、この標本全体が得られる同時確率(密度)は独立性から積になります:

f(x1,,xn;θ)=i=1nf(xi;θ).f(x_1,\dots,x_n;\theta)=\prod_{i=1}^n f(x_i;\theta).

ここで視点を反転させます。 いつもは「θ\theta を固定して xx を動かす」(確率分布として見る)。最尤法では逆に、xx(観測データ)を固定して θ\theta を動かす関数として見ます。これを 尤度関数(likelihood function) と呼びます:

L(θ)=L(θx1,,xn)=i=1nf(xi;θ)\boxed{\,L(\theta)=L(\theta\mid x_1,\dots,x_n)=\prod_{i=1}^n f(x_i;\theta)\,}

定義(最尤推定量):尤度 L(θ)L(\theta) を最大にする θ\theta最尤推定量(Maximum Likelihood Estimator, MLE) と呼び、θ^ML\hat\theta_{\mathrm{ML}} と書く。 θ^ML=argmaxθ L(θ).\hat\theta_{\mathrm{ML}}=\arg\max_{\theta}\ L(\theta).

要するに:手元のデータ x1,,xnx_1,\dots,x_n が「一番出やすかった」ことにする母数を選ぶ。たとえばコインを10回投げて7回表が出たなら、「表が出る確率 pp はいくつだと、この7回という結果が一番起こりやすいか?」を逆算する ── 直感的には p=0.7p=0.7 になりそうで、実際あとで MLE が p^=0.7\hat p=0.7 になることを導きます。

flowchart TD
    A["確率分布 f(x;θ)<br/>θを固定し x を動かす<br/>(データの出方)"] -->|視点を反転| B["尤度 L(θ)=∏ f(xᵢ;θ)<br/>x を固定し θ を動かす<br/>(母数の関数)"]
    B --> C["対数を取る<br/>ℓ(θ)=Σ log f(xᵢ;θ)<br/>積→和で扱いやすく"]
    C --> D["尤度方程式<br/>∂ℓ/∂θ=0 を解く"]
    D --> E["最尤推定量 θ̂_ML"]
    style B fill:#e8f4ff
    style E fill:#ffe8e8

2. 対数尤度と尤度方程式:なぜ log を取るのか

L(θ)L(\theta) は積の形なので、微分(積の微分)が煩雑です。そこで対数を取って積を和に変えます。対数は単調増加関数なので、L(θ)L(\theta) を最大にする θ\thetalogL(θ)\log L(\theta) を最大にする θ\theta完全に同じです(最大化点は変わらない)。

定義(対数尤度)(θ)=logL(θ)=i=1nlogf(xi;θ).\ell(\theta)=\log L(\theta)=\sum_{i=1}^n \log f(x_i;\theta).

これを θ\theta で微分して0と置いた式が 尤度方程式(likelihood equation)

(θ)θ=i=1nθlogf(xi;θ)=0\boxed{\,\frac{\partial \ell(\theta)}{\partial\theta}=\sum_{i=1}^n \frac{\partial}{\partial\theta}\log f(x_i;\theta)=0\,}

要するに:「対数尤度のグラフの傾きが0になる点」を探す ── これが最尤推定量。\ellθ\theta で微分したもの θ\dfrac{\partial\ell}{\partial\theta}スコア関数(score function) と呼び、後の漸近論の主役になります。

⚠️ 尤度方程式を解いて出た点が本当に最大かは、二階微分 2θ2<0\dfrac{\partial^2\ell}{\partial\theta^2}<0(上に凸)で確認するのが厳密。試験では多くの分布で一意の最大値になるため省略されがちですが、原理上は必要なチェックです。また、最大値が端点で達することもある(一様分布など)ので、微分が0にならない型の問題もあります。

log を取る実用的な理由は3つ:(1) 積が和になり微分が楽、(2) 指数型分布(正規・ポアソン・指数など)では exp\exp が消えて式が劇的に簡単になる、(3) 数値計算で積はアンダーフローしやすいが和なら安定。


3. 具体例の完全導出

最尤法の威力は手を動かすと分かります。代表的な4分布を尤度方程式から導きます。

3.1 ベルヌーイ分布・二項分布:p^\hat p

XiX_i が成功確率 pp のベルヌーイ分布(ベルヌーイ分布・二項分布)に従うとします。確率関数は f(x;p)=px(1p)1x (x{0,1})f(x;p)=p^x(1-p)^{1-x}\ (x\in\{0,1\})。データの成功回数を xi\sum x_i とすると尤度は:

L(p)=i=1npxi(1p)1xi=pxi(1p)nxi.L(p)=\prod_{i=1}^n p^{x_i}(1-p)^{1-x_i}=p^{\sum x_i}(1-p)^{n-\sum x_i}.

対数尤度:

(p)=(xi)logp+(nxi)log(1p).\ell(p)=\Big(\sum x_i\Big)\log p + \Big(n-\sum x_i\Big)\log(1-p).

尤度方程式 ddp=0\dfrac{d\ell}{dp}=0

ddp=xipnxi1p=0.\frac{d\ell}{dp}=\frac{\sum x_i}{p}-\frac{n-\sum x_i}{1-p}=0.

両辺に p(1p)p(1-p) を掛けて整理すると (1p)xi=p(nxi)(1-p)\sum x_i = p\,(n-\sum x_i)、すなわち xi=pn\sum x_i = pn。よって:

p^ML=1ni=1nxi=xˉ\boxed{\,\hat p_{\mathrm{ML}}=\frac{1}{n}\sum_{i=1}^n x_i=\bar x\,}

要するに:成功割合(標本比率)がそのまま pp の最尤推定量。コイン10回で7回表なら p^=0.7\hat p=0.7。冒頭の直感どおりです。二項分布 Bin(n,p)\mathrm{Bin}(n,p) を1回観測した場合も同じく p^=x/n\hat p=x/n になります。

3.2 ポアソン分布:λ^\hat\lambda

XiX_i が平均 λ\lambda のポアソン分布(ポアソン分布)に従うとします。f(x;λ)=λxeλx!f(x;\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!}。対数尤度(log で exp\exp と階乗が分離する):

(λ)=i=1n(xilogλλlog(xi!))=(xi)logλnλlog(xi!).\ell(\lambda)=\sum_{i=1}^n\Big(x_i\log\lambda - \lambda - \log(x_i!)\Big)=\Big(\sum x_i\Big)\log\lambda - n\lambda - \sum\log(x_i!).

最後の項は λ\lambda を含まないので微分で消えます。尤度方程式:

ddλ=xiλn=0  λ^ML=1ni=1nxi=xˉ\frac{d\ell}{d\lambda}=\frac{\sum x_i}{\lambda}-n=0\ \Longrightarrow\ \boxed{\,\hat\lambda_{\mathrm{ML}}=\frac1n\sum_{i=1}^n x_i=\bar x\,}

要するに:標本平均が λ\lambda の最尤推定量。ポアソンは平均=分散なので、xˉ\bar x で平均を推定するのが自然。

3.3 指数分布:λ^\hat\lambda

XiX_i がレート λ\lambda の指数分布(指数分布・ガンマ分布・ベータ分布)に従うとします。f(x;λ)=λeλx (x>0)f(x;\lambda)=\lambda e^{-\lambda x}\ (x>0)。対数尤度:

(λ)=i=1n(logλλxi)=nlogλλxi.\ell(\lambda)=\sum_{i=1}^n\big(\log\lambda - \lambda x_i\big)=n\log\lambda - \lambda\sum x_i.

尤度方程式:

ddλ=nλxi=0  λ^ML=nxi=1xˉ\frac{d\ell}{d\lambda}=\frac{n}{\lambda}-\sum x_i=0\ \Longrightarrow\ \boxed{\,\hat\lambda_{\mathrm{ML}}=\frac{n}{\sum x_i}=\frac{1}{\bar x}\,}

要するに:標本平均の逆数がレートの最尤推定量。指数分布の平均は 1/λ1/\lambda なので、平均を xˉ\bar x で推定すれば λ=1/xˉ\lambda=1/\bar x。なお 1/xˉ1/\bar xλ\lambda について不偏ではない(後述。逆数という非線形変換のため E[1/Xˉ]1/E[Xˉ]E[1/\bar X]\ne 1/E[\bar X])。

3.4 正規分布 N(μ,σ2)N(\mu,\sigma^2)μ^,σ^2\hat\mu,\hat\sigma^2(バイアスまで)

2母数の例。密度(正規分布(標準正規・標準化))は f(x;μ,σ2)=12πσ2exp ⁣((xμ)22σ2)f(x;\mu,\sigma^2)=\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)。対数尤度:

(μ,σ2)=n2log(2π)n2logσ212σ2i=1n(xiμ)2.\ell(\mu,\sigma^2)=-\frac n2\log(2\pi)-\frac n2\log\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2.

母数が2つなので、それぞれで偏微分して連立します(尤度方程式が2本)。

μ\mu について

μ=1σ2i=1n(xiμ)=0  xi=nμ  μ^ML=xˉ\frac{\partial\ell}{\partial\mu}=\frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu)=0\ \Longrightarrow\ \sum x_i=n\mu\ \Longrightarrow\ \boxed{\,\hat\mu_{\mathrm{ML}}=\bar x\,}

σ2\sigma^2 についてσ2\sigma^2 を1つの変数とみなして微分):

σ2=n2σ2+12(σ2)2i=1n(xiμ)2=0.\frac{\partial\ell}{\partial\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (x_i-\mu)^2=0.

両辺に 2(σ2)22(\sigma^2)^2 を掛けて nσ2+(xiμ)2=0-n\sigma^2+\sum(x_i-\mu)^2=0。ここに μ=μ^=xˉ\mu=\hat\mu=\bar x を代入して:

σ^ML2=1ni=1n(xixˉ)2\boxed{\,\hat\sigma^2_{\mathrm{ML}}=\frac1n\sum_{i=1}^n (x_i-\bar x)^2\,}

要するに:平均は標本平均、分散は「nn で割った」標本分散。

⚠️ ここが頻出の落とし穴σ^ML2\hat\sigma^2_{\mathrm{ML}}nn で割るので、点推定(推定量の良さ:不偏性・一致性・有効性・十分性) で見たとおり E[σ^ML2]=n1nσ2<σ2E[\hat\sigma^2_{\mathrm{ML}}]=\dfrac{n-1}{n}\sigma^2<\sigma^2最尤推定量はバイアスを持ちます(母分散を過小評価)。不偏にするには n1n-1 で割る不偏分散 s2s^2 にする必要がある。つまり「MLE = 不偏」は成り立たないnn\to\infty でバイアス σ2/n0-\sigma^2/n\to0 なので漸近的には不偏(一致性は保たれる)。この「有限標本では偏るが漸近的には消える」が MLE の典型的な振る舞いです。

分布母数最尤推定量不偏か
ベルヌーイppxˉ\bar x不偏
ポアソンλ\lambdaxˉ\bar x不偏
指数λ\lambda1/xˉ1/\bar x不偏でない(逆数の非線形性)
正規μ\muxˉ\bar x不偏
正規σ2\sigma^21n(xixˉ)2\frac1n\sum(x_i-\bar x)^2不偏でないnn 割りで過小)

4. 最尤推定量の性質(主に1級:漸近論)

MLE が広く使われる理由は、nn を増やしたときの漸近的な良さにあります。準1級では「推定量を求める計算」が中心ですが、1級ではこの漸近論そのものが問われます。

4.1 一致性

性質:正則条件下で、MLE は一致推定量。θ^MLpθ (n)\hat\theta_{\mathrm{ML}}\xrightarrow{p}\theta\ (n\to\infty)

要するに:データを増やせば MLE は真値に確率収束する(点推定(推定量の良さ:不偏性・一致性・有効性・十分性) の一致性)。直感的には、対数尤度の期待値 E[(θ)]/nE[\ell(\theta)]/n が真値 θ0\theta_0 で最大になり(カルバック・ライブラー情報量が0以上で等号は真の分布のときのみ、という事実による)、大数の法則で標本の対数尤度がその期待値に近づくため、最大化点も真値に近づきます。

4.2 漸近正規性(1級の核心)

性質:正則条件下で、MLE は漸近正規。 n(θ^MLθ) d N ⁣(0, 1I1(θ))\boxed{\,\sqrt n\,(\hat\theta_{\mathrm{ML}}-\theta)\ \xrightarrow{d}\ N\!\left(0,\ \frac{1}{I_1(\theta)}\right)\,} ここで I1(θ)I_1(\theta)1個あたりのフィッシャー情報量 I1(θ)=E ⁣[(θlogf(X;θ))2]=E ⁣[2θ2logf(X;θ)]I_1(\theta)=E\!\left[\left(\dfrac{\partial}{\partial\theta}\log f(X;\theta)\right)^2\right]=-E\!\left[\dfrac{\partial^2}{\partial\theta^2}\log f(X;\theta)\right]

要するにnn が大きいとき θ^ML\hat\theta_{\mathrm{ML}} は近似的に N ⁣(θ, 1nI1(θ))N\!\left(\theta,\ \dfrac{1}{n\,I_1(\theta)}\right) に従う。分散が 1nI1(θ)\dfrac{1}{n I_1(\theta)} なので、情報量 I1I_1 が大きいほど・nn が大きいほど推定は精密。この近似がそのまま MLE に基づく信頼区間・検定の根拠になります(区間推定(母平均・母比率・母分散の信頼区間)尤度比検定・Wald検定・スコア検定)。

証明スケッチ(スコア関数のテイラー展開)。なぜこの形になるかを押さえます。スコア関数 Sn(θ)=θ=iθlogf(Xi;θ)S_n(\theta)=\dfrac{\partial\ell}{\partial\theta}=\sum_i \dfrac{\partial}{\partial\theta}\log f(X_i;\theta) を、真値 θ\theta のまわりで θ^\hat\theta について1次までテイラー展開します。θ^\hat\theta は尤度方程式の解なので Sn(θ^)=0S_n(\hat\theta)=0

0=Sn(θ^)Sn(θ)+(θ^θ)Sn(θ).0=S_n(\hat\theta)\approx S_n(\theta)+(\hat\theta-\theta)\,S_n'(\theta).

これを θ^θ\hat\theta-\theta について解き、n\sqrt n を掛けて分子分母を nn で整えます:

n(θ^θ)1nSn(θ)1nSn(θ).\sqrt n\,(\hat\theta-\theta)\approx \frac{\frac{1}{\sqrt n}S_n(\theta)}{-\frac1n S_n'(\theta)}.

ここで分子と分母をそれぞれ評価します。

スルツキーの定理で組み合わせると、N(0,I1)I1=N ⁣(0,I1I12)=N ⁣(0,1I1)\dfrac{N(0,\,I_1)}{I_1}=N\!\left(0,\,\dfrac{I_1}{I_1^2}\right)=N\!\left(0,\,\dfrac{1}{I_1}\right)。これが n(θ^θ)dN(0,1/I1(θ))\sqrt n(\hat\theta-\theta)\xrightarrow{d}N(0,1/I_1(\theta)) の中身です。

要するに:MLE の漸近正規性は、「スコア(傾き)の和に中心極限定理を効かせる」ことから出てくる。分子の CLT が分散 I1I_1 を生み、分母の LLN が I1I_1 で割る効果を生むので、最終的に分散が 1/I11/I_1 になります。

補足(スコアの期待値が0)f(x;θ)dx=1\displaystyle\int f(x;\theta)\,dx=1θ\theta で微分すると fθdx=0\int \dfrac{\partial f}{\partial\theta}dx=0。被積分関数を fθ=flogfθ\dfrac{\partial f}{\partial\theta}=f\cdot\dfrac{\partial\log f}{\partial\theta} と書き直せば logfθfdx=E ⁣[logfθ]=0\int \dfrac{\partial\log f}{\partial\theta}\,f\,dx=E\!\left[\dfrac{\partial\log f}{\partial\theta}\right]=0要するに「全確率が1で一定だから、その傾きの平均は0」。これがスコアの期待値0の正体で、漸近正規性の分子に CLT を使える前提です。

4.3 漸近有効性

性質:MLE の漸近分散 1nI1(θ)\dfrac{1}{n I_1(\theta)} は、クラメール・ラオ下限点推定(推定量の良さ:不偏性・一致性・有効性・十分性)推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式))にちょうど等しい。すなわち MLE は漸近的に有効(漸近的に最小分散)。

要するに:不偏推定量の分散には限界 1nI1(θ)\dfrac{1}{n I_1(\theta)} がある(クラメール・ラオ)。MLE はこの限界に漸近的に到達する ── つまり「nn が大きければ、これ以上良い推定量は(漸近的には)作れない」。これが MLE が統計学の標準的な推定法である最大の理由です。ただし「漸近的に」が肝心で、有限の nn では下限に達していないことも、他の推定量の方が良いこともあります。

4.4 不変性(invariance)

性質θ\theta の MLE が θ^\hat\theta なら、θ\theta の関数 g(θ)g(\theta) の MLE は g(θ^)g(\hat\theta)g(θ)^ML=g(θ^ML).\widehat{g(\theta)}_{\mathrm{ML}}=g(\hat\theta_{\mathrm{ML}}).

要するに:母数を変換しても、MLE は「変換してから推定」と「推定してから変換」が一致する。例:正規分布で σ2\sigma^2 の MLE が σ^ML2\hat\sigma^2_{\mathrm{ML}} なら、標準偏差 σ=σ2\sigma=\sqrt{\sigma^2} の MLE は単に σ^ML2\sqrt{\hat\sigma^2_{\mathrm{ML}}}。指数分布でレート λ\lambda の MLE が 1/xˉ1/\bar x なら、平均 1/λ1/\lambda の MLE は xˉ\bar xこの性質は不偏推定量にはない(不偏性は非線形変換で壊れる:E[g(θ^)]g(E[θ^])E[g(\hat\theta)]\ne g(E[\hat\theta]))。不変性は MLE 特有の便利さで、試験でも「σ\sigma の MLE を求めよ」のように変換版を問う形で出ます。

graph LR
    A["最尤推定量 θ̂_ML"] --> B["一致性<br/>θ̂ →ᵖ θ"]
    A --> C["漸近正規性<br/>√n(θ̂-θ) →ᵈ N(0,1/I₁)"]
    A --> D["漸近有効性<br/>分散→クラメール・ラオ下限"]
    A --> E["不変性<br/>g(θ)のMLE=g(θ̂)"]
    C --> D
    F["⚠ 有限標本では<br/>不偏とは限らない"] -.-> A
    style A fill:#ffe8e8
    style C fill:#e8f4ff
    style F fill:#fff0e8

5. モーメント法:標本モーメント=母モーメントを解く

最尤法と並ぶ古典的な推定法がモーメント法(積率法, Method of Moments)。原理は素朴です。

手順:母数が kk 個あるなら、低次から kk 本のモーメントについて「母モーメント=標本モーメント」と等式を立て、母数について解く。 E[Xj]=1ni=1nXij(j=1,2,,k).E[X^j]=\frac1n\sum_{i=1}^n X_i^{\,j}\qquad (j=1,2,\dots,k).

ここで母モーメント E[Xj]E[X^j] は母数 θ\theta の式で表せます(確率変数の変換・モーメント母関数・積率)。それを標本モーメント(データから計算できる数)と等しいと置いて連立し、θ\theta について解いたものがモーメント推定量です。

要するに:「理論上の平均・分散などを、データの平均・分散などで置き換えて、母数を逆算する」。大数の法則で標本モーメントは母モーメントに収束するので、この置き換えは大標本で正当化され、モーメント推定量は一致性を持ちます。

5.1 例1:正規分布 N(μ,σ2)N(\mu,\sigma^2)

母数は μ,σ2\mu,\sigma^2 の2つなので2本立てます。1次:E[X]=μE[X]=\mu、2次(中心化して使うと楽):V[X]=σ2V[X]=\sigma^2

μ^MM=Xˉ,σ^MM2=1ni=1n(XiXˉ)2\boxed{\,\hat\mu_{\mathrm{MM}}=\bar X,\qquad \hat\sigma^2_{\mathrm{MM}}=\frac1n\sum_{i=1}^n (X_i-\bar X)^2\,}

要するに:正規分布ではモーメント法と最尤法が完全に一致する(どちらも σ2\sigma^2nn 割り)。分布によっては一致しますが、一般には別物です。

5.2 例2:ガンマ分布 Gamma(α,λ)\mathrm{Gamma}(\alpha,\lambda)

形状 α\alpha・レート λ\lambda のガンマ分布(指数分布・ガンマ分布・ベータ分布)は、平均 E[X]=αλE[X]=\dfrac{\alpha}{\lambda}・分散 V[X]=αλ2V[X]=\dfrac{\alpha}{\lambda^2}。母数2つに対し2本立てます:

αλ=Xˉ,αλ2=S2 (=1n(XiXˉ)2).\frac{\alpha}{\lambda}=\bar X,\qquad \frac{\alpha}{\lambda^2}=S^2\ \left(=\frac1n\sum(X_i-\bar X)^2\right).

2式の比 α/λ2α/λ=1λ=S2Xˉ\dfrac{\alpha/\lambda^2}{\alpha/\lambda}=\dfrac1\lambda=\dfrac{S^2}{\bar X} から λ^MM=XˉS2\hat\lambda_{\mathrm{MM}}=\dfrac{\bar X}{S^2}、代入して α^MM=Xˉλ^MM=Xˉ2S2\hat\alpha_{\mathrm{MM}}=\bar X\cdot\hat\lambda_{\mathrm{MM}}=\dfrac{\bar X^2}{S^2}

α^MM=Xˉ2S2,λ^MM=XˉS2\boxed{\,\hat\alpha_{\mathrm{MM}}=\frac{\bar X^2}{S^2},\qquad \hat\lambda_{\mathrm{MM}}=\frac{\bar X}{S^2}\,}

要するに:ガンマ分布の MLE は α\alpha についてディガンマ関数を含む方程式になり閉じた式で解けない(数値解が必要)。一方モーメント法なら標本平均と標本分散だけで一発で出る。ここがモーメント法の存在意義 ── MLE が解析的に解けない場面で、手早く一致推定量を与えます。


6. 両者の比較:いつどちらを使うか

観点最尤法(MLE)モーメント法(MM)
原理尤度最大化標本=母モーメント
計算尤度方程式。閉じた式で解けないことも(数値解)連立を解くだけ。多くは閉じた式
一致性ありあり
漸近有効性あり(クラメール・ラオ下限を達成)ないことが多い(分散が大きめ)
有限標本の不偏性必ずしも不偏でない必ずしも不偏でない
主な用途標準的な推定。理論保証が強いMLE が解けないとき・初期値・手計算

要するに:理論的な最適性(漸近有効性)が欲しいなら MLE、計算の手軽さや MLE の解けなさを回避したいならモーメント法。実務では「モーメント法で初期値を出し、それを起点に MLE を数値最適化する」という併用も普通です。両者はしばしば一致するが一般には別(正規分布では一致、ガンマ分布では別)。

⚠️ モーメント法は高次モーメントを使うほど推定が不安定になりやすい(標本の高次モーメントは分散が大きい)。また、推定値が母数の定義域を外れる(例:分散の推定が負になる、確率が1を超える)ことが起こりうる。MLE は通常その分布のパラメータ空間内に収まるため、この点でも MLE が安全なことが多い。


7. 試験での問われ方の差(準1級 vs 1級)

このトピックは級で問われる深さがはっきり分かれます。

両級に共通して頻出なのは「最尤推定量を具体的に導く」計算力。1級はその上に「なぜ MLE が良いのか」の漸近的な理論武装が乗る、という関係です(年度により出題比重は変わるため要最新確認)。


⚠️ 引っかけポイント


よくある疑問

Q1. 尤度と確率はどう違うんですか?式は同じ f(x;θ)f(x;\theta) に見えます。 A. 式は同じでも、どの変数を動かすかが逆です。確率(分布)は θ\theta を固定して xx を動かす関数で、xx について積分・総和すると1になります。尤度は逆に xx(観測データ)を固定して θ\theta を動かす関数で、θ\theta について積分・総和しても1になりません(そもそも正規化されていない)。たとえば N(μ,1)N(\mu,1) で、μ=5\mu=5 に固定して横軸 xx に描けば確率密度のベルカーブ。観測 x=3x=3 に固定して横軸 μ\mu に描けば、μ\mu を動かしたときに「x=3x=3 がどれだけ尤もらしいか」を表す尤度のグラフ。後者の山の頂点(μ=3\mu=3)が最尤推定値です。「尤度は確率ではなく、母数の尤もらしさを測る関数」と覚えてください。

Q2. なぜ尤度をそのまま最大化せず、わざわざ log を取るんですか? A. 主に計算上の都合です。理由は3つ。(1) 尤度は積 f(xi;θ)\prod f(x_i;\theta) ですが、log を取ると和 logf(xi;θ)\sum\log f(x_i;\theta) になり、微分(積の微分公式が不要)が劇的に楽になる。(2) 正規・ポアソン・指数など exp\exp を含む分布では、log で指数が外れて多項式や線形の式になる(本文3.2〜3.4で eλe^{-\lambda}exp\exp がきれいに消えたのを見たはず)。(3) 数値計算で、たくさんの確率の積はすぐ0に近づいてアンダーフローするが、対数の和なら安定。そして log は単調増加なので、logL\log L を最大化する θ\thetaLL を最大化する θ\theta と完全に同じ。だから「楽になる変形」であって、答えは何も変わりません。

Q3. 最尤推定量って一番良い推定量なんですよね?なら不偏でもあるはずでは? A. そこが誤解の定番です。MLE が「一番良い」のは漸近的にnn\to\infty で)であって、有限標本では不偏とは限りません。実例:正規分布の分散の MLE は σ^2=1n(xixˉ)2\hat\sigma^2=\frac1n\sum(x_i-\bar x)^2 で、nn で割るため E[σ^2]=n1nσ2<σ2E[\hat\sigma^2]=\frac{n-1}{n}\sigma^2<\sigma^2 と過小評価します(不偏にするなら n1n-1 で割る)。指数分布の λ^=1/xˉ\hat\lambda=1/\bar x も逆数の非線形性で不偏でない。MLE が保証するのは、一致性・漸近正規性・漸近有効性(クラメール・ラオ下限を漸近的に達成)であって、有限標本の不偏性ではありません。「漸近的に最適」と「常に不偏」は別の話です。

Q4. 漸近正規性の式 n(θ^θ)N(0,1/I1)\sqrt n(\hat\theta-\theta)\to N(0,1/I_1) で、なぜ分散が情報量の逆数になるんですか? A. 証明スケッチ(本文4.2)を一言でいうと、「スコア(対数尤度の傾き)の和に中心極限定理を効かせる」からです。尤度方程式の解 θ^\hat\theta のまわりでスコアをテイラー展開すると、n(θ^θ)(スコア和をnで割ったもの)(ヘッシアン和をnで割ったもの)\sqrt n(\hat\theta-\theta)\approx \dfrac{\text{(スコア和を}\sqrt n\text{で割ったもの)}}{\text{(ヘッシアン和を}n\text{で割ったもの)}} という分数になります。分子は独立同分布なスコアの和なので中心極限定理で N(0,I1)N(0,I_1) に収束(スコアの分散が I1I_1)。分母は大数の法則で I1I_1 に収束(フィッシャー情報量の第2表現 I1=E[2logf/θ2]I_1=-E[\partial^2\log f/\partial\theta^2])。N(0,I1)I1\dfrac{N(0,I_1)}{I_1} は分散が I1I12=1I1\dfrac{I_1}{I_1^2}=\dfrac{1}{I_1} の正規分布。つまり分子の CLT が分散 I1I_1 を生み、分母の I1I_1 で割ることで 1/I11/I_1 になる ── これが情報量の逆数になる仕組みです。情報量が多いほど分母が大きく分散が小さい、という直感とも合います。

Q5. モーメント法は最尤法より劣るなら、なぜ存在するんですか? A. 計算の手軽さと、MLE が解けない場面での実用性のためです。ガンマ分布のように MLE が閉じた式で解けない(ディガンマ関数を含む方程式の数値解が必要)分布でも、モーメント法なら標本平均と標本分散だけで一発で推定量が出ます(本文5.2)。一致性も持つので大標本では真値に近づく。劣るのは主に**効率(分散)**で、漸近有効性を持つ MLE に比べると分散が大きめになりやすい、特に小標本や高次モーメントを使う場合に差が出る。実務では「モーメント法で素早く初期値を出し、それを起点に MLE を数値最適化する」という併用が定番です。教育・初期分析・MLE の足場として今も使われます。

Q6. 不変性って具体的に何が嬉しいんですか? A. 母数を変換した量の MLE を、改めて尤度方程式を解き直さずに求められる点です。たとえば正規分布で分散 σ2\sigma^2 の MLE が σ^2\hat\sigma^2 と分かっていれば、標準偏差 σ=σ2\sigma=\sqrt{\sigma^2} の MLE は単に σ^2\sqrt{\hat\sigma^2}。指数分布でレート λ\lambda の MLE が 1/xˉ1/\bar x なら、平均 θ=1/λ\theta=1/\lambda の MLE は xˉ\bar x。「変換してから推定」と「推定してから変換」が一致するので、一度 MLE を求めればその関数の MLE はタダで手に入る。これは不偏推定量にはない性質です(不偏性は非線形変換で壊れる)。試験では「σ2\sigma^2 の MLE を求めたうえで σ\sigma の MLE を答えよ」のように、不変性を使えば即答できる形で問われます。


まとめ


関連ノート