← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:B(標準)

推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式)

要点(BLUF)

⚠️ 年度依存の注意:準1級・1級の出題範囲表は改訂されうる(要最新確認)。本ノートの級振り分けは現行ワークブック準拠の一般的傾向に基づく。


1. なぜ「推定量の評価」が要るのか

母数 θ\theta(母平均・母分散・母比率など)を、標本から作った推定量 θ^=θ^(X1,,Xn)\hat\theta=\hat\theta(X_1,\dots,X_n) で当てにいきます。問題は 「良い推定量とは何か」を定義しないと、複数の候補を比べられないこと。

例えば母平均 μ\mu を推定するのに、標本平均 Xˉ\bar X も使えるし、中央値も、「最初の1個 X1X_1」だって不偏推定量です。どれが優れているか? ──この優劣を測る共通のものさしが要る。それが本ノートの主題です。

評価軸は2層あります。

graph TD
    A["推定量の評価"] --> B["有限標本での評価"]
    A --> C["漸近的な評価<br/>(n→∞)"]
    B --> B1["平均二乗誤差 MSE"]
    B1 --> B2["バイアス(偏り)"]
    B1 --> B3["バリアンス(分散・ブレ)"]
    B --> B4["不偏なら MSE=分散<br/>→ 分散の下限はどこ?"]
    B4 --> B5["クラメール・ラオ下限<br/>1 / I(θ)"]
    B5 --> B6["フィッシャー情報量 I(θ)"]
    C --> C1["一致性"]
    C --> C2["漸近正規性"]
    C --> C3["漸近有効性<br/>(CR下限を漸近的に達成)"]

不偏性・一致性・有効性の定義そのものは 点推定(推定量の良さ:不偏性・一致性・有効性・十分性) に置きます。本ノートはそれらを**測る道具(MSE・情報量・下限)**を深掘りします。


2. 平均二乗誤差(MSE)とバイアス-バリアンス分解

2.1 定義

推定量 θ^\hat\theta平均二乗誤差は、真値 θ\theta からの二乗誤差の期待値:

MSE(θ^)=E[(θ^θ)2].\mathrm{MSE}(\hat\theta)=\mathbb E\big[(\hat\theta-\theta)^2\big].

要するに:何度も標本を取り直したときの「外し具合の二乗」を平均した量。小さいほど良い推定量です。

なぜ「二乗」かというと、(1) 正負のズレが打ち消し合わない、(2) 大きな外しをより重く罰する、(3) 後で分散と直結して解析が綺麗になる、の3点です。

2.2 バイアス(偏り)の定義

bias(θ^)=E[θ^]θ.\mathrm{bias}(\hat\theta)=\mathbb E[\hat\theta]-\theta.

要するに:推定量を平均的にどれだけ的の中心からずらしているか。E[θ^]=θ\mathbb E[\hat\theta]=\theta なら bias=0\mathrm{bias}=0 で、これが**不偏(unbiased)**の定義です。

2.3 MSE分解の完全導出

主張: MSE(θ^)=V[θ^]+(bias(θ^))2.\mathrm{MSE}(\hat\theta)=V[\hat\theta]+\big(\mathrm{bias}(\hat\theta)\big)^2.

導出。記号を軽くするため m=E[θ^]m=\mathbb E[\hat\theta] とおきます(推定量の期待値)。(θ^θ)(\hat\theta-\theta)m+m-m+m を挿入して2項に割ります:

θ^θ=(θ^m)+(mθ).\hat\theta-\theta=(\hat\theta-m)+(m-\theta).

ここで (θ^m)(\hat\theta-m) は「推定量の自分の平均からのブレ」、(mθ)(m-\theta) は「平均と真値のズレ=バイアス(定数)」です。二乗して期待値を取ります:

E[(θ^θ)2]=E[{(θ^m)+(mθ)}2]=E[(θ^m)2]+2(mθ)E[θ^m]+(mθ)2.\mathbb E\big[(\hat\theta-\theta)^2\big] =\mathbb E\Big[\big\{(\hat\theta-m)+(m-\theta)\big\}^2\Big] =\mathbb E\big[(\hat\theta-m)^2\big]+2(m-\theta)\,\mathbb E\big[\hat\theta-m\big]+(m-\theta)^2.

第2項の中身に注目すると、(mθ)(m-\theta) は定数なので期待値の外へ出せ、残る E[θ^m]=E[θ^]m=mm=0\mathbb E[\hat\theta-m]=\mathbb E[\hat\theta]-m=m-m=0この交差項がちょうど消えるのが分解の肝です。よって

MSE(θ^)=E[(θ^m)2]=V[θ^]+(mθ)2=(bias)2.\mathrm{MSE}(\hat\theta)=\underbrace{\mathbb E\big[(\hat\theta-m)^2\big]}_{=V[\hat\theta]}+\underbrace{(m-\theta)^2}_{=(\mathrm{bias})^2}.

\square

要するに:誤差を「自分の平均からのブレ」と「平均の真値からのズレ」に直交分解すると、クロス項が消えて二乗の和になる。統計版のピタゴラスの定理だと思ってよい(分散がブレの脚、バイアスが偏りの脚、MSEが斜辺の二乗)。

不偏推定量なら bias=0\mathrm{bias}=0 ゆえ MSE=分散。だから「不偏推定量の中で最良」を選ぶ問題は「分散を最小にする」問題に帰着する。これが後半のクラメール・ラオ下限へ直結する論理です。

2.4 バイアス-バリアンスのトレードオフ

graph LR
    A["モデルを単純に<br/>(強い仮定)"] --> A1["バイアス↑"]
    A --> A2["バリアンス↓"]
    B["モデルを柔軟に<br/>(弱い仮定)"] --> B1["バイアス↓"]
    B --> B2["バリアンス↑"]
    A1 --> C["MSE=バイアス²+分散<br/>最小化したい"]
    A2 --> C
    B1 --> C
    B2 --> C

要するに:MSEを下げるにはバイアスと分散の両方を下げたいが、両者は多くの場合トレードオフ。少し偏らせる代わりに分散を大きく減らせるなら、わざとバイアスを入れた(不偏でない)推定量がMSEでは勝つことがある。リッジ回帰や縮小推定(最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論) の先にある正則化)がこの発想です。「不偏=常に最良」ではない、という1級級の論点。

2.5 数値例①:MSEで不偏推定量を逆転する縮小推定

母分散 σ2\sigma^2 の推定で、σ^unb2=1n1(XiXˉ)2\hat\sigma^2_{\text{unb}}=\frac1{n-1}\sum(X_i-\bar X)^2(不偏)と、最尤推定 σ^ML2=1n(XiXˉ)2\hat\sigma^2_{\text{ML}}=\frac1n\sum(X_i-\bar X)^2(下方バイアスあり)を正規母集団で比べます。正規分布のもとでは、MSEを最小にする分母は n1n-1 でも nn でもなく n+1n+1

1n+1(XiXˉ)2  が  MSE 最小.\frac{1}{n+1}\sum(X_i-\bar X)^2\ \ \text{が} \ \ \mathrm{MSE}\ \text{最小}.

不偏推定量(分母 n1n-1)よりMSEが小さい偏った推定量が存在する具体例です。

要するに:「不偏性」と「MSE最小」は別の最適性。試験で「不偏推定量は常に最良か?」と問われたら No(MSE基準なら偏った推定量が勝ちうる)。


3. スコア関数とフィッシャー情報量

ここから「不偏推定量の分散はどこまで小さくできるか」を測るための道具立てに入ります。鍵は対数尤度の傾きです。

3.1 尤度・対数尤度・スコア関数

確率密度(質量)関数を f(x;θ)f(x;\theta) とし、観測 XX を1つ持っているとします。θ\theta の関数として見た f(X;θ)f(X;\theta)尤度、その対数 (θ)=logf(X;θ)\ell(\theta)=\log f(X;\theta)対数尤度と呼びます(対数尤度の微分の扱いは 確率変数の変換・モーメント母関数・積率 と同じ計算技法)。

スコア関数は対数尤度の θ\theta に関する1階微分:

U(θ)=θlogf(X;θ)=1f(X;θ)f(X;θ)θ.U(\theta)=\frac{\partial}{\partial\theta}\log f(X;\theta)=\frac{1}{f(X;\theta)}\frac{\partial f(X;\theta)}{\partial\theta}.

最後の等号は対数微分((logf)=f/f(\log f)'=f'/f)です。要するに:スコアは「いまの θ\theta をちょっと動かすと、観測データの尤もらしさがどっちにどれだけ増えるか」を表す。最尤推定はこれを0にする θ\theta を探す操作です。

3.2 スコアの期待値は0(正則条件のもとで)

主張:E[U(θ)]=0\mathbb E[U(\theta)]=0

導出。連続の場合で書きます(離散は積分を和に読み替え)。密度は全空間で積分すると1:

f(x;θ)dx=1.\int f(x;\theta)\,dx=1.

両辺を θ\theta で微分します。ここで微分と積分の順序交換ができることを使います(これが正則条件の中核。台が θ\theta に依らない等が必要):

θf(x;θ)dx=f(x;θ)θdx=0.\frac{\partial}{\partial\theta}\int f(x;\theta)\,dx=\int \frac{\partial f(x;\theta)}{\partial\theta}\,dx=0.

被積分を fθ=flogfθ=fU(θ)\dfrac{\partial f}{\partial\theta}=f\cdot\dfrac{\partial \log f}{\partial\theta}=f\cdot U(\theta) と書き直すと:

U(x;θ)f(x;θ)dx=E[U(θ)]=0.\int U(x;\theta)\,f(x;\theta)\,dx=\mathbb E[U(\theta)]=0.

\square

要するに:「密度の総和は常に1で θ\theta に依らない」を微分しただけで、スコアの平均は0と分かる。だからスコアの分散=スコアの2乗の期待値になる(平均0なので V[U]=E[U2](E[U])2=E[U2]V[U]=\mathbb E[U^2]-(\mathbb E[U])^2=\mathbb E[U^2])。これが次のフィッシャー情報量の2表式に効きます。

3.3 フィッシャー情報量の定義(2つの表式)

フィッシャー情報量は、スコアの分散(=2乗の期待値)として定義されます:

I(\theta)=V[U(\theta)]=\mathbb E\!\left[\left(\frac{\partial}{\partial\theta}\log f(X;\theta)\right)^{\!2}\right].\tag{表式A}

要するに:スコア(対数尤度の傾き)がどれだけ大きく振れるか。傾きが激しく振れる=データが θ\theta に敏感=情報が多い。

正則条件のもとで、これは2階微分を使っても書けます:

I(\theta)=-\,\mathbb E\!\left[\frac{\partial^2}{\partial\theta^2}\log f(X;\theta)\right].\tag{表式B}

要するに:対数尤度の曲率(凹み具合)の平均。対数尤度が最尤点で鋭く尖って(強く下に凸で)いるほど、θ\theta を鋭く特定でき情報量が大きい。実務では表式Bのほうが計算が楽なことが多い。

3.4 表式A=表式B の導出

スコアをもう一度 θ\theta で微分します。U=1ffθU=\dfrac{1}{f}\dfrac{\partial f}{\partial\theta} に商の微分(積の微分)を適用:

Uθ=2logfθ2=2fθ2f(fθf) ⁣2=1f2fθ2U2.\frac{\partial U}{\partial\theta} =\frac{\partial^2 \log f}{\partial\theta^2} =\frac{\dfrac{\partial^2 f}{\partial\theta^2}}{f}-\left(\frac{\dfrac{\partial f}{\partial\theta}}{f}\right)^{\!2} =\frac{1}{f}\frac{\partial^2 f}{\partial\theta^2}-U^2.

この両辺の期待値を取ります。第1項の期待値は

E ⁣[1f2fθ2]=1f2fθ2fdx=2fθ2dx=2θ2fdx=2θ2(1)=0.\mathbb E\!\left[\frac{1}{f}\frac{\partial^2 f}{\partial\theta^2}\right]=\int \frac{1}{f}\frac{\partial^2 f}{\partial\theta^2}\,f\,dx=\int \frac{\partial^2 f}{\partial\theta^2}\,dx=\frac{\partial^2}{\partial\theta^2}\int f\,dx=\frac{\partial^2}{\partial\theta^2}(1)=0.

(ここでも微分と積分の順序交換=正則条件を使い、fdx=1\int f\,dx=1 を2回微分すると0。)よって

E ⁣[2logfθ2]=0E[U2]=E[U2]=I(θ).\mathbb E\!\left[\frac{\partial^2 \log f}{\partial\theta^2}\right]=0-\mathbb E[U^2]=-\,\mathbb E[U^2]=-I(\theta).

符号を移せば I(θ)=E ⁣[2logfθ2]I(\theta)=-\mathbb E\!\left[\dfrac{\partial^2 \log f}{\partial\theta^2}\right]。表式Aと表式Bが一致しました。\square

要するに:スコアをもう一段微分すると「曲率」と「スコアの2乗」の差になり、曲率の平均は(密度の規格化を2回微分して)0。だからスコアの2乗の平均=マイナス曲率の平均が成り立つ。等価性は正則条件に支えられている。

3.5 標本の加法性 In(θ)=nI(θ)I_n(\theta)=n\,I(\theta)

独立同分布 X1,,XnX_1,\dots,X_n の同時尤度は積 if(Xi;θ)\prod_i f(X_i;\theta)、対数尤度は和 ilogf(Xi;θ)\sum_i \log f(X_i;\theta)。スコアも和になります。独立なら分散は和なので、

In(θ)=V ⁣[i=1nUi(θ)]=i=1nV[Ui(θ)]=nI(θ).I_n(\theta)=V\!\left[\sum_{i=1}^n U_i(\theta)\right]=\sum_{i=1}^n V[U_i(\theta)]=n\,I(\theta).

要するに:データを1個増やすごとにフィッシャー情報量は I(θ)I(\theta) ずつ線形に積み上がる。標本が多いほど情報が増え、後述の下限 1/(nI(θ))1/(nI(\theta))1/n1/n で縮む(推定がだんだん精密になる)。

3.6 数値例②:代表分布のフィッシャー情報量

フィッシャー情報量=対数尤度の曲率(n=10 vs 50)

ベルヌーイ(p=0.7)の対数尤度。n=50 は n=10 より頂点が鋭い=情報量 I=n/(p(1-p)) が大きい=クラメール・ラオ下限 1/(nI) が小さい。図は simulations/fisher_jouhou_kyokuritsu.py で生成。

分布母数1標本の I(θ)I(\theta)CR下限 1/(nI)1/(nI)達成する推定量
ベルヌーイ Be(p)\mathrm{Be}(p)pp1p(1p)\dfrac{1}{p(1-p)}p(1p)n\dfrac{p(1-p)}{n}標本比率 p^=Xˉ\hat p=\bar X
ポアソン Po(λ)\mathrm{Po}(\lambda)λ\lambda1λ\dfrac{1}{\lambda}λn\dfrac{\lambda}{n}標本平均 Xˉ\bar X
正規 N(μ,σ2)N(\mu,\sigma^2)σ2\sigma^2既知)μ\mu1σ2\dfrac{1}{\sigma^2}σ2n\dfrac{\sigma^2}{n}標本平均 Xˉ\bar X

確認(ベルヌーイ)f(x;p)=px(1p)1xf(x;p)=p^x(1-p)^{1-x}logf=xlogp+(1x)log(1p)\log f=x\log p+(1-x)\log(1-p)。 スコア:U=xp1x1pU=\dfrac{x}{p}-\dfrac{1-x}{1-p}。2階微分:2logfp2=xp21x(1p)2\dfrac{\partial^2\log f}{\partial p^2}=-\dfrac{x}{p^2}-\dfrac{1-x}{(1-p)^2}E[X]=p\mathbb E[X]=p を入れて符号反転:

I(p)=E ⁣[Xp21X(1p)2]=pp2+1p(1p)2=1p+11p=1p(1p).I(p)=-\mathbb E\!\left[-\frac{X}{p^2}-\frac{1-X}{(1-p)^2}\right]=\frac{p}{p^2}+\frac{1-p}{(1-p)^2}=\frac1p+\frac1{1-p}=\frac{1}{p(1-p)}.

CR下限は 1nI(p)=p(1p)n\dfrac{1}{n I(p)}=\dfrac{p(1-p)}{n}。一方 p^=Xˉ\hat p=\bar X の分散は V[Xˉ]=p(1p)nV[\bar X]=\dfrac{p(1-p)}{n}ぴったり一致。よって標本比率は有効推定量です。

要するに:表式Bで計算(2階微分→符号反転)が一番速い。そして標本平均・標本比率は代表分布でCR下限を達成する=有効推定量である、という結論が試験の定番。


4. クラメール・ラオの不等式

4.1 主張(正則条件つき)

正則条件のもとで、θ\theta任意の不偏推定量 θ^\hat\thetaE[θ^]=θ\mathbb E[\hat\theta]=\theta)に対し

V[θ^]  1In(θ)=1nI(θ).V[\hat\theta]\ \ge\ \frac{1}{I_n(\theta)}=\frac{1}{n\,I(\theta)}.

右辺を**クラメール・ラオ下限(CR下限)**と呼びます。

要するに:不偏でいる限り、どんなに工夫しても分散をこの値より小さくはできない。情報量 InI_n が大きいほど下限が下がり、より精密な推定が可能になる。

4.2 導出スケッチ(コーシー・シュワルツ)

nn 個の標本のスコアを Un(θ)=iUi(θ)U_n(\theta)=\sum_i U_i(\theta) とします。E[Un]=0\mathbb E[U_n]=0V[Un]=In(θ)V[U_n]=I_n(\theta) は §3 で確認済み。

ステップ1:不偏条件を微分して共分散を1に固定する。 不偏性 E[θ^]=θ\mathbb E[\hat\theta]=\theta、すなわち θ^(x)fn(x;θ)dx=θ\displaystyle\int \hat\theta(\mathbf x)\,f_n(\mathbf x;\theta)\,d\mathbf x=\theta の両辺を θ\theta で微分します(順序交換=正則条件):

\ \Longrightarrow\ \int \hat\theta\,U_n\,f_n\,d\mathbf x=1 \ \Longrightarrow\ \mathbb E[\hat\theta\,U_n]=1.$$ スコアの平均は0なので $\mathrm{Cov}(\hat\theta,U_n)=\mathbb E[\hat\theta U_n]-\mathbb E[\hat\theta]\mathbb E[U_n]=1-\theta\cdot0=1$。 **要するに**:「不偏である」という条件は「推定量とスコアの共分散がちょうど1」と言い換えられる。 **ステップ2:コーシー・シュワルツ(相関は±1以内)。** 任意の2変数で $\big(\mathrm{Cov}(A,B)\big)^2\le V[A]\,V[B]$(相関係数の2乗が1以下、期待値・分散の性質(線形性・和の分散・共分散))。$A=\hat\theta,\ B=U_n$ に当てると: $$1=\big(\mathrm{Cov}(\hat\theta,U_n)\big)^2\le V[\hat\theta]\cdot V[U_n]=V[\hat\theta]\cdot I_n(\theta).$$ 両辺を $I_n(\theta)$ で割って $$V[\hat\theta]\ge\frac{1}{I_n(\theta)}.$$ $\square$ **要するに**:不偏という縛りが「推定量とスコアの共分散=1」を強制し、コーシー・シュワルツ不等式がその代償として分散に下限を課す。**等号成立は $\hat\theta$ と $U_n$ が完全に線形従属(相関±1)のとき**で、そのとき $\hat\theta$ は有効推定量です。 ### 4.3 前提(正則条件)を破ると下限は使えない CR下限の導出で2回「微分と積分の順序交換」を使いました。これが効かない状況では**下限が成り立たない/達成不能**になります。代表例: - **台(サポート)が $\theta$ に依存する分布**:一様分布 $U(0,\theta)$ など。$x$ の動く範囲の端が $\theta$ で動くので順序交換が破れる。最尤推定量 $\hat\theta=\max_i X_i$ の分散はCR下限を**下回る**(CR下限が無効)。 - 微分可能性・期待値の存在が崩れる場合。 **要するに**:CR下限は「**不偏**かつ**正則条件**」が大前提。前提を確認せずに「下限=最小分散」と断じてはいけない。1級ではこの反例(一様分布)がしばしば問われる。 --- ## 5. 有効推定量・有効性・漸近有効性 ### 5.1 有効推定量 CR下限に**等号で到達する不偏推定量**を**有効推定量(efficient estimator)**と呼びます: $$V[\hat\theta]=\frac{1}{I_n(\theta)}.$$ 有効推定量は(存在すれば)不偏推定量の中で分散が最小なので、**最小分散不偏推定量(UMVUE)**でもあります。逆は必ずしも成り立たない(UMVUEでもCR下限には届かないことがある)。 ### 5.2 有効性(efficiency) 下限を分子、実際の分散を分母に置いた比を**有効性**と定義します: $$\mathrm{eff}(\hat\theta)=\frac{1/I_n(\theta)}{V[\hat\theta]}\quad(0<\mathrm{eff}\le1).$$ **要するに**:「下限という理想に対して、何割の効率が出ているか」。$\mathrm{eff}=1$ なら有効推定量。2つの不偏推定量の優劣はこの比(相対有効性)で比べます。 ### 5.3 漸近有効性 有限標本でCR下限を厳密に達成する推定量は限られます。そこで $n\to\infty$ で評価を緩めたのが**漸近有効性**。推定量が漸近的に正規分布し、その漸近分散がCR下限に一致するとき漸近有効と言います: $$\sqrt{n}\,(\hat\theta-\theta)\ \xrightarrow{d}\ N\!\left(0,\ \frac{1}{I(\theta)}\right).$$ **最尤推定量(MLE)は、正則条件のもとで漸近有効**です(漸近分散がCR下限 $1/I(\theta)$ に一致)。これがMLEを使う最大の理論的根拠の1つで、詳細は 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論) に置きます。 **要するに**:有限標本では届かなくても、データを増やせばMLEはCR下限という最良効率に漸近する。「大標本では最尤推定がベスト」の数理的裏付け。 --- ## 6. 級ごとの問われ方の差 > 準1級は「定義・計算・1段の導出」、1級は「導出の細部・正則条件・反例・MSE最適性の議論」まで踏み込む、と捉えるとよい(要最新確認:範囲表は改訂されうる)。 | 観点 | 準1級での問われ方 | 1級での問われ方 | |---|---|---| | MSE分解 | 公式を使い分散・バイアスからMSEを計算 | 分解の導出、MSE最適な偏り推定量の議論(縮小推定) | | フィッシャー情報量 | 代表分布の $I(\theta)$ を表式Bで計算 | 表式A=Bの導出、多母数(情報行列)への拡張 | | CR下限 | 下限を計算し、与えられた推定量が達成するか判定 | 不等式の導出、正則条件の役割、一様分布の反例 | | 有効性 | 標本平均・標本比率の有効性確認 | 有効性比・漸近有効性・MLEとの接続の論証 | --- ## ⚠️ 引っかけポイント - **MSEと分散の混同**。MSE=分散+バイアス²であって、MSE=分散ではない。**MSE=分散が成り立つのは不偏推定量のときだけ**。偏った推定量で「分散が小さいからMSEも小さい」と即断しない(バイアス²を足し忘れる典型ミス)。 - **CR下限の前提=不偏**。クラメール・ラオ不等式は**不偏推定量にのみ**適用される下限。偏った推定量の分散はCR下限を平気で下回る(例:分母 $n$ の最尤分散)。「分散がCR下限より小さい→計算ミス」と早合点しない。まず不偏かを確認する。 - **正則条件を無視しない**。台が $\theta$ に依存する分布(一様 $U(0,\theta)$ など)ではCR下限の導出が破れ、下限が無効になる。「最尤推定量の分散がCR下限より小さい」反例はここから来る。下限を使う前に正則条件(特に微分と積分の順序交換)を確認。 - **情報量の「向き」の取り違え**。$I(\theta)$ は**大きいほど良い**(推定が精密)。一方その逆数であるCR下限は**小さいほど良い**。「情報量が大きい=分散が大きい」と取り違えない。情報量大 → 下限小 → 精密、が正しい向き。 - **表式Bの符号忘れ**。$I(\theta)=-\mathbb E[\partial^2\log f/\partial\theta^2]$ の**マイナス**を落とすと情報量が負になり破綻する。対数尤度は最尤点で上に凸(2階微分が負)なので、符号反転して初めて正の情報量になる。 --- ## よくある疑問 **Q1. MSEと分散は何が違うんですか? 不偏なら同じと聞きましたが。** A. MSE=分散+バイアス²です。バイアス(偏り)がある推定量では、ブレ(分散)が小さくても的の中心からズレていれば誤差は大きい。そのズレの分を二乗して足したのがMSE。**不偏(バイアス=0)のときに限り MSE=分散**になります。だから「不偏推定量どうしの比較」では分散だけ見れば十分ですが、偏った推定量が混ざる比較ではMSEで見ないと不公平です。 **Q2. フィッシャー情報量はなぜ「情報」なんですか? 直観が掴めません。** A. スコア(対数尤度の傾き)がデータごとに大きく振れる分布ほど、$\theta$ を少し動かしただけで「データの説明のうまさ」が大きく変わる=**$\theta$ を鋭く見分けられる**ということです。表式B(曲率の平均)で言えば、対数尤度の山が尖っているほど最尤点がピンポイントで定まる。尖り具合=情報量。逆に対数尤度が平坦だと、$\theta$ を動かしても尤度がほとんど変わらず「どの $\theta$ も同じくらい尤もらしい」=情報が乏しい。 **Q3. 表式Aと表式B、どちらで計算すればいいですか?** A. 多くの分布で**表式B(2階微分して符号反転)が速い**です。1階微分のスコアを2乗して期待値を取る表式Aは、2乗の期待値($\mathbb E[X^2]$ など)の計算が要って面倒なことが多い。一方、表式Bは2階微分すると $X$ が線形(1次)で残る分布(指数型分布族)が多く、$\mathbb E[X]$ を入れるだけで済みます。両者は正則条件のもとで厳密に等しいので、計算しやすい方を選んでよい。 **Q4. クラメール・ラオ下限を下回る推定量を作ったら、それは間違いですか?** A. 状況によります。(1) その推定量が**不偏でない**なら、CR下限は適用外なので下回って当然(縮小推定など)。間違いではありません。(2) その推定量が不偏で、かつ**正則条件が成り立つ**のに下回ったなら、計算ミスです。(3) 一様分布 $U(0,\theta)$ のように**正則条件が破れる**分布なら、不偏推定量でも下限を下回りえます(CR下限がそもそも無効)。「下回った=即ミス」ではなく、まず不偏性と正則条件を確認するのが正解です。 **Q5. 有効推定量と最小分散不偏推定量(UMVUE)は同じものですか?** A. 同じではありません。有効推定量は「CR下限に等号で到達する不偏推定量」、UMVUEは「不偏推定量の中で分散が最小のもの」。有効推定量は(存在すれば)必ずUMVUEですが、逆は必ずしも真ではありません。UMVUEであってもCR下限には届かない(=有効でない)ことがあります。CR下限は「達成できれば最小」を保証する**十分条件**ですが、最小分散であるための必要条件ではない、という関係です。 --- ## まとめ - 推定量の有限標本での良さは**MSE=分散+バイアス²**で測る。交差項が消える直交分解(統計版ピタゴラス)。**不偏なら MSE=分散**。 - バイアスと分散はトレードオフ。**わざと偏らせてMSEを下げる**縮小推定が存在する(不偏が常に最良ではない)。 - **フィッシャー情報量** $I(\theta)$=スコアの分散=対数尤度の曲率の平均。表式A(傾きの2乗の期待値)と表式B(−2階微分の期待値)は正則条件のもとで等価。標本で $I_n(\theta)=nI(\theta)$ と線形に積み上がる。 - **クラメール・ラオ不等式**:不偏推定量の分散は $1/I_n(\theta)$ 未満にできない。導出は「不偏条件の微分で共分散を1に固定→コーシー・シュワルツ」。**前提は不偏+正則条件**。 - 下限に等号到達する不偏推定量が**有効推定量**。有効性=下限/分散。**MLEは漸近有効**(大標本でCR下限を達成)。 --- ## 関連ノート - 点推定(推定量の良さ:不偏性・一致性・有効性・十分性) … 不偏性・一致性・有効性の定義(本ノートはそれらを測る道具を深掘り) - 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論) … 最尤推定量の漸近有効性(CR下限を漸近的に達成する根拠。前方リンク) - 期待値・分散の性質(線形性・和の分散・共分散) … 分散・共分散の計算とコーシー・シュワルツ不等式(CR下限導出の土台) - 確率変数の変換・モーメント母関数・積率 … 対数尤度の微分・期待値計算の技法