📊 対象級：準1級・ 1級　|　重要度：B（標準）

推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）

要点（BLUF）

推定量の良さ＝「真値からの平均的なズレの小ささ」。これを定量化するのが平均二乗誤差（MSE）。中心的な等式がバイアス-バリアンス分解： $\boxed{\,\mathrm{MSE}(\hat\theta)=\mathbb E\big[(\hat\theta-\theta)^2\big]=\underbrace{V[\hat\theta]}_{\text{分散}}+\underbrace{\big(\mathbb E[\hat\theta]-\theta\big)^2}_{\text{バイアス}^2}\,}$ 要するに「外しの大きさは、ブレ（分散）と偏り（バイアス）の2成分に綺麗に割れる」。不偏推定量ならバイアス＝0なので MSE＝分散。
フィッシャー情報量 $I(\theta)$ ：データが母数 $\theta$ について「どれだけ情報を持つか」の尺度。対数尤度の傾き（スコア）のバラつきで測る。2つの等価な表式がある： $\boxed{\,I(\theta)=\mathbb E\!\left[\left(\frac{\partial}{\partial\theta}\log f(X;\theta)\right)^{\!2}\right]=-\,\mathbb E\!\left[\frac{\partial^2}{\partial\theta^2}\log f(X;\theta)\right]\,}$ 要するに「対数尤度がどれだけ尖っているか」。尖っているほど $\theta$ を鋭く特定でき、情報量が大きい。
クラメール・ラオの不等式（CR下限）：（正則条件のもとで）任意の不偏推定量の分散は、フィッシャー情報量の逆数より小さくできない： $\boxed{\,V[\hat\theta]\ \ge\ \frac{1}{I_n(\theta)}=\frac{1}{n\,I(\theta)}\,}$ 要するに「不偏でいる限り、分散には越えられない下限がある」。この下限に等号で到達する不偏推定量を有効推定量（最小分散不偏推定量の一種）と呼ぶ。

⚠️ 年度依存の注意：準1級・1級の出題範囲表は改訂されうる（要最新確認）。本ノートの級振り分けは現行ワークブック準拠の一般的傾向に基づく。

1. なぜ「推定量の評価」が要るのか

母数 $\theta$ （母平均・母分散・母比率など）を、標本から作った推定量 $\hat\theta=\hat\theta(X_1,\dots,X_n)$ で当てにいきます。問題は 「良い推定量とは何か」を定義しないと、複数の候補を比べられないこと。

例えば母平均 $\mu$ を推定するのに、標本平均 $\bar X$ も使えるし、中央値も、「最初の1個 $X_1$ 」だって不偏推定量です。どれが優れているか? ──この優劣を測る共通のものさしが要る。それが本ノートの主題です。

評価軸は2層あります。

graph TD
    A["推定量の評価"] --> B["有限標本での評価"]
    A --> C["漸近的な評価<br/>（n→∞）"]
    B --> B1["平均二乗誤差 MSE"]
    B1 --> B2["バイアス（偏り）"]
    B1 --> B3["バリアンス（分散・ブレ）"]
    B --> B4["不偏なら MSE＝分散<br/>→ 分散の下限はどこ？"]
    B4 --> B5["クラメール・ラオ下限<br/>1 / I(θ)"]
    B5 --> B6["フィッシャー情報量 I(θ)"]
    C --> C1["一致性"]
    C --> C2["漸近正規性"]
    C --> C3["漸近有効性<br/>（CR下限を漸近的に達成）"]

不偏性・一致性・有効性の定義そのものは点推定（推定量の良さ：不偏性・一致性・有効性・十分性）に置きます。本ノートはそれらを**測る道具（MSE・情報量・下限）**を深掘りします。

2. 平均二乗誤差（MSE）とバイアス-バリアンス分解

2.1 定義

推定量 $\hat\theta$ の平均二乗誤差は、真値 $\theta$ からの二乗誤差の期待値：

$\mathrm{MSE}(\hat\theta)=\mathbb E\big[(\hat\theta-\theta)^2\big].$

要するに：何度も標本を取り直したときの「外し具合の二乗」を平均した量。小さいほど良い推定量です。

なぜ「二乗」かというと、(1) 正負のズレが打ち消し合わない、(2) 大きな外しをより重く罰する、(3) 後で分散と直結して解析が綺麗になる、の3点です。

2.2 バイアス（偏り）の定義

$\mathrm{bias}(\hat\theta)=\mathbb E[\hat\theta]-\theta.$

要するに：推定量を平均的にどれだけ的の中心からずらしているか。 $\mathbb E[\hat\theta]=\theta$ なら $\mathrm{bias}=0$ で、これが**不偏（unbiased）**の定義です。

2.3 MSE分解の完全導出

主張： $\mathrm{MSE}(\hat\theta)=V[\hat\theta]+\big(\mathrm{bias}(\hat\theta)\big)^2.$

導出。記号を軽くするため $m=\mathbb E[\hat\theta]$ とおきます（推定量の期待値）。 $(\hat\theta-\theta)$ に $-m+m$ を挿入して2項に割ります：

$\hat\theta-\theta=(\hat\theta-m)+(m-\theta).$

ここで $(\hat\theta-m)$ は「推定量の自分の平均からのブレ」、 $(m-\theta)$ は「平均と真値のズレ＝バイアス（定数）」です。二乗して期待値を取ります：

\mathbb E\big[(\hat\theta-\theta)^2\big] =\mathbb E\Big[\big\{(\hat\theta-m)+(m-\theta)\big\}^2\Big] =\mathbb E\big[(\hat\theta-m)^2\big]+2(m-\theta)\,\mathbb E\big[\hat\theta-m\big]+(m-\theta)^2.

第2項の中身に注目すると、 $(m-\theta)$ は定数なので期待値の外へ出せ、残る $\mathbb E[\hat\theta-m]=\mathbb E[\hat\theta]-m=m-m=0$ 。この交差項がちょうど消えるのが分解の肝です。よって

\mathrm{MSE}(\hat\theta)=\underbrace{\mathbb E\big[(\hat\theta-m)^2\big]}_{=V[\hat\theta]}+\underbrace{(m-\theta)^2}_{=(\mathrm{bias})^2}.

$\square$

要するに：誤差を「自分の平均からのブレ」と「平均の真値からのズレ」に直交分解すると、クロス項が消えて二乗の和になる。統計版のピタゴラスの定理だと思ってよい(分散がブレの脚、バイアスが偏りの脚、MSEが斜辺の二乗)。

不偏推定量なら $\mathrm{bias}=0$ ゆえ MSE＝分散。だから「不偏推定量の中で最良」を選ぶ問題は「分散を最小にする」問題に帰着する。これが後半のクラメール・ラオ下限へ直結する論理です。

2.4 バイアス-バリアンスのトレードオフ

graph LR
    A["モデルを単純に<br/>（強い仮定）"] --> A1["バイアス↑"]
    A --> A2["バリアンス↓"]
    B["モデルを柔軟に<br/>（弱い仮定）"] --> B1["バイアス↓"]
    B --> B2["バリアンス↑"]
    A1 --> C["MSE＝バイアス²＋分散<br/>最小化したい"]
    A2 --> C
    B1 --> C
    B2 --> C

要するに：MSEを下げるにはバイアスと分散の両方を下げたいが、両者は多くの場合トレードオフ。少し偏らせる代わりに分散を大きく減らせるなら、わざとバイアスを入れた（不偏でない）推定量がMSEでは勝つことがある。リッジ回帰や縮小推定（最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論）の先にある正則化）がこの発想です。「不偏＝常に最良」ではない、という1級級の論点。

2.5 数値例①：MSEで不偏推定量を逆転する縮小推定

母分散 $\sigma^2$ の推定で、 $\hat\sigma^2_{\text{unb}}=\frac1{n-1}\sum(X_i-\bar X)^2$ （不偏）と、最尤推定 $\hat\sigma^2_{\text{ML}}=\frac1n\sum(X_i-\bar X)^2$ （下方バイアスあり）を正規母集団で比べます。正規分布のもとでは、MSEを最小にする分母は $n-1$ でも $n$ でもなく $n+1$ ：

$\frac{1}{n+1}\sum(X_i-\bar X)^2\ \ \text{が} \ \ \mathrm{MSE}\ \text{最小}.$

不偏推定量（分母 $n-1$ ）よりMSEが小さい偏った推定量が存在する具体例です。

要するに：「不偏性」と「MSE最小」は別の最適性。試験で「不偏推定量は常に最良か?」と問われたら No（MSE基準なら偏った推定量が勝ちうる）。

3. スコア関数とフィッシャー情報量

ここから「不偏推定量の分散はどこまで小さくできるか」を測るための道具立てに入ります。鍵は対数尤度の傾きです。

3.1 尤度・対数尤度・スコア関数

確率密度（質量）関数を $f(x;\theta)$ とし、観測 $X$ を1つ持っているとします。 $\theta$ の関数として見た $f(X;\theta)$ を尤度、その対数 $\ell(\theta)=\log f(X;\theta)$ を対数尤度と呼びます（対数尤度の微分の扱いは確率変数の変換・モーメント母関数・積率と同じ計算技法）。

スコア関数は対数尤度の $\theta$ に関する1階微分：

$U(\theta)=\frac{\partial}{\partial\theta}\log f(X;\theta)=\frac{1}{f(X;\theta)}\frac{\partial f(X;\theta)}{\partial\theta}.$

最後の等号は対数微分（ $(\log f)'=f'/f$ ）です。要するに：スコアは「いまの $\theta$ をちょっと動かすと、観測データの尤もらしさがどっちにどれだけ増えるか」を表す。最尤推定はこれを0にする $\theta$ を探す操作です。

3.2 スコアの期待値は0（正則条件のもとで）

主張： $\mathbb E[U(\theta)]=0$ 。

導出。連続の場合で書きます（離散は積分を和に読み替え）。密度は全空間で積分すると1：

$\int f(x;\theta)\,dx=1.$

両辺を $\theta$ で微分します。ここで微分と積分の順序交換ができることを使います（これが正則条件の中核。台が $\theta$ に依らない等が必要）：

$\frac{\partial}{\partial\theta}\int f(x;\theta)\,dx=\int \frac{\partial f(x;\theta)}{\partial\theta}\,dx=0.$

被積分を $\dfrac{\partial f}{\partial\theta}=f\cdot\dfrac{\partial \log f}{\partial\theta}=f\cdot U(\theta)$ と書き直すと：

$\int U(x;\theta)\,f(x;\theta)\,dx=\mathbb E[U(\theta)]=0.$

$\square$

要するに：「密度の総和は常に1で $\theta$ に依らない」を微分しただけで、スコアの平均は0と分かる。だからスコアの分散＝スコアの2乗の期待値になる(平均0なので $V[U]=\mathbb E[U^2]-(\mathbb E[U])^2=\mathbb E[U^2]$ )。これが次のフィッシャー情報量の2表式に効きます。

3.3 フィッシャー情報量の定義（2つの表式）

フィッシャー情報量は、スコアの分散（＝2乗の期待値）として定義されます：

$I(\theta)=V[U(\theta)]=\mathbb E\!\left[\left(\frac{\partial}{\partial\theta}\log f(X;\theta)\right)^{\!2}\right].\tag{表式A}$

要するに：スコア（対数尤度の傾き）がどれだけ大きく振れるか。傾きが激しく振れる＝データが $\theta$ に敏感＝情報が多い。

正則条件のもとで、これは2階微分を使っても書けます：

$I(\theta)=-\,\mathbb E\!\left[\frac{\partial^2}{\partial\theta^2}\log f(X;\theta)\right].\tag{表式B}$

要するに：対数尤度の曲率（凹み具合）の平均。対数尤度が最尤点で鋭く尖って（強く下に凸で）いるほど、 $\theta$ を鋭く特定でき情報量が大きい。実務では表式Bのほうが計算が楽なことが多い。

3.4 表式A＝表式B の導出

スコアをもう一度 $\theta$ で微分します。 $U=\dfrac{1}{f}\dfrac{\partial f}{\partial\theta}$ に商の微分（積の微分）を適用：

\frac{\partial U}{\partial\theta} =\frac{\partial^2 \log f}{\partial\theta^2} =\frac{\dfrac{\partial^2 f}{\partial\theta^2}}{f}-\left(\frac{\dfrac{\partial f}{\partial\theta}}{f}\right)^{\!2} =\frac{1}{f}\frac{\partial^2 f}{\partial\theta^2}-U^2.

この両辺の期待値を取ります。第1項の期待値は

$\mathbb E\!\left[\frac{1}{f}\frac{\partial^2 f}{\partial\theta^2}\right]=\int \frac{1}{f}\frac{\partial^2 f}{\partial\theta^2}\,f\,dx=\int \frac{\partial^2 f}{\partial\theta^2}\,dx=\frac{\partial^2}{\partial\theta^2}\int f\,dx=\frac{\partial^2}{\partial\theta^2}(1)=0.$

（ここでも微分と積分の順序交換＝正則条件を使い、 $\int f\,dx=1$ を2回微分すると0。）よって

$\mathbb E\!\left[\frac{\partial^2 \log f}{\partial\theta^2}\right]=0-\mathbb E[U^2]=-\,\mathbb E[U^2]=-I(\theta).$

符号を移せば $I(\theta)=-\mathbb E\!\left[\dfrac{\partial^2 \log f}{\partial\theta^2}\right]$ 。表式Aと表式Bが一致しました。 $\square$

要するに：スコアをもう一段微分すると「曲率」と「スコアの2乗」の差になり、曲率の平均は（密度の規格化を2回微分して）0。だからスコアの2乗の平均＝マイナス曲率の平均が成り立つ。等価性は正則条件に支えられている。

3.5 標本の加法性 $I_n(\theta)=n\,I(\theta)$

独立同分布 $X_1,\dots,X_n$ の同時尤度は積 $\prod_i f(X_i;\theta)$ 、対数尤度は和 $\sum_i \log f(X_i;\theta)$ 。スコアも和になります。独立なら分散は和なので、

$I_n(\theta)=V\!\left[\sum_{i=1}^n U_i(\theta)\right]=\sum_{i=1}^n V[U_i(\theta)]=n\,I(\theta).$

要するに：データを1個増やすごとにフィッシャー情報量は $I(\theta)$ ずつ線形に積み上がる。標本が多いほど情報が増え、後述の下限 $1/(nI(\theta))$ は $1/n$ で縮む（推定がだんだん精密になる）。

3.6 数値例②：代表分布のフィッシャー情報量

フィッシャー情報量＝対数尤度の曲率（n=10 vs 50）

ベルヌーイ(p=0.7)の対数尤度。n=50 は n=10 より頂点が鋭い＝情報量 I=n/(p(1-p)) が大きい＝クラメール・ラオ下限 1/(nI) が小さい。図は simulations/fisher_jouhou_kyokuritsu.py で生成。

分布	母数	1標本の $I(\theta)$	CR下限 $1/(nI)$	達成する推定量
ベルヌーイ $\mathrm{Be}(p)$	$p$	$\dfrac{1}{p(1-p)}$	$\dfrac{p(1-p)}{n}$	標本比率 $\hat p=\bar X$
ポアソン $\mathrm{Po}(\lambda)$	$\lambda$	$\dfrac{1}{\lambda}$	$\dfrac{\lambda}{n}$	標本平均 $\bar X$
正規 $N(\mu,\sigma^2)$ （ $\sigma^2$ 既知）	$\mu$	$\dfrac{1}{\sigma^2}$	$\dfrac{\sigma^2}{n}$	標本平均 $\bar X$

確認（ベルヌーイ）。 $f(x;p)=p^x(1-p)^{1-x}$ 、 $\log f=x\log p+(1-x)\log(1-p)$ 。スコア： $U=\dfrac{x}{p}-\dfrac{1-x}{1-p}$ 。2階微分： $\dfrac{\partial^2\log f}{\partial p^2}=-\dfrac{x}{p^2}-\dfrac{1-x}{(1-p)^2}$ 。 $\mathbb E[X]=p$ を入れて符号反転：

$I(p)=-\mathbb E\!\left[-\frac{X}{p^2}-\frac{1-X}{(1-p)^2}\right]=\frac{p}{p^2}+\frac{1-p}{(1-p)^2}=\frac1p+\frac1{1-p}=\frac{1}{p(1-p)}.$

CR下限は $\dfrac{1}{n I(p)}=\dfrac{p(1-p)}{n}$ 。一方 $\hat p=\bar X$ の分散は $V[\bar X]=\dfrac{p(1-p)}{n}$ でぴったり一致。よって標本比率は有効推定量です。

要するに：表式Bで計算（2階微分→符号反転）が一番速い。そして標本平均・標本比率は代表分布でCR下限を達成する＝有効推定量である、という結論が試験の定番。

4. クラメール・ラオの不等式

4.1 主張（正則条件つき）

正則条件のもとで、 $\theta$ の任意の不偏推定量 $\hat\theta$ （ $\mathbb E[\hat\theta]=\theta$ ）に対し

$V[\hat\theta]\ \ge\ \frac{1}{I_n(\theta)}=\frac{1}{n\,I(\theta)}.$

右辺を**クラメール・ラオ下限（CR下限）**と呼びます。

要するに：不偏でいる限り、どんなに工夫しても分散をこの値より小さくはできない。情報量 $I_n$ が大きいほど下限が下がり、より精密な推定が可能になる。

4.2 導出スケッチ（コーシー・シュワルツ）

$n$ 個の標本のスコアを $U_n(\theta)=\sum_i U_i(\theta)$ とします。 $\mathbb E[U_n]=0$ 、 $V[U_n]=I_n(\theta)$ は §3 で確認済み。

ステップ1：不偏条件を微分して共分散を1に固定する。 不偏性 $\mathbb E[\hat\theta]=\theta$ 、すなわち $\displaystyle\int \hat\theta(\mathbf x)\,f_n(\mathbf x;\theta)\,d\mathbf x=\theta$ の両辺を $\theta$ で微分します（順序交換＝正則条件）：