📊 対象級：2級・準1級　|　重要度：A（頻出）

点推定（推定量の良さ：不偏性・一致性・有効性・十分性）

要点（BLUF）

点推定：母集団の未知の母数 $\theta$ （母平均・母分散・母比率など）を、標本から計算した1つの値で見積もること。見積もる計算式（標本の関数）を推定量 $\hat\theta=\hat\theta(X_1,\dots,X_n)$ 、それに実データを入れて出た数値を推定値と呼びます。要するに「推定量は確率変数（公式）、推定値はその実現値（数）」。
推定量は確率変数。標本が変われば値も変わるので、推定量 $\hat\theta$ には分布（標本分布）があります。だから「良い推定量とは何か」を分布の性質で測ります。基準は次の4つ：

基準	ひとことで	式・条件
不偏性	平均的にズレない	$E[\hat\theta]=\theta$
一致性	データを増やせば真値へ	$\hat\theta_n\xrightarrow{p}\theta\ (n\to\infty)$
有効性	ばらつきが最小	$V[\hat\theta]$ が最小（不偏推定量の中で）
十分性	情報を捨てていない	$\theta$ について標本が持つ情報をすべて含む統計量

不偏分散が $n-1$ で割る理由：標本平均 $\bar X$ を中心に使うとズレの2乗和を過小に見積もるため、 $n$ で割ると母分散より小さくなる。 $n-1$ で割ると期待値がちょうど $\sigma^2$ に一致する（ $E[s^2]=\sigma^2$ ）。本文で完全に導出します。
最重要の誤解：不偏 ≠ 一致。別々の性質で、片方だけ満たす推定量が存在します（本文の反例参照）。

本文

1. 点推定とは何か：推定量と推定値を分ける

統計的推測のゴールは、手元の標本から母集団の母数 $\theta$ を言い当てることです。やり方は2系統あります。

点推定： $\theta$ を1つの値で見積もる（例：母平均を $\bar X=52.3$ と見積もる）。← このノート
区間推定： $\theta$ を幅のある区間で見積もる（例：母平均は $[50.1,\ 54.5]$ にありそう）。← 区間推定（母平均・母比率・母分散の信頼区間）

点推定で使う道具立てを、用語として厳密に分けます。ここが曖昧だと推定論全体がぼやけます。

用語	定義	例	正体
母数 $\theta$	母集団が持つ未知の定数	母平均 $\mu$ 、母分散 $\sigma^2$	定数（1つに決まっているが未知）
推定量 $\hat\theta$	母数を見積もる標本の関数（公式）	$\bar X=\frac1n\sum X_i$	確率変数（標本で値が変わる）
推定値	推定量に実データを入れた数値	$\bar x=52.3$	定数（1回の実現値）

⚠️ 推定量は確率変数、推定値はただの数。この区別が点推定の心臓です。「 $\bar X$ の分散」「 $\bar X$ の期待値」と言えるのは、 $\bar X$ が確率変数（標本ごとに変わる）だからこそ。標本を取り直せば $\bar X$ の値はばらつく ── そのばらつき方（標本分布）の良し悪しが、推定量の良し悪しです（確率変数（離散・連続）と期待値・分散、標本平均・標本比率の標本分布（標準誤差））。

2. なぜ「推定量の良さ」を考えるのか

母平均 $\mu$ を推定したいとき、候補はいくらでもあります。

候補A：標本平均 $\bar X=\frac1n\sum_{i=1}^n X_i$
候補B：標本の最初の1個 $X_1$ だけを使う
候補C：標本の最大値と最小値の平均（中点）
候補D：常に $0$ を返す（標本を見ない）

どれも「 $\mu$ の推定量」と名乗れます。が、明らかに良し悪しがある。Dは論外、Bは1個しか使わずもったいない、Aは全データを使っていて良さそう。この「良さそう」を客観的な基準にしたものが、これから見る4性質です。推定量は確率変数なので、良さはその分布の性質（中心がどこか・どれだけばらつくか・ $n$ を増やすとどう変わるか）で定義します。

graph TD
    A["推定量 θ̂ の良さ"] --> B["不偏性<br/>分布の中心が θ に一致<br/>E[θ̂]＝θ"]
    A --> C["一致性<br/>n→∞ で θ に収束<br/>θ̂ₙ →ᵖ θ"]
    A --> D["有効性<br/>分布のばらつきが最小<br/>V[θ̂] 最小"]
    A --> E["十分性<br/>θ の情報を捨てない<br/>十分統計量"]
    B -.->|別々の性質<br/>両立も片方だけもある| C
    C -.->|有限分散+不偏なら<br/>分散→0 で一致| D
    style B fill:#e8f4ff
    style C fill:#e8f4ff
    style D fill:#fff0e8
    style E fill:#fff0e8

青が2級の中心（不偏性・一致性）、オレンジが準1級で深掘りする内容（有効性・十分性）です。

3. 不偏性：平均的にズレない

定義：推定量 $\hat\theta$ が 不偏（unbiased） とは、その期待値が母数に一致すること。 $\boxed{\,E[\hat\theta]=\theta\,}$

要するに：標本を取り直す試行を無限に繰り返して推定値を平均すると、ちょうど真値 $\theta$ になる。系統的なズレ（偏り）がない、という意味です。

ズレの大きさを バイアス（偏り） と呼びます：

$\mathrm{Bias}(\hat\theta)=E[\hat\theta]-\theta.$

不偏とは $\mathrm{Bias}(\hat\theta)=0$ のこと。

⚠️ 不偏は「平均的に当たる」であって「毎回当たる」ではない。1回の推定値が $\theta$ から大きく外れても矛盾しません。当たり外れの平均がちょうど真ん中、というだけ。1回ごとの外れ具合は「有効性（分散）」が受け持ちます。

3.1 標本平均は母平均の不偏推定量

$X_1,\dots,X_n$ を平均 $\mu$ ・分散 $\sigma^2$ の母集団からの無作為標本（i.i.d.）とします。標本平均 $\bar X=\frac1n\sum X_i$ について、期待値の線形性（期待値・分散の性質（線形性・和の分散・共分散））から：

$E[\bar X]=E\!\left[\frac1n\sum_{i=1}^n X_i\right]=\frac1n\sum_{i=1}^n E[X_i]=\frac1n\cdot n\mu=\mu.$

要するに：各 $X_i$ の期待値が $\mu$ で、それを平均しても $\mu$ 。だから $\bar X$ は $\mu$ の不偏推定量。これは母集団が正規でなくても、平均 $\mu$ さえ存在すれば成り立ちます（期待値の線形性は分布の形に依らない）。

3.2 標本比率は母比率の不偏推定量

各 $X_i$ を「成功なら1・失敗なら0」とすると $E[X_i]=p$ （母比率）。標本比率 $\hat p=\bar X$ の期待値も同じ論法で $E[\hat p]=p$ 。だから標本比率は母比率の不偏推定量です（標本平均・標本比率の標本分布（標準誤差））。

4. なぜ不偏分散は $n-1$ で割るのか（完全導出）

ここが2級で最も問われる理論です。標本分散 $S^2=\frac1n\sum(X_i-\bar X)^2$ （ $n$ で割る）は母分散 $\sigma^2$ の不偏推定量ではない。 $n-1$ で割った不偏分散 $s^2=\frac1{n-1}\sum(X_i-\bar X)^2$ にして初めて $E[s^2]=\sigma^2$ になります。これを最後まで導きます。

4.1 直観：自分で決めた中心の周りは「狭く」見える

ズレの2乗和 $\sum(X_i-c)^2$ を、中心 $c$ を動かして最小にする点は標本平均 $\bar X$ です（ $\frac{d}{dc}\sum(X_i-c)^2=0$ を解くと $c=\bar X$ ）。つまり

$\sum_{i=1}^n (X_i-\bar X)^2 \ \le\ \sum_{i=1}^n (X_i-\mu)^2.$

要するに：本当の中心 $\mu$ ではなく、データから作った $\bar X$ を中心にすると、2乗和は必ず小さくなる（最小化点だから）。だから $n$ で割ると母分散より小さめに出る。この目減りをちょうど取り戻す補正が $\frac{n}{n-1}$ 倍、すなわち $n-1$ で割ることです。これを式で確定させます。

4.2 鍵となる恒等式

各 $X_i$ のズレを「 $\mu$ からのズレ」と「 $\bar X$ の $\mu$ からのズレ」に分解します。 $X_i-\bar X=(X_i-\mu)-(\bar X-\mu)$ なので、両辺を2乗して $i$ で和を取ると：

\sum_{i=1}^n (X_i-\bar X)^2 =\sum_{i=1}^n (X_i-\mu)^2 - 2(\bar X-\mu)\sum_{i=1}^n(X_i-\mu) + n(\bar X-\mu)^2.

ここで中央の項は $\sum_{i=1}^n(X_i-\mu)=\sum X_i-n\mu=n\bar X-n\mu=n(\bar X-\mu)$ なので、 $-2(\bar X-\mu)\cdot n(\bar X-\mu)=-2n(\bar X-\mu)^2$ 。まとめると：

$\boxed{\ \sum_{i=1}^n (X_i-\bar X)^2=\sum_{i=1}^n (X_i-\mu)^2 - n(\bar X-\mu)^2\ }$

要するに：「 $\bar X$ 周りのバラツキ」＝「 $\mu$ 周りのバラツキ」から「 $\bar X$ が $\mu$ からズレたぶん $\times n$ 」を引いたもの。この引かれる項こそが、 $\bar X$ を中心に使ったことで失う自由度1ぶんの目減りです。

4.3 両辺の期待値を取る

右辺の各項の期待値を、定義に沿って計算します。

第1項： $E\!\left[\sum_{i=1}^n (X_i-\mu)^2\right]=\sum_{i=1}^n E[(X_i-\mu)^2]=\sum_{i=1}^n \sigma^2=n\sigma^2.$ （ $E[(X_i-\mu)^2]=V[X_i]=\sigma^2$ は母分散の定義そのもの。）

第2項： $E\!\left[n(\bar X-\mu)^2\right]=n\,E[(\bar X-\mu)^2]=n\,V[\bar X].$ ここで $\bar X$ の分散は、独立性から（期待値・分散の性質（線形性・和の分散・共分散）の $V\!\left[\frac1n\sum X_i\right]=\frac1{n^2}\sum V[X_i]$ ）：

$V[\bar X]=\frac{1}{n^2}\sum_{i=1}^n V[X_i]=\frac{1}{n^2}\cdot n\sigma^2=\frac{\sigma^2}{n}.$

よって第2項の期待値は $n\cdot\dfrac{\sigma^2}{n}=\sigma^2.$

差を取る：

$E\!\left[\sum_{i=1}^n (X_i-\bar X)^2\right]=n\sigma^2-\sigma^2=(n-1)\sigma^2.$

4.4 結論： $n-1$ で割ると不偏になる

$E[s^2]=E\!\left[\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2\right]=\frac{1}{n-1}\cdot(n-1)\sigma^2=\sigma^2.\qquad\blacksquare$

要するに：2乗和の期待値が $(n-1)\sigma^2$ だから、 $n-1$ で割れば期待値がちょうど $\sigma^2$ 。これが「 $n-1$ で割る」唯一の理由 ── 不偏にするためです。一方 $n$ で割った標本分散 $S^2$ は

$E[S^2]=E\!\left[\frac1n\sum(X_i-\bar X)^2\right]=\frac{n-1}{n}\sigma^2<\sigma^2$

で、母分散を過小評価します。バイアスは $\mathrm{Bias}(S^2)=\frac{n-1}{n}\sigma^2-\sigma^2=-\frac{\sigma^2}{n}<0$ 。 $n$ が大きいほどこのバイアスは0に近づく（後述の一致性につながる）。

⚠️ 自由度の言葉での説明： $n$ 個のズレ $X_i-\bar X$ には拘束条件 $\sum(X_i-\bar X)=0$ が1本かかっている（ $\bar X$ がデータから決まるため、最後の1個は他で決まる）。だから自由に動けるのは $n-1$ 個。割るべきは「データ個数 $n$ 」ではなく「自由度 $n-1$ 」── これが $n-1$ で割る幾何学的理由で、4.2の恒等式の $-n(\bar X-\mu)^2$ 項と同じことを別角度から言っています。

4.5 数値例で確認

例1（ $n=2$ ）：標本 $\{4,\ 10\}$ 。 $\bar X=7$ 。

ズレの2乗和： $(4-7)^2+(10-7)^2=9+9=18$ 。
標本分散（ $n$ 割り）： $18/2=9$ 。
不偏分散（ $n-1$ 割り）： $18/1=18$ 。 $n=2$ のとき不偏分散は標本分散の $\frac{n}{n-1}=2$ 倍。小標本ほど補正が効きます。

例2（過小評価のシミュレーション的確認）：母分散 $\sigma^2=1$ の母集団から $n=5$ の標本を多数回取り、毎回 $S^2$ （ $n$ 割り）を計算して平均すると、理論上 $E[S^2]=\frac{n-1}{n}\sigma^2=\frac45=0.8$ に近づきます（真の1より小さい）。 $s^2$ （ $n-1$ 割り）の平均なら $1.0$ に近づく。「平均が真値に一致するか」が不偏性の意味で、この数値実験がまさにそれを示します。

5. 一致性：データを増やせば真値に行き着く

定義：推定量の列 $\hat\theta_n$ （標本サイズ $n$ に依存）が 一致（consistent） とは、 $n\to\infty$ で $\hat\theta_n$ が $\theta$ に確率収束すること。 $\boxed{\,\hat\theta_n\xrightarrow{p}\theta\,}\quad\text{すなわち}\quad \forall\varepsilon>0:\ \lim_{n\to\infty}P\big(|\hat\theta_n-\theta|\ge\varepsilon\big)=0.$

要するに：標本をどんどん増やせば、推定量が真値からズレる確率がいくらでも小さくなる。「データを集めれば正解に近づく」という、推定の最低限の良心です。

5.1 標本平均の一致性は大数の法則そのもの

$\bar X_n\xrightarrow{p}\mu$ は、まさに大数の法則（大数の法則（弱法則・強法則））の主張です。式で裏付けると、 $\bar X_n$ は不偏（ $E[\bar X_n]=\mu$ ）で分散が $V[\bar X_n]=\sigma^2/n\to0$ 。チェビシェフの不等式から

$P\big(|\bar X_n-\mu|\ge\varepsilon\big)\le\frac{V[\bar X_n]}{\varepsilon^2}=\frac{\sigma^2}{n\varepsilon^2}\xrightarrow[n\to\infty]{}0.$

要するに：「中心が $\mu$ （不偏）」かつ「ばらつきが0に縮む（ $\sigma^2/n\to0$ ）」なら、分布がどんどん $\mu$ に集中する＝一致。これが一致性を確認する最頻パターンです。

5.2 一致性の十分条件（試験で使える定理）

上の論法を一般化すると、実務的に使いやすい十分条件が出ます：

$\text{（漸近的に不偏）}\ E[\hat\theta_n]\to\theta\quad\text{かつ}\quad V[\hat\theta_n]\to0\ \Longrightarrow\ \hat\theta_n\xrightarrow{p}\theta\ \text{（一致）}.$

要するに：「偏りが消えていく」＋「ばらつきが消えていく」なら一致。これは平均二乗誤差 $\mathrm{MSE}=\mathrm{Bias}^2+V$ （→ 推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式））が0に行くことと同値で、MSEが0なら確率収束が従います。これで標本分散 $S^2$ （ $n$ 割り、不偏でない）も一致だと言えます（バイアス $-\sigma^2/n\to0$ 、分散も0に縮むため）。

⚠️ 不偏 ≠ 一致（最重要の区別）。不偏は「有限の $n$ で中心が合う」、一致は「 $n\to\infty$ で1点に集中する」。次元が違うので、片方だけ成り立つ推定量が存在します。

5.3 反例で叩き込む

推定量	不偏か	一致か	なぜ
$\bar X$ （標本平均）	○	○	$E[\bar X]=\mu$ 、 $V[\bar X]=\sigma^2/n\to0$
$\hat\theta=X_1$ （最初の1個だけ）	○	×	$E[X_1]=\mu$ で不偏。だが $n$ をいくら増やしても1個しか使わず $V[X_1]=\sigma^2$ のまま縮まない → 1点に集中しない
$S^2$ （ $n$ 割りの標本分散）	×	○	バイアス $-\sigma^2/n\ne0$ だが、 $n\to\infty$ でバイアスも分散も0 → $\sigma^2$ に収束

結論： $X_1$ は「不偏だが一致でない」、 $S^2$ は「一致だが不偏でない」。不偏性と一致性は独立した別々の性質です。これは2級でも準1級でも繰り返し狙われる区別なので、この表をそのまま覚えてください。

6. 有効性：ばらつきが最小であること

ここからは主に準1級の内容。2級では「有効性＝分散が小さいほど良い」という方向感まで分かれば十分。

定義：2つの不偏推定量 $\hat\theta_1,\hat\theta_2$ のうち、分散が小さい方が より有効（efficient）。不偏推定量の中で分散が最小のものを有効推定量（最小分散不偏推定量, UMVUE）と呼ぶ。

要するに：不偏（中心は合っている）を前提に、当たり外れの幅（分散）が一番小さいものが一番良い。不偏性だけでは「平均的に当たる推定量」が複数あって決め手にならないので、その中から最もブレないものを選ぶ基準が有効性です。

2つの不偏推定量の良さを比べる 相対効率 は分散の比で測ります：

$\text{相対効率}=\frac{V[\hat\theta_2]}{V[\hat\theta_1]}.$

クラメール・ラオの下限（有効性の絶対基準）

「最小」と言うには下限が要ります。それを与えるのが クラメール・ラオの不等式：一定の正則条件下で、 $\theta$ の任意の不偏推定量 $\hat\theta$ の分散は

$\boxed{\,V[\hat\theta]\ \ge\ \frac{1}{I_n(\theta)}\,}$

を満たす。ここで $I_n(\theta)$ は標本全体の フィッシャー情報量で、対数尤度 $\ell(\theta)=\log L(\theta)$ を使って

$I_n(\theta)=E\!\left[\left(\frac{\partial \ell}{\partial\theta}\right)^2\right]=-E\!\left[\frac{\partial^2 \ell}{\partial\theta^2}\right]$

で定義されます（i.i.d. なら $I_n(\theta)=n\,I_1(\theta)$ ）。

要するに：どんなに工夫しても、不偏推定量の分散は $1/I_n(\theta)$ より小さくできない ── これが分散の物理的下限です。この下限にちょうど等号で達する不偏推定量が有効推定量。フィッシャー情報量 $I_n(\theta)$ は「データが $\theta$ についてどれだけ情報を持つか」の尺度で、情報が多い（ $I_n$ 大）ほど下限が下がり、より精密な推定が可能になります。詳細な導出と例は推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）と最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論）（最尤推定量は漸近的にこの下限を達成）で扱います。

7. 十分性：情報を捨てていない統計量

準1級の内容。「十分統計量＝データの本質的な要約」という考え方を押さえる。

定義：統計量 $T=T(X_1,\dots,X_n)$ が母数 $\theta$ について 十分（sufficient） とは、 $T$ を与えたときの標本の条件付き分布が $\theta$ に依存しないこと。

要するに： $T$ さえ知っていれば、生データ全体を持っているのと同じだけ $\theta$ の情報がある。 $T$ は「 $\theta$ 推定に必要な情報を1つも捨てずに圧縮した要約」です。たとえば正規分布 $N(\mu,\sigma^2)$ では $\bigl(\sum X_i,\ \sum X_i^2\bigr)$ が $(\mu,\sigma^2)$ の十分統計量。 $n$ 個の生データを2つの数に圧縮しても、母数の情報は失われません。

因子分解定理（フィッシャー・ネイマン）

十分統計量かどうかは、尤度を因数分解できるかで判定します：

$\boxed{\,L(\theta\mid x)=g\big(T(x),\theta\big)\cdot h(x)\,}$

の形（ $\theta$ を含む部分 $g$ が $x$ に $T(x)$ を通してのみ依存し、残り $h$ が $\theta$ を含まない）に分解できるとき、かつそのときに限り $T$ は十分統計量。

要するに：尤度から「 $\theta$ が絡む部分」を切り出したとき、データが $T(x)$ という1つの要約を通してしか効いていなければ、 $T$ がデータの $\theta$ に関する情報を全部背負っている。十分統計量は「最小分散不偏推定量を作る土台」（ラオ・ブラックウェルの定理）として推定論で中心的な役割を果たします。詳細は推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）と最尤法（最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論））で。

8. なぜ重要か：推定論全体での位置づけ

点推定は、Phase 4（推定・検定）の出発点であり、以降すべての土台です。

graph LR
    A["点推定<br/>推定量の良さ<br/>不偏・一致・有効・十分"] --> B["推定量の評価<br/>MSE・クラメール・ラオ"]
    A --> C["最尤法・モーメント法<br/>良い推定量の作り方"]
    A --> D["区間推定<br/>点→幅のある区間へ"]
    D --> E["仮説検定<br/>推定量を検定統計量に"]
    C --> D
    B --> C
    style A fill:#ffe8e8

「良い推定量とは何か（このノート）」→「どう数値で評価するか（MSE・下限、推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式））」→「どう作るか（最尤法・モーメント法、最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論））」→「点でなく区間で（区間推定（母平均・母比率・母分散の信頼区間））」→「推定を検定へ（仮説検定の枠組み（帰無仮説・対立仮説・p値・有意水準））」という流れ。
区間推定・仮説検定で使う検定統計量・信頼区間は、すべて「不偏で一致な推定量（多くは $\bar X$ や $s^2$ ）」を出発点に組み立てます。だから不偏分散がなぜ $n-1$ かを理解していないと、 $t$ 分布を使う区間推定・検定（自由度 $n-1$ ）の意味が宙に浮きます。ここが推定論の最初の関門である理由です。

⚠️ 引っかけポイント

推定量と推定値の混同。「 $\bar X$ の分散」は意味を持つ（ $\bar X$ は確率変数）が、「推定値52.3の分散」は意味をなさない（ただの数）。良し悪しを論じられるのは確率変数である推定量に対してだけ。試験で「推定量の分散」と問われたら標本分布の分散の話。
不偏 ≠ 一致（最頻出の混同）。 $X_1$ は不偏だが一致でない、 $n$ 割りの標本分散 $S^2$ は一致だが不偏でない。「不偏なら一致」「一致なら不偏」はどちらも誤り。両者は別個の性質。
不偏は『毎回当たる』ではない。 $E[\hat\theta]=\theta$ は平均の話。1回の推定値が大きく外れても不偏性は壊れない。1回ごとのブレは有効性（分散）の担当。
標本分散は $n$ 割り・不偏分散は $n-1$ 割り。記号の慣習も問題文も揺れる（ $S^2$ をどちらの意味で使うかは文献依存）。「不偏分散か標本分散か」「割るのは $n$ か $n-1$ か」を必ず確認する。 $t$ 検定・区間推定で使うのは不偏分散（ $n-1$ 割り）。
$n-1$ で割るのは『不偏にするため』だけ。「自由度が1減るから」は同じことの言い換え（拘束条件 $\sum(X_i-\bar X)=0$ が1本）。標準偏差を $\sqrt{s^2}$ としても、不偏分散の平方根は不偏な標準偏差にはならない（ $E[\sqrt{s^2}]\ne\sigma$ 。平方根は非線形変換でイェンセンの不等式により下にズレる）。「不偏分散の $\sqrt{}$ は不偏標準偏差」は誤り。
有効性は『不偏推定量の中で』分散最小。不偏でない推定量まで含めれば分散はいくらでも小さくできる（定数 $0$ は分散0）。比較は不偏という土俵の上での話。
一致性は $n\to\infty$ の極限の性質。有限標本でどれだけ良いかは何も言わない。「一致だから少ない標本でも正確」は誤り。

よくある疑問

Q1. 推定量と推定値はどう違うんですか？同じ $\bar X$ ではないんですか？ A. $\bar X=\frac1n\sum X_i$ という式（公式）が推定量で、それは標本という確率変数の関数なのでそれ自体が確率変数です。一方、実データ $\{50,53,49,\dots\}$ を入れて出た数値 $\bar x=52.3$ が推定値で、ただの定数。標本を取り直せば推定値は変わりますが、推定量という公式は変わりません。「 $\bar X$ の分散」「 $\bar X$ の期待値」と言えるのは推定量が確率変数だから。推定値（数）に分散はありません。この区別が点推定の全土台です。

Q2. なぜ $n$ で割ってはダメで、 $n-1$ なんですか？1個減らす意味が直感的に分かりません。 A. ズレの2乗和 $\sum(X_i-c)^2$ を最小にする中心 $c$ は標本平均 $\bar X$ です。だから真の中心 $\mu$ ではなく、データから作った $\bar X$ を中心に使うと、2乗和は必ず本来より小さくなります（最小化点だから）。その目減りぶんを取り戻すのが $\frac{n}{n-1}$ 倍、つまり $n-1$ で割ること。式で言えば $E[\sum(X_i-\bar X)^2]=(n-1)\sigma^2$ （本文4.3で導出）なので、 $n-1$ で割れば期待値がちょうど $\sigma^2$ になり不偏になります。「自由度が1減る」（拘束条件 $\sum(X_i-\bar X)=0$ が1本かかる）と言っても同じことです。

Q3. 不偏なら良い推定量、で終わりじゃないんですか？なぜ一致性や有効性も要るんですか？ A. 不偏性だけでは不十分です。理由は2つ。(1) 不偏な推定量は無数にあります（例： $X_1$ も $\bar X$ も不偏）。その中から一番ブレないものを選ぶ基準が有効性（分散最小）。(2) 不偏は有限 $n$ での中心の話だけで、「データを増やせば真値に近づく」保証ではありません。それを保証するのが一致性。良い推定量は理想的には「不偏かつ一致かつ有効」。実務では多少の偏りを許してでも分散を下げた方が総合誤差（MSE）が小さくなることもあり、その損得は推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）のMSEで測ります。

Q4. 不偏なら自動的に一致になりませんか？両方とも『真値に合う』話に見えます。 A. なりません。不偏は有限の $n$ で期待値（分布の中心）が $\theta$ に一致すること、一致は $n\to\infty$ で分布が1点 $\theta$ に集中することで、別の現象です。反例： $\hat\theta=X_1$ （最初の1個）は $E[X_1]=\mu$ で不偏ですが、 $n$ をいくら増やしても1個しか使わず分散 $\sigma^2$ のまま縮まないので、 $\mu$ に集中せず一致しません。逆に $n$ 割りの標本分散 $S^2$ は不偏ではない（過小評価）が、 $n\to\infty$ でバイアスも分散も消えるので一致します。「中心が合う（不偏）」と「集中する（一致）」は独立した条件です。

Q5. 十分統計量って結局何の役に立つんですか？データを圧縮したいだけですか？ A. 圧縮は結果で、本質は「 $\theta$ の情報を1ビットも捨てない要約」である点です。十分統計量 $T$ さえあれば、生データ全体を持っているのと $\theta$ 推定上は等価。役割は主に2つ。(1) ラオ・ブラックウェルの定理：任意の不偏推定量を十分統計量で条件付けると、分散が下がった（より有効な）不偏推定量が得られる ── つまり最良の推定量を作る土台。(2) フィッシャー情報量・最尤推定との接続：十分統計量に基づく推定はクラメール・ラオ下限に到達しやすい。準1級では因子分解定理で「これは十分統計量か」を判定させる問題が出ます。詳細は推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）へ。

まとめ

点推定は母数 $\theta$ を1つの値で見積もること。見積もる公式が推定量 $\hat\theta$ （確率変数）、実データを入れた数が推定値（定数）。良し悪しは推定量の標本分布の性質で測る。
良さの4基準：不偏性（ $E[\hat\theta]=\theta$ 、中心が合う）・一致性（ $\hat\theta_n\xrightarrow{p}\theta$ 、集中する）・有効性（不偏の中で分散最小）・十分性（情報を捨てない）。
不偏分散が $n-1$ で割る理由： $\bar X$ を中心に使うと2乗和が過小になり、 $E[\sum(X_i-\bar X)^2]=(n-1)\sigma^2$ 。 $n-1$ で割って初めて $E[s^2]=\sigma^2$ （不偏）。自由度1減（拘束 $\sum(X_i-\bar X)=0$ ）と同義。
不偏 ≠ 一致（最重要）。 $X_1$ は不偏だが一致でない、 $n$ 割りの $S^2$ は一致だが不偏でない。別個の性質。
有効性はクラメール・ラオ下限 $V[\hat\theta]\ge1/I_n(\theta)$ （フィッシャー情報量の逆数）が分散の限界。十分性は因子分解定理 $L=g(T,\theta)h(x)$ で判定。ともに準1級の核心で、次の推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）へつながる。
試験での差：2級＝不偏性・一致性の概念と不偏分散（ $n-1$ ）の理解・計算。準1級＝有効性・十分性・フィッシャー情報量・クラメール・ラオまで。