標本調査法｜統計検定テキスト

📊 対象級：2級・準1級　|　重要度：B（標準）

要点（BLUF）

母集団から標本をどう取り出すかの設計が標本調査法です。無作為（ランダム）に抽出することの本当の意味は「公平っぽいから」ではなく、標本誤差を確率的に評価できるようになることにあります。これがあって初めて信頼区間や推定量の議論が成り立ちます。基本の4つの抽出法は次の通りです。

抽出法	一言で	コスト	精度（同じ $n$ で）
単純無作為（SRS）	全員から等確率でランダムに	高い（名簿が要る）	基準
層化	母集団を層に分け各層から抽出	中	基準より良くなりうる
クラスター（集落）	集落を選び中を全部調べる	安い	基準より悪くなりがち
系統	等間隔に拾う	安い・簡単	周期がなければ SRS 並み

要するに「層化は精度を上げる工夫、クラスターはコストを下げる工夫」で、両者は分散への効き方が逆向きです。2級では4法の用語・長短と単純無作為抽出の推定（有限母集団修正つき）、準1級では層化の分散とネイマン配分の導出・設計効果が問われます。

1. なぜ無作為抽出なのか（全数調査 vs 標本調査）

1.1 全数調査と標本調査

母集団の全員を調べるのが全数調査（悉皆調査, census）、一部だけ調べて全体を推測するのが**標本調査（sample survey）**です。

全数調査：誤差はないが、コスト・時間が膨大。破壊検査（製品を壊して調べる）では原理的に不可能。
標本調査：一部だから安いが、「全部見ていない」ぶんのズレ＝標本誤差が必ず出る。

ほとんどの調査は標本調査です。問題は「標本誤差がどれくらいか」を知れるかどうかです。

1.2 無作為抽出の本当の意義

無作為抽出（random sampling）とは、各個体が標本に選ばれる確率があらかじめ決まっている抽出のことです（確率抽出法ともいう）。素朴には「えこひいきしないから公平」と思いがちですが、統計的に決定的なのはそこではありません。

核心：抽出が確率的だからこそ、標本平均 $\bar y$ が確率変数になり、その分布（標本分布）が計算でき、標本誤差を確率で評価できる。これがなければ「95%信頼区間」は1ミリも書けません。

要するに「無作為抽出は、推定値に確率の言葉で精度の保証をつけるための入場券」です。逆に「街頭で声をかけやすい人だけ」のような**有意抽出（非確率抽出）**では、選ばれる確率が不明なので標本誤差を理論的に評価できません。

flowchart TD
  P["母集団<br/>(全N個体)"] --> Q{"全部調べる?"}
  Q -- "はい" --> C["全数調査<br/>誤差なし・高コスト"]
  Q -- "いいえ" --> S["標本調査<br/>(n個体を抽出)"]
  S --> R{"確率的に<br/>抽出した?"}
  R -- "確率抽出" --> OK["標本誤差を<br/>確率で評価できる<br/>→ 信頼区間が引ける"]
  R -- "有意抽出" --> NG["選ばれる確率が不明<br/>→ 誤差を理論評価できない"]

2級レベル

ここで問われるのは「4つの抽出法の用語・長所短所を区別できること」と「単純無作為抽出での母平均・母比率の推定（有限母集団修正を含む）」です。

2. 4つの基本抽出法

2.1 単純無作為抽出（SRS, Simple Random Sampling）

母集団の全個体に通し番号をつけ、乱数で $n$ 個を等確率に選ぶ。すべての抽出法の基準になる最も素直な方法です。

長所：理論が単純で、推定量・分散がきれいに書ける。バイアスがない。
短所：母集団全員の名簿（抽出枠, sampling frame）が必要。母集団が広域だと名簿の用意も調査の移動も高コスト。

2.2 層化抽出（Stratified Sampling）

母集団をあらかじめ**層（stratum）**に分け（例：年齢層、地域、男女）、各層から無作為抽出する。

長所：層内が均質・層間が異質なときに推定精度が上がる（詳しい理由は準1級セクション）。各層を必ず代表させられる。
短所：層分けのための事前情報（各個体がどの層か）が必要。

2.3 クラスター抽出（集落抽出, Cluster Sampling）

母集団を**集落（cluster）**に分け（例：市町村、学校、世帯）、集落をいくつか無作為に選び、選ばれた集落の中は全員調べる。

長所：コストが安い。選んだ集落だけ回ればよいので移動・名簿の負担が小さい（集落の一覧さえあれば、中の全員の名簿は不要）。
短所：精度が落ちやすい。同じ集落の個体は似ている（級内相関）ため、情報が重複する（詳しくは準1級セクションの設計効果）。

⚠️ 層化とクラスターは「分けて選ぶ」点は同じでも中身が真逆です。層化は「全部の層から少しずつ」、クラスターは「一部の集落だけを選んで全部」。狙いも逆で、層化は精度↑、クラスターはコスト↓。混同が頻出ポイントです。

2.4 系統抽出（Systematic Sampling）

通し番号をつけ、抽出間隔 $k=\lfloor N/n\rfloor$ を決め、最初の1個を $1\sim k$ から乱数で選び、あとは $k$ 個おきに機械的に拾う。

長所：操作が簡単・速い。乱数は最初の1回だけでよい。
短所：並び順に周期があると偏る（次の⚠️）。

⚠️ 系統抽出の周期性の罠（頻出）：もし名簿の並びに抽出間隔 $k$ と同期した周期があると、標本が偏ります。古典例：マンション住戸を「各階の角部屋」だけ拾ってしまう（角部屋は家賃が高い→所得が偏る）、曜日順の売上データを7の倍数間隔で拾って毎回同じ曜日になる、など。周期がなければ SRS とほぼ同等の精度ですが、周期があると SRS に劣ります。

graph TD
  A["標本抽出法"] --> B["確率抽出<br/>(無作為)"]
  A --> Z["有意抽出<br/>(非確率・誤差評価×)"]
  B --> SRS["単純無作為(SRS)<br/>等確率に n 個"]
  B --> ST["層化<br/>層に分け各層から抽出"]
  B --> CL["クラスター(集落)<br/>集落を選び中を全数"]
  B --> SY["系統<br/>等間隔に抽出"]
  B --> MS["多段抽出<br/>抽出を段階的に繰り返す"]

3. 単純無作為抽出での推定（2級の計算の核）

母集団 $N$ 個体の値を $y_1,\dots,y_N$ 、母平均を $\mu=\frac1N\sum_{i=1}^N y_i$ 、母分散を $S^2=\frac{1}{N-1}\sum_{i=1}^N (y_i-\mu)^2$ とします（添字に $N-1$ を使う流儀＝有限母集団の慣例）。ここから $n$ 個を非復元で単純無作為抽出します。

3.1 母平均の不偏推定量

標本平均 $\bar y=\frac1n\sum_{i=1}^n y_i$ は母平均の不偏推定量です。

E[\bar y]=\mu

要するに「標本平均はそのまま母平均の当たり推定値」。これは標本平均の分布と同じ事実で、抽出が無作為であることから出ます。

3.2 標本平均の分散（有限母集団修正）

非復元抽出での標本平均の分散には、見慣れた $S^2/n$ に**有限母集団修正（FPC, Finite Population Correction）**がかかります。

\boxed{\;\mathrm{Var}(\bar y)=\frac{S^2}{n}\cdot\frac{N-n}{N-1}\;}

要するに「有限の母集団から重複なく取ると、無限母集団の式 $S^2/n$ より分散が小さくなる」。係数 $\dfrac{N-n}{N-1}$ （または近似的に $1-\frac nN$ ）が修正項です。

なぜ分散が減るのか、両端で確認すると腑に落ちます。

$n=N$ （全数調査）： $\dfrac{N-n}{N-1}=\dfrac{0}{N-1}=0$ → 分散ゼロ。全員調べたのだから $\bar y=\mu$ でブレようがない。当然です。
$n=1$ ： $\dfrac{N-1}{N-1}=1$ → 修正なし。1個だけなら復元・非復元の差はない。

要するに「たくさん取るほど『残り』が減り、推定が確定に近づく」ぶんが修正項に表れています。

💡 超幾何分布とのつながり：FPC は偶然出てくるのではなく、非復元抽出の分布である超幾何分布（超幾何分布）の分散に現れる係数そのものです。母比率 $p$ （0/1の値）の場合、標本中の該当数 $X$ は超幾何分布に従い、その分散は $\mathrm{Var}(X)=n\,p(1-p)\cdot\frac{N-n}{N-1}$ です。二項分布の分散 $np(1-p)$ （＝復元抽出）に、まったく同じ FPC $\dfrac{N-n}{N-1}$ がかかります。連続値の母平均でも比率（0/1）でも、非復元という同じ仕組みから同じ修正項が出る、というのがポイントです。

3.3 FPC をいつ無視できるか

実務では抽出率 $f=n/N$ が小さい（目安 $f<0.1$ ）なら FPC を1とみなして無視します。母集団が標本に比べて十分大きければ、復元か非復元かの差は誤差程度だからです。

f=\frac nN<0.1 \;\Longrightarrow\; \frac{N-n}{N-1}\approx 1 \;\Longrightarrow\; \mathrm{Var}(\bar y)\approx\frac{S^2}{n}

要するに「池から一杯すくうくらい（標本が母集団のごく一部）なら、修正は要らない」。逆に母集団が小さく標本が大きい割合を占めるときは FPC を必ず入れる——ここが2級の引っかけです。

⚠️ 2級の典型ミス：母集団が小さい（例： $N=50$ から $n=20$ 抽出、 $f=0.4$ ）のに FPC を忘れて $S^2/n$ だけで分散・標準誤差を計算してしまう。 $f$ が大きいときは修正を入れないと分散を過大評価します。

準1級レベル

ここで問われるのは「層化推定量の分散の式とネイマン（最適）配分の導出」と「クラスター抽出の設計効果（級内相関 ρ）」です。2級の用語・SRS の話を前提に、なぜ層化が効きクラスターが損をするのかを式で説明できることが要求されます。

4. 層化抽出の推定量と分散

母集団を $L$ 個の層に分け、層 $h$ の大きさを $N_h$ （ $\sum_h N_h=N$ ）、その重みを $W_h=\dfrac{N_h}{N}$ 、層内の母分散を $S_h^2$ とします。各層から $n_h$ 個を単純無作為抽出し、層内標本平均を $\bar y_h$ とします。

4.1 層化推定量

母平均の層化推定量は、各層の標本平均を層の重みで加重平均したものです。

\boxed{\;\bar y_{\mathrm{st}}=\sum_{h=1}^{L} W_h\,\bar y_h=\sum_{h=1}^L \frac{N_h}{N}\,\bar y_h\;}

要するに「各層の平均を、層の大きさ（人数比）で重みづけして合算」。各 $\bar y_h$ が層平均 $\mu_h$ の不偏推定量で、 $\mu=\sum_h W_h\mu_h$ だから、 $\bar y_{\mathrm{st}}$ も $\mu$ の不偏推定量です（ $E[\bar y_{\mathrm{st}}]=\sum_h W_h\mu_h=\mu$ ）。

⚠️ 単純な標本全体の平均 $\bar y$ ではなく、層の重み $W_h$ で重みづけする点に注意。各層から取った人数 $n_h$ が層の大きさ $N_h$ に比例していない（不均一配分の）ときは、 $\bar y_{\mathrm{st}}\ne\bar y$ になります。重みを忘れると偏ります。

4.2 層化推定量の分散

各層内の単純無作為抽出は独立なので、分散は層ごとの分散の重みつき和です。層 $h$ の標本平均の分散は 3.2 の FPC つき式そのままで $\dfrac{S_h^2}{n_h}\cdot\dfrac{N_h-n_h}{N_h-1}$ 。これに重み $W_h^2$ がかかります（定数倍 $W_h$ の分散は $W_h^2$ 倍）。

\boxed{\;\mathrm{Var}(\bar y_{\mathrm{st}})=\sum_{h=1}^{L} W_h^2\,\frac{S_h^2}{n_h}\cdot\frac{N_h-n_h}{N_h-1}\;}

要するに「各層の推定分散を重み二乗で足し上げただけ」。各層が独立なので層間の共分散項は出ません。母集団が大きく FPC を省く近似版は

\mathrm{Var}(\bar y_{\mathrm{st}})\approx\sum_{h=1}^{L} \frac{W_h^2\,S_h^2}{n_h}

です。以降の配分の議論はこの近似版で行います（FPC を入れても結論の比例関係は変わりません）。

4.3 なぜ層化で精度が上がるのか

層化が SRS より分散を小さくできる理由は、分散分解で説明できます。母集団全体の分散 $S^2$ は「層内分散の平均」と「層間分散」に分けられます（概念的に）。

\underbrace{S^2}_{\text{全体}}\;\approx\;\underbrace{\sum_h W_h S_h^2}_{\text{層内変動}}\;+\;\underbrace{\sum_h W_h(\mu_h-\mu)^2}_{\text{層間変動}}

SRS の分散は全体分散 $S^2/n$ に効きますが、層化推定量の分散には層内変動 $\sum_h W_h S_h^2$ しか効きません（層間変動が消える）。

核心：層化は「層間のばらつき（ $\mu_h$ の違い）を、各層を必ず代表させることで推定誤差から除外する」。だから層内が均質（ $S_h^2$ が小さい）で層間が異質（ $\mu_h$ が大きく違う）ほど、層化の効果が大きい。逆に層分けが無意味（どの層も似た平均）なら層化しても得しません。

要するに「効く層分けとは、層の中はそっくり・層どうしは大違い、になるような分け方」です。

5. 配分問題：比例配分とネイマン配分

総標本サイズ $n=\sum_h n_h$ を、各層にどう割り振る（ $n_h$ を決める）かが**配分（allocation）**です。代表的に2つあります。

5.1 比例配分（proportional allocation）

各層に層の大きさに比例して配る、最も素直な方法。

n_h=n\cdot\frac{N_h}{N}=n\,W_h

要するに「人数の多い層に多く、少ない層に少なく」。事前情報が $N_h$ だけで済むので実務で広く使われます。このとき層化推定量は標本全体の平均と一致します（ $\bar y_{\mathrm{st}}=\bar y$ ）。

5.2 ネイマン配分（最適配分, Neyman / optimum allocation）

分散 $\mathrm{Var}(\bar y_{\mathrm{st}})$ を最小にする配分です。結論を先に書くと

\boxed{\;n_h=n\cdot\frac{N_h S_h}{\displaystyle\sum_{k=1}^L N_k S_k}\;}

要するに「大きい層・ばらつく層に厚く配る」。比例配分（ $N_h$ だけ）に層内標準偏差 $S_h$ の重みが加わった形です。ばらつきの大きい層ほどサンプルを増やして抑えにいく、という直観に合います。

5.3 ネイマン配分の導出（ラグランジュ未定乗数法・省略なし）

近似版の分散

V(n_1,\dots,n_L)=\sum_{h=1}^L \frac{W_h^2 S_h^2}{n_h}

を、制約 $\displaystyle\sum_{h=1}^L n_h=n$ のもとで $n_h$ について最小化します。ラグランジュ関数を作ります（ $\lambda$ は未定乗数）。

\mathcal L(n_1,\dots,n_L,\lambda)=\sum_{h=1}^L \frac{W_h^2 S_h^2}{n_h}+\lambda\left(\sum_{h=1}^L n_h-n\right)

各 $n_h$ で偏微分してゼロと置きます（ $\dfrac{d}{dn_h}\,n_h^{-1}=-n_h^{-2}$ に注意）。

\frac{\partial \mathcal L}{\partial n_h}=-\frac{W_h^2 S_h^2}{n_h^2}+\lambda=0 \;\Longrightarrow\; n_h^2=\frac{W_h^2 S_h^2}{\lambda} \;\Longrightarrow\; n_h=\frac{W_h S_h}{\sqrt{\lambda}}

要するに「最適点では $n_h$ が $W_h S_h$ （層の重み×層内標準偏差）に比例する」。あとは制約から比例定数 $1/\sqrt\lambda$ を消します。 $\sum_h n_h=n$ に代入すると

\sum_{h=1}^L \frac{W_h S_h}{\sqrt\lambda}=n \;\Longrightarrow\; \frac{1}{\sqrt\lambda}=\frac{n}{\displaystyle\sum_{k=1}^L W_k S_k}

これを $n_h=\dfrac{W_h S_h}{\sqrt\lambda}$ に戻すと

n_h=n\cdot\frac{W_h S_h}{\displaystyle\sum_{k=1}^L W_k S_k} =n\cdot\frac{N_h S_h}{\displaystyle\sum_{k=1}^L N_k S_k}

最後は分母分子を $N$ 倍（ $W_h=N_h/N$ なので $W_h S_h=\frac{1}{N}N_h S_h$ 、 $1/N$ が約分）して $N_h S_h$ の形に直しました。これがネイマン配分です。

二階の条件： $\dfrac{\partial^2 \mathcal L}{\partial n_h^2}=\dfrac{2W_h^2 S_h^2}{n_h^3}>0$ で、 $V$ は各 $n_h$ について凸関数なので、この停留点は確かに最小です。

5.4 比例配分とネイマン配分の関係

ネイマン配分の式ですべての層の $S_h$ が等しい（ $S_h=S$ ）と置くと、 $S$ が約分されて

n_h=n\cdot\frac{N_h S}{\sum_k N_k S}=n\cdot\frac{N_h}{\sum_k N_k}=n\,W_h

となり、比例配分に一致します。要するに「比例配分は、全層のばらつきが同じだと仮定したときのネイマン配分」。層ごとに $S_h$ が大きく違うときだけ、ネイマン配分が比例配分より分散を下げます（ $S_h$ が全層同じなら両者は同じ）。

⚠️ 頻出：ネイマン配分は $n_h\propto N_h S_h$ （大きさ×標準偏差）。「 $n_h\propto N_h$ （比例配分）」「 $n_h\propto S_h$ だけ」と取り違える誤答が多い。両方の積です。なお、調査コストが層ごとに違う場合は $n_h\propto N_h S_h/\sqrt{c_h}$ （コスト $c_h$ で割る）に一般化されます（最適配分の一般形）が、準1級ではコスト一定のネイマン配分が中心です。

6. クラスター抽出と設計効果（design effect）

クラスター抽出が SRS に負ける理由を定量化するのが**設計効果（deff, design effect）**です。

6.1 級内相関

同じ集落内の個体どうしの似ている度合いを級内相関係数（ICC, intraclass correlation） $\rho$ で測ります。全分散を「集落間分散 $\sigma_b^2$ 」と「集落内分散 $\sigma_w^2$ 」に分けると

\rho=\frac{\sigma_b^2}{\sigma_b^2+\sigma_w^2}

要するに「全体のばらつきのうち、どれだけが『集落の違い』で説明されるか」。 $\rho$ が大きいほど、同じ集落の人は似ている（情報が重複する）。

6.2 設計効果の式

1集落あたり $m$ 個体を取る等サイズのクラスター抽出では、設計効果は近似的に（Kish の式）

\boxed{\;\mathrm{deff}=\frac{\mathrm{Var}_{\text{クラスター}}(\bar y)}{\mathrm{Var}_{\text{SRS}}(\bar y)}\approx 1+(m-1)\rho\;}

要するに「クラスター抽出の分散は、同じ $n$ の SRS の何倍に膨らむか」。これが設計効果の定義です。

$\rho=0$ （集落内がバラバラ＝SRS と同じ）： $\mathrm{deff}=1$ 。膨らまない。
$\rho>0$ （集落内が似ている）： $\mathrm{deff}>1$ 。分散が膨らむ＝損。
$m=1$ （1集落1個体）： $\mathrm{deff}=1$ 。集落を分ける意味が消える。

具体感として、わずか $\rho=0.05$ でも1集落 $m=20$ 人なら $\mathrm{deff}=1+19\times0.05=1.95$ 。ほぼ分散2倍、つまり実効的な標本サイズが半分になります（ $n_{\text{eff}}=n/\mathrm{deff}$ ）。

核心：同じ集落から2人目を加えても、1人目とよく似ているので新しい情報がほとんど増えない。だからクラスター抽出は「集落の数」が効き、「集落内の人数」は水増しにしかなりにくい。これがコストと精度のトレードオフの正体です。

要するに「層化は分散を下げ（deff<1 になりうる）、クラスターは分散を上げる（deff>1）」——同じ『分けて選ぶ』でも効果が逆、という2級の論点が、準1級では deff という1つの数で定量化されます。

7. 多段抽出

**多段抽出（multistage sampling）**は、抽出を段階的に繰り返す方法です。例：全国 → 都道府県を無作為抽出（第1段）→ 選ばれた県の中で市町村を無作為抽出（第2段）→ 選ばれた市町村で個人を無作為抽出（第3段）。

クラスター抽出は「選んだ集落の中を全数」でしたが、多段抽出は「選んだ集落の中をまた無作為抽出」する点が違います（クラスター抽出は段の最後で全数調査する1段抽出の特殊形とみなせます）。
長所：広域調査でも名簿と移動コストを大幅に削減できる（最初から全個体の名簿が要らない）。
短所：段を重ねるごとに各段の標本誤差が積み重なり、精度が落ちやすい。

要するに「多段抽出は現実の大規模調査（国勢調査の補完調査など）の定番だが、安さの代償に精度が犠牲になる」。

8. 標本誤差と非標本誤差

調査の誤差は2種類に大別されます。ここは級を問わず概念として重要です。

	標本誤差（sampling error）	非標本誤差（non-sampling error）
原因	全部でなく一部しか調べないこと	抽出以外のあらゆる原因
例	標本平均と母平均のズレ	無回答、測定ミス、入力ミス、質問の誘導、枠の不備
標本サイズ $n$ を増やすと	減る（ $1/\sqrt n$ で）	減らない（むしろ悪化しうる）
確率で評価できるか	できる（無作為抽出なら）	できない（系統的なバイアスになりやすい）

要するに「標本誤差は $n$ を増やせば縮むが、非標本誤差はいくら $n$ を増やしても縮まない」。

⚠️ 最重要の実務的教訓： $n$ を大きくして縮むのは標本誤差だけ。無回答（回答してくれない人が特定の傾向を持つ）や測定誤差は、 $n$ を増やしても消えないどころか、サンプルが大きいと「精密に偏った値」を出してしまう。とくに無回答バイアス（回答者と非回答者で性質が違う）は、確率抽出の前提（選ばれる確率が既知）を崩すので深刻です。「サンプルを増やせば正確になる」は標本誤差にだけ言える話で、調査の質（非標本誤差の制御）が伴わなければ意味がありません。

9. 引っかけ・頻出論点（級差つき）

⚠️ 層化 vs クラスターの取り違え（2級頻出）：層化は「全層から少しずつ」で精度↑、クラスターは「一部の集落を選び中を全数」でコスト↓。「分けて選ぶ」が同じなので混同しやすいが、狙いも分散への効果も逆。
⚠️ 系統抽出の周期性（2級頻出）：並び順に抽出間隔と同期した周期があると偏る。周期がなければ SRS 並み、あると SRS に劣る。「系統抽出は常に良い／常に悪い」はどちらも誤り。
⚠️ FPC の付け忘れ（2級）：抽出率 $f=n/N$ が大きい（母集団が小さい）のに $\dfrac{N-n}{N-1}$ を忘れると分散を過大評価。 $f<0.1$ なら無視可。
⚠️ ネイマン配分の形（準1級頻出）： $n_h\propto N_h S_h$ （大きさ×標準偏差の積）。 $N_h$ だけ（比例配分）や $S_h$ だけと混同しない。全層で $S_h$ が等しいとネイマン＝比例。
⚠️ 層化推定量の重み（準1級）： $\bar y_{\mathrm{st}}=\sum_h W_h\bar y_h$ で $W_h=N_h/N$ 。単なる標本全体の平均ではない（不均一配分のとき食い違う）。
⚠️ deff の向き（準1級）：クラスターは $\mathrm{deff}=1+(m-1)\rho\ge1$ で分散が膨らむ。 $\rho>0$ なら必ず損。 $\rho=0$ または $m=1$ でやっと SRS 並み。
⚠️ 「 $n$ を増やせば正確」は標本誤差だけ：非標本誤差（無回答・測定誤差）は $n$ を増やしても縮まない。

よくある疑問（Q&A）

Q1. 無作為抽出は「えこひいきしないから公平」という理解で十分ですか?

不十分です。公平さは副産物で、統計的に本質なのは「選ばれる確率が既知だから、標本平均の分布（標本分布）が計算でき、標本誤差を確率で評価できる」ことです。これがあって初めて信頼区間や検定が成り立ちます。逆に「答えてくれそうな人だけ」の有意抽出では、選ばれる確率が不明なので、いくら大量に集めても誤差を理論的に保証できません。無作為抽出は「精度に確率の保証をつける入場券」と理解してください。

Q2. 層化抽出とクラスター抽出は、どちらも母集団を分けるのに、なぜ精度への効果が逆なのですか?

「何を選ぶか」が逆だからです。層化は全部の層から取るので、層間のばらつき（ $\mu_h$ の違い）が推定誤差から丸ごと消え、残るのは層内のばらつきだけ→精度↑。クラスターは一部の集落しか選ばないので、選ばれた集落が偏ると全体が偏り、しかも同じ集落の人は似ている（級内相関 $\rho>0$ ）ため情報が重複する→精度↓。式で言えば、層化の分散は層内分散 $\sum_h W_h S_h^2$ だけに効き、クラスターは $1+(m-1)\rho$ 倍に膨らみます。狙いも、層化は「精度を上げたい」、クラスターは「コストを下げたい」で正反対です。

Q3. ネイマン配分はなぜ「大きさ」だけでなく「標準偏差」にも比例するのですか?

分散を最小化すると自然にそうなります（本文 5.3 のラグランジュ法）。直観的には、ばらつきの大きい層は推定が不安定なので、そこにサンプルを厚く配って抑え込むのが効率的だからです。大きさ $N_h$ だけで配る比例配分は「全層が同じくらいばらつく」という暗黙の仮定に相当し、実際には層ごとに $S_h$ が違うので、 $S_h$ の重みを足したネイマン配分の方が同じ総標本数でより小さい分散を達成できます。 $n_h\propto N_h S_h$ の「積」がポイントで、大きくてばらつく層に最も厚く配る、という配分になります。

Q4. 有限母集団修正 $\dfrac{N-n}{N-1}$ はいつ気にすればいいですか?

抽出率 $f=n/N$ が大きいときだけです。目安は $f\ge0.1$ （標本が母集団の1割以上）。このとき非復元抽出の効果が無視できず、修正を入れないと分散を過大評価します。逆に $f<0.1$ （例：日本全体から1000人抽出）なら $\dfrac{N-n}{N-1}\approx1$ で、復元・無限母集団の式 $S^2/n$ とほぼ同じなので省略してかまいません。試験では「母集団が小さい（ $N$ が数十〜数百）のに $n$ がそれなりに大きい」設定で FPC を問うてくるので、 $f$ を見て判断してください。

Q5. 系統抽出はランダム性が最初の1回だけですが、それで無作為抽出と言えるのですか?

並び順がランダム（または抽出間隔と無関係）なら、実質的に SRS と同等の性質を持ち、無作為抽出として扱えます。最初の起点を $1\sim k$ から乱数で選ぶことで、どの個体も等確率で選ばれるからです。ただし並びに周期がある場合は別で、抽出間隔 $k$ と周期が同期すると特定の性質の個体ばかり拾って偏ります。だから系統抽出は「並びに周期がない」ことが暗黙の前提で、その前提が満たされれば簡便で良い方法、満たされなければ SRS に劣る方法、と条件つきで理解するのが正確です。

Q6. サンプル数を増やせば調査は必ず正確になりますか?

なりません。 $n$ を増やして縮むのは標本誤差だけです。非標本誤差——無回答（答えてくれない人が特定の傾向を持つ）、測定誤差、質問の誘導、抽出枠の不備——は $n$ を増やしても縮まず、むしろ大標本だと「精密に偏った値」を出して危険です。とくに無回答バイアスは、回答者と非回答者で性質が違うと、確率抽出の前提（選ばれる確率が既知）が崩れて深刻です。正確な調査には、サンプル数だけでなく回収率・測定の質（非標本誤差の制御）が不可欠です。

まとめ

無作為抽出の意義は公平さではなく、標本誤差を確率で評価できるようにすること。これが信頼区間・検定の前提。
4抽出法：単純無作為（基準）／層化（全層から取り精度↑）／クラスター（一部集落を全数調べコスト↓・精度は落ちがち）／系統（等間隔・周期に弱い）。多段抽出は段階的に繰り返す（安いが精度↓）。
SRS の母平均推定： $\bar y$ は不偏、分散は $\dfrac{S^2}{n}\cdot\dfrac{N-n}{N-1}$ （有限母集団修正）。FPC は超幾何分布の分散と同根。 $f<0.1$ なら無視可。
層化： $\bar y_{\mathrm{st}}=\sum_h W_h\bar y_h$ 、分散は $\sum_h W_h^2\dfrac{S_h^2}{n_h}\cdot\text{(FPC)}$ 。層内均質・層間異質なら効く。
配分：比例配分 $n_h\propto N_h$ 、ネイマン（最適）配分 $n_h\propto N_h S_h$ 。後者はラグランジュ法で分散最小化から導出。 $S_h$ が全層同じならネイマン＝比例。
クラスター：設計効果 $\mathrm{deff}=1+(m-1)\rho$ で分散が膨らむ（級内相関 $\rho>0$ なら損）。層化（分散↓）とは逆向き。
誤差：標本誤差は $n$ で縮むが、非標本誤差（無回答・測定誤差）は縮まない。
級差：2級＝4法の用語・長短＋SRS の推定（FPC）。準1級＝層化の分散・ネイマン配分の導出・設計効果。