← 統計検定テキスト 一覧

📊 対象級:2級 ・ 準1級 | 重要度:B(標準)

要点(BLUF)

母集団から標本をどう取り出すかの設計が標本調査法です。無作為(ランダム)に抽出することの本当の意味は「公平っぽいから」ではなく、標本誤差を確率的に評価できるようになることにあります。これがあって初めて 信頼区間推定量 の議論が成り立ちます。基本の4つの抽出法は次の通りです。

抽出法一言でコスト精度(同じ nn で)
単純無作為(SRS)全員から等確率でランダムに高い(名簿が要る)基準
層化母集団を層に分け各層から抽出基準より良くなりうる
クラスター(集落)集落を選び中を全部調べる安い基準より悪くなりがち
系統等間隔に拾う安い・簡単周期がなければ SRS 並み

要するに「層化は精度を上げる工夫、クラスターはコストを下げる工夫」で、両者は分散への効き方が逆向きです。2級では4法の用語・長短と単純無作為抽出の推定(有限母集団修正つき)、準1級では層化の分散とネイマン配分の導出・設計効果が問われます。


1. なぜ無作為抽出なのか(全数調査 vs 標本調査)

1.1 全数調査と標本調査

母集団の全員を調べるのが全数調査(悉皆調査, census)、一部だけ調べて全体を推測するのが**標本調査(sample survey)**です。

ほとんどの調査は標本調査です。問題は「標本誤差がどれくらいか」を知れるかどうかです。

1.2 無作為抽出の本当の意義

無作為抽出(random sampling)とは、各個体が標本に選ばれる確率があらかじめ決まっている抽出のことです(確率抽出法ともいう)。素朴には「えこひいきしないから公平」と思いがちですが、統計的に決定的なのはそこではありません。

核心:抽出が確率的だからこそ、標本平均 yˉ\bar y が確率変数になり、その分布(標本分布)が計算でき、標本誤差を確率で評価できる。これがなければ「95%信頼区間」は1ミリも書けません。

要するに「無作為抽出は、推定値に確率の言葉で精度の保証をつけるための入場券」です。逆に「街頭で声をかけやすい人だけ」のような**有意抽出(非確率抽出)**では、選ばれる確率が不明なので標本誤差を理論的に評価できません。

flowchart TD
  P["母集団<br/>(全N個体)"] --> Q{"全部調べる?"}
  Q -- "はい" --> C["全数調査<br/>誤差なし・高コスト"]
  Q -- "いいえ" --> S["標本調査<br/>(n個体を抽出)"]
  S --> R{"確率的に<br/>抽出した?"}
  R -- "確率抽出" --> OK["標本誤差を<br/>確率で評価できる<br/>→ 信頼区間が引ける"]
  R -- "有意抽出" --> NG["選ばれる確率が不明<br/>→ 誤差を理論評価できない"]

2級レベル

ここで問われるのは「4つの抽出法の用語・長所短所を区別できること」と「単純無作為抽出での母平均・母比率の推定(有限母集団修正を含む)」です。

2. 4つの基本抽出法

2.1 単純無作為抽出(SRS, Simple Random Sampling)

母集団の全個体に通し番号をつけ、乱数で nn 個を等確率に選ぶ。すべての抽出法の基準になる最も素直な方法です。

2.2 層化抽出(Stratified Sampling)

母集団をあらかじめ**層(stratum)**に分け(例:年齢層、地域、男女)、各層から無作為抽出する。

2.3 クラスター抽出(集落抽出, Cluster Sampling)

母集団を**集落(cluster)**に分け(例:市町村、学校、世帯)、集落をいくつか無作為に選び、選ばれた集落の中は全員調べる

⚠️ 層化とクラスターは「分けて選ぶ」点は同じでも中身が真逆です。層化は「全部の層から少しずつ」、クラスターは「一部の集落だけを選んで全部」。狙いも逆で、層化は精度↑、クラスターはコスト↓。混同が頻出ポイントです。

2.4 系統抽出(Systematic Sampling)

通し番号をつけ、抽出間隔 k=N/nk=\lfloor N/n\rfloor を決め、最初の1個を 1k1\sim k から乱数で選び、あとは kk 個おきに機械的に拾う。

⚠️ 系統抽出の周期性の罠(頻出):もし名簿の並びに抽出間隔 kk と同期した周期があると、標本が偏ります。古典例:マンション住戸を「各階の角部屋」だけ拾ってしまう(角部屋は家賃が高い→所得が偏る)、曜日順の売上データを7の倍数間隔で拾って毎回同じ曜日になる、など。周期がなければ SRS とほぼ同等の精度ですが、周期があると SRS に劣ります。

graph TD
  A["標本抽出法"] --> B["確率抽出<br/>(無作為)"]
  A --> Z["有意抽出<br/>(非確率・誤差評価×)"]
  B --> SRS["単純無作為(SRS)<br/>等確率に n 個"]
  B --> ST["層化<br/>層に分け各層から抽出"]
  B --> CL["クラスター(集落)<br/>集落を選び中を全数"]
  B --> SY["系統<br/>等間隔に抽出"]
  B --> MS["多段抽出<br/>抽出を段階的に繰り返す"]

3. 単純無作為抽出での推定(2級の計算の核)

母集団 NN 個体の値を y1,,yNy_1,\dots,y_N、母平均を μ=1Ni=1Nyi\mu=\frac1N\sum_{i=1}^N y_i、母分散を S2=1N1i=1N(yiμ)2S^2=\frac{1}{N-1}\sum_{i=1}^N (y_i-\mu)^2 とします(添字に N1N-1 を使う流儀=有限母集団の慣例)。ここから nn 個を非復元で単純無作為抽出します。

3.1 母平均の不偏推定量

標本平均 yˉ=1ni=1nyi\bar y=\frac1n\sum_{i=1}^n y_i は母平均の不偏推定量です。

E[yˉ]=μE[\bar y]=\mu

要するに「標本平均はそのまま母平均の当たり推定値」。これは 標本平均の分布 と同じ事実で、抽出が無作為であることから出ます。

3.2 標本平均の分散(有限母集団修正)

非復元抽出での標本平均の分散には、見慣れた S2/nS^2/n に**有限母集団修正(FPC, Finite Population Correction)**がかかります。

  Var(yˉ)=S2nNnN1  \boxed{\;\mathrm{Var}(\bar y)=\frac{S^2}{n}\cdot\frac{N-n}{N-1}\;}

要するに「有限の母集団から重複なく取ると、無限母集団の式 S2/nS^2/n より分散が小さくなる」。係数 NnN1\dfrac{N-n}{N-1}(または近似的に 1nN1-\frac nN)が修正項です。

なぜ分散が減るのか、両端で確認すると腑に落ちます。

要するに「たくさん取るほど『残り』が減り、推定が確定に近づく」ぶんが修正項に表れています。

💡 超幾何分布とのつながり:FPC は偶然出てくるのではなく、非復元抽出の分布である超幾何分布超幾何分布)の分散に現れる係数そのものです。母比率 pp(0/1の値)の場合、標本中の該当数 XX は超幾何分布に従い、その分散は Var(X)=np(1p)NnN1\mathrm{Var}(X)=n\,p(1-p)\cdot\frac{N-n}{N-1} です。二項分布の分散 np(1p)np(1-p)(=復元抽出)に、まったく同じ FPC NnN1\dfrac{N-n}{N-1} がかかります。連続値の母平均でも比率(0/1)でも、非復元という同じ仕組みから同じ修正項が出る、というのがポイントです。

3.3 FPC をいつ無視できるか

実務では抽出率 f=n/Nf=n/N が小さい(目安 f<0.1f<0.1)なら FPC を1とみなして無視します。母集団が標本に比べて十分大きければ、復元か非復元かの差は誤差程度だからです。

f=nN<0.1    NnN11    Var(yˉ)S2nf=\frac nN<0.1 \;\Longrightarrow\; \frac{N-n}{N-1}\approx 1 \;\Longrightarrow\; \mathrm{Var}(\bar y)\approx\frac{S^2}{n}

要するに「池から一杯すくうくらい(標本が母集団のごく一部)なら、修正は要らない」。逆に母集団が小さく標本が大きい割合を占めるときは FPC を必ず入れる——ここが2級の引っかけです。

⚠️ 2級の典型ミス:母集団が小さい(例:N=50N=50 から n=20n=20 抽出、f=0.4f=0.4)のに FPC を忘れて S2/nS^2/n だけで分散・標準誤差を計算してしまう。ff が大きいときは修正を入れないと分散を過大評価します。


準1級レベル

ここで問われるのは「層化推定量の分散の式とネイマン(最適)配分の導出」と「クラスター抽出の設計効果(級内相関 ρ)」です。2級の用語・SRS の話を前提に、なぜ層化が効きクラスターが損をするのかを式で説明できることが要求されます。

4. 層化抽出の推定量と分散

母集団を LL 個の層に分け、層 hh の大きさを NhN_hhNh=N\sum_h N_h=N)、その重みWh=NhNW_h=\dfrac{N_h}{N}、層内の母分散を Sh2S_h^2 とします。各層から nhn_h 個を単純無作為抽出し、層内標本平均を yˉh\bar y_h とします。

4.1 層化推定量

母平均の層化推定量は、各層の標本平均を層の重みで加重平均したものです。

  yˉst=h=1LWhyˉh=h=1LNhNyˉh  \boxed{\;\bar y_{\mathrm{st}}=\sum_{h=1}^{L} W_h\,\bar y_h=\sum_{h=1}^L \frac{N_h}{N}\,\bar y_h\;}

要するに「各層の平均を、層の大きさ(人数比)で重みづけして合算」。各 yˉh\bar y_h が層平均 μh\mu_h の不偏推定量で、μ=hWhμh\mu=\sum_h W_h\mu_h だから、yˉst\bar y_{\mathrm{st}}μ\mu の不偏推定量です(E[yˉst]=hWhμh=μE[\bar y_{\mathrm{st}}]=\sum_h W_h\mu_h=\mu)。

⚠️ 単純な標本全体の平均 yˉ\bar y ではなく、層の重み WhW_h で重みづけする点に注意。各層から取った人数 nhn_h が層の大きさ NhN_h に比例していない(不均一配分の)ときは、yˉstyˉ\bar y_{\mathrm{st}}\ne\bar y になります。重みを忘れると偏ります。

4.2 層化推定量の分散

各層内の単純無作為抽出は独立なので、分散は層ごとの分散の重みつき和です。層 hh の標本平均の分散は 3.2 の FPC つき式そのままで Sh2nhNhnhNh1\dfrac{S_h^2}{n_h}\cdot\dfrac{N_h-n_h}{N_h-1}。これに重み Wh2W_h^2 がかかります(定数倍 WhW_h の分散は Wh2W_h^2 倍)。

  Var(yˉst)=h=1LWh2Sh2nhNhnhNh1  \boxed{\;\mathrm{Var}(\bar y_{\mathrm{st}})=\sum_{h=1}^{L} W_h^2\,\frac{S_h^2}{n_h}\cdot\frac{N_h-n_h}{N_h-1}\;}

要するに「各層の推定分散を重み二乗で足し上げただけ」。各層が独立なので層間の共分散項は出ません。母集団が大きく FPC を省く近似版は

Var(yˉst)h=1LWh2Sh2nh\mathrm{Var}(\bar y_{\mathrm{st}})\approx\sum_{h=1}^{L} \frac{W_h^2\,S_h^2}{n_h}

です。以降の配分の議論はこの近似版で行います(FPC を入れても結論の比例関係は変わりません)。

4.3 なぜ層化で精度が上がるのか

層化が SRS より分散を小さくできる理由は、分散分解で説明できます。母集団全体の分散 S2S^2 は「層内分散の平均」と「層間分散」に分けられます(概念的に)。

S2全体    hWhSh2層内変動  +  hWh(μhμ)2層間変動\underbrace{S^2}_{\text{全体}}\;\approx\;\underbrace{\sum_h W_h S_h^2}_{\text{層内変動}}\;+\;\underbrace{\sum_h W_h(\mu_h-\mu)^2}_{\text{層間変動}}

SRS の分散は全体分散 S2/nS^2/n に効きますが、層化推定量の分散には層内変動 hWhSh2\sum_h W_h S_h^2 しか効きません(層間変動が消える)

核心:層化は「層間のばらつき(μh\mu_h の違い)を、各層を必ず代表させることで推定誤差から除外する」。だから層内が均質(Sh2S_h^2 が小さい)で層間が異質(μh\mu_h が大きく違う)ほど、層化の効果が大きい。逆に層分けが無意味(どの層も似た平均)なら層化しても得しません。

要するに「効く層分けとは、層の中はそっくり・層どうしは大違い、になるような分け方」です。

5. 配分問題:比例配分とネイマン配分

総標本サイズ n=hnhn=\sum_h n_h を、各層にどう割り振る(nhn_h を決める)かが**配分(allocation)**です。代表的に2つあります。

5.1 比例配分(proportional allocation)

各層に層の大きさに比例して配る、最も素直な方法。

nh=nNhN=nWhn_h=n\cdot\frac{N_h}{N}=n\,W_h

要するに「人数の多い層に多く、少ない層に少なく」。事前情報が NhN_h だけで済むので実務で広く使われます。このとき層化推定量は標本全体の平均と一致します(yˉst=yˉ\bar y_{\mathrm{st}}=\bar y)。

5.2 ネイマン配分(最適配分, Neyman / optimum allocation)

分散 Var(yˉst)\mathrm{Var}(\bar y_{\mathrm{st}})最小にする配分です。結論を先に書くと

  nh=nNhShk=1LNkSk  \boxed{\;n_h=n\cdot\frac{N_h S_h}{\displaystyle\sum_{k=1}^L N_k S_k}\;}

要するに「大きい層・ばらつく層に厚く配る」。比例配分(NhN_h だけ)に層内標準偏差 ShS_h の重みが加わった形です。ばらつきの大きい層ほどサンプルを増やして抑えにいく、という直観に合います。

5.3 ネイマン配分の導出(ラグランジュ未定乗数法・省略なし)

近似版の分散

V(n1,,nL)=h=1LWh2Sh2nhV(n_1,\dots,n_L)=\sum_{h=1}^L \frac{W_h^2 S_h^2}{n_h}

を、制約 h=1Lnh=n\displaystyle\sum_{h=1}^L n_h=n のもとで nhn_h について最小化します。ラグランジュ関数を作ります(λ\lambda は未定乗数)。

L(n1,,nL,λ)=h=1LWh2Sh2nh+λ(h=1Lnhn)\mathcal L(n_1,\dots,n_L,\lambda)=\sum_{h=1}^L \frac{W_h^2 S_h^2}{n_h}+\lambda\left(\sum_{h=1}^L n_h-n\right)

nhn_h で偏微分してゼロと置きます(ddnhnh1=nh2\dfrac{d}{dn_h}\,n_h^{-1}=-n_h^{-2} に注意)。

Lnh=Wh2Sh2nh2+λ=0    nh2=Wh2Sh2λ    nh=WhShλ\frac{\partial \mathcal L}{\partial n_h}=-\frac{W_h^2 S_h^2}{n_h^2}+\lambda=0 \;\Longrightarrow\; n_h^2=\frac{W_h^2 S_h^2}{\lambda} \;\Longrightarrow\; n_h=\frac{W_h S_h}{\sqrt{\lambda}}

要するに「最適点では nhn_hWhShW_h S_h(層の重み×層内標準偏差)に比例する」。あとは制約から比例定数 1/λ1/\sqrt\lambda を消します。hnh=n\sum_h n_h=n に代入すると

h=1LWhShλ=n    1λ=nk=1LWkSk\sum_{h=1}^L \frac{W_h S_h}{\sqrt\lambda}=n \;\Longrightarrow\; \frac{1}{\sqrt\lambda}=\frac{n}{\displaystyle\sum_{k=1}^L W_k S_k}

これを nh=WhShλn_h=\dfrac{W_h S_h}{\sqrt\lambda} に戻すと

nh=nWhShk=1LWkSk=nNhShk=1LNkSkn_h=n\cdot\frac{W_h S_h}{\displaystyle\sum_{k=1}^L W_k S_k} =n\cdot\frac{N_h S_h}{\displaystyle\sum_{k=1}^L N_k S_k}

最後は分母分子を NN 倍(Wh=Nh/NW_h=N_h/N なので WhSh=1NNhShW_h S_h=\frac{1}{N}N_h S_h1/N1/N が約分)して NhShN_h S_h の形に直しました。これがネイマン配分です。

二階の条件:2Lnh2=2Wh2Sh2nh3>0\dfrac{\partial^2 \mathcal L}{\partial n_h^2}=\dfrac{2W_h^2 S_h^2}{n_h^3}>0 で、VV は各 nhn_h について凸関数なので、この停留点は確かに最小です。

5.4 比例配分とネイマン配分の関係

ネイマン配分の式ですべての層の ShS_h が等しい(Sh=SS_h=S)と置くと、SS が約分されて

nh=nNhSkNkS=nNhkNk=nWhn_h=n\cdot\frac{N_h S}{\sum_k N_k S}=n\cdot\frac{N_h}{\sum_k N_k}=n\,W_h

となり、比例配分に一致します。要するに「比例配分は、全層のばらつきが同じだと仮定したときのネイマン配分」。層ごとに ShS_h が大きく違うときだけ、ネイマン配分が比例配分より分散を下げます(ShS_h が全層同じなら両者は同じ)。

⚠️ 頻出:ネイマン配分は nhNhShn_h\propto N_h S_h(大きさ×標準偏差)。「nhNhn_h\propto N_h(比例配分)」「nhShn_h\propto S_h だけ」と取り違える誤答が多い。両方の積です。なお、調査コストが層ごとに違う場合は nhNhSh/chn_h\propto N_h S_h/\sqrt{c_h}(コスト chc_h で割る)に一般化されます(最適配分の一般形)が、準1級ではコスト一定のネイマン配分が中心です。

6. クラスター抽出と設計効果(design effect)

クラスター抽出が SRS に負ける理由を定量化するのが**設計効果(deff, design effect)**です。

6.1 級内相関

同じ集落内の個体どうしの似ている度合いを級内相関係数(ICC, intraclass correlation) ρ\rho で測ります。全分散を「集落間分散 σb2\sigma_b^2」と「集落内分散 σw2\sigma_w^2」に分けると

ρ=σb2σb2+σw2\rho=\frac{\sigma_b^2}{\sigma_b^2+\sigma_w^2}

要するに「全体のばらつきのうち、どれだけが『集落の違い』で説明されるか」。ρ\rho が大きいほど、同じ集落の人は似ている(情報が重複する)。

6.2 設計効果の式

1集落あたり mm 個体を取る等サイズのクラスター抽出では、設計効果は近似的に(Kish の式)

  deff=Varクラスター(yˉ)VarSRS(yˉ)1+(m1)ρ  \boxed{\;\mathrm{deff}=\frac{\mathrm{Var}_{\text{クラスター}}(\bar y)}{\mathrm{Var}_{\text{SRS}}(\bar y)}\approx 1+(m-1)\rho\;}

要するに「クラスター抽出の分散は、同じ nn の SRS の何倍に膨らむか」。これが設計効果の定義です。

具体感として、わずか ρ=0.05\rho=0.05 でも1集落 m=20m=20 人なら deff=1+19×0.05=1.95\mathrm{deff}=1+19\times0.05=1.95ほぼ分散2倍、つまり実効的な標本サイズが半分になります(neff=n/deffn_{\text{eff}}=n/\mathrm{deff})。

核心:同じ集落から2人目を加えても、1人目とよく似ているので新しい情報がほとんど増えない。だからクラスター抽出は「集落の数」が効き、「集落内の人数」は水増しにしかなりにくい。これがコストと精度のトレードオフの正体です。

要するに「層化は分散を下げ(deff<1 になりうる)、クラスターは分散を上げる(deff>1)」——同じ『分けて選ぶ』でも効果が逆、という2級の論点が、準1級では deff という1つの数で定量化されます。

7. 多段抽出

**多段抽出(multistage sampling)**は、抽出を段階的に繰り返す方法です。例:全国 → 都道府県を無作為抽出(第1段)→ 選ばれた県の中で市町村を無作為抽出(第2段)→ 選ばれた市町村で個人を無作為抽出(第3段)。

要するに「多段抽出は現実の大規模調査(国勢調査の補完調査など)の定番だが、安さの代償に精度が犠牲になる」。


8. 標本誤差と非標本誤差

調査の誤差は2種類に大別されます。ここは級を問わず概念として重要です。

標本誤差(sampling error)非標本誤差(non-sampling error)
原因全部でなく一部しか調べないこと抽出以外のあらゆる原因
標本平均と母平均のズレ無回答、測定ミス、入力ミス、質問の誘導、枠の不備
標本サイズ nn を増やすと減る1/n1/\sqrt n で)減らない(むしろ悪化しうる)
確率で評価できるかできる(無作為抽出なら)できない(系統的なバイアスになりやすい)

要するに「標本誤差は nn を増やせば縮むが、非標本誤差はいくら nn を増やしても縮まない」。

⚠️ 最重要の実務的教訓nn を大きくして縮むのは標本誤差だけ。無回答(回答してくれない人が特定の傾向を持つ)や測定誤差は、nn を増やしても消えないどころか、サンプルが大きいと「精密に偏った値」を出してしまう。とくに無回答バイアス(回答者と非回答者で性質が違う)は、確率抽出の前提(選ばれる確率が既知)を崩すので深刻です。「サンプルを増やせば正確になる」は標本誤差にだけ言える話で、調査の質(非標本誤差の制御)が伴わなければ意味がありません。


9. 引っかけ・頻出論点(級差つき)


よくある疑問(Q&A)

Q1. 無作為抽出は「えこひいきしないから公平」という理解で十分ですか?

不十分です。公平さは副産物で、統計的に本質なのは「選ばれる確率が既知だから、標本平均の分布(標本分布)が計算でき、標本誤差を確率で評価できる」ことです。これがあって初めて信頼区間や検定が成り立ちます。逆に「答えてくれそうな人だけ」の有意抽出では、選ばれる確率が不明なので、いくら大量に集めても誤差を理論的に保証できません。無作為抽出は「精度に確率の保証をつける入場券」と理解してください。

Q2. 層化抽出とクラスター抽出は、どちらも母集団を分けるのに、なぜ精度への効果が逆なのですか?

「何を選ぶか」が逆だからです。層化は全部の層から取るので、層間のばらつき(μh\mu_h の違い)が推定誤差から丸ごと消え、残るのは層内のばらつきだけ→精度↑。クラスターは一部の集落しか選ばないので、選ばれた集落が偏ると全体が偏り、しかも同じ集落の人は似ている(級内相関 ρ>0\rho>0)ため情報が重複する→精度↓。式で言えば、層化の分散は層内分散 hWhSh2\sum_h W_h S_h^2 だけに効き、クラスターは 1+(m1)ρ1+(m-1)\rho 倍に膨らみます。狙いも、層化は「精度を上げたい」、クラスターは「コストを下げたい」で正反対です。

Q3. ネイマン配分はなぜ「大きさ」だけでなく「標準偏差」にも比例するのですか?

分散を最小化すると自然にそうなります(本文 5.3 のラグランジュ法)。直観的には、ばらつきの大きい層は推定が不安定なので、そこにサンプルを厚く配って抑え込むのが効率的だからです。大きさ NhN_h だけで配る比例配分は「全層が同じくらいばらつく」という暗黙の仮定に相当し、実際には層ごとに ShS_h が違うので、ShS_h の重みを足したネイマン配分の方が同じ総標本数でより小さい分散を達成できます。nhNhShn_h\propto N_h S_h の「積」がポイントで、大きくてばらつく層に最も厚く配る、という配分になります。

Q4. 有限母集団修正 NnN1\dfrac{N-n}{N-1} はいつ気にすればいいですか?

抽出率 f=n/Nf=n/N が大きいときだけです。目安は f0.1f\ge0.1(標本が母集団の1割以上)。このとき非復元抽出の効果が無視できず、修正を入れないと分散を過大評価します。逆に f<0.1f<0.1(例:日本全体から1000人抽出)なら NnN11\dfrac{N-n}{N-1}\approx1 で、復元・無限母集団の式 S2/nS^2/n とほぼ同じなので省略してかまいません。試験では「母集団が小さい(NN が数十〜数百)のに nn がそれなりに大きい」設定で FPC を問うてくるので、ff を見て判断してください。

Q5. 系統抽出はランダム性が最初の1回だけですが、それで無作為抽出と言えるのですか?

並び順がランダム(または抽出間隔と無関係)なら、実質的に SRS と同等の性質を持ち、無作為抽出として扱えます。最初の起点を 1k1\sim k から乱数で選ぶことで、どの個体も等確率で選ばれるからです。ただし並びに周期がある場合は別で、抽出間隔 kk と周期が同期すると特定の性質の個体ばかり拾って偏ります。だから系統抽出は「並びに周期がない」ことが暗黙の前提で、その前提が満たされれば簡便で良い方法、満たされなければ SRS に劣る方法、と条件つきで理解するのが正確です。

Q6. サンプル数を増やせば調査は必ず正確になりますか?

なりません。nn を増やして縮むのは標本誤差だけです。非標本誤差——無回答(答えてくれない人が特定の傾向を持つ)、測定誤差、質問の誘導、抽出枠の不備——は nn を増やしても縮まず、むしろ大標本だと「精密に偏った値」を出して危険です。とくに無回答バイアスは、回答者と非回答者で性質が違うと、確率抽出の前提(選ばれる確率が既知)が崩れて深刻です。正確な調査には、サンプル数だけでなく回収率・測定の質(非標本誤差の制御)が不可欠です。


まとめ


関連ノート