← 統計検定テキスト 一覧

📊 対象級:2級 | 重要度:A(頻出)

要点(BLUF)

母平均以外の代表的な検定。比率は正規近似でz検定、分散はカイ二乗検定・F検定。検定統計量を覚えるだけでなく「帰無仮説を真と仮定して分布を作る」という発想が分母の形を決めます。

z=p^p0p0(1p0)n,χ2=(n1)s2σ02,F=s12s22z=\frac{\hat p-p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}},\qquad \chi^2=\frac{(n-1)s^2}{\sigma_0^2},\qquad F=\frac{s_1^2}{s_2^2}

1. 母比率の検定(1標本)

概念

「コインの表が出る確率は本当に 0.5 か」「不良率は仕様の 3% を超えていないか」のように、母比率 pp がある基準値 p0p_0 に等しいかを判定します。データは各試行が成功/失敗のベルヌーイ試行で、成功回数 XX は二項分布 Bin(n,p)\text{Bin}(n,p) に従います(ベルヌーイ分布・二項分布)。

数式による定式化

標本比率を p^=X/n\hat p = X/n とします。帰無仮説 H0: p=p0H_0:\ p=p_0 の下で、nn が十分大きければ中心極限定理により p^\hat p は近似的に正規分布に従います(標本平均・標本比率の標本分布(標準誤差)):

p^近似N ⁣(p0, p0(1p0)n)\hat p \overset{\text{近似}}{\sim} N\!\left(p_0,\ \frac{p_0(1-p_0)}{n}\right)

要するに:成功割合 p^\hat p の平均は p0p_0、ばらつき(分散)は p0(1p0)/np_0(1-p_0)/n という正規分布で近似できる、ということです。

これを標準化したものが検定統計量です:

 z=p^p0p0(1p0)n H0 N(0,1) \boxed{\ z=\frac{\hat p-p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}\ \overset{H_0}{\sim}\ N(0,1)\ }

棄却域は標準正規分布から取ります。有意水準 5% なら両側で z>1.96\lvert z\rvert > 1.96、右片側で z>1.645z > 1.645

なぜ分母が p0(1p0)p_0(1-p_0) なのか(導出の核)

ベルヌーイ分布の1試行の分散は p(1p)p(1-p) です。独立な nn 試行の標本比率 p^=1nXi\hat p=\frac{1}{n}\sum X_i の分散は

Var(p^)=1n2i=1nVar(Xi)=1n2np(1p)=p(1p)n\mathrm{Var}(\hat p)=\frac{1}{n^2}\sum_{i=1}^{n}\mathrm{Var}(X_i)=\frac{1}{n^2}\cdot n\,p(1-p)=\frac{p(1-p)}{n}

ここで pp に何を代入するかが要点です。検定は「帰無仮説が真である世界」で統計量の分布を作るので、p=p0p=p_0 を代入します。だから分母は p0(1p0)/n\sqrt{p_0(1-p_0)/n} になります。

要するに:検定統計量の「物差し(標準誤差)」は、帰無仮説が正しいと仮定した世界の数値 p0p_0 で作る、ということです。データから推定した p^\hat p は分子(差を測る側)に置き、物差しには使いません。

連続修正(補足)

二項分布は離散、正規分布は連続なので、近似精度を上げるために分子に ±12n\pm \frac{1}{2n} を足し引きする**連続修正(半整数補正)**を入れることがあります:

z=p^p012np0(1p0)nz=\frac{\lvert \hat p-p_0\rvert-\dfrac{1}{2n}}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}

2級では連続修正なしの素の式が基本ですが、「修正を入れると z\lvert z\rvert が小さくなる(棄却しにくくなる)」という方向だけ押さえておけば十分です。

数値例

ある製品の不良率は従来 5%。新ラインで 200 個調べたら不良が 4 個(p^=0.02\hat p = 0.02)。不良率が下がったと言えるか(有意水準 5%、左片側)。

z=0.020.050.05×0.95200=0.030.0002375=0.030.015411.95z=\frac{0.02-0.05}{\sqrt{\dfrac{0.05\times 0.95}{200}}}=\frac{-0.03}{\sqrt{0.0002375}}=\frac{-0.03}{0.01541}\approx -1.95

左片側の棄却限界は 1.645-1.6451.95<1.645-1.95 < -1.645 なので帰無仮説を棄却し、「不良率は下がった」と判断します。


2. 母比率の差の検定(2標本)

概念

「A群とB群で支持率に差があるか」のように、2つの母比率 p1,p2p_1,p_2 が等しいかを判定します。データは独立な2つの二項標本です。

数式による定式化(プール比率がカギ)

帰無仮説 H0: p1=p2H_0:\ p_1=p_2 の下で、検定統計量は

 z=p^1p^2p^(1p^)(1n1+1n2) H0 N(0,1) ,p^=x1+x2n1+n2\boxed{\ z=\frac{\hat p_1-\hat p_2}{\sqrt{\hat p(1-\hat p)\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)}}\ \overset{H_0}{\sim}\ N(0,1)\ },\qquad \hat p=\frac{x_1+x_2}{n_1+n_2}

ここで p^\hat p は2群をまとめたプール(統合)比率です。

なぜプール比率を使うのか(導出の核)

p^1p^2\hat p_1-\hat p_2 の分散は、独立性から

Var(p^1p^2)=p1(1p1)n1+p2(1p2)n2\mathrm{Var}(\hat p_1-\hat p_2)=\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}

帰無仮説 H0: p1=p2H_0:\ p_1=p_2 は「両群が同じ母比率 pp から来ている」と主張しています。ならば p1=p2=pp_1=p_2=p を代入でき、分散は

Var(p^1p^2)=p(1p)(1n1+1n2)\mathrm{Var}(\hat p_1-\hat p_2)=p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)

この共通の pp両群のデータを全部合わせて最も精度よく推定したものがプール比率 p^=x1+x2n1+n2\hat p=\dfrac{x_1+x_2}{n_1+n_2} です。

要するに:「2群は同じ比率」という帰無仮説を信じるなら、別々に p^1,p^2\hat p_1,\hat p_2 を使うより、全データをまとめた1つの p^\hat p で物差しを作る方が筋が通る、ということです。

⚠️ 注意:帰無仮説が H0: p1p2=0H_0:\ p_1-p_2=0(差ゼロ)のときだけプール比率が使えます。H0: p1p2=0.1H_0:\ p_1-p_2=0.1 のように差がゼロでない値を検定するときは「共通の pp」が存在しないので、プールできず各群の p^1,p^2\hat p_1,\hat p_2 を別々に分母へ入れます(2級では差ゼロが基本)。


3. 母分散の検定(カイ二乗検定)

概念

「測定のばらつき(分散)が規格 σ02\sigma_0^2 に収まっているか」を判定します。前提は母集団が正規分布であること。比率の検定と違い、こちらは近似ではなく正規母集団なら厳密に成り立つ分布を使います。

数式による定式化

正規母集団 N(μ,σ2)N(\mu,\sigma^2) から大きさ nn の標本を取り、不偏分散を s2=1n1(xixˉ)2s^2=\dfrac{1}{n-1}\sum(x_i-\bar x)^2 とします。帰無仮説 H0: σ2=σ02H_0:\ \sigma^2=\sigma_0^2 の下で

 χ2=(n1)s2σ02=i=1n(xixˉ)2σ02 H0 χn12 \boxed{\ \chi^2=\frac{(n-1)s^2}{\sigma_0^2}=\frac{\sum_{i=1}^n (x_i-\bar x)^2}{\sigma_0^2}\ \overset{H_0}{\sim}\ \chi^2_{n-1}\ }

自由度 n1n-1 のカイ二乗分布に従います。

なぜ自由度が n1n-1 なのか(導出の核)

これは t分布・カイ二乗分布・F分布(標本分布の三役) で出た標本分散の分布そのものです。流れを追います。

(1) もし母平均 μ\mu既知なら、各 xiμσ\dfrac{x_i-\mu}{\sigma} は独立に N(0,1)N(0,1) に従うので、その2乗和は自由度 nn のカイ二乗分布:

i=1n(xiμσ)2χn2\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma}\right)^2\sim \chi^2_{n}

要するに:標準正規変数を nn 個2乗して足すと自由度 nn のカイ二乗、というカイ二乗分布の定義そのものです。

(2) ところが実際は μ\mu が未知なので、標本平均 xˉ\bar x で代用します。ここで偏差平方和は次のように分解できます(フィッシャーの定理/コクランの定理の特別な場合):

i=1n(xiμ)2=i=1n(xixˉ)2+n(xˉμ)2\sum_{i=1}^n (x_i-\mu)^2 = \sum_{i=1}^n (x_i-\bar x)^2 + n(\bar x-\mu)^2

両辺を σ2\sigma^2 で割ると、左辺は自由度 nn のカイ二乗、右辺第2項 n(xˉμ)2σ2=(xˉμσ/n)2\dfrac{n(\bar x-\mu)^2}{\sigma^2}=\left(\dfrac{\bar x-\mu}{\sigma/\sqrt n}\right)^2 は自由度 1 のカイ二乗です。さらに xˉ\bar x(xixˉ)2\sum(x_i-\bar x)^2 は(正規母集団では)独立であることが示せます。独立なカイ二乗の自由度は加算的なので:

χn2自由度 n=(xixˉ)2σ2?+χ12自由度 1  (xixˉ)2σ2χn12\underbrace{\chi^2_{n}}_{\text{自由度 }n}=\underbrace{\frac{\sum(x_i-\bar x)^2}{\sigma^2}}_{?}+\underbrace{\chi^2_{1}}_{\text{自由度 }1} \ \Longrightarrow\ \frac{\sum(x_i-\bar x)^2}{\sigma^2}\sim\chi^2_{n-1}

要するに:「平均を未知としてデータから推定した xˉ\bar x を使った」ぶん、自由度を1つ消費して n1n-1 になる、ということです。xˉ\bar x を1個推定したぶんだけ自由に動ける情報が1減ったと解釈できます。

(3) σ2=σ02\sigma^2=\sigma_0^2(帰無仮説)を代入し、(xixˉ)2=(n1)s2\sum(x_i-\bar x)^2=(n-1)s^2 を使えば、冒頭の検定統計量 χ2=(n1)s2σ02\chi^2=\dfrac{(n-1)s^2}{\sigma_0^2} が得られます。

棄却域(非対称に注意)

カイ二乗分布は左右非対称(0以上の正の値のみ、右に裾を引く)なので、棄却限界は上側と下側で別々の値を分布表から読みます。有意水準 α\alpha の両側検定なら:

χ2<χn1,1α/22またはχ2>χn1,α/22\chi^2 < \chi^2_{n-1,\,1-\alpha/2}\quad\text{または}\quad \chi^2 > \chi^2_{n-1,\,\alpha/2}

を棄却域とします。片側検定の使い分け:

対立仮説棄却する向き棄却限界
σ2>σ02\sigma^2 > \sigma_0^2(ばらつき過大)χ2\chi^2 が大きいときχ2>χn1,α2\chi^2 > \chi^2_{n-1,\,\alpha}(上側)
σ2<σ02\sigma^2 < \sigma_0^2(ばらつき過小)χ2\chi^2 が小さいときχ2<χn1,1α2\chi^2 < \chi^2_{n-1,\,1-\alpha}(下側)

数値例

正規母集団から n=10n=10 標本、不偏分散 s2=12s^2=12。母分散は 5 を超えていると言えるか(有意水準 5%、右片側、H0:σ2=5H_0:\sigma^2=5)。

χ2=(101)×125=1085=21.6\chi^2=\frac{(10-1)\times 12}{5}=\frac{108}{5}=21.6

自由度 9 の上側 5% 点は χ9,0.052=16.92\chi^2_{9,\,0.05}=16.9221.6>16.9221.6 > 16.92 なので棄却し、「母分散は 5 より大きい」と判断します。


4. 2標本の分散比の検定(F検定)

概念

「2つの正規母集団の分散が等しいか(等分散性)」を判定します。母平均の差の検定で「等分散を仮定してよいか」を事前に確かめる用途でよく使われます(母平均の検定(1標本・2標本t検定))。

数式による定式化

2つの正規母集団から独立に標本を取り、不偏分散を s12,s22s_1^2,\,s_2^2 とします。帰無仮説 H0: σ12=σ22H_0:\ \sigma_1^2=\sigma_2^2 の下で

 F=s12s22 H0 Fn11,n21 \boxed{\ F=\frac{s_1^2}{s_2^2}\ \overset{H_0}{\sim}\ F_{n_1-1,\,n_2-1}\ }

第1自由度 n11n_1-1、第2自由度 n21n_2-1 の F 分布に従います。

なぜ F 分布になるのか(導出の核)

F 分布は「独立な2つのカイ二乗をそれぞれの自由度で割った比」として定義されます(t分布・カイ二乗分布・F分布(標本分布の三役))。3節より各群で

(n11)s12σ12χn112,(n21)s22σ22χn212\frac{(n_1-1)s_1^2}{\sigma_1^2}\sim\chi^2_{n_1-1},\qquad \frac{(n_2-1)s_2^2}{\sigma_2^2}\sim\chi^2_{n_2-1}

これを自由度で割って比を取ると

F=1n11(n11)s12σ121n21(n21)s22σ22=s12/σ12s22/σ22F=\frac{\dfrac{1}{n_1-1}\cdot\dfrac{(n_1-1)s_1^2}{\sigma_1^2}}{\dfrac{1}{n_2-1}\cdot\dfrac{(n_2-1)s_2^2}{\sigma_2^2}}=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}

帰無仮説 σ12=σ22\sigma_1^2=\sigma_2^2 の下では σ12,σ22\sigma_1^2,\sigma_2^2 が約分されて消え、F=s12/s22F=s_1^2/s_2^2 になります。

要するに:分散の検定(カイ二乗)を2つ用意して比を取ったものが F、ということです。だから F検定はカイ二乗検定の2標本版だと捉えられます。

試験テクニック

分布表は上側確率しか載っていないことが多いので、大きい方の不偏分散を分子に置くF1F\ge 1 になり、上側の臨界値だけで判定できます。下側臨界値が必要なときは Fa,b,1α=1Fb,a,αF_{a,b,\,1-\alpha}=\dfrac{1}{F_{b,a,\,\alpha}}(自由度を入れ替えて逆数)の関係を使います。


検定手法の選び方(全体マップ)

graph TD
    A["何を検定する?"] --> B["比率 p"]
    A --> C["分散 σ²"]
    B --> B1["1標本:z検定<br/>分母は p₀(1-p₀)/n"]
    B --> B2["2標本の差:z検定<br/>プール比率 p̂ を使う"]
    C --> C1["1標本:カイ二乗検定<br/>χ²=(n-1)s²/σ₀²<br/>自由度 n-1・非対称"]
    C --> C2["2標本の比:F検定<br/>F=s₁²/s₂²<br/>自由度(n₁-1, n₂-1)"]
flowchart TD
    S["母分散の検定の手順"] --> S1["1. 正規母集団を確認"]
    S1 --> S2["2. 不偏分散 s² を計算"]
    S2 --> S3["3. χ²=(n-1)s²/σ₀² を計算"]
    S3 --> S4["4. 自由度 n-1 の<br/>カイ二乗分布表を引く"]
    S4 --> S5{"対立仮説の向きは?"}
    S5 -->|"σ²>σ₀²"| S6["上側 χ²_{α} と比較"]
    S5 -->|"σ²<σ₀²"| S7["下側 χ²_{1-α} と比較"]
    S5 -->|"両側"| S8["上下 χ²_{α/2}, χ²_{1-α/2}<br/>両方と比較"]
    S6 --> R["棄却 / 採択を判断"]
    S7 --> R
    S8 --> R

⚠️ 引っかけポイント・頻出論点


よくある疑問(Q&A)

Q1. 母比率の「検定」では分母が p0(1p0)p_0(1-p_0)、「信頼区間」では p^(1p^)\hat p(1-\hat p) なのはなぜ?

問題設定が逆だからです。

理論的には、nn\to\inftyp^p0\hat p \to p_0(帰無が真なら)なので、

p^p0p^(1p^)/n=p^p0p0(1p0)/np0(1p0)p^(1p^)\frac{\hat p-p_0}{\sqrt{\hat p(1-\hat p)/n}}=\frac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}\cdot\sqrt{\frac{p_0(1-p_0)}{\hat p(1-\hat p)}}

の後ろの \sqrt{\cdots} が 1 に確率収束します(スルツキーの定理)。つまり漸近的には両者は同じ標準正規分布に収束します。それでも有限標本では値が変わるので、検定では p0p_0、区間では p^\hat p と使い分けるのが標準です。

Q2. 母分散のカイ二乗検定は「正規性に敏感」と言われるのはなぜ?

検定統計量 (n1)s2σ02χn12\dfrac{(n-1)s^2}{\sigma_0^2}\sim\chi^2_{n-1} という分布は、母集団が正規分布であることに強く依存して導かれたものだからです。3節の導出は「各 xix_i が正規 → 標準化2乗和がカイ二乗」「xˉ\bar xs2s^2 が独立」という正規分布固有の性質を使っています。母集団が正規からずれる(外れ値・歪み・厚い裾)と、s2s^2 の分布はカイ二乗から大きく外れ、有意水準が設計どおりにならず壊れます。

対照的に、母平均の検定(母平均の検定(1標本・2標本t検定))は中心極限定理に支えられているため正規性のずれに比較的ロバストです。「平均の検定はロバスト、分散の検定は正規性に脆い」と覚えておくとよいです。

Q3. 母分散の「カイ二乗検定」と、次に学ぶ「カイ二乗検定(適合度・独立性)」は同じもの?

名前は同じでも別物です。 共通点は「検定統計量がカイ二乗分布に従う」という1点だけ。

母分散の検定(このノート)適合度・独立性の検定(カイ二乗検定(適合度・独立性)
検定統計量(n1)s2σ02\dfrac{(n-1)s^2}{\sigma_0^2}(観測期待)2期待\displaystyle\sum\frac{(\text{観測}-\text{期待})^2}{\text{期待}}
何を見る連続データのばらつき度数(カテゴリの個数)の偏り
自由度n1n-1(カテゴリ数−1) や (行−1)(列−1)
前提正規母集団期待度数が十分大きい

統計量の形も自由度の決め方もまったく違うので、「カイ二乗 = どちらか一方」と早合点しないこと。

Q4. 2標本の比率検定で、プール比率を使う場合と使わない場合の見分けは?

帰無仮説が「差ゼロ」かどうかで決まります。

信頼区間を作るときも帰無仮説がないので、プールせず各群の p^1,p^2\hat p_1,\hat p_2 を使います。

Q5. 連続修正(半整数補正)は2級でも必要?

素の式が基本で、連続修正は補足という位置づけです。二項分布(離散)を正規分布(連続)で近似するときの誤差を減らすための微調整で、分子の差から 12n\frac{1}{2n} を引きます。効果の方向は「z\lvert z\rvert を小さくする=棄却しにくくなる(保守的になる)」です。問題文に「連続修正を行う」と指定があれば使い、なければ素の式で計算すれば問題ありません。年度や問題集により扱いが異なる点は要最新確認です。


まとめ


関連ノート