カイ二乗検定（適合度・独立性）

📊 対象級：2級　|　重要度：A（頻出）

要点（BLUF）

カイ二乗検定は「観測度数 $O$ と、帰無仮説のもとで期待される度数 $E$ のズレ」を1つの統計量に集約し、ズレが偶然では説明しにくいほど大きいかを判定する。
統計量は常に同じ形。分母は必ず期待度数 $E$ 。

$\boxed{\;\chi^2=\sum_i \frac{(O_i-E_i)^2}{E_i}\;}$

用途は2つ。適合度検定（データが想定分布に合うか・自由度 $k-1-m$ ）と独立性検定（分割表の2変数が独立か・自由度 $(r-1)(c-1)$ ）。 $m$ は推定したパラメータ数。

1. カイ二乗統計量とは

基本のアイデア

カテゴリが $k$ 個あり、各カテゴリで「実際に数えた度数（観測度数） $O_i$ 」と「帰無仮説が正しいなら平均的にこのくらいになるはず、という度数（期待度数） $E_i$ 」を比べます。両者が近ければ帰無仮説は妥当、大きく食い違えば棄却の方向です。

そのズレを1つの数にまとめたものがピアソンのカイ二乗統計量です。

$\chi^2=\sum_{i=1}^{k}\frac{(O_i-E_i)^2}{E_i}$

分子 $(O_i-E_i)^2$ ：ズレを二乗して符号を消す（プラスのズレもマイナスのズレも「ズレ」として加算する）。
分母 $E_i$ ：ズレを期待度数で割って規格化する。

要するに何か：各セルの「ずれの二乗」を「そのセルの期待度数」で割り、全セル足し合わせた値。 $\chi^2$ が大きいほど「観測が期待からかけ離れている」ことを意味し、十分大きければ帰無仮説を棄却します。

なぜ分母が $E$ なのか（規格化の意味）

帰無仮説のもとで各セルの度数はおおよそ二項分布（またはポアソン分布）に従い、その分散が期待度数 $E_i$ とほぼ等しくなるからです。総数 $N$ 、確率 $p_i$ のセルの度数は二項分布 $\mathrm{Bin}(N,p_i)$ に近く、分散は $Np_i(1-p_i)$ 。 $p_i$ が小さければ $1-p_i\approx 1$ なので分散 $\approx Np_i=E_i$ 。

つまり $\dfrac{O_i-E_i}{\sqrt{E_i}}$ は「ズレを標準偏差で割った標準化得点（z に相当）」になっており、その二乗和を取っているのが $\chi^2$ です。

$\chi^2=\sum_i \left(\frac{O_i-E_i}{\sqrt{E_i}}\right)^2$

要するに何か： $E$ で割るのは、各セルのズレを「そのセル固有のばらつき（標準偏差）」の単位に揃えるため。度数が大きいセルは元々ばらつきも大きいので、同じ絶対量のズレでも軽く扱う。これをしないとセル間で公平に足し合わせられません。

なぜ「カイ二乗分布」になるのか（漸近の直観）

カイ二乗分布は定義上「独立な標準正規変数の二乗和」です。自由度 $\nu$ なら $Z_1^2+\cdots+Z_\nu^2\sim\chi^2_\nu$ 。詳しくは t分布・カイ二乗分布・F分布（標本分布の三役）を参照。

ピアソン統計量がこの分布に近づく流れは次の通りです。

全体の度数 $N$ を固定すると、各セルの度数 $(O_1,\dots,O_k)$ は多項分布に従う。
$N$ が大きいとき、中心極限定理により各セルの標準化得点 $\dfrac{O_i-E_i}{\sqrt{E_i}}$ は近似的に標準正規分布に従う。
それらの二乗和を取ったものが $\chi^2$ 統計量。正規変数の二乗和なのでカイ二乗分布になる。

ただし $k$ 個の標準化得点は完全には独立でない（後述の制約があるため）。その制約のぶんだけ自由度が減ります。これが次節の自由度の話につながります。

要するに何か：「正規近似された各セルのズレ」を二乗して足したからカイ二乗分布。ただしセル同士に縛り（合計が固定など）があるので、その縛りの数だけ自由度を引く。

flowchart TD
    A["観測度数 O_i を数える"] --> B["帰無仮説から期待度数 E_i を計算"]
    B --> C["各セルのズレを標準化<br/>(O_i - E_i) / √E_i"]
    C --> D["二乗して全セル合計<br/>χ² = Σ (O_i - E_i)² / E_i"]
    D --> E["自由度 ν を決める<br/>制約の数だけ k から引く"]
    E --> F{"χ² > χ²_α(ν) ?<br/>（上側棄却域）"}
    F -->|Yes| G["帰無仮説を棄却<br/>当てはまらない/関連あり"]
    F -->|No| H["帰無仮説を棄却できない"]

カイ二乗検定の棄却域は常に上側（右片側）。 $\chi^2$ は二乗和なので必ず非負で、「ズレが大きい＝値が大きい」方向だけが帰無仮説に反するため、両側に取る必要がありません。これは2級の頻出ポイントです。

2. 適合度検定（goodness of fit）

何を検定するか

「観測データが、ある特定の分布や比率に従っている」という帰無仮説を検定します。

$H_0$ ：データはカテゴリ確率 $p_1,\dots,p_k$ （理論分布）に従う
$H_1$ ：少なくとも1つのカテゴリで確率が理論値と異なる

期待度数は単純に $E_i=N\,p_i$ （総数 × 理論確率）。

自由度はなぜ $k-1$ なのか

自由度 $=k-1$ 。これを「公式だから」で済ませず、制約の数として数えます。

$k$ 個の観測度数 $O_1,\dots,O_k$ は本来 $k$ 個の自由な値に見えますが、合計が総数 $N$ に固定されるという制約が1本あります。

$O_1+O_2+\cdots+O_k=N$

この1本の式で、 $k-1$ 個を決めれば残り1個は自動的に決まります。つまり「自由に動ける標準化得点」は $k-1$ 個。よって自由度は $k-1$ です。

要するに何か：度数は全部足すと $N$ になるという縛りが1つあるから、自由に動ける成分は $k$ 個ではなく $k-1$ 個。だから $k-1$ 。

パラメータを推定すると自由度がさらに減る

理論分布のパラメータ（ポアソン分布の $\lambda$ 、正規分布の $\mu,\sigma$ など）が未知で、データから推定して期待度数を作る場合、推定した数 $m$ だけ自由度をさらに引きます。

$\nu=k-1-m\qquad(m=\text{データから推定したパラメータ数})$

理由：パラメータを最尤推定すると、その推定の際に「観測度数を使って期待度数を観測に近づける」追加の制約が $m$ 本入るためです。たとえばポアソン分布で $\lambda$ を標本平均 $\bar{x}$ で推定すると、「期待度数から計算した平均が観測平均に一致する」という縛りが1本増え、自由度が1減ります。

ケース	推定パラメータ数 $m$	自由度
サイコロが一様（ $p_i=1/6$ を理論値として固定）	0	$k-1=5$
ポアソン分布への適合（ $\lambda$ を推定）	1	$k-1-1=k-2$
正規分布への適合（ $\mu,\sigma$ を推定）	2	$k-1-2=k-3$

要するに何か：理論値を最初から与えられているなら $m=0$ で $k-1$ 。データを使って分布の形を決めたぶんだけ、決めたパラメータの個数だけさらに引く。

具体例：サイコロの一様性

あるサイコロを $N=60$ 回振り、各目の出た回数が次だったとします。

目	1	2	3	4	5	6	計
観測 $O_i$	8	10	9	14	6	13	60
期待 $E_i$	10	10	10	10	10	10	60

期待度数は「一様なら各目 $60\times\frac{1}{6}=10$ 回」。理論値を固定したので $m=0$ 、自由度 $\nu=6-1=5$ 。

$\chi^2=\frac{(8-10)^2}{10}+\frac{(10-10)^2}{10}+\frac{(9-10)^2}{10}+\frac{(14-10)^2}{10}+\frac{(6-10)^2}{10}+\frac{(13-10)^2}{10}$

$=\frac{4+0+1+16+16+9}{10}=\frac{46}{10}=4.6$

自由度5、有意水準5%の臨界値は $\chi^2_{0.05}(5)\approx 11.07$ 。 $4.6<11.07$ なので帰無仮説（一様）は棄却できません。このサイコロが歪んでいるとは言えない、という結論です。

3. 独立性の検定（分割表）

何を検定するか

2つのカテゴリ変数を $r$ 行 $c$ 列の**分割表（クロス集計表）**にまとめ、2変数が独立かを検定します。クロス集計表そのものはクロス集計表・行/列比率・連関 ── 同じ表でも「何で割るか」で結論が変わるを参照。

$H_0$ ：行の変数と列の変数は独立（関連がない）
$H_1$ ：両者は独立でない（関連がある）

期待度数の作り方

セル $(i,j)$ の期待度数は、行和・列和・総数から作ります。

$E_{ij}=\frac{(\text{行和}_i)\times(\text{列和}_j)}{N}$

導出：独立なら同時確率は周辺確率の積 $P(i,j)=P(i)P(j)$ 。周辺確率を周辺度数で推定すると $\hat{P}(i)=\dfrac{\text{行和}_i}{N}$ 、 $\hat{P}(j)=\dfrac{\text{列和}_j}{N}$ 。よって独立を仮定したセル確率は $\dfrac{\text{行和}_i}{N}\cdot\dfrac{\text{列和}_j}{N}$ 。期待度数はこれに $N$ を掛けて $E_{ij}=N\cdot\dfrac{\text{行和}_i}{N}\cdot\dfrac{\text{列和}_j}{N}=\dfrac{(\text{行和}_i)(\text{列和}_j)}{N}$ 。

要するに何か：「独立なら同時確率＝周辺確率の積」を度数に直しただけ。各セルの期待度数は『その行の合計とその列の合計を掛けて、全体の合計で割る』。

統計量は全セルにわたる和です。

$\chi^2=\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}$

自由度はなぜ $(r-1)(c-1)$ なのか

自由度 $=(r-1)(c-1)$ 。これも制約の数として導出します。

$r\times c$ 個のセルがあり、本来は $rc$ 個の自由度に見えます。そこから引く制約を数えます。

総数の固定： $\sum_{ij}O_{ij}=N$ で1本。
行確率の推定：期待度数を作るために行和の比率 $P(i)$ を使ったので、独立な行確率は $r-1$ 個（合計1の制約で1減る）。
列確率の推定：同様に列確率は $c-1$ 個。

別の数え方（こちらが直観的）：分割表で「行和と列和をすべて固定」したとき、自由に値を入れられるセルがいくつあるかを数えます。行和・列和が決まっていると、 $(r-1)\times(c-1)$ 個のセルを埋めれば、残りのセルは引き算で一意に決まります。

たとえば $2\times 2$ 表なら、左上の1マスを決めれば、行和・列和の制約から残り3マスは自動的に決まる。よって自由に動けるのは1マスだけで、自由度 $=(2-1)(2-1)=1$ 。

$\nu=(r-1)(c-1)$

要するに何か：行と列の合計が決まっていると、表のうち自由に値を入れられるのは左上ブロックの $(r-1)\times(c-1)$ マスだけ。残りは合計から逆算されるので、その数が自由度。

flowchart LR
    A["r×c の分割表"] --> B["行和・列和を固定すると<br/>自由に動くのは<br/>左上 (r-1)×(c-1) マスだけ"]
    B --> C["残りのマスは<br/>合計から一意に決まる"]
    C --> D["自由度 = (r-1)(c-1)"]

具体例：2×2分割表

「ある製品を購入したか」×「広告を見たか」を300人で集計したとします。

	購入した	購入しない	行和
広告を見た	60	90	150
広告を見ない	30	120	150
列和	90	210	300

期待度数（独立を仮定）：

$E_{11}=\dfrac{150\times 90}{300}=45$
$E_{12}=\dfrac{150\times 210}{300}=105$
$E_{21}=\dfrac{150\times 90}{300}=45$
$E_{22}=\dfrac{150\times 210}{300}=105$

統計量：

$\chi^2=\frac{(60-45)^2}{45}+\frac{(90-105)^2}{105}+\frac{(30-45)^2}{45}+\frac{(120-105)^2}{105}$

$=\frac{225}{45}+\frac{225}{105}+\frac{225}{45}+\frac{225}{105}=5+2.142\ldots+5+2.142\ldots\approx 14.29$

自由度 $\nu=(2-1)(2-1)=1$ 。臨界値 $\chi^2_{0.05}(1)\approx 3.84$ 。 $14.29>3.84$ なので帰無仮説（独立）を棄却。広告と購入には関連があると判断できます。

4. 斉一性の検定（homogeneity）— 独立性と式が同じになる

何を検定するか

複数の母集団（グループ）で、あるカテゴリ変数の分布の比率が等しいかを検定します。

例：A高校・B高校・C高校で、生徒の通学手段（電車／バス／自転車）の比率が同じか。
$H_0$ ：すべてのグループでカテゴリ分布が等しい（斉一）
$H_1$ ：少なくとも1つのグループで分布が異なる

独立性検定と何が違うのか

設計（標本の取り方）が違います。

	独立性の検定	斉一性の検定
標本の取り方	1つの母集団から $N$ 人を取り、2変数を同時に分類	各グループごとに標本サイズを決めて別々に抽出
固定されているもの	総数 $N$ のみ	各行（各グループ）の合計が設計時に固定
帰無仮説	2変数が独立	グループ間で分布が等しい

なぜ統計量と自由度が同じになるのか

斉一性の検定では各グループ（行）の合計が設計で固定されています。すると各グループ内の期待度数は「そのグループ内で全体の列比率を当てはめた値」になり、

$E_{ij}=(\text{行和}_i)\times\frac{\text{列和}_j}{N}=\frac{(\text{行和}_i)(\text{列和}_j)}{N}$

となって、独立性検定の期待度数の式とまったく同じになります。統計量の式も自由度 $(r-1)(c-1)$ も一致します。

要するに何か：標本設計（成り立ちの解釈）は違うが、期待度数の計算式・統計量・自由度はそっくり同じ。だから2級では「計算手順は独立性と斉一性で共通」と覚えてよい。違うのは『何を主張しているか』だけです。

5. 関連の強さは別物：クラメールのV

独立性検定が有意でも、それは「関連がゼロではない」と言っているだけで、関連がどれだけ強いかは教えてくれません。 $\chi^2$ は標本サイズ $N$ が大きいほど大きくなる（同じ比率のズレでも $N$ を増やせば有意になる）ので、効果の大きさの指標にはなりません。

関連の強さを測るにはクラメールのVを使います。

$V=\sqrt{\frac{\chi^2}{N\cdot(\min(r,c)-1)}}$

$0\le V\le 1$ 。0なら無関連、1に近いほど強い関連。
$\chi^2$ を $N$ と表のサイズで割り、標本サイズ依存を取り除いた「効果量」。

要するに何か：「関連があるか（有無）」は $\chi^2$ 検定、「どれくらい強いか（程度）」はクラメールのV。検定が有意でも V が小さければ実質的な関連は弱い、ということがあり得ます。2級では V の式と「検定とは別物」という位置づけを押さえれば十分です（V の詳しい解釈は上位級）。

6. 期待度数が小さいときの扱い

カイ二乗近似は「各セルの度数が正規近似できる」ことに依存します。期待度数が小さいセルがあると近似が崩れ、検定が不正確になります。経験則（コクランの基準）として 期待度数が5未満のセルが全体の2割を超える、または1未満のセルがあると要注意です。

⚠️ 注意：「観測度数」ではなく「期待度数」が小さいかどうかで判断します。観測が0でも期待度数が十分大きければ問題ありません。

対処は主に3つです。

イェーツの連続補正（ $2\times 2$ 表向け）：離散の度数を連続のカイ二乗分布で近似する際のズレを補正するため、各セルのズレの絶対値から0.5を引いてから二乗する。 $\chi^2_{\text{Yates}}=\sum\frac{(\lvert O_i-E_i\rvert-0.5)^2}{E_i}$ 度数が大きいときは0.5の影響が無視できるので、サンプルが小さい $2\times 2$ で意味を持ちます。補正は $\chi^2$ を小さくする方向（保守的）に働きます。
Fisherの正確確率検定：近似に頼らず、超幾何分布から確率を直接計算する。標本が小さい、または期待度数5未満のセルが多い $2\times 2$ 表で推奨。
カテゴリ（セル）の併合：意味的に近い隣接カテゴリをまとめて期待度数を底上げする。ただしまとめ方で結論が変わり得るので、恣意的にならないよう注意。

要するに何か：期待度数が小さいとχ²近似が当てにならない。 $2\times 2$ なら Yates 補正か Fisher 正確検定、多カテゴリならセルをまとめる、が定石。

⚠️ 引っかけポイント・頻出論点

分母は必ず $E$ （期待度数）。 $\dfrac{(O-E)^2}{O}$ と書くのは誤り。 $\dfrac{(O-E)^2}{E}$ が正しい。
棄却域は上側のみ。 $\chi^2$ は非負で、ズレが大きいほど値が大きい。両側に取らない。
自由度の取り違えが最頻出ミス。適合度は $k-1-m$ 、独立性・斉一性は $(r-1)(c-1)$ 。 $2\times 2$ 表は自由度1。「カテゴリ数 $k$ 」と「行数 $r$ ・列数 $c$ 」を混同しない。
期待度数の計算ミス。独立性では $E_{ij}=\dfrac{\text{行和}\times\text{列和}}{N}$ 。行和どうし・列和どうしを掛けない。
パラメータ推定の有無で自由度が変わる。理論値が最初から与えられていれば $m=0$ 。データから分布を当てはめたら推定数だけ引く。
「有意＝強い関連」ではない。 $N$ が大きいだけで有意になる。強さはクラメールのV。
「有意＝因果」ではない。独立性検定は関連の有無を見るだけで、原因・結果の向きは何も言わない。
このノートのカイ二乗検定（度数データの検定）と、母比率・母分散の検定の母分散のχ²検定は別物。後者は連続データ1標本の分散 $\sigma^2$ を検定するもので、統計量 $\dfrac{(n-1)s^2}{\sigma_0^2}$ がχ²分布に従う。同じ「χ²分布を使う」だけで設定が違う。

よくある疑問（Q&A）

Q1. なぜ分母は観測度数 $O$ ではなく期待度数 $E$ なのですか。 各セルの度数のばらつき（分散）が、帰無仮説のもとで期待度数 $E$ にほぼ等しくなるからです。 $\dfrac{O-E}{\sqrt{E}}$ は「ズレ ÷ そのセルの標準偏差」という標準化得点で、これを二乗和したのが $\chi^2$ 。 $O$ で割ると標準化の基準がぶれて、カイ二乗分布への近似が崩れます。理論的には期待度数が「真のばらつきの基準」だから $E$ を使う、と理解してください。

Q2. 適合度検定の自由度 $k-1$ と独立性検定の $(r-1)(c-1)$ で式が違うのはなぜですか。 どちらも「自由に動ける成分の数」を数えた結果で、制約の構造が違うからです。適合度は1次元に並んだ $k$ 個の度数に「合計＝ $N$ 」という縛りが1本なので $k-1$ 。独立性は2次元の表で「すべての行和・列和が固定」という縛りが入り、自由に埋められるのが左上 $(r-1)\times(c-1)$ マスだけなので $(r-1)(c-1)$ 。表の制約が増えたぶん、引く数も増えます。 $2\times 2$ 表だと $(2-1)(2-1)=1$ で、「左上の1マスを決めれば残り3マスは合計から決まる」ことに対応します。

Q3. 期待度数が5未満のセルがあったらどうすればいいですか。 $2\times 2$ 表なら、サンプルが小さいときはイェーツの連続補正（ズレの絶対値から0.5を引く）か、より厳密にはFisherの正確確率検定を使います。多カテゴリの適合度・独立性なら、意味的に近い隣接カテゴリを併合して期待度数を底上げします。判断基準は「期待度数が5未満のセルが全体の2割超、または1未満のセルがある」（コクランの基準）。観測度数ではなく期待度数で見る点に注意してください。なお、どの基準を採るかは年度・教材で表現が揺れるので要最新確認です。

Q4. このノートのカイ二乗検定と、母分散の検定で使うカイ二乗（母比率・母分散の検定）は同じものですか。 別物です。共通するのは「カイ二乗分布を使う」点だけ。このノートは度数（カウント）データの検定で、観測度数と期待度数のズレを集約します。母分散の検定は連続データ1標本の分散 $\sigma^2$ を検定するもので、統計量 $\dfrac{(n-1)s^2}{\sigma_0^2}$ がカイ二乗分布に従うという別の事実を使います。設定も統計量も棄却の仕方（母分散検定は両側もある）も違うので、混同しないでください。

Q5. 独立性検定が有意なら「Aが原因でBが起きた」と言えますか。 言えません。独立性検定が示すのは「2変数に統計的な関連がある（独立ではない）」までで、原因と結果の向きは何も保証しません。関連は第3の変数（交絡）で生じているかもしれません。さらに、有意であること自体は「関連の有無」であって「関連の強さ」ではない点も重要です。強さを見るにはクラメールのV $V=\sqrt{\dfrac{\chi^2}{N(\min(r,c)-1)}}$ を使い、検定の有意性とは分けて評価します。 $N$ が大きいと弱い関連でも有意になりやすいので、検定結果だけで実質的な意味の大きさを語らないことが大切です。

まとめ

カイ二乗検定は $\chi^2=\sum\dfrac{(O-E)^2}{E}$ で観測と期待のズレを集約する。分母は必ず期待度数 $E$ 、棄却域は上側のみ。
適合度検定：データが理論分布に従うか。期待度数 $E_i=Np_i$ 、自由度 $k-1-m$ （ $m$ ＝推定したパラメータ数）。
独立性検定：分割表の2変数が独立か。期待度数 $E_{ij}=\dfrac{\text{行和}\times\text{列和}}{N}$ 、自由度 $(r-1)(c-1)$ 。
斉一性検定：複数グループで分布が等しいか。標本設計は独立性と違うが、期待度数・統計量・自由度の式は同じ。
自由度は「自由に動ける成分の数＝総セル数 − 制約の数」として導出できる。公式暗記でなく数えられるようにする。
関連の有無は $\chi^2$ 検定、強さはクラメールのV。有意でも因果は言えず、強さも別物。
期待度数が小さいときは Yates 補正・Fisher 正確検定・セル併合で対処する。

要点（BLUF）

1. カイ二乗統計量とは

基本のアイデア

なぜ分母が EEE なのか（規格化の意味）

なぜ「カイ二乗分布」になるのか（漸近の直観）

2. 適合度検定（goodness of fit）

何を検定するか

自由度はなぜ k−1k-1k−1 なのか

パラメータを推定すると自由度がさらに減る

具体例：サイコロの一様性

3. 独立性の検定（分割表）

何を検定するか

期待度数の作り方

自由度はなぜ (r−1)(c−1)(r-1)(c-1)(r−1)(c−1) なのか

具体例：2×2分割表

4. 斉一性の検定（homogeneity）— 独立性と式が同じになる

何を検定するか

独立性検定と何が違うのか

なぜ統計量と自由度が同じになるのか

5. 関連の強さは別物：クラメールのV

6. 期待度数が小さいときの扱い

⚠️ 引っかけポイント・頻出論点

よくある疑問（Q&A）

まとめ

関連ノート

なぜ分母が $E$ なのか（規格化の意味）

自由度はなぜ $k-1$ なのか

自由度はなぜ $(r-1)(c-1)$ なのか