← 統計検定テキスト 一覧

📊 対象級:4級 ・ 3級 ・ 2級 | 重要度:A(頻出)

クロス集計表(分割表)・行/列比率・連関 ── 同じ表でも「何で割るか」で結論が変わる

要点(BLUF)

対象級について:4級=クロス集計表(分割表)の読み方・セル度数・周辺度数。3級=行比率・列比率・全体比率の計算と使い分け、帯グラフでの比較。2級=独立と連関、期待度数、クラメールの連関係数、シンプソンのパラドックス。独立性のカイ二乗検定そのものは「推定・検定」の単元なので、この記事では深入りせず入口(期待度数・連関の強さ)までを扱います。出題範囲は改訂されることがあるので、受験前に必ず最新の範囲表を確認してください(要最新確認)。

クロス集計表(分割表)とは(4級)

2つの**質的変数(カテゴリ)**を取り上げ、片方を行、もう片方を列にして、両方の値が一致する個体の人数(度数)を各マス(セル)に書いた表です。rrcc 列なら r×cr\times c 分割表と呼びます。散布図・相関係数の「種類版(カテゴリ版)」だと思ってください。

例として「性別 × 購入したか」(2×22\times2 表)を見てみましょう。

購入した購入しない行の合計
男性3070100
女性6040100
列の合計90110200(全体 N)

4級では「この表から、男性で購入した人は何人?」のように人数を読み取れればOKです。

クロス集計表は 2変数の度数分布表。1変数の度数分布表(→ 度数分布表とヒストグラム ── 階級・相対度数・累積度数とスタージェスの公式)を2変数に拡張したもの。質的×質的版の「2変数の関係」であり、量的×量的版の散布図・相関係数(→ 2変数の記述(散布図・共分散・相関係数)── 相関≠因果/rは直線関係しか測れない/外れ値1点で激変)に対応します。

行比率・列比率・全体比率(3級)── ここが一番のつまずきどころ

セルの人数をそのまま比べても、行や列の合計が違うとフェアに比べられません。そこで割り算で割合に直します。ポイントは「何で割るか」で3種類あること。

種類割る相手こう読む
行比率その行の合計各行が100%。「男女それぞれの購入率」
列比率その列の合計各列が100%。「購入者・非購入者それぞれの男女比」
全体比率全体の人数表全体が100%。「各マスが全体に占める割合」

さっきの表を行比率(各行をその行の合計で割る)にすると:

購入した購入しない
男性30÷100 = 30%70%
女性60÷100 = 60%40%

→「男性30%・女性60%」なので、女性のほうが購入率が高いと読めます。

同じ表を列比率(各列をその列の合計で割る)にすると:

購入した購入しない
男性30÷90 ≈ 33%64%
女性60÷90 ≈ 67%36%

→「購入した人のうち女性が67%」。

ここが超重要です。行比率の「女性の購入率60%」と、列比率の「購入者のうち女性が67%」は、まったく別の問いに答えています。 何で割ったかを見失うと、まるで違う結論を出してしまいます。

要するに:行比率は「女性は買うのか?」、列比率は「買う人は女性か?」。問いの向きが逆なんです。試験では「何で割るべきか」を選ばせたり、行比率と列比率を取り違えさせる選択肢がよく出ます。

連関と独立 ── 2つの変数に関係はある?(2級)

2つの種類データに「関係がある」ことを連関 (association) といいます。量的データでいう「相関」の種類版です。関係がない状態を独立と呼びます。

独立のイメージ:行を変えても列の割合(行比率)が変わらないこと。さっきの例なら「男性も女性も購入率が同じ」なら独立です。実際は30%対60%で違うので、連関ありですね。

期待度数 ── 「もし関係なかったら」の人数

もし2つの変数が完全に独立だったら、各マスに来るはずの人数を**期待度数 (expected frequency)**といいます。式はこれ。

Eij=(iの和)×(jの和)NE_{ij}=\frac{(\text{行}i\text{の和})\times(\text{列}j\text{の和})}{N}

要するに:「全体での購入率を、行の人数にそのまま当てはめたらこうなるはず」という理論値です。

さっきの例で「男性 × 購入した」マスの期待度数は E11=100×90200=45E_{11}=\dfrac{100 \times 90}{200} = 45人。でも実際は30人。独立なら45人いるはずが30人しかいない=これが連関(関係がある)の証拠になります。

連関の強さ ── クラメールの連関係数

「どれくらい強く関係しているか」を測りたいときは、観測された人数(OO)と期待度数(EE)のズレを全マスで合計します。

χ2=i,j(OijEij)2Eij\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

要するに:「独立ならこうなるはず(EE)から、実際(OO)がどれだけズレているか」の合計。0なら完全に独立、大きいほど強い連関です。

ただしこの値はデータの人数 NN や表のサイズ(行数・列数)で膨らんでしまうので、0〜1の範囲に直したものを使います。それがクラメールの連関係数 VV

V=χ2Nmin(r1, c1)(0V1)V = \sqrt{\frac{\chi^2}{N \cdot \min(r-1,\ c-1)}} \qquad (0 \le V \le 1)

NN=全体の人数、rr=行数、cc=列数)。V=0V=0なら独立、V=1V=1なら完全に関係している(片方が決まればもう片方も決まる)状態。これは相関係数の種類版だと思えばOKです。

なお「このズレが偶然のものか、それとも本当に関係があると言えるのか」を確率で判定するのが独立性のカイ二乗検定(自由度 (r1)(c1)(r-1)(c-1))ですが、それは検定の単元の話。この記事では「期待度数・連関の強さ」までにとどめます。

日常の具体例:性別×購入の表で考える

居酒屋のクーポンを配って、性別ごとに「使った/使わなかった」を集計したとします。

同じ1枚の表から、見方を変えるだけで3つの異なる情報が引き出せるわけです。

試験での問われ方(級差)

シンプソンのパラドックス ── 全体で見ると逆転する罠

これは2級で問われる、そして実務でも一番怖い現象です。層(グループ)ごとに見るとA優勢なのに、全部まとめると逆にB優勢に見えるというもの。

有名な腎臓結石の治療データで見てみましょう。治療法A・Bを「小さい石」「大きい石」で分けて成功率を出すと:

石の大きさ治療A治療B勝つのは
小さい石(軽症)93.1%(81/87)86.7%(234/270)A
大きい石(重症)73.0%(192/263)68.8%(55/80)A

どちらの層でも治療Aが勝っています。ところが、層を無視して全部まとめると…

治療A治療B勝つのは
全体(まとめ)78.0%(273/350)82.6%(289/350)B

逆転しました。 各層ではAが強いのに、全体ではBが強く見える。なぜでしょう?

原因は「どんな患者に使ったかの偏り」です。治療Aは難しい大きい石(成功しにくい)に多く使われ、治療Bは簡単な小さい石(成功しやすい)に多く使われていました。全体の数字は「どの石に使ったか」という層を隠してしまうので、楽な患者ばかりだったBが見かけ上有利になるのです。

この「層と治療の両方に影響する隠れた変数(ここでは石の大きさ=重症度)」を交絡変数といいます。関係を見るときは「層を隠していないか?」を必ず疑いましょう。

graph LR
    C["石の大きさ・重症度"] -->|"重症ほどAを選ぶ"| T["治療法A or B"]
    C -->|"重症ほど失敗しやすい"| R["成功 or 失敗"]
    T -->|"本当に見たい関係"| R

上の図のように、石の大きさが「治療の選ばれ方」と「成功率」の両方に矢印を伸ばしているのがミソ。これを無視して治療→成功だけ見ると、石の大きさの影響が紛れ込んで逆転が起きます。

シンプソンのパラドックスは量的データの相関でも起きます(層別すると相関の符号が逆転する → 2変数の記述(散布図・共分散・相関係数)── 相関≠因果/rは直線関係しか測れない/外れ値1点で激変 のシンプソン)。種類データでも数量データでも、「全体の集計は層を隠す」という教訓は共通です。

数式の直観的意味

1. 独立 ⟺ 行比率が全行で等しい ⟺ 期待度数 = 行和×列和÷総和(導出)

すべて確率の独立 P(AB)=P(A)P(B)P(A\cap B)=P(A)P(B) から出る。表の度数を確率に直して考える。

総度数 NN、行 ii の和を RiR_i、列 jj の和を CjC_j、セル (i,j)(i,j) の度数を OijO_{ij} とする。相対度数(割合)を確率とみなすと:

P(i)=RiN,P(j)=CjN,P(ij)=OijNP(\text{行}i)=\frac{R_i}{N},\quad P(\text{列}j)=\frac{C_j}{N},\quad P(\text{行}i\cap\text{列}j)=\frac{O_{ij}}{N}

(a) 独立の定義から期待度数へ。 2変数が独立なら定義より P(ij)=P(i)P(j)P(\text{行}i\cap\text{列}j)=P(\text{行}i)\,P(\text{列}j)。代入すると

OijN=RiNCjN    Oij=RiCjN=Eij.\frac{O_{ij}}{N}=\frac{R_i}{N}\cdot\frac{C_j}{N} \;\Longrightarrow\; O_{ij}=\frac{R_i\,C_j}{N}=E_{ij}.

要するに**「独立なら各セルの度数は 行和×列和N\frac{\text{行和}\times\text{列和}}{N} になるはず」**。この理論値が期待度数。逆に観測 OO がこれからズレていれば連関の証拠。

(b) なぜ「行比率が揃う=独立」なのか(条件付き確率)。ii における列 jj の行比率は、条件付き確率そのもの:

P(ji)=P(ij)P(i)=Oij/NRi/N=OijRi(=行比率)P(\text{列}j\mid\text{行}i)=\frac{P(\text{行}i\cap\text{列}j)}{P(\text{行}i)}=\frac{O_{ij}/N}{R_i/N}=\frac{O_{ij}}{R_i}\quad(\text{=行比率})

独立だと (a)(a) より Oij=RiCjNO_{ij}=\frac{R_iC_j}{N} なので

P(ji)=OijRi=RiCj/NRi=CjN=P(j).P(\text{列}j\mid\text{行}i)=\frac{O_{ij}}{R_i}=\frac{R_iC_j/N}{R_i}=\frac{C_j}{N}=P(\text{列}j).

右辺 CjN\frac{C_j}{N}ii に依存しない(どの行でも同じ)。つまり独立 ⟺ 行比率 P(ji)P(\text{列}j\mid\text{行}i) がどの行 ii でも同じ =P(j)=P(\text{列}j)。これが「全行で行比率が揃えば独立」の正体。条件付き確率の言葉で言えば「行(条件)を変えても列の分布が変わらない」。

3つの言い換えは完全に同値:

独立        P(ji)=P(j) (i)        行比率が全行で等しい        Oij=Eij=RiCjN\text{独立}\;\iff\; P(\text{列}j\mid\text{行}i)=P(\text{列}j)\ (\forall i)\;\iff\; \text{行比率が全行で等しい}\;\iff\; O_{ij}=E_{ij}=\frac{R_iC_j}{N}

2. 行比率と列比率は一般に違う(条件付き確率の向き P(BA)P(AB)P(B\mid A)\ne P(A\mid B)

行比率 =P()=P(\text{列}\mid\text{行})、列比率 =P()=P(\text{行}\mid\text{列})。これは条件と結果が逆の条件付き確率。一般に

P(BA)=P(AB)P(A)  P(AB)P(B)=P(AB)(分母 P(A)P(B) なら必ず違う)P(B\mid A)=\frac{P(A\cap B)}{P(A)}\ \ne\ \frac{P(A\cap B)}{P(B)}=P(A\mid B)\qquad(\text{分母 }P(A)\ne P(B)\text{ なら必ず違う})

本文の例:行比率「女性の購入率」=P(購入女性)=60/100=60%=P(\text{購入}\mid\text{女性})=60/100=60\% と、列比率「購入者中の女性割合」=P(女性購入)=60/9067%=P(\text{女性}\mid\text{購入})=60/90\approx67\% は別物。両者をつなぐのがベイズの定理 P(AB)=P(BA)P(A)P(B)P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)}(→ Phase 2 の前方リンク 条件付き確率・独立性・全確率の定理)。

実務的な含意:「女性は男性より買う」(行比率の話)と「買う人は女性が多い」(列比率の話)は結論が一致するとは限らない。問いが「どっちで割る話か」を毎回確認する。

3. 連関の強さ:χ²のズレからクラメール VV[0,1][0,1] に収まる理由

χ²統計量 χ2=(OE)2E\chi^2=\sum\frac{(O-E)^2}{E} は「独立からのズレの2乗和(EE で重み付け)」。これがなぜ VV[0,1][0,1] になるかは上限で決まる。

2×22\times2 表の場合(ϕ\phi 係数)r=c=2r=c=2 なら min(r1,c1)=1\min(r-1,c-1)=1

V=χ2N=ϕ(ファイ係数).V=\sqrt{\frac{\chi^2}{N}}=\phi\quad(\text{ファイ係数}).

2×22\times2 では ϕ\phi は2変数を 0/10/1 にコード化したときのピアソン相関係数の絶対値に一致する(→ 2変数の記述(散布図・共分散・相関係数)── 相関≠因果/rは直線関係しか測れない/外れ値1点で激変)。相関係数が [1,1][-1,1] だから ϕ[0,1]\phi\in[0,1]、すなわち χ2N\chi^2\le N。等号 χ2=N\chi^2=NV=1V=1)は完全連関=対角だけに度数が集まり、一方が決まれば他方が確定するとき。

一般の r×cr\times c。証明の要点だけ:各セルの寄与を整理すると χ2\chi^2 の最大値は Nmin(r1,c1)N\cdot\min(r-1,c-1) で抑えられる(完全連関のとき達成)。よって

0χ2Nmin(r1,c1)1    0V1.0\le\frac{\chi^2}{N\cdot\min(r-1,c-1)}\le1 \;\Longrightarrow\; 0\le V\le1.

分母の min(r1,c1)\min(r-1,c-1) は「表の形(行数・列数)による χ2\chi^2 の天井」を打ち消すための正規化因子。要するに **VV は「サイズに依らない連関の強さ」**で、相関係数 rr が「単位に依らない直線関係の強さ」(→ 2変数の記述(散布図・共分散・相関係数)── 相関≠因果/rは直線関係しか測れない/外れ値1点で激変)なのと同じ発想。

厳密な一般証明は1級レベル。2級では「VVχ2\chi^2[0,1][0,1] に正規化した連関の強さ」「V=0V=0 独立・V=1V=1 完全連関」を押さえれば十分。χ2\chi^2 自体の標本分布(自由度 (r1)(c1)(r-1)(c-1) のカイ二乗分布)と検定は検定ドメイン(カイ二乗独立性検定)へ。

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q1. 行比率と列比率、どっちを使えばいいの?

「比べたい方向」で決めます。「グループごとに(行ごとに)違いがあるか」を見たいなら行比率、「ある結果になった人たちの内訳」を見たいなら列比率です。さっきの例なら「男女で購入率が違うか」→行比率、「購入者の男女内訳」→列比率。設問が問うている向きに分母を合わせてください。

Q2. 「独立」って、人数が0ってこと?

いいえ。独立は「関係がない」であって「人数が0」ではありません。独立なら各マスには期待度数(行和×列和÷全体)ぶんの人がちゃんといます。たとえば男性で購入した人が45人いても、その45人が「全体の購入率どおり」なら独立です。0人とはまったく別の話です。

Q3. 連関があれば「原因と結果」と言っていいの?

言えません。これは「相関≠因果」の種類版です。連関が強くても、逆向きの因果や、第3の隠れた原因(交絡)や、ただの偶然のこともあります。シンプソンのパラドックスがまさにその警告で、表面の関係は層を隠した見かけにすぎないことがあります。連関は「関係がありそう」までで、因果は別の手法(実験など)で確かめる必要があります。

まとめ

対応するシミュレーション

独立データと連関データの行比率・期待度数の比較

シンプソンのパラドックス(層ではA・全体ではBが優勢)

関連ノート