カテゴリカルデータ解析の応用

📊 対象級：1級　|　重要度：A（頻出）

要点（BLUF）

カイ二乗検定（適合度・独立性）の独立性検定は「対応のない1枚の分割表」だけを扱いますが、医薬生物学の現場ではそれでは足りません。セル度数を回帰でモデル化する（対数線形モデル）、順序のあるカテゴリを使い切る（順序ロジット）、前後比較・マッチドペアを扱う（マクネマー検定）、交絡を調整する（CMH検定）——この4つが応用の柱です。1級ではこれらの使い分けと**数理（特に検定統計量がなぜその形か）**が問われます。

対数線形モデル：分割表の各セルの期待度数 $m_{ij}$ の対数をポアソン回帰で説明する。独立モデル $\ln m_{ij}=\mu+\alpha_i+\beta_j$ に交互作用項 $\lambda_{ij}$ を足すと連関（独立でない）を表せる。この $\lambda_{ij}$ はオッズ比の対数に対応し、 $\lambda_{ij}=0$ （独立）が独立性検定そのものになる。
順序ロジット（比例オッズ）モデル：結果が順序カテゴリ（軽症 < 中等症 < 重症など）のとき、累積確率のロジットを $\ln\frac{P(Y\le j)}{P(Y>j)}=\theta_j-\boldsymbol\beta^\top\boldsymbol x$ とモデル化。説明変数の効果 $\boldsymbol\beta$ が全ての境界で共通という「比例オッズの仮定」が肝。
マクネマー検定：対応のある2×2表（同一被験者の前後など）では、一致セル $a,d$ を捨て不一致セル $b,c$ だけで $\chi^2=\frac{(b-c)^2}{b+c}$ を計算する。これは「不一致 $b+c$ 件のうち $b$ 件が $\mathrm{Bin}(b+c,\tfrac12)$ に従う」という条件付き二項検定の近似。
CMH検定：交絡因子で層別した複数の2×2表を束ね、「各層に共通の連関」を1自由度で検定する。交絡を調整した上で曝露と結果の関連を見る道具で、交絡の調整の中核。

1級（統計応用・医薬生物学）では対応あり/なしの検定の使い分け・対数線形と独立性検定の関係・順序データの扱いが頻出です（範囲・配点は改訂されうるため要最新確認）。

flowchart TD
  ROOT["カテゴリカルデータ"] --> Q1{"対応あり?<br/>同一個体の前後・マッチドペア"}
  Q1 -->|あり 2×2| MCN["マクネマー検定<br/>不一致セルだけ<br/>χ²=(b-c)²/(b+c)"]
  Q1 -->|なし| Q2{"交絡で層別している?"}
  Q2 -->|あり 層別2×2| CMH["CMH検定<br/>交絡調整した共通連関<br/>+ MH共通オッズ比"]
  Q2 -->|なし| Q3{"結果が順序カテゴリ?"}
  Q3 -->|順序あり| ORD["順序ロジット<br/>比例オッズモデル<br/>累積ロジット"]
  Q3 -->|名義 多元表| LOG["対数線形モデル<br/>セル度数をポアソン回帰<br/>交互作用=連関"]
  Q3 -->|名義 2元表のみ| CHI["カイ二乗独立性検定<br/>（04-09の基本）"]

1. 対数線形モデル — 分割表を「回帰」として捉える

1.1 動機：カイ二乗検定の限界

カイ二乗検定（適合度・独立性）の独立性検定は「2つの分類が独立か」をイエス/ノーで返すだけで、連関の強さや構造をモデル化しません。また3元以上の分割表（曝露 × 結果 × 性別など）になると、「どの2変数間に連関があり、3者の交互作用はあるか」を切り分けられません。これを回帰の枠組みで解くのが**対数線形モデル（log-linear model）**です。

考え方は「分割表の各セルの度数を、ポアソン分布に従う応答変数とみなし、行・列の効果で説明する」。 $I\times J$ 分割表のセル $(i,j)$ の観測度数を $n_{ij}$ 、その期待度数（母平均）を $m_{ij}=E[n_{ij}]$ とします。

1.2 独立モデルと飽和モデル

独立モデル. 行の分類 $X$ と列の分類 $Y$ が独立なら、セルの期待度数は周辺確率の積で書けます。 $m_{ij}=N\,p_{i\cdot}\,p_{\cdot j}$ 。両辺の対数を取ると積が和に分解され、

\boxed{\;\ln m_{ij}=\mu+\alpha_i+\beta_j\;}

となります。要するに「独立とは、セル度数の対数が『行効果 $\alpha_i$ ＋列効果 $\beta_j$ 』という足し算だけで書ける状態」。 $\mu$ は全体水準、 $\alpha_i$ が行 $i$ の主効果、 $\beta_j$ が列 $j$ の主効果です（識別のため $\sum_i\alpha_i=0$ などの制約を置く）。交互作用の項がないのが独立モデルの特徴です。

飽和モデル（saturated model）. 独立が成り立たない（連関がある）一般の表は、交互作用項 $\lambda_{ij}$ を足して

\boxed{\;\ln m_{ij}=\mu+\alpha_i+\beta_j+\lambda_{ij}\;}

と書きます。これは $I\times J$ 個のセルを $I\times J$ 個のパラメータで完全に再現する（自由度0の）モデルなので飽和モデルと呼びます。要するに「連関＝主効果の足し算では説明できないズレ＝交互作用項 $\lambda_{ij}$ 」。

1.3 核心：交互作用項 $\lambda_{ij}$ はオッズ比の対数

ここが対数線形モデルの最重要点で、1級で問われます。交互作用項 $\lambda_{ij}$ がオッズ比の対数に対応することを2×2表で確かめます。

飽和モデル $\ln m_{ij}=\mu+\alpha_i+\beta_j+\lambda_{ij}$ で、対数オッズ比を作ります。2×2表のオッズ比は $\psi=\dfrac{m_{11}m_{22}}{m_{12}m_{21}}$ なので、その対数は

\ln\psi=\ln m_{11}+\ln m_{22}-\ln m_{12}-\ln m_{21}

各 $\ln m_{ij}$ にモデルを代入すると、 $\mu$ ・ $\alpha_i$ ・ $\beta_j$ は符号付きで足し引きすると全て打ち消し合い、交互作用項だけが残ります（例えば $\alpha_1$ は $m_{11},m_{12}$ に $+$ 、 $m_{21},m_{22}$ に $-$ … と入るので相殺）。結果は

\boxed{\;\ln\psi=\lambda_{11}+\lambda_{22}-\lambda_{12}-\lambda_{21}\;}

通常の制約（ $\sum_i\lambda_{ij}=\sum_j\lambda_{ij}=0$ ）のもとでは 2×2 表の独立な交互作用パラメータは1つだけになり、 $\ln\psi=4\lambda_{11}$ のように対数オッズ比そのものになります。要するに「交互作用項 $\lambda_{ij}$ は、主効果を除いた後に残る『行と列の絡み』＝オッズ比の対数を測っている」。

これから直ちに分かること：

\lambda_{ij}=0\ (\text{全ての }i,j)\quad\Longleftrightarrow\quad \psi=1\quad\Longleftrightarrow\quad X\text{ と }Y\text{ は独立}

つまり**「交互作用項がゼロか」の検定が、そのまま独立性検定になる**。対数線形モデルでこの帰無仮説（独立モデル vs 飽和モデル）を尤度比検定すると、 $2\times2$ ではカイ二乗独立性検定と漸近的に一致します。要するに「カイ二乗独立性検定は、対数線形モデルで『交互作用項＝0』を検定する特別な場合」。これが「対数線形と独立性検定の関係」の答えです。

graph LR
  IND["独立モデル<br/>ln m = μ+α+β<br/>（交互作用なし）"] -->|交互作用 λ を足す| SAT["飽和モデル<br/>ln m = μ+α+β+λ"]
  SAT -->|2×2では| OR["λ = 対数オッズ比 ln ψ"]
  IND -->|λ=0 を尤度比検定| CHI["独立性検定<br/>（カイ二乗と漸近一致）"]

1.4 多元表とモデル階層

3元表 $X\times Y\times Z$ では、2因子交互作用 $\lambda^{XY},\lambda^{XZ},\lambda^{YZ}$ （どの2変数が連関するか）と3因子交互作用 $\lambda^{XYZ}$ （連関が第3の変数で変わるか）を段階的に入れ、モデルの階層（独立 → 条件付き独立 → 均一連関 → 飽和）を尤度比で比較します。「曝露と結果の連関が層 $Z$ によらず一定（均一連関）」というモデルは、後述のCMH検定が前提とする状況に対応します。

⚠️ 階層原理（hierarchy）：高次の交互作用項を入れるなら、それに含まれる低次項も必ず入れる。 $\lambda^{XYZ}$ を入れるなら $\lambda^{XY},\lambda^{XZ},\lambda^{YZ}$ と全主効果も入れる。これを破ったモデルは解釈が定まりません。

2. ポアソンと多項の関係 — なぜ「度数の回帰」が「確率の表」と一致するのか

対数線形モデルは度数 $n_{ij}$ をポアソン分布でモデル化します。一方、分割表は普通「全 $N$ 例を各セルに分類した多項分布」と捉えます。この2つの見方が一致することが、対数線形モデルが正当な理由です。

論理はこうです。各セルの度数 $n_{ij}$ が独立にポアソン分布 $\mathrm{Po}(m_{ij})$ に従うとします。このとき総数 $N=\sum n_{ij}$ を固定して条件付けると、 $(n_{ij})$ の条件付き分布はちょうど多項分布 $\mathrm{Multinomial}(N;\ p_{ij})$ 、ただし $p_{ij}=m_{ij}/\sum m_{ij}$ 、になります。要するに「独立なポアソンたちを総和で条件付けると多項分布になる」(ポアソンの分解・条件付けの性質)。

この対応のおかげで、

セル度数をポアソン回帰（対数リンクの一般化線形モデル）で扱う＝対数線形モデル、
それが総数を固定した多項モデル（＝普通の分割表の確率モデル）と整合する、

という二重の見方が両立します。実務上はポアソン尤度で推定しても、総数で条件付けた多項尤度で推定しても、連関に関わるパラメータ（交互作用 $\lambda$ ）の推定は一致します。だから「分割表＝多項」という直観と「セル度数のポアソン回帰」という計算手段が矛盾しません。対数線形モデルが一般化線形モデル（ロジスティック・ポアソン回帰）の一員（ポアソン分布・対数リンク）として位置づくのはこのためです。

要するに：対数線形モデルは「ポアソン回帰の衣をまとった多項モデル」。総数を固定すれば多項に化けるので、確率の表として読んでよい。

3. 順序ロジット（比例オッズ）モデル — 順序カテゴリを使い切る

3.1 動機：順序を無視すると情報を捨てる

結果が「軽症 < 中等症 < 重症」「効果なし < やや改善 < 著明改善」のように順序のあるカテゴリのとき、これを名義変数として普通のカイ二乗検定にかけると、カテゴリの順序という情報を捨ててしまいます。順序を活かすのが順序ロジット（ordinal logit）モデル、別名**比例オッズモデル（proportional odds model）**です。

3.2 累積ロジットによる定式化

鍵は、各カテゴリの確率を直接モデル化するのではなく、累積確率 $P(Y\le j)$ を使うことです。順序カテゴリ $1<2<\dots<J$ に対し、境界 $j$ （ $j=1,\dots,J-1$ ）ごとに累積ロジットを考えます。

\boxed{\;\mathrm{logit}\,P(Y\le j\mid \boldsymbol x)=\ln\frac{P(Y\le j\mid\boldsymbol x)}{P(Y>j\mid\boldsymbol x)}=\theta_j-\boldsymbol\beta^\top\boldsymbol x\;}

要するに「『カテゴリ $j$ 以下に入るか、それより上か』という2分法を、境界 $j$ ごとに作ってロジスティック回帰する」。各記号の意味：

$\theta_j$ ：境界 $j$ ごとに異なる切片（閾値）。順序を反映して $\theta_1\le\theta_2\le\dots\le\theta_{J-1}$ と単調。
$\boldsymbol\beta$ ：説明変数の効果。 $j$ に依存せず全境界で共通。これが「比例オッズ」の核心。
符号が $-\boldsymbol\beta^\top\boldsymbol x$ （マイナス）なのは慣用で、 $\boldsymbol\beta>0$ なら「 $\boldsymbol x$ が大きいほど高位カテゴリ（重症側）に行きやすい」と素直に読めるようにするため。

3.3 比例オッズの仮定とは何か

「 $\boldsymbol\beta$ が全境界で共通」を、オッズ比の言葉で言い直します。説明変数を $x$ から $x+1$ に1増やしたときの累積オッズ比は、どの境界 $j$ で測っても

\frac{\text{odds}(Y\le j\mid x+1)}{\text{odds}(Y\le j\mid x)}=\exp(-\beta)\quad(\text{全ての }j\text{ で同じ})

要するに「説明変数の効果（累積オッズ比）が、どこで線を引いても同じ＝オッズが比例的にずれる」。これが比例オッズの仮定（proportional odds assumption）です。 $J-1$ 本のロジスティック回帰を1つの傾き $\boldsymbol\beta$ で束ねるので、パラメータが激減し解釈も「1つのオッズ比」で済みます。

直観的な背景（潜在変数モデル）：観測される順序カテゴリ $Y$ の裏に連続な潜在変数 $Y^\ast=\boldsymbol\beta^\top\boldsymbol x+\varepsilon$ があり、閾値 $\theta_j$ を超えるたびにカテゴリが1つ上がる、と考えると上式が導けます。 $\varepsilon$ がロジスティック分布なら累積ロジット、正規分布なら順序プロビットになります。要するに「順序カテゴリは、連続的な重症度を閾値で切ったもの」と見るのが比例オッズモデルです。

3.4 比例オッズが成り立たないとき

比例オッズの仮定が崩れる（傾きが境界ごとに違う）場合は、スコア検定（Brant検定など）で検出し、部分比例オッズモデルや、順序を一部諦めた多項ロジットに切り替えます。試験では「比例オッズの仮定を確認してから使う」という手順意識が問われます。

4. マクネマー検定 — 対応のある2×2表

4.1 状況：対応のあるデータに普通のカイ二乗は使えない

同一被験者を処置前後で測る、あるいは症例と対照を1対1でマッチングする——このとき2つの測定は独立ではなく対応しています。表は次の形になります（行＝1回目、列＝2回目、いずれも陽性/陰性）。

	2回目陽性	2回目陰性	行計
1回目陽性	$a$	$b$	$a+b$
1回目陰性	$c$	$d$	$c+d$
列計	$a+c$	$b+d$	$N$

一致セル $a$ （両方陽性）, $d$ （両方陰性）：1回目と2回目で変化しなかったペア。
不一致セル $b$ （陽性→陰性）, $c$ （陰性→陽性）：変化したペア。

通常のカイ二乗独立性検定は「2変数が独立か」を見ますが、対応データで知りたいのは独立性ではなく「1回目と2回目で陽性率が変わったか」=**周辺同等性（marginal homogeneity）**です。周辺の陽性率は1回目が $(a+b)/N$ 、2回目が $(a+c)/N$ 。これらが等しいかは $b$ と $c$ の比較に帰着します。だから普通のカイ二乗は的外れで、マクネマー検定が要ります。

4.2 帰無仮説と検定統計量

帰無仮説は周辺同等性、すなわち不一致が両方向で同確率に起きること：

H_0:\ p_b=p_c\quad(\text{周辺同等性 marginal homogeneity})

マクネマー検定統計量は

\boxed{\;\chi^2=\frac{(b-c)^2}{b+c}\;\sim\;\chi^2_1\ (\text{漸近})\;}

要するに「変化したペア $b,c$ だけを取り出し、その差 $(b-c)$ が偶然の範囲かを見る。一致セル $a,d$ は一切使わない」。連続性補正版（Edwards）は

\chi^2=\frac{(|b-c|-1)^2}{b+c}

不一致数が少ないとき（目安 $b+c<25$ ）は近似を使わず正確二項検定を使います（次節で導出）。

4.3 核心の導出：なぜ不一致セルだけで、なぜ $(b-c)^2/(b+c)$ か

ここが1級で問われる導出です。条件付き二項分布から組み立てます。

ステップ1：一致セルは情報を持たない. 帰無仮説「1回目と2回目で陽性率が同じ」は、 $b$ と $c$ の期待値が等しいこと（ $E[b]=E[c]$ ）と同値です。一致セル $a,d$ は「変化しなかった」ペアで、変化の向きについて何も語らない。だから不一致ペアの総数 $n=b+c$ で条件付ける(=変化したペアだけに注目する)のが自然です。

ステップ2：不一致ペアの内訳は二項分布. 不一致が起きたとき、それが「陽性→陰性（ $b$ 側）」か「陰性→陽性（ $c$ 側）」かを考えます。帰無仮説（両方向が同確率）のもとでは、不一致1件が $b$ 側に落ちる確率は $\tfrac12$ 。よって不一致 $n=b+c$ 件のうち $b$ 側に落ちる個数は二項分布に従います。

b\ \big|\ (b+c=n)\ \sim\ \mathrm{Binomial}\!\left(n,\ \tfrac12\right)

要するに「変化したペアを $n$ 回のコイン投げと見る。帰無仮説のもとでは表裏（ $b$ 側か $c$ 側か）は半々」。これがマクネマー検定の正体で、 $b+c<25$ のときに使う正確二項検定はこの二項分布の裾確率を直接計算したものです。

ステップ3：正規近似でカイ二乗へ. 二項分布 $\mathrm{Bin}(n,\tfrac12)$ の平均は $\tfrac{n}{2}$ 、分散は $n\cdot\tfrac12\cdot\tfrac12=\tfrac{n}{4}$ 。標準化すると

Z=\frac{b-\tfrac{n}{2}}{\sqrt{n/4}}=\frac{b-\frac{b+c}{2}}{\sqrt{(b+c)/4}}=\frac{\frac{b-c}{2}}{\frac{\sqrt{b+c}}{2}}=\frac{b-c}{\sqrt{b+c}}

これを二乗すれば $Z^2$ が自由度1のカイ二乗に漸近し、

Z^2=\frac{(b-c)^2}{b+c}=\chi^2\sim\chi^2_1

要するに「マクネマー統計量 $(b-c)^2/(b+c)$ は、二項分布 $\mathrm{Bin}(b+c,\tfrac12)$ の正規近似を二乗しただけ」。分母が $b+c$ （不一致数）なのは二項の分散 $n/4$ から来ており、 $a,d$ が式に現れないのはステップ1で条件付けて落としたからです。これでマクネマー統計量の形が完全に説明できます。

連続性補正の $-1$ は、離散な二項を連続なカイ二乗で近似する際の標準的な補正（半整数補正）に対応します。

5. コクラン-マンテル-ヘンツェル（CMH）検定 — 交絡を調整した連関

5.1 動機：層別して交絡を断つ

曝露 $X$ と結果 $Y$ の関連を見たいが、性別・年齢層・施設などの交絡因子 $Z$ があるとします。 $Z$ を無視して1枚の表でカイ二乗検定すると、シンプソンのパラドックスのように交絡で関連が歪む。そこで $Z$ の値ごとに分けた層別2×2表を作り、各層の中（＝交絡を固定した中）での連関を束ねて検定するのがコクラン-マンテル-ヘンツェル（Cochran-Mantel-Haenszel, CMH）検定です。これは交絡の調整の中心的手法で、層別化（stratification）による調整の代表例です。

各層 $k$ （ $k=1,\dots,K$ ）の2×2表を次の記法で表します。

	曝露あり	曝露なし	行計
症例	$A_k$	$B_k$	$N_{1k}$
対照	$C_k$	$D_k$	$N_{2k}$
列計	$M_{1k}$	$M_{2k}$	$T_k$

5.2 検定統計量とその構造

CMH は各層で「セル $A_k$ が周辺度数のもとで取るはずの期待値」からのズレを層をまたいで合算します。各層の周辺度数 $N_{1k},N_{2k},M_{1k},M_{2k},T_k$ を固定した超幾何分布のもとで、 $A_k$ の期待値と分散は

E[A_k]=\frac{N_{1k}M_{1k}}{T_k},\qquad V[A_k]=\frac{N_{1k}N_{2k}M_{1k}M_{2k}}{T_k^{2}(T_k-1)}

要するに「 $E[A_k]$ は『独立なら $A_k$ はこれくらい』という周辺積／総数（カイ二乗の期待度数と同じ）、 $V[A_k]$ は周辺を固定した超幾何分布の分散」。CMH 統計量は、層ごとの $(A_k-E[A_k])$ を足し上げてから二乗し、分散の和で割ります。

\boxed{\;\xi_{CMH}=\frac{\left[\sum_{k=1}^{K}\bigl(A_k-E[A_k]\bigr)\right]^{2}}{\sum_{k=1}^{K}V[A_k]}=\frac{\left[\sum_k\left(A_k-\dfrac{N_{1k}M_{1k}}{T_k}\right)\right]^2}{\sum_k\dfrac{N_{1k}N_{2k}M_{1k}M_{2k}}{T_k^2(T_k-1)}}\ \sim\ \chi^2_1\;}

帰無仮説は「各層で曝露と結果は条件付き独立（共通オッズ比 $=1$ ）」、 $H_0:\psi=1$ 。自由度は層数によらず常に1です。要するに「ズレを先に層で合算してから二乗するので、各層の連関が同じ向きなら弱くても積み上がって検出できる」。逆に層ごとに連関の向きがバラバラだと打ち消し合って検出力が落ちます(=共通連関の検定だから)。

なぜ「層ごとにカイ二乗して足す」のではなく「ズレを足してから二乗する」のか：前者（各層独立に検定）は自由度が $K$ になり、共通の向きの弱い連関を見逃しやすい。CMH は「全層で同じ向きの連関がある」という対立仮説に検出力を集中させるため、1自由度に束ねます。

5.3 マンテル-ヘンツェルの共通オッズ比

CMH 検定は「連関があるか（イエス/ノー）」を返しますが、連関の大きさを交絡調整後の1つの数値で要約するのがマンテル-ヘンツェル（MH）共通オッズ比推定量です。

\boxed{\;\hat\psi_{MH}=\frac{\sum_{k=1}^{K} A_k D_k / T_k}{\sum_{k=1}^{K} B_k C_k / T_k}\;}

要するに「各層のオッズ比を、層の情報量で重みづけて1つにまとめた『交絡調整済みオッズ比』」。1枚にまとめて計算した粗オッズ比と違い、交絡 $Z$ の影響を除いた共通の関連を表します。効果の指標のオッズ比を、層別調整の文脈に拡張したものと位置づけられます。

5.4 前提：共通オッズ比の均一性

CMH と $\hat\psi_{MH}$ は「各層のオッズ比が（おおむね）等しい」という均一性を前提にします。これは対数線形モデルでいう「均一連関モデル（3因子交互作用 $\lambda^{XYZ}=0$ ）」に対応します。均一性が成り立つかはBreslow-Day検定で確認します。均一でない（層で連関の向き・大きさが違う＝効果修飾がある）なら、共通オッズ比という1つの数で要約すること自体が不適切で、層ごとに報告すべきです。

要するに：CMH は「層を通じて連関は同じ向き・大きさ」という前提のもとで交絡を調整する。前提が崩れる（効果修飾）なら層別に見る。交絡（調整して消す）と効果修飾（層別に報告する）は別物——この区別が交絡の調整の要点。

6. 試験での問われ方（1級）

医薬生物学分野での1級の典型的な問われ方を、論点ごとに整理します（出題範囲・配点は要最新確認）。

対応あり/なしの検定の使い分け：与えられた研究デザイン（前後比較・マッチドペア vs 独立2群）から、マクネマー検定か通常のカイ二乗（またはフィッシャー）かを正しく選べるか。「同一被験者を2回測った表に普通のカイ二乗を使う」誤りを見抜かせる。
対数線形モデルと独立性検定の関係：「独立性検定は対数線形モデルで交互作用項＝0を検定する特別な場合」「交互作用項が対数オッズ比に対応」を説明させる。多元表でのモデル階層（独立/条件付き独立/均一連関/飽和）の比較も。
マクネマー統計量の導出：なぜ不一致セルだけか（一致セルは変化の情報を持たない・ $b+c$ で条件付ける）、なぜ $(b-c)^2/(b+c)$ か（ $b\sim\mathrm{Bin}(b+c,\tfrac12)$ の正規近似の二乗）を書かせる。少数例で正確二項検定に切り替える判断も。
順序データの扱い：順序カテゴリにカイ二乗を使うと順序情報を捨てること、比例オッズモデルの累積ロジット定式化、「比例オッズの仮定」が何か（効果が全境界で共通＝累積オッズ比が一定）を問う。
CMH検定と交絡調整：層別2×2表で交絡を調整する論理、 $E[A_k]=N_{1k}M_{1k}/T_k$ と統計量の構造、MH共通オッズ比、Breslow-Dayで均一性を確認すること、交絡と効果修飾の区別。
ポアソンと多項の関係：対数線形モデルがポアソン回帰でありながら、総数を固定すると多項モデルに化けること（だから分割表の確率モデルとして正当）。

7. 引っかけ・頻出論点

⚠️ 対応のある2×2表に通常のカイ二乗を使うのは誤り：同一被験者の前後・マッチドペアでは測定が独立でない。独立性を見る通常のカイ二乗ではなく、周辺同等性を見るマクネマー検定を使う。「2×2表だから一律にカイ二乗」は典型的な誤答。
⚠️ マクネマー検定で一致セル $a,d$ を分母に入れない：統計量は $(b-c)^2/(b+c)$ で、分母は不一致数 $b+c$ のみ。 $(b-c)^2/N$ や $a,d$ を含む式は誤り。一致セルは変化の情報を持たないから条件付けで落ちる。
⚠️ 比例オッズの仮定を確認せずに順序ロジットを使わない：効果 $\boldsymbol\beta$ が全境界で共通という仮定が崩れていれば、1つのオッズ比で要約できない。Brant検定等で確認し、崩れていれば部分比例オッズや多項ロジットへ。「順序データなら無条件に比例オッズモデル」は誤り。
⚠️ 対数線形モデルはポアソンか多項か、で混乱しない：度数をポアソン回帰で扱うが、総数を固定して条件付けると多項分布に一致する。両者は矛盾せず、連関パラメータ（交互作用）の推定は一致する。「ポアソンと多項は別の答えを出す」は誤り。
⚠️ 交互作用項＝0 が独立：対数線形モデルで $\lambda_{ij}=0$ （全セル）が独立性、 $\lambda_{ij}$ は対数オッズ比。主効果 $\alpha_i,\beta_j$ は周辺度数を合わせるだけで連関とは無関係。「主効果があると連関がある」は誤り。連関を表すのは交互作用だけ。
⚠️ CMHの自由度は層数によらず常に1：層を $K$ 枚束ねても、検定するのは「共通の連関が1か」の1自由度。「層が $K$ 枚だから自由度 $K$ 」は誤り。ズレを合算してから二乗する構造ゆえ。
⚠️ 交絡（調整して消す）と効果修飾（層別に報告）は別物：CMHとMH共通オッズ比は「層で連関が均一」が前提。Breslow-Dayで均一性が棄却される（効果修飾がある）なら、共通オッズ比1つで要約せず層別に報告する。「層で関連が違っても共通オッズ比を出せばよい」は誤り。
⚠️ CMHは連関の向きが揃っていないと検出力が落ちる：全層で同じ向きの連関に検出力を集中させる検定なので、層ごとに連関の向きが逆だと打ち消し合う。これは欠点ではなく「共通の連関」を検定する設計の帰結。

よくある疑問（Q&A）

Q1. なぜマクネマー検定は一致セル（変化しなかった人）を全部捨てるのですか? もったいない気がします。

捨てているように見えますが、変化しなかった人は「前後で陽性率が変わったか」という問いに何の情報も与えないからです。知りたいのは「1回目→2回目で陽性率が動いたか」=周辺同等性で、これは「陽性→陰性に転じた人数 $b$ 」と「陰性→陽性に転じた人数 $c$ 」の比較に完全に帰着します。両方とも変わらなかった人（ $a$ も $d$ も）は、どちらの周辺率も同じだけ底上げするので差には効きません。だから帰無仮説のもとで「不一致 $b+c$ 件のうち $b$ 側が何件か」だけを問う条件付き二項検定になり、 $a,d$ が式から消えます。情報を捨てているのではなく、問いに関係ない部分を正しく条件付けで除いているのです。

Q2. 対数線形モデルと、ロジスティック回帰や普通の独立性検定は、結局どう違うのですか?

3つは深くつながっています。(1) 独立性検定は「交互作用項がゼロか」だけを見るので、対数線形モデルで独立モデル vs 飽和モデルを尤度比検定する特別な場合です。(2) 対数線形モデルは分割表の全変数を対等に扱い、「どの変数間にどんな連関があるか」を多元表で構造的に調べます（応答と説明変数を区別しない）。(3) ロジスティック回帰は1つの変数を「応答（成否）」と決め、残りを説明変数として「応答のオッズ」を説明します。実は、対数線形モデルの中で1変数を応答に指定すると、ロジスティック回帰と数式的に一致します。要するに「対数線形＝表全体の連関の地図／ロジスティック＝応答を1つ決めた断面」で、独立性検定はその最も単純な特殊ケース、という関係です。

Q3. 比例オッズの「比例」とは何が比例しているのですか?

累積オッズが比例（定数倍）でずれることを指します。順序ロジットでは「カテゴリ $j$ 以下に入るオッズ」を境界 $j$ ごとに考えますが、説明変数を1増やしたときにこのオッズが何倍になるか（累積オッズ比 $\exp(-\beta)$ ）が、どの境界 $j$ で測っても同じ値になる、というのが比例オッズの仮定です。グラフで言えば、各境界の累積ロジットを説明変数に対して描いた直線群が、切片 $\theta_j$ だけ違って**傾きが全部同じ（平行）**になる。だから効果を「1つのオッズ比」で語れるのです。傾きが境界ごとに違えば平行でなくなり、比例オッズが崩れたことになります。

Q4. CMH検定とマクネマー検定はどちらも2×2表で交絡やペアを扱いますが、どう使い分けますか?

扱う「対応関係」が違います。マクネマー検定は「同一個体の2回の測定（または1対1マッチング）」の対応、つまり1人（1ペア）の中での前後比較です。表は1枚で、行も列も同じ被験者の2時点。CMH検定は「交絡因子で層別した複数の独立な2×2表」で、各層は別々の被験者集団です（性別ごと、年齢層ごとなど）。マクネマーは「時間内の変化」を、CMHは「交絡を固定した上での群間の連関」を見ます。なお、マッチドペアを層とみなすとマクネマー検定はCMH検定の特殊ケースとしても導けますが、試験では「前後・ペア=マクネマー」「交絡層別=CMH」と役割で覚えるのが安全です。

Q5. 対数線形モデルでセル度数をポアソンとするのに、分割表は「全N例を分類した多項分布」と習いました。矛盾しませんか?

矛盾しません。独立なポアソン分布 $\mathrm{Po}(m_{ij})$ に従う度数たちを、総和 $N=\sum n_{ij}$ を固定して条件付けると、その条件付き分布はちょうど多項分布 $\mathrm{Multinomial}(N; m_{ij}/\sum m_{ij})$ になります。これはポアソン過程の基本性質です。つまり「セル度数は独立ポアソン」という見方と「全体を多項分布で分類」という見方は、総数で条件付けるかどうかの違いだけで、連関に関わるパラメータ（交互作用項）の推定は両者で一致します。実務では計算しやすいポアソン回帰（GLM）で推定し、結果を多項の表として解釈してよい、ということです。

まとめ

対数線形モデル：分割表のセル度数 $m_{ij}$ の対数をポアソン回帰で説明。独立モデル $\ln m_{ij}=\mu+\alpha_i+\beta_j$ 、飽和モデルは交互作用項 $\lambda_{ij}$ を追加。 $\lambda_{ij}$ は対数オッズ比に対応し、 $\lambda_{ij}=0$ （独立）の検定がカイ二乗独立性検定と漸近一致する。総数を固定すれば多項モデルに化けるので分割表の確率モデルとして正当。
順序ロジット（比例オッズ）モデル：順序カテゴリの累積確率をロジットで $\ln\frac{P(Y\le j)}{P(Y>j)}=\theta_j-\boldsymbol\beta^\top\boldsymbol x$ 。効果 $\boldsymbol\beta$ が全境界で共通（累積オッズ比が一定）という比例オッズの仮定が肝。仮定は確認してから使う。
マクネマー検定：対応のある2×2表で不一致セル $b,c$ だけを使い $\chi^2=\frac{(b-c)^2}{b+c}\sim\chi^2_1$ 。帰無仮説は周辺同等性 $p_b=p_c$ 。導出は「不一致 $b+c$ 件のうち $b$ 側が $\mathrm{Bin}(b+c,\tfrac12)$ 」という条件付き二項を正規近似して二乗したもの。少数例は正確二項検定。
CMH検定：交絡で層別した2×2表を束ね、 $\xi_{CMH}=\frac{[\sum_k(A_k-E[A_k])]^2}{\sum_k V[A_k]}\sim\chi^2_1$ （ $E[A_k]=N_{1k}M_{1k}/T_k$ 、自由度は常に1）。共通オッズ比は $\hat\psi_{MH}=\frac{\sum A_kD_k/T_k}{\sum B_kC_k/T_k}$ 。均一性（Breslow-Day）を前提とし、交絡（調整して消す）と効果修飾（層別に報告）は別物。
使い分け：対応あり2×2 → マクネマー／交絡層別2×2 → CMH／順序カテゴリ → 比例オッズ／名義多元表 → 対数線形／名義2元表 → カイ二乗。