一般化線形モデル（ロジスティック・ポアソン回帰）

📊 対象級：準1級・ 1級　|　重要度：A（頻出）

要点（BLUF）

**一般化線形モデル（GLM）**は、応答が正規分布でなくても回帰できるように普通の線形回帰を拡張した枠組み。①確率成分（指数型分布族）②線形予測子 $\eta=\mathbf{x}^\top\boldsymbol\beta$ ③リンク関数 $g(\mu)=\eta$ の3つで決まる。
ロジスティック回帰は「応答が二値（0/1）＋ロジットリンク」、ポアソン回帰は「応答が計数（0,1,2,…）＋対数リンク」のGLM。普通の線形回帰は「正規＋恒等リンク」のGLMという位置づけ。
係数の解釈はそのままでなく 指数変換して読む：ロジスティックは $e^{\beta_j}$ ＝オッズ比、ポアソンは $e^{\beta_j}$ ＝率比（リスク比）。推定は最尤法（解析解なし→IRLSで数値解）。

なぜGLMが要るのか：普通の線形回帰の限界

普通の線形回帰 $y=\mathbf{x}^\top\boldsymbol\beta+\varepsilon,\ \varepsilon\sim N(0,\sigma^2)$ は、応答 $y$ が「実数全体に広がり、正規分布する」ことを暗黙に仮定しています。ところが現実の応答にはこれが破綻するものが多い。

二値：病気か否か（0/1）、購入したか否か。確率 $p\in[0,1]$ を直接 $\mathbf{x}^\top\boldsymbol\beta$ で表すと、線形予測子は $[0,1]$ を平気で外れる（確率が 1.3 や $-0.2$ になる）。
計数：1日のクレーム件数、ある区画の事故件数。負にならない整数で、平均が小さいと分布が右に歪む。正規＋恒等リンクでは負の予測値が出てしまう。

GLMは2点を取り替えることでこれを解決します。(1) 応答の確率分布を正規から適切な分布（二項・ポアソン等）に替える。(2) 平均 $\mu$ をそのまま線形にせず、リンク関数 $g$ を通して $g(\mu)=\eta$ を線形にする。 $g$ が $\mu$ の動ける範囲（確率なら $[0,1]$ 、率なら $[0,\infty)$ ）を実数全体に引き伸ばすので、線形予測子がどんな値でも矛盾が起きません。

要するに：「平均そのもの」ではなく「平均をリンク関数で変換したもの」を線形にする。これがGLMの一手。

GLMの3要素

GLMは次の3つを指定すれば完全に決まります。

graph LR
  X["説明変数 x"] --> LP["線形予測子<br/>η = xᵀβ"]
  LP -->|"リンク関数の逆<br/>μ = g⁻¹(η)"| MU["平均 μ"]
  MU --> RC["確率成分<br/>Y ~ 指数型分布族（平均μ）"]
  RC --> Y["観測される応答 Y"]

要素	役割	例
① 確率成分（random component）	応答 $Y$ が従う分布。指数型分布族から選ぶ	正規／二項／ポアソン／ガンマ
② 線形予測子（linear predictor）	説明変数の線形結合 $\eta=\mathbf{x}^\top\boldsymbol\beta$	$\beta_0+\beta_1 x_1+\cdots$
③ リンク関数（link function）	平均 $\mu=E[Y]$ と $\eta$ を結ぶ $g(\mu)=\eta$	恒等／ロジット／対数

普通の線形回帰・ロジスティック回帰・ポアソン回帰は、この表の①と③を選び替えただけの兄弟です。

モデル	応答の型	分布（①）	リンク（③）	平均の範囲
線形回帰	連続	正規	恒等 $g(\mu)=\mu$	$(-\infty,\infty)$
ロジスティック回帰	二値	二項（ベルヌーイ）	ロジット $g(\mu)=\log\frac{\mu}{1-\mu}$	$(0,1)$
ポアソン回帰	計数	ポアソン	対数 $g(\mu)=\log\mu$	$(0,\infty)$

graph TD
  GLM["一般化線形モデル GLM"]
  GLM --> A["正規 + 恒等リンク<br/>= 普通の線形回帰"]
  GLM --> B["二項 + ロジットリンク<br/>= ロジスティック回帰"]
  GLM --> C["ポアソン + 対数リンク<br/>= ポアソン回帰"]
  GLM --> D["ガンマ + 逆数/対数リンク<br/>= ガンマ回帰 ほか"]

要するに：線形回帰はGLMの最も単純な一例（正規＋恒等）。「線形回帰 ⊂ GLM」。

指数型分布族（確率成分の正体）

①の「指数型分布族」とは、確率（密度）関数が次の標準形で書ける分布の総称です。

f(y;\theta,\phi)=\exp\!\left\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi)\right\}

$\theta$ ：自然パラメータ（正準パラメータ, canonical parameter）。平均と直結する中心的なパラメータ。
$\phi$ ：散布度パラメータ（dispersion parameter）。正規なら $\sigma^2$ 、二項・ポアソンでは $\phi=1$ に固定。
$b(\theta)$ ：累積関数。これを微分すると平均と分散が出る（下記）。

この形が重要なのは、平均と分散が $b(\theta)$ の微分だけで決まるからです。導出します。

確率（密度）の積分は 1： $\displaystyle\int f(y;\theta,\phi)\,dy=1$ 。両辺を $\theta$ で微分すると（積分と微分を交換できる正則条件のもとで）、スコア関数の期待値はゼロという一般的な性質

E\!\left[\frac{\partial \log f}{\partial\theta}\right]=0

が使えます。標準形では $\log f=\dfrac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi)$ なので

\frac{\partial \log f}{\partial\theta}=\frac{y-b'(\theta)}{a(\phi)}.

期待値を 0 と置くと $E[Y]-b'(\theta)=0$ 、すなわち

\boxed{\,\mu=E[Y]=b'(\theta)\,}.

要するに：累積関数を1回微分すると平均が出る。 $\mu=b'(\theta)$ 。

分散はもう一段。情報量等式 $\displaystyle E\!\left[\frac{\partial^2\log f}{\partial\theta^2}\right]+E\!\left[\left(\frac{\partial\log f}{\partial\theta}\right)^2\right]=0$ （フィッシャー情報の2つの表現が一致する関係）を使います。 $\dfrac{\partial^2\log f}{\partial\theta^2}=-\dfrac{b''(\theta)}{a(\phi)}$ 、また $\left(\dfrac{\partial\log f}{\partial\theta}\right)^2=\dfrac{(y-\mu)^2}{a(\phi)^2}$ の期待値は $\dfrac{V[Y]}{a(\phi)^2}$ 。代入すると

-\frac{b''(\theta)}{a(\phi)}+\frac{V[Y]}{a(\phi)^2}=0 \;\Longrightarrow\; \boxed{\,V[Y]=a(\phi)\,b''(\theta)\,}.

要するに：累積関数を2回微分すると分散の核が出る。 $V[Y]=a(\phi)b''(\theta)$ 。 $V(\mu)=b''(\theta)$ を分散関数と呼び、これが「分布ごとに平均と分散がどう連動するか」を決める。

正準リンク（canonical link） とは、リンク後の線形予測子が自然パラメータそのものになる、つまり $\theta=\eta$ となるリンクのことです。各分布の自然パラメータ $\theta$ を $\mu$ の関数として解けば、その分布の正準リンクが何かが自動的に決まります。

二項： $\theta=\log\dfrac{\mu}{1-\mu}$ （＝ロジット）→ ロジットが正準リンク
ポアソン： $\theta=\log\mu$ （＝対数）→ 対数が正準リンク
正規： $\theta=\mu$ （＝恒等）→ 恒等が正準リンク

ロジスティック回帰やポアソン回帰が「ロジット」「対数」を使うのは、見やすさだけでなく正準リンクだから理論的に自然だという裏付けがあるわけです（正準リンクだとフィッシャー情報の計算が簡単になり、十分統計量が $\mathbf{X}^\top\mathbf{y}$ になる）。

ロジスティック回帰

線形回帰は[0,1]を外れる／ロジスティックはシグモイドで収まる

2値データに線形回帰（赤破線）を当てると確率の範囲 [0,1] をはみ出すが、ロジスティック回帰（青）はシグモイドで必ず [0,1] に収まる。図は simulations/logistic_link_keijou.py で生成。

ここで扱うのは、応答が二値（0=非発生 / 1=発生）のときに「発生確率 $p$ 」をモデル化する手法。

応答 $Y_i\in\{0,1\}$ がベルヌーイ分布 $Y_i\sim\mathrm{Bernoulli}(p_i)$ に従い、 $p_i=E[Y_i]$ をロジットリンクで線形予測子に結びます。

\log\frac{p_i}{1-p_i}=\mathbf{x}_i^\top\boldsymbol\beta=\beta_0+\beta_1 x_{i1}+\cdots+\beta_k x_{ik}

左辺の $\dfrac{p}{1-p}$ がオッズ（発生確率と非発生確率の比）、その対数が対数オッズ（ロジット）。これを $p$ について解くと、おなじみの**シグモイド（ロジスティック関数）**になります。

p_i=\frac{1}{1+e^{-\mathbf{x}_i^\top\boldsymbol\beta}}=\frac{e^{\mathbf{x}_i^\top\boldsymbol\beta}}{1+e^{\mathbf{x}_i^\top\boldsymbol\beta}}

この関数は線形予測子が $-\infty\to+\infty$ と動いても出力を必ず $(0,1)$ に収めます。だから確率が範囲外に飛び出す問題が原理的に起きない。これがロジットリンクを使う理由です。

要するに：ロジットは「確率 $[0,1]$ 」を「実数全体」へ引き伸ばす変換。逆向きに見れば、線形予測子をシグモイドで $[0,1]$ に押し込んでいる。

オッズ比 $e^{\beta_j}$ の導出（最重要）

係数 $\beta_j$ そのものは「対数オッズの増分」で直観的でない。 $x_j$ を 1 増やしたときオッズがどう変わるかを見ます。 $x_j$ だけ 1 増やした点でのオッズを $\mathrm{Odds}(x_j+1)$ 、増やす前を $\mathrm{Odds}(x_j)$ とすると、ロジットの定義から

\log\mathrm{Odds}(x_j)=\beta_0+\cdots+\beta_j x_j+\cdots

\log\mathrm{Odds}(x_j+1)=\beta_0+\cdots+\beta_j (x_j+1)+\cdots

引き算すると他の項が全部消えて

\log\mathrm{Odds}(x_j+1)-\log\mathrm{Odds}(x_j)=\beta_j \;\Longrightarrow\; \log\frac{\mathrm{Odds}(x_j+1)}{\mathrm{Odds}(x_j)}=\beta_j.

両辺を指数化すれば

\boxed{\ \frac{\mathrm{Odds}(x_j+1)}{\mathrm{Odds}(x_j)}=e^{\beta_j}=\text{オッズ比}\ }.

要するに： $x_j$ を 1 増やすとオッズが $e^{\beta_j}$ 倍になる。 $\beta_j>0$ なら $e^{\beta_j}>1$ でオッズ増大、 $\beta_j=0$ なら $e^{\beta_j}=1$ で無関係。「係数を指数変換するとオッズ比」という頻出フレーズはこの導出が出どころ。

最尤推定（解析解はない）

$Y_i\sim\mathrm{Bernoulli}(p_i)$ の尤度は、独立性から

L(\boldsymbol\beta)=\prod_{i=1}^n p_i^{\,y_i}(1-p_i)^{1-y_i}.

対数尤度は

\ell(\boldsymbol\beta)=\sum_{i=1}^n\Big[y_i\log p_i+(1-y_i)\log(1-p_i)\Big].

$p_i=\dfrac{1}{1+e^{-\mathbf{x}_i^\top\boldsymbol\beta}}$ を代入し $\boldsymbol\beta$ で微分すると、スコア方程式は

\frac{\partial\ell}{\partial\boldsymbol\beta}=\sum_{i=1}^n (y_i-p_i)\,\mathbf{x}_i=\mathbf{X}^\top(\mathbf{y}-\mathbf{p})=\mathbf{0}.

ここで $\mathbf{p}$ が $\boldsymbol\beta$ について非線形なので、この方程式は閉じた形で解けません（線形回帰の正規方程式のようにきれいには解けない）。そのため数値的に反復して解きます。その標準が IRLS です。

要するに：「予測確率の和が実際の 1 の個数と一致する」ようにパラメータを決める。ただし非線形なので一発では解けず反復が要る。

ポアソン回帰

ここで扱うのは、応答が計数（0,1,2,…）のときに「平均件数 $\mu$ 」をモデル化する手法。

応答 $Y_i\sim\mathrm{Poisson}(\mu_i)$ 、平均 $\mu_i=E[Y_i]$ を対数リンクで結びます。

\log\mu_i=\mathbf{x}_i^\top\boldsymbol\beta \;\Longleftrightarrow\; \mu_i=e^{\mathbf{x}_i^\top\boldsymbol\beta}

$\mu_i=e^{(\cdot)}>0$ なので、平均が必ず正になり計数データと整合します。係数の解釈はロジスティックと同型で、 $x_j$ を 1 増やしたとき

\frac{\mu(x_j+1)}{\mu(x_j)}=\frac{e^{\beta_0+\cdots+\beta_j(x_j+1)+\cdots}}{e^{\beta_0+\cdots+\beta_j x_j+\cdots}}=e^{\beta_j}

すなわち $x_j$ を 1 増やすと期待件数が $e^{\beta_j}$ 倍。この $e^{\beta_j}$ を率比（rate ratio）／リスク比と呼びます（ロジスティックの「オッズ比」に対応する量。中身は別物なので後述）。

最尤推定も同様。ポアソンの確率質量 $P(Y_i=y_i)=\dfrac{\mu_i^{y_i}e^{-\mu_i}}{y_i!}$ から対数尤度は

\ell(\boldsymbol\beta)=\sum_{i=1}^n\big[y_i\log\mu_i-\mu_i-\log(y_i!)\big] =\sum_{i=1}^n\big[y_i\,\mathbf{x}_i^\top\boldsymbol\beta-e^{\mathbf{x}_i^\top\boldsymbol\beta}-\log(y_i!)\big].

微分すると $\dfrac{\partial\ell}{\partial\boldsymbol\beta}=\sum_i(y_i-\mu_i)\mathbf{x}_i=\mathbf{X}^\top(\mathbf{y}-\boldsymbol\mu)=\mathbf{0}$ 。ロジスティックと同じく非線形でIRLSで解きます。

過分散（overdispersion）

ポアソン分布は 平均＝分散（ $E[Y]=V[Y]=\mu$ ）という強い性質を持ちます。ところが実データでは分散が平均より大きい（ $V[Y]>\mu$ ）ことがしばしば起き、これを過分散と呼びます。原因は、説明しきれない個体差・観測の塊（クラスタ）・ゼロ過剰など。

過分散があるとポアソン回帰は標準誤差を過小評価し、係数が実際より「有意」に見えてしまう（第一種過誤が膨らむ）。対処は主に2つ：

準ポアソン（quasi-Poisson）：分散を $V[Y]=\phi\mu$ と置き、散布度 $\phi$ （>1）を別途推定して標準誤差を $\sqrt{\phi}$ 倍に膨らませる。
負の二項回帰（negative binomial regression）：分散を $V[Y]=\mu+\alpha\mu^2$ とし、ポアソンより太い裾を許す。 $\alpha\to 0$ でポアソンに一致する。過分散をモデルとして明示的に取り込む。

要するに：ポアソン回帰の前提は「平均＝分散」。これが崩れて分散の方が大きいなら、準ポアソンか負の二項回帰へ。

推定の中身：IRLSとデビアンス

IRLS（反復重み付き最小二乗）

GLMのスコア方程式は非線形なので、ニュートン・ラフソン法で反復して解きます。GLMでは更新式が重み付き最小二乗（WLS）の形に整理できるため、これを**IRLS（Iteratively Reweighted Least Squares, 反復重み付き最小二乗）**と呼びます。

考え方だけ示すと、現在の推定 $\boldsymbol\beta^{(t)}$ のまわりで対数尤度を2次近似し、調整応答変数 $z_i$ （リンクで線形化した擬似的な目的変数）と重み $w_i$ を作って

\boldsymbol\beta^{(t+1)}=(\mathbf{X}^\top\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{W}\mathbf{z}

という重み付き最小二乗を繰り返す。 $\mathbf{W}=\mathrm{diag}(w_i)$ は各反復で更新される（だから “reweighted”）。重みは分散関数 $V(\mu)$ から決まり、分散が大きい観測ほど軽く扱われます。

要するに：「リンクで線形化した擬似回帰を、重みを更新しながら何度も解く」。普通の最小二乗を反復で回す、と捉えればよい。正準リンクのときは観測情報行列＝フィッシャー情報行列となり、ニュートン法とフィッシャースコア法が一致してきれいになる。

デビアンス（deviance）

モデルの当てはまりの良さを測る中心量がデビアンスです。基準として**飽和モデル（saturated model）**を置きます。飽和モデルは「観測点と同じ数のパラメータを持ち、各観測を完璧に再現する」モデル、つまり $\hat\mu_i=y_i$ となるモデルで、達成可能な対数尤度の上限を与えます。

デビアンスは、注目するモデルの対数尤度 $\ell_{\text{model}}$ が飽和モデルの対数尤度 $\ell_{\text{sat}}$ からどれだけ下がっているかを、尤度比の形で測ったものです。

\boxed{\,D=-2\big(\ell_{\text{model}}-\ell_{\text{sat}}\big)\,}

要するに：「完璧に当てはめた場合との対数尤度の差」を2倍したもの。小さいほど当てはまりが良い。線形回帰の残差平方和 $\sum(y_i-\hat y_i)^2$ をGLMへ一般化したものと捉えるとよい（正規分布のときデビアンスは残差平方和に一致する）。

ポアソン回帰の場合、 $\ell_{\text{sat}}$ は $\hat\mu_i=y_i$ を代入したもの、 $\ell_{\text{model}}$ は $\hat\mu_i$ を代入したもので、差を取ると

D=2\sum_{i=1}^n\left[\,y_i\log\frac{y_i}{\hat\mu_i}-(y_i-\hat\mu_i)\,\right]

となります（ $y_i=0$ の項は $y_i\log\frac{y_i}{\hat\mu_i}\to 0$ と規約）。

デビアンスの使い道は2つ。

モデル適合度の目安：当てはまりが良ければ、デビアンスは自由度（ $n-p$ ）程度のカイ二乗分布に近似的に従う。デビアンスが自由度より大きく上回れば、当てはまり不足や過分散のサイン。
ネストしたモデルの比較（尤度比検定）：説明変数を足したモデルと減らしたモデルを比べるとき、残差デビアンスの差 $D_{\text{小}}-D_{\text{大}}$ が、追加した変数の数を自由度とする $\chi^2$ 分布に近似的に従う。これは尤度比検定・Wald検定・スコア検定の尤度比検定統計量 $-2(\ell_0-\ell_1)$ そのもの（飽和モデルの項が引き算で消えるため）。

個々の係数の検定は Wald検定（ $\hat\beta_j/\mathrm{SE}(\hat\beta_j)$ が標準正規に近似）が標準で、より厳密にはモデル間のデビアンス差による尤度比検定を使います。いずれも → 尤度比検定・Wald検定・スコア検定。

モデル選択ではAIC $=-2\ell_{\text{model}}+2p$ （ $p$ ＝パラメータ数）も多用されます。デビアンスは飽和モデル基準なのでモデル間で定数部分が共通、よってAICの比較はデビアンス＋ $2p$ の比較と同等で、当てはまりとパラメータ数のトレードオフを取れます。

具体例

ロジスティック回帰（喫煙と疾患）：応答 $Y=$ 疾患あり(1)/なし(0)、説明変数 $x_1=$ 喫煙(1)/非喫煙(0)、 $x_2=$ 年齢。推定の結果 $\hat\beta_1=0.69$ なら、喫煙のオッズ比は $e^{0.69}\approx 2.0$ 。すなわち年齢を揃えたとき、喫煙者は非喫煙者に比べ疾患のオッズが約 2 倍。 $\hat\beta_2=0.04$ なら年齢 1 歳増でオッズ $e^{0.04}\approx 1.04$ 倍。

ポアソン回帰（事故件数）：応答 $Y=$ ある交差点の月間事故件数、 $x_1=$ 信号設置(1)/なし(0)。 $\hat\beta_1=-0.51$ なら率比 $e^{-0.51}\approx 0.6$ 、信号設置で期待件数が 0.6 倍（4割減）。観測の分散が平均を大きく上回っていれば、ポアソンでなく負の二項回帰を検討。

試験での問われ方（級ごとの差）

GLMは準1級・1級ともに頻出（重要度A）。導出の枠組みは共通ですが、問われる深さがはっきり違います。

	準1級	1級
中心	適用と解釈	理論と導出
ロジスティック回帰	ロジットリンクの意味、オッズ比 $e^{\beta_j}$ の計算と解釈、対数尤度の形	対数尤度の微分（スコア方程式）、フィッシャー情報、IRLSの更新式の導出
ポアソン回帰	対数リンク、率比の計算、過分散の指摘、負の二項への切替判断	対数尤度・勾配の導出、過分散の定式化（ $V=\phi\mu$ 等）、負の二項分布の構成
指数型分布族	「ポアソン・二項が指数型分布族」という事実	標準形からの $\mu=b'(\theta)$ , $V=a(\phi)b''(\theta)$ の導出、正準リンクの特定
適合度・検定	デビアンス・AICでのモデル比較の読み取り	デビアンスの定義からの計算、尤度比検定との同値性、 $\chi^2$ 近似の根拠

準1級は「与えられた出力（係数・オッズ比・デビアンス）を正しく読めるか」「どのモデルを使うべきか判断できるか」。1級は「対数尤度を自分で書いて微分し、推定方程式や情報量まで導出できるか」。とくに 1級では指数型分布族の標準形からの平均・分散の導出が頻出なので、 $b'(\theta)$ ・ $b''(\theta)$ の計算は手で再現できるようにしておくこと。

出題範囲表は改訂されうる（要最新確認）。GLM・質的回帰・モデル選択は準1級ワークブックの中核項目で、近年の傾向としても安定して問われています。

⚠️ 引っかけポイント・頻出論点

係数 $\beta_j$ そのものを「○倍」と解釈しない。倍率で語るなら必ず指数変換した $e^{\beta_j}$ （オッズ比／率比）。 $\beta_j$ は対数スケール上の加算量。
オッズ比 ≠ リスク比（相対危険度）。これが最頻出の引っかけ。下表で区別する。
- オッズ $=\dfrac{p}{1-p}$ 、リスク（確率） $=p$ 。両者は別物。
- オッズ比 $\mathrm{OR}=\dfrac{p_1/(1-p_1)}{p_0/(1-p_0)}$ 、リスク比 $\mathrm{RR}=\dfrac{p_1}{p_0}$ 。
- ロジスティック回帰の $e^{\beta_j}$ はオッズ比、ポアソン回帰の $e^{\beta_j}$ は率比（リスク比）。手法が違えば指数化で出る量も違う。
- 発生がまれ（ $p$ が小さい、目安10%未満）なら $1-p\approx 1$ で $\mathrm{OR}\approx \mathrm{RR}$ と近似できるが、 $p$ が大きいとオッズ比はリスク比を過大方向にずらす。「オッズ比＝相対リスク」と無条件に読むのは誤り。

	確率（リスク） $p$	オッズ $\dfrac{p}{1-p}$
範囲	$[0,1]$	$[0,\infty)$
比の名前	リスク比 $\mathrm{RR}=p_1/p_0$	オッズ比 $\mathrm{OR}$
どの回帰の $e^\beta$ か	ポアソン回帰（率比）	ロジスティック回帰

二値応答に普通の線形回帰を当てると破綻：予測確率が $[0,1]$ を外れる、誤差が正規でない（二値だから分散が $p(1-p)$ で平均依存）。だからリンク関数で $[0,1]$ を実数全体に開く必要がある（線形確率モデルの限界）。
ポアソン回帰で過分散を見落とす：分散が平均を大きく超えるのに普通のポアソンを使うと、標準誤差が過小→p値が小さく出すぎる。残差デビアンス／自由度が 1 を大きく超えたら過分散を疑い、準ポアソンか負の二項へ。
デビアンスは小さいほど良い（残差平方和の一般化）。AICは「デビアンス＋ $2p$ 」と同等で、複雑さに罰則をかける。デビアンス単体最小化は過適合する。
リンク関数の選択を分布から決める：応答の型（二値→ロジット、計数→対数）で正準リンクが定まる。「なんとなく」ではなく、平均の動ける範囲を実数に開くものを選ぶ。

flowchart TD
  S([応答データの型は?]) --> Q1{連続で<br/>正規が妥当?}
  Q1 -->|はい| L1["正規 + 恒等リンク<br/>= 線形回帰"]
  Q1 -->|いいえ| Q2{二値<br/>0/1 か?}
  Q2 -->|はい| L2["二項 + ロジットリンク<br/>= ロジスティック回帰<br/>係数→オッズ比 e^β"]
  Q2 -->|いいえ| Q3{計数<br/>0,1,2,… か?}
  Q3 -->|はい| Q4{分散 ≈ 平均?}
  Q4 -->|はい| L3["ポアソン + 対数リンク<br/>= ポアソン回帰<br/>係数→率比 e^β"]
  Q4 -->|いいえ 分散>平均| L4["負の二項回帰 / 準ポアソン<br/>過分散に対応"]
  Q3 -->|連続だが正に偏る| L5["ガンマ回帰 ほか"]

よくある疑問

Q1. なぜ係数 $\beta_j$ をそのまま「効果」と読まず、 $e^{\beta_j}$ にするのですか。 A. リンクが対数（ロジットも対数オッズ）なので、線形予測子は対数スケール上の話だからです。 $x_j$ を 1 増やすと対数オッズ（または対数平均）が $\beta_j$ 加算される。元のオッズ／平均のスケールに戻すには指数化が必要で、 $x_j+1$ と $x_j$ のオッズ／平均の比を取ると $e^{\beta_j}$ になります（本文の導出参照）。だから「加算で効く $\beta_j$ 」より「倍率で効く $e^{\beta_j}$ 」のほうが直観的で、実務でも $e^{\beta_j}$ を報告します。

Q2. オッズ比とリスク比は、結局どう違うのですか。どちらを相対リスクと呼べますか。 A. リスク比 $\mathrm{RR}=p_1/p_0$ は確率そのものの比で、これが本来の「相対リスク（相対危険度）」です。オッズ比 $\mathrm{OR}$ はオッズ $p/(1-p)$ の比で別量。ロジスティック回帰が直接くれるのはオッズ比です。発生がまれ（ $p<0.1$ 目安）なら $1-p\approx1$ で $\mathrm{OR}\approx\mathrm{RR}$ なので近似的に相対リスクと読めますが、 $p$ が大きいと $\mathrm{OR}$ は $\mathrm{RR}$ より 1 から遠ざかる方向にずれ、過大評価になります。相対リスクを直接出したいなら、ポアソン回帰（率比）や修正ポアソン回帰を使うのが筋です。

Q3. 二値の応答（0/1）に普通の線形回帰を当ててはいけないのはなぜですか。 A. 3つ破綻します。(1) 予測値 $\mathbf{x}^\top\hat{\boldsymbol\beta}$ が $[0,1]$ を平気で外れ、確率として解釈できない。(2) 誤差が正規でない（応答が 0/1 の2点しか取らない）。(3) 分散が一定でない（ベルヌーイの分散は $p(1-p)$ で平均 $p$ に依存し、等分散の仮定を破る）。ロジスティック回帰はリンク関数で確率を $[0,1]$ に閉じ込め、分布を二項にすることで (1)〜(3) を同時に解決します。これが「なぜリンク関数か」の答えです。

Q4. ポアソン回帰で過分散とは何で、なぜ問題ですか。負の二項回帰はどう違いますか。 A. ポアソンは「平均＝分散」が前提ですが、実データは分散が平均より大きいことが多く、これが過分散です。問題は、過分散を無視すると標準誤差を過小評価し、係数が実際より有意に見える（p値が小さく出すぎる）こと。負の二項回帰は分散を $V[Y]=\mu+\alpha\mu^2$ と置き、ポアソンより太い裾（大きなばらつき）を許すモデルで、 $\alpha\to0$ でポアソンに一致します。過分散を「余分なパラメータ $\alpha$ 」として明示的に吸収する点が違いです。手早く標準誤差だけ直したいなら準ポアソン（ $V=\phi\mu$ ）も選択肢。

Q5. デビアンスとAICは、モデル比較でどう使い分けますか。 A. デビアンスは飽和モデルとの尤度比 $-2(\ell_{\text{model}}-\ell_{\text{sat}})$ で、(a) 単独では当てはまり度（自由度程度の $\chi^2$ と比べる）、(b) ネストしたモデル間では残差デビアンスの差が尤度比検定統計量になり、追加変数の数を自由度とする $\chi^2$ で検定できます。AIC $=-2\ell+2p$ は当てはまりにパラメータ数の罰則を足したもので、ネストしていないモデルどうしも比較できるのが利点（小さいほど良い）。検定して有意性を判断したいならデビアンス差（尤度比検定）、複数候補から1つ選ぶならAIC、と捉えると整理できます。

まとめ

GLM＝①指数型分布族 ②線形予測子 $\eta=\mathbf{x}^\top\boldsymbol\beta$ ③リンク関数 $g(\mu)=\eta$ の3点セット。普通の線形回帰は「正規＋恒等リンク」の特例（線形回帰 ⊂ GLM）。
ロジスティック回帰：二値応答＋ロジットリンク。 $x_j$ を 1 増やすとオッズが $e^{\beta_j}$ 倍（オッズ比）。確率を $[0,1]$ に閉じ込めるためロジットを使う。
ポアソン回帰：計数応答＋対数リンク。 $x_j$ を 1 増やすと期待件数が $e^{\beta_j}$ 倍（率比）。前提「平均＝分散」が崩れる過分散には負の二項／準ポアソン。
推定は最尤法（解析解なし→IRLS）。デビアンス $=-2(\ell_{\text{model}}-\ell_{\text{sat}})$ で適合度を測り、その差は尤度比検定に、AICはモデル選択に使う。
準1級は適用とオッズ比／率比の解釈、1級は指数型分布族の導出・IRLS・デビアンスの理論まで。オッズ比 vs リスク比の区別が最頻出の引っかけ。