← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:A(頻出)

要点(BLUF)


なぜGLMが要るのか:普通の線形回帰の限界

普通の線形回帰 y=xβ+ε, εN(0,σ2)y=\mathbf{x}^\top\boldsymbol\beta+\varepsilon,\ \varepsilon\sim N(0,\sigma^2) は、応答 yy が「実数全体に広がり、正規分布する」ことを暗黙に仮定しています。ところが現実の応答にはこれが破綻するものが多い。

GLMは2点を取り替えることでこれを解決します。(1) 応答の確率分布を正規から適切な分布(二項・ポアソン等)に替える(2) 平均 μ\mu をそのまま線形にせず、リンク関数 gg を通して g(μ)=ηg(\mu)=\eta を線形にするggμ\mu の動ける範囲(確率なら [0,1][0,1]、率なら [0,)[0,\infty))を実数全体に引き伸ばすので、線形予測子がどんな値でも矛盾が起きません。

要するに:「平均そのもの」ではなく「平均をリンク関数で変換したもの」を線形にする。これがGLMの一手。


GLMの3要素

GLMは次の3つを指定すれば完全に決まります。

graph LR
  X["説明変数 x"] --> LP["線形予測子<br/>η = xᵀβ"]
  LP -->|"リンク関数の逆<br/>μ = g⁻¹(η)"| MU["平均 μ"]
  MU --> RC["確率成分<br/>Y ~ 指数型分布族(平均μ)"]
  RC --> Y["観測される応答 Y"]
要素役割
① 確率成分(random component)応答 YY が従う分布。指数型分布族から選ぶ正規/二項/ポアソン/ガンマ
② 線形予測子(linear predictor)説明変数の線形結合 η=xβ\eta=\mathbf{x}^\top\boldsymbol\betaβ0+β1x1+\beta_0+\beta_1 x_1+\cdots
③ リンク関数(link function)平均 μ=E[Y]\mu=E[Y]η\eta を結ぶ g(μ)=ηg(\mu)=\eta恒等/ロジット/対数

普通の線形回帰・ロジスティック回帰・ポアソン回帰は、この表の①と③を選び替えただけの兄弟です。

モデル応答の型分布(①)リンク(③)平均の範囲
線形回帰連続正規恒等 g(μ)=μg(\mu)=\mu(,)(-\infty,\infty)
ロジスティック回帰二値二項(ベルヌーイ)ロジット g(μ)=logμ1μg(\mu)=\log\frac{\mu}{1-\mu}(0,1)(0,1)
ポアソン回帰計数ポアソン対数 g(μ)=logμg(\mu)=\log\mu(0,)(0,\infty)
graph TD
  GLM["一般化線形モデル GLM"]
  GLM --> A["正規 + 恒等リンク<br/>= 普通の線形回帰"]
  GLM --> B["二項 + ロジットリンク<br/>= ロジスティック回帰"]
  GLM --> C["ポアソン + 対数リンク<br/>= ポアソン回帰"]
  GLM --> D["ガンマ + 逆数/対数リンク<br/>= ガンマ回帰 ほか"]

要するに:線形回帰はGLMの最も単純な一例(正規+恒等)。「線形回帰 ⊂ GLM」。

指数型分布族(確率成分の正体)

①の「指数型分布族」とは、確率(密度)関数が次の標準形で書ける分布の総称です。

f(y;θ,ϕ)=exp ⁣{yθb(θ)a(ϕ)+c(y,ϕ)}f(y;\theta,\phi)=\exp\!\left\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi)\right\}

この形が重要なのは、平均と分散が b(θ)b(\theta) の微分だけで決まるからです。導出します。

確率(密度)の積分は 1:f(y;θ,ϕ)dy=1\displaystyle\int f(y;\theta,\phi)\,dy=1。両辺を θ\theta で微分すると(積分と微分を交換できる正則条件のもとで)、スコア関数の期待値はゼロという一般的な性質

E ⁣[logfθ]=0E\!\left[\frac{\partial \log f}{\partial\theta}\right]=0

が使えます。標準形では logf=yθb(θ)a(ϕ)+c(y,ϕ)\log f=\dfrac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi) なので

logfθ=yb(θ)a(ϕ).\frac{\partial \log f}{\partial\theta}=\frac{y-b'(\theta)}{a(\phi)}.

期待値を 0 と置くと E[Y]b(θ)=0E[Y]-b'(\theta)=0、すなわち

μ=E[Y]=b(θ).\boxed{\,\mu=E[Y]=b'(\theta)\,}.

要するに:累積関数を1回微分すると平均が出るμ=b(θ)\mu=b'(\theta)

分散はもう一段。情報量等式 E ⁣[2logfθ2]+E ⁣[(logfθ)2]=0\displaystyle E\!\left[\frac{\partial^2\log f}{\partial\theta^2}\right]+E\!\left[\left(\frac{\partial\log f}{\partial\theta}\right)^2\right]=0(フィッシャー情報の2つの表現が一致する関係)を使います。2logfθ2=b(θ)a(ϕ)\dfrac{\partial^2\log f}{\partial\theta^2}=-\dfrac{b''(\theta)}{a(\phi)}、また (logfθ)2=(yμ)2a(ϕ)2\left(\dfrac{\partial\log f}{\partial\theta}\right)^2=\dfrac{(y-\mu)^2}{a(\phi)^2} の期待値は V[Y]a(ϕ)2\dfrac{V[Y]}{a(\phi)^2}。代入すると

b(θ)a(ϕ)+V[Y]a(ϕ)2=0    V[Y]=a(ϕ)b(θ).-\frac{b''(\theta)}{a(\phi)}+\frac{V[Y]}{a(\phi)^2}=0 \;\Longrightarrow\; \boxed{\,V[Y]=a(\phi)\,b''(\theta)\,}.

要するに:累積関数を2回微分すると分散の核が出るV[Y]=a(ϕ)b(θ)V[Y]=a(\phi)b''(\theta)V(μ)=b(θ)V(\mu)=b''(\theta)分散関数と呼び、これが「分布ごとに平均と分散がどう連動するか」を決める。

正準リンク(canonical link) とは、リンク後の線形予測子が自然パラメータそのものになる、つまり θ=η\theta=\eta となるリンクのことです。各分布の自然パラメータ θ\thetaμ\mu の関数として解けば、その分布の正準リンクが何かが自動的に決まります。

ロジスティック回帰やポアソン回帰が「ロジット」「対数」を使うのは、見やすさだけでなく正準リンクだから理論的に自然だという裏付けがあるわけです(正準リンクだとフィッシャー情報の計算が簡単になり、十分統計量が Xy\mathbf{X}^\top\mathbf{y} になる)。


ロジスティック回帰

線形回帰は[0,1]を外れる/ロジスティックはシグモイドで収まる

2値データに線形回帰(赤破線)を当てると確率の範囲 [0,1] をはみ出すが、ロジスティック回帰(青)はシグモイドで必ず [0,1] に収まる。図は simulations/logistic_link_keijou.py で生成。

ここで扱うのは、応答が二値(0=非発生 / 1=発生)のときに「発生確率 pp」をモデル化する手法。

応答 Yi{0,1}Y_i\in\{0,1\} がベルヌーイ分布 YiBernoulli(pi)Y_i\sim\mathrm{Bernoulli}(p_i) に従い、pi=E[Yi]p_i=E[Y_i]ロジットリンクで線形予測子に結びます。

logpi1pi=xiβ=β0+β1xi1++βkxik\log\frac{p_i}{1-p_i}=\mathbf{x}_i^\top\boldsymbol\beta=\beta_0+\beta_1 x_{i1}+\cdots+\beta_k x_{ik}

左辺の p1p\dfrac{p}{1-p}オッズ(発生確率と非発生確率の比)、その対数が対数オッズ(ロジット)。これを pp について解くと、おなじみの**シグモイド(ロジスティック関数)**になります。

pi=11+exiβ=exiβ1+exiβp_i=\frac{1}{1+e^{-\mathbf{x}_i^\top\boldsymbol\beta}}=\frac{e^{\mathbf{x}_i^\top\boldsymbol\beta}}{1+e^{\mathbf{x}_i^\top\boldsymbol\beta}}

この関数は線形予測子が +-\infty\to+\infty と動いても出力を必ず (0,1)(0,1) に収めます。だから確率が範囲外に飛び出す問題が原理的に起きない。これがロジットリンクを使う理由です。

要するに:ロジットは「確率 [0,1][0,1]」を「実数全体」へ引き伸ばす変換。逆向きに見れば、線形予測子をシグモイドで [0,1][0,1] に押し込んでいる。

オッズ比 eβje^{\beta_j} の導出(最重要)

係数 βj\beta_j そのものは「対数オッズの増分」で直観的でない。xjx_j を 1 増やしたときオッズがどう変わるかを見ます。xjx_j だけ 1 増やした点でのオッズを Odds(xj+1)\mathrm{Odds}(x_j+1)、増やす前を Odds(xj)\mathrm{Odds}(x_j) とすると、ロジットの定義から

logOdds(xj)=β0++βjxj+\log\mathrm{Odds}(x_j)=\beta_0+\cdots+\beta_j x_j+\cdots logOdds(xj+1)=β0++βj(xj+1)+\log\mathrm{Odds}(x_j+1)=\beta_0+\cdots+\beta_j (x_j+1)+\cdots

引き算すると他の項が全部消えて

logOdds(xj+1)logOdds(xj)=βj    logOdds(xj+1)Odds(xj)=βj.\log\mathrm{Odds}(x_j+1)-\log\mathrm{Odds}(x_j)=\beta_j \;\Longrightarrow\; \log\frac{\mathrm{Odds}(x_j+1)}{\mathrm{Odds}(x_j)}=\beta_j.

両辺を指数化すれば

 Odds(xj+1)Odds(xj)=eβj=オッズ比 .\boxed{\ \frac{\mathrm{Odds}(x_j+1)}{\mathrm{Odds}(x_j)}=e^{\beta_j}=\text{オッズ比}\ }.

要するに:xjx_j を 1 増やすとオッズが eβje^{\beta_j}になる。βj>0\beta_j>0 なら eβj>1e^{\beta_j}>1 でオッズ増大、βj=0\beta_j=0 なら eβj=1e^{\beta_j}=1 で無関係。「係数を指数変換するとオッズ比」という頻出フレーズはこの導出が出どころ。

最尤推定(解析解はない)

YiBernoulli(pi)Y_i\sim\mathrm{Bernoulli}(p_i) の尤度は、独立性から

L(β)=i=1npiyi(1pi)1yi.L(\boldsymbol\beta)=\prod_{i=1}^n p_i^{\,y_i}(1-p_i)^{1-y_i}.

対数尤度は

(β)=i=1n[yilogpi+(1yi)log(1pi)].\ell(\boldsymbol\beta)=\sum_{i=1}^n\Big[y_i\log p_i+(1-y_i)\log(1-p_i)\Big].

pi=11+exiβp_i=\dfrac{1}{1+e^{-\mathbf{x}_i^\top\boldsymbol\beta}} を代入し β\boldsymbol\beta で微分すると、スコア方程式は

β=i=1n(yipi)xi=X(yp)=0.\frac{\partial\ell}{\partial\boldsymbol\beta}=\sum_{i=1}^n (y_i-p_i)\,\mathbf{x}_i=\mathbf{X}^\top(\mathbf{y}-\mathbf{p})=\mathbf{0}.

ここで p\mathbf{p}β\boldsymbol\beta について非線形なので、この方程式は閉じた形で解けません(線形回帰の正規方程式のようにきれいには解けない)。そのため数値的に反復して解きます。その標準が IRLS です。

要するに:「予測確率の和が実際の 1 の個数と一致する」ようにパラメータを決める。ただし非線形なので一発では解けず反復が要る。


ポアソン回帰

ここで扱うのは、応答が計数(0,1,2,…)のときに「平均件数 μ\mu」をモデル化する手法。

応答 YiPoisson(μi)Y_i\sim\mathrm{Poisson}(\mu_i)、平均 μi=E[Yi]\mu_i=E[Y_i]対数リンクで結びます。

logμi=xiβ    μi=exiβ\log\mu_i=\mathbf{x}_i^\top\boldsymbol\beta \;\Longleftrightarrow\; \mu_i=e^{\mathbf{x}_i^\top\boldsymbol\beta}

μi=e()>0\mu_i=e^{(\cdot)}>0 なので、平均が必ず正になり計数データと整合します。係数の解釈はロジスティックと同型で、xjx_j を 1 増やしたとき

μ(xj+1)μ(xj)=eβ0++βj(xj+1)+eβ0++βjxj+=eβj\frac{\mu(x_j+1)}{\mu(x_j)}=\frac{e^{\beta_0+\cdots+\beta_j(x_j+1)+\cdots}}{e^{\beta_0+\cdots+\beta_j x_j+\cdots}}=e^{\beta_j}

すなわち xjx_j を 1 増やすと期待件数が eβje^{\beta_j}。この eβje^{\beta_j}率比(rate ratio)/リスク比と呼びます(ロジスティックの「オッズ比」に対応する量。中身は別物なので後述)。

最尤推定も同様。ポアソンの確率質量 P(Yi=yi)=μiyieμiyi!P(Y_i=y_i)=\dfrac{\mu_i^{y_i}e^{-\mu_i}}{y_i!} から対数尤度は

(β)=i=1n[yilogμiμilog(yi!)]=i=1n[yixiβexiβlog(yi!)].\ell(\boldsymbol\beta)=\sum_{i=1}^n\big[y_i\log\mu_i-\mu_i-\log(y_i!)\big] =\sum_{i=1}^n\big[y_i\,\mathbf{x}_i^\top\boldsymbol\beta-e^{\mathbf{x}_i^\top\boldsymbol\beta}-\log(y_i!)\big].

微分すると β=i(yiμi)xi=X(yμ)=0\dfrac{\partial\ell}{\partial\boldsymbol\beta}=\sum_i(y_i-\mu_i)\mathbf{x}_i=\mathbf{X}^\top(\mathbf{y}-\boldsymbol\mu)=\mathbf{0}。ロジスティックと同じく非線形でIRLSで解きます。

過分散(overdispersion)

ポアソン分布は 平均=分散E[Y]=V[Y]=μE[Y]=V[Y]=\mu)という強い性質を持ちます。ところが実データでは分散が平均より大きいV[Y]>μV[Y]>\mu)ことがしばしば起き、これを過分散と呼びます。原因は、説明しきれない個体差・観測の塊(クラスタ)・ゼロ過剰など。

過分散があるとポアソン回帰は標準誤差を過小評価し、係数が実際より「有意」に見えてしまう(第一種過誤が膨らむ)。対処は主に2つ:

要するに:ポアソン回帰の前提は「平均=分散」。これが崩れて分散の方が大きいなら、準ポアソンか負の二項回帰へ。


推定の中身:IRLSとデビアンス

IRLS(反復重み付き最小二乗)

GLMのスコア方程式は非線形なので、ニュートン・ラフソン法で反復して解きます。GLMでは更新式が重み付き最小二乗(WLS)の形に整理できるため、これを**IRLS(Iteratively Reweighted Least Squares, 反復重み付き最小二乗)**と呼びます。

考え方だけ示すと、現在の推定 β(t)\boldsymbol\beta^{(t)} のまわりで対数尤度を2次近似し、調整応答変数 ziz_i(リンクで線形化した擬似的な目的変数)と重み wiw_i を作って

β(t+1)=(XWX)1XWz\boldsymbol\beta^{(t+1)}=(\mathbf{X}^\top\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{W}\mathbf{z}

という重み付き最小二乗を繰り返すW=diag(wi)\mathbf{W}=\mathrm{diag}(w_i) は各反復で更新される(だから “reweighted”)。重みは分散関数 V(μ)V(\mu) から決まり、分散が大きい観測ほど軽く扱われます。

要するに:「リンクで線形化した擬似回帰を、重みを更新しながら何度も解く」。普通の最小二乗を反復で回す、と捉えればよい。正準リンクのときは観測情報行列=フィッシャー情報行列となり、ニュートン法とフィッシャースコア法が一致してきれいになる。

デビアンス(deviance)

モデルの当てはまりの良さを測る中心量がデビアンスです。基準として**飽和モデル(saturated model)**を置きます。飽和モデルは「観測点と同じ数のパラメータを持ち、各観測を完璧に再現する」モデル、つまり μ^i=yi\hat\mu_i=y_i となるモデルで、達成可能な対数尤度の上限を与えます。

デビアンスは、注目するモデルの対数尤度 model\ell_{\text{model}} が飽和モデルの対数尤度 sat\ell_{\text{sat}} からどれだけ下がっているかを、尤度比の形で測ったものです。

D=2(modelsat)\boxed{\,D=-2\big(\ell_{\text{model}}-\ell_{\text{sat}}\big)\,}

要するに:「完璧に当てはめた場合との対数尤度の差」を2倍したもの。小さいほど当てはまりが良い。線形回帰の残差平方和 (yiy^i)2\sum(y_i-\hat y_i)^2 をGLMへ一般化したものと捉えるとよい(正規分布のときデビアンスは残差平方和に一致する)。

ポアソン回帰の場合、sat\ell_{\text{sat}}μ^i=yi\hat\mu_i=y_i を代入したもの、model\ell_{\text{model}}μ^i\hat\mu_i を代入したもので、差を取ると

D=2i=1n[yilogyiμ^i(yiμ^i)]D=2\sum_{i=1}^n\left[\,y_i\log\frac{y_i}{\hat\mu_i}-(y_i-\hat\mu_i)\,\right]

となります(yi=0y_i=0 の項は yilogyiμ^i0y_i\log\frac{y_i}{\hat\mu_i}\to 0 と規約)。

デビアンスの使い道は2つ。

  1. モデル適合度の目安:当てはまりが良ければ、デビアンスは自由度(npn-p)程度のカイ二乗分布に近似的に従う。デビアンスが自由度より大きく上回れば、当てはまり不足や過分散のサイン。
  2. ネストしたモデルの比較(尤度比検定):説明変数を足したモデルと減らしたモデルを比べるとき、残差デビアンスの差 DDD_{\text{小}}-D_{\text{大}} が、追加した変数の数を自由度とする χ2\chi^2 分布に近似的に従う。これは 尤度比検定・Wald検定・スコア検定 の尤度比検定統計量 2(01)-2(\ell_0-\ell_1) そのもの(飽和モデルの項が引き算で消えるため)。

個々の係数の検定は Wald検定β^j/SE(β^j)\hat\beta_j/\mathrm{SE}(\hat\beta_j) が標準正規に近似)が標準で、より厳密にはモデル間のデビアンス差による尤度比検定を使います。いずれも → 尤度比検定・Wald検定・スコア検定

モデル選択ではAIC =2model+2p=-2\ell_{\text{model}}+2ppp=パラメータ数)も多用されます。デビアンスは飽和モデル基準なのでモデル間で定数部分が共通、よってAICの比較はデビアンス+2p2p の比較と同等で、当てはまりとパラメータ数のトレードオフを取れます。


具体例

ロジスティック回帰(喫煙と疾患):応答 Y=Y= 疾患あり(1)/なし(0)、説明変数 x1=x_1= 喫煙(1)/非喫煙(0)、x2=x_2= 年齢。推定の結果 β^1=0.69\hat\beta_1=0.69 なら、喫煙のオッズ比は e0.692.0e^{0.69}\approx 2.0。すなわち年齢を揃えたとき、喫煙者は非喫煙者に比べ疾患のオッズが約 2 倍β^2=0.04\hat\beta_2=0.04 なら年齢 1 歳増でオッズ e0.041.04e^{0.04}\approx 1.04 倍。

ポアソン回帰(事故件数):応答 Y=Y= ある交差点の月間事故件数、x1=x_1= 信号設置(1)/なし(0)。β^1=0.51\hat\beta_1=-0.51 なら率比 e0.510.6e^{-0.51}\approx 0.6信号設置で期待件数が 0.6 倍(4割減)。観測の分散が平均を大きく上回っていれば、ポアソンでなく負の二項回帰を検討。


試験での問われ方(級ごとの差)

GLMは準1級・1級ともに頻出(重要度A)。導出の枠組みは共通ですが、問われる深さがはっきり違います。

準1級1級
中心適用と解釈理論と導出
ロジスティック回帰ロジットリンクの意味、オッズ比 eβje^{\beta_j} の計算と解釈、対数尤度の形対数尤度の微分(スコア方程式)、フィッシャー情報、IRLSの更新式の導出
ポアソン回帰対数リンク、率比の計算、過分散の指摘、負の二項への切替判断対数尤度・勾配の導出、過分散の定式化(V=ϕμV=\phi\mu 等)、負の二項分布の構成
指数型分布族「ポアソン・二項が指数型分布族」という事実標準形からの μ=b(θ)\mu=b'(\theta), V=a(ϕ)b(θ)V=a(\phi)b''(\theta) の導出、正準リンクの特定
適合度・検定デビアンス・AICでのモデル比較の読み取りデビアンスの定義からの計算、尤度比検定との同値性、χ2\chi^2 近似の根拠

準1級は「与えられた出力(係数・オッズ比・デビアンス)を正しく読めるか」「どのモデルを使うべきか判断できるか」。1級は「対数尤度を自分で書いて微分し、推定方程式や情報量まで導出できるか」。とくに 1級では指数型分布族の標準形からの平均・分散の導出が頻出なので、b(θ)b'(\theta)b(θ)b''(\theta) の計算は手で再現できるようにしておくこと。

出題範囲表は改訂されうる(要最新確認)。GLM・質的回帰・モデル選択は準1級ワークブックの中核項目で、近年の傾向としても安定して問われています。


⚠️ 引っかけポイント・頻出論点

確率(リスク) ppオッズ p1p\dfrac{p}{1-p}
範囲[0,1][0,1][0,)[0,\infty)
比の名前リスク比 RR=p1/p0\mathrm{RR}=p_1/p_0オッズ比 OR\mathrm{OR}
どの回帰の eβe^\betaポアソン回帰(率比)ロジスティック回帰
flowchart TD
  S([応答データの型は?]) --> Q1{連続で<br/>正規が妥当?}
  Q1 -->|はい| L1["正規 + 恒等リンク<br/>= 線形回帰"]
  Q1 -->|いいえ| Q2{二値<br/>0/1 か?}
  Q2 -->|はい| L2["二項 + ロジットリンク<br/>= ロジスティック回帰<br/>係数→オッズ比 e^β"]
  Q2 -->|いいえ| Q3{計数<br/>0,1,2,… か?}
  Q3 -->|はい| Q4{分散 ≈ 平均?}
  Q4 -->|はい| L3["ポアソン + 対数リンク<br/>= ポアソン回帰<br/>係数→率比 e^β"]
  Q4 -->|いいえ 分散>平均| L4["負の二項回帰 / 準ポアソン<br/>過分散に対応"]
  Q3 -->|連続だが正に偏る| L5["ガンマ回帰 ほか"]

よくある疑問

Q1. なぜ係数 βj\beta_j をそのまま「効果」と読まず、eβje^{\beta_j} にするのですか。 A. リンクが対数(ロジットも対数オッズ)なので、線形予測子は対数スケール上の話だからです。xjx_j を 1 増やすと対数オッズ(または対数平均)が βj\beta_j 加算される。元のオッズ/平均のスケールに戻すには指数化が必要で、xj+1x_j+1xjx_j のオッズ/平均のを取ると eβje^{\beta_j} になります(本文の導出参照)。だから「加算で効く βj\beta_j」より「倍率で効く eβje^{\beta_j}」のほうが直観的で、実務でも eβje^{\beta_j} を報告します。

Q2. オッズ比とリスク比は、結局どう違うのですか。どちらを相対リスクと呼べますか。 A. リスク比 RR=p1/p0\mathrm{RR}=p_1/p_0確率そのものの比で、これが本来の「相対リスク(相対危険度)」です。オッズ比 OR\mathrm{OR}オッズ p/(1p)p/(1-p) の比で別量。ロジスティック回帰が直接くれるのはオッズ比です。発生がまれ(p<0.1p<0.1 目安)なら 1p11-p\approx1ORRR\mathrm{OR}\approx\mathrm{RR} なので近似的に相対リスクと読めますが、pp が大きいと OR\mathrm{OR}RR\mathrm{RR} より 1 から遠ざかる方向にずれ、過大評価になります。相対リスクを直接出したいなら、ポアソン回帰(率比)や修正ポアソン回帰を使うのが筋です。

Q3. 二値の応答(0/1)に普通の線形回帰を当ててはいけないのはなぜですか。 A. 3つ破綻します。(1) 予測値 xβ^\mathbf{x}^\top\hat{\boldsymbol\beta}[0,1][0,1] を平気で外れ、確率として解釈できない。(2) 誤差が正規でない(応答が 0/1 の2点しか取らない)。(3) 分散が一定でない(ベルヌーイの分散は p(1p)p(1-p) で平均 pp に依存し、等分散の仮定を破る)。ロジスティック回帰はリンク関数で確率を [0,1][0,1] に閉じ込め、分布を二項にすることで (1)〜(3) を同時に解決します。これが「なぜリンク関数か」の答えです。

Q4. ポアソン回帰で過分散とは何で、なぜ問題ですか。負の二項回帰はどう違いますか。 A. ポアソンは「平均=分散」が前提ですが、実データは分散が平均より大きいことが多く、これが過分散です。問題は、過分散を無視すると標準誤差を過小評価し、係数が実際より有意に見える(p値が小さく出すぎる)こと。負の二項回帰は分散を V[Y]=μ+αμ2V[Y]=\mu+\alpha\mu^2 と置き、ポアソンより太い裾(大きなばらつき)を許すモデルで、α0\alpha\to0 でポアソンに一致します。過分散を「余分なパラメータ α\alpha」として明示的に吸収する点が違いです。手早く標準誤差だけ直したいなら準ポアソン(V=ϕμV=\phi\mu)も選択肢。

Q5. デビアンスとAICは、モデル比較でどう使い分けますか。 A. デビアンスは飽和モデルとの尤度比 2(modelsat)-2(\ell_{\text{model}}-\ell_{\text{sat}}) で、(a) 単独では当てはまり度(自由度程度の χ2\chi^2 と比べる)、(b) ネストしたモデル間では残差デビアンスの差が尤度比検定統計量になり、追加変数の数を自由度とする χ2\chi^2 で検定できます。AIC =2+2p=-2\ell+2p は当てはまりにパラメータ数の罰則を足したもので、ネストしていないモデルどうしも比較できるのが利点(小さいほど良い)。検定して有意性を判断したいならデビアンス差(尤度比検定)、複数候補から1つ選ぶならAIC、と捉えると整理できます。


まとめ


関連ノート