← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:B(標準)

要点(BLUF)

被説明変数が「ふつうの連続変数ではない」(カテゴリである/一定範囲しか観測されない)ときの回帰を体系化します。土台はすべて潜在変数モデル——裏で連続的な強さ y=xβ+εy^*=x^\top\beta+\varepsilon が動き、その観測のされ方が違うだけです。2値プロビット(SVM・非線形回帰・プロビット分析)と同根なので、本ノートはそこからの差分として読んでください。

1級(統計応用・社会科学)では切断と打ち切りの区別・トービットの定式化・IIAの意味・なぜOLSが使えないかが問われます(範囲・配点は改訂されうるため要最新確認)。

graph TD
  ROOT["被説明変数が<br/>ふつうの連続変数でない"] --> CAT["カテゴリ(質的選択)"]
  ROOT --> LIM["連続だが範囲が制限<br/>(制限従属変数)"]
  CAT --> BIN["2値<br/>プロビット/ロジット<br/>(09-05で既出)"]
  CAT --> MULTI["3カテゴリ以上・名義<br/>多項ロジット<br/>条件付きロジット"]
  CAT --> ORD["順序つきカテゴリ<br/>順序プロビット/ロジット"]
  MULTI -.->|強い仮定| IIA["IIA<br/>無関係な選択肢からの独立"]
  LIM --> TRUNC["切断回帰<br/>条件外は標本に無い"]
  LIM --> CENS["打ち切り回帰=トービット<br/>閾値以下は0で残る"]
  LIM --> SEL["標本選択バイアス<br/>→ ヘーキット2段階"]
  BIN -.->|潜在変数 y*=x'β+ε が同根| MULTI
  BIN -.-> ORD
  BIN -.-> CENS

1. 質的選択モデル

1.1 全体像 — 2値からの拡張

2値の応答 y{0,1}y\in\{0,1\}SVM・非線形回帰・プロビット分析 でプロビット/ロジットとして扱いました。本節はその拡張で、応答が3つ以上のカテゴリになる場合です。カテゴリに順序があるかで2系統に分かれます。

応答の型モデル識別のための制約
2値合格/不合格プロビット・ロジット閾値0・誤差分散1(09-05)
名義(順序なし)通勤手段(電車/バス/車)多項ロジット・条件付きロジット基準カテゴリの係数を0
順序つき満足度(不満/普通/満足)順序プロビット・順序ロジット閾値を昇順に並べ切片を吸収

要するに「カテゴリ数と順序の有無で道具が決まる」。以下、名義(1.2〜1.3)と順序(1.4)を分けて見ます。

1.2 多項ロジットと条件付きロジット

応答が JJ 個の順序なしカテゴリ {1,,J}\{1,\dots,J\} のとき、各カテゴリの選択確率を線形予測子から作ります。発想は「各カテゴリに効用 VjV_j を割り当て、効用が最大のものが選ばれる」(ランダム効用モデル)。

多項ロジット(multinomial logit, MNL). 説明変数 xix_i個人ごとに決まる(年齢・所得など。カテゴリには依存しない)場合、カテゴリ jj ごとに別の係数 βj\beta_j を持たせます。

P(yi=jxi)=exp(xiβj)k=1Jexp(xiβk)P(y_i=j\mid x_i)=\frac{\exp(x_i^\top\beta_j)}{\sum_{k=1}^{J}\exp(x_i^\top\beta_k)}

要するに「各カテゴリの exp(効用)\exp(\text{効用}) を全カテゴリの和で割って確率にする」(ソフトマックス)。ただしこのままでは係数が一意に決まりません(全 βj\beta_j に同じベクトルを足しても確率が不変)。そこで基準カテゴリ(例 j=1j=1)の係数を β1=0\beta_1=0 と固定します。すると

P(yi=jxi)=exp(xiβj)1+k=2Jexp(xiβk)(j2),logP(yi=j)P(yi=1)=xiβjP(y_i=j\mid x_i)=\frac{\exp(x_i^\top\beta_j)}{1+\sum_{k=2}^{J}\exp(x_i^\top\beta_k)}\quad(j\ge2),\qquad \log\frac{P(y_i=j)}{P(y_i=1)}=x_i^\top\beta_j

要するに「基準カテゴリに対する対数オッズが線形になる」。J=2J=2 なら通常のロジットに一致します。

条件付きロジット(conditional logit, CL). 説明変数がカテゴリ(選択肢)ごとに値を持つ(各交通手段の所要時間・料金など)場合は、係数を1組 β\beta に共通化し、属性 zijz_{ij}(個人 ii ・選択肢 jj の属性)を使います。

P(yi=j)=exp(zijβ)k=1Jexp(zikβ)P(y_i=j)=\frac{\exp(z_{ij}^\top\beta)}{\sum_{k=1}^{J}\exp(z_{ik}^\top\beta)}

要するに「選択肢の属性そのもの(速い・安い等)で確率を説明する」。MNLが「人の属性で確率が変わる」のに対し、CLは「選択肢の属性で確率が変わる」。両者を混ぜた一般形が混合ロジットです。試験では「個人属性ならMNL、選択肢属性ならCL」という対応を押さえれば十分です。

1.3 IIA仮定(無関係な選択肢からの独立)

MNL/CLには強い前提が組み込まれています。IIA(Independence of Irrelevant Alternatives)——2つの選択肢の確率比が、他の選択肢の存在に左右されないという性質です。上の式から、任意の2カテゴリ j,mj,m について

P(yi=j)P(yi=m)=exp(zijβ)exp(zimβ)=exp ⁣((zijzim)β)\frac{P(y_i=j)}{P(y_i=m)}=\frac{\exp(z_{ij}^\top\beta)}{\exp(z_{im}^\top\beta)}=\exp\!\big((z_{ij}-z_{im})^\top\beta\big)

要するに「jjmm の確率比は、jjmm の属性だけで決まり、第3の選択肢 kk の中身に一切依存しない」(分母が約分で消える)。これがIIAの正体です。

何が問題か——赤バス/青バスの逆説. 古典的な反例があります。いま通勤手段が「車」と「赤いバス」で半々(各 1/21/2)だとします。ここに色だけ違う「青いバス」を加えると、バス利用者にとって赤・青は実質同じものなので、本来は「車 1/21/2、赤バス 1/41/4、青バス 1/41/4」となるはず。ところがIIAは「車:赤バスの比=1:1」を新選択肢を加えても保つため、MNLは「車 1/31/3、赤バス 1/31/3、青バス 1/31/3」と誤って予測します。要するに「似た選択肢(代替性の高いもの)が混じると、IIAは確率を不当に奪い合わせる」。

graph LR
  subgraph 真の挙動
    A1["車 1/2"]
    A2["赤バス 1/4"]
    A3["青バス 1/4"]
  end
  subgraph IIA["IIAの予測(MNL)"]
    B1["車 1/3"]
    B2["赤バス 1/3"]
    B3["青バス 1/3"]
  end
  NOTE["青バス追加でも<br/>車:赤バス=1:1 を保つ<br/>→ 車の確率が不当に減る"]

回避策. IIAが破れる(選択肢間に代替性の濃淡がある)状況では、

IIAが成り立つときの利点は「選択肢集合の一部だけでも一致推定できる」こと。逆に言えば、IIAが妥当かはハウスマン検定などで検証すべき論点です。試験では「MNLはIIAを仮定する/IIAが破れる典型が代替性の高い選択肢/回避はネステッドロジットや多項プロビット」が頻出です。

1.4 順序選択モデル(順序プロビット/順序ロジット)

応答に順序がある(満足度の5段階、信用格付け等)ときは、カテゴリごとに別係数を持たせる多項ロジットは順序情報を捨ててしまい非効率です。代わりに、1本の潜在変数を複数の閾値で区切るのが順序選択モデルです。

潜在変数 yi=xiβ+εiy_i^*=x_i^\top\beta+\varepsilon_i を考え、昇順の閾値 α1<α2<<αJ1\alpha_1<\alpha_2<\dots<\alpha_{J-1} で区切ります。

yi={1(yiα1)2(α1<yiα2) J(αJ1<yi)y_i=\begin{cases} 1 & (y_i^*\le \alpha_1)\\ 2 & (\alpha_1< y_i^*\le \alpha_2)\\ \ \vdots & \\ J & (\alpha_{J-1}< y_i^*) \end{cases}

要するに「裏の連続量 yy^* がどの帯に落ちたかで、観測カテゴリが決まる」。誤差 ε\varepsilon のCDFを FF(正規なら順序プロビット、ロジスティックなら順序ロジット)とすると、カテゴリ jj の確率は閾値での累積差になります。

P(yi=jxi)=F(αjxiβ)F(αj1xiβ)(α0=, αJ=+)P(y_i=j\mid x_i)=F(\alpha_j-x_i^\top\beta)-F(\alpha_{j-1}-x_i^\top\beta) \qquad(\alpha_0=-\infty,\ \alpha_J=+\infty)

要するに「jj の確率=『αj\alpha_j 以下の累積』から『αj1\alpha_{j-1} 以下の累積』を引いた帯の面積」。閾値と切片は同時識別できないので、切片を 00 に固定するか閾値を自由パラメータにして識別します。

平行性(比例オッズ)仮定. この定式化では、説明変数の係数 β\betaどの閾値でも共通——xx が動くと潜在変数 yy^* が平行移動し、すべての帯境界が一斉に動く、という制約が入ります。順序ロジットでは、これは「どこで2分しても対数オッズの傾きが等しい」=比例オッズ(proportional odds)仮定として現れます。

logP(yij)P(yi>j)=αjxiβ(傾き β は j に依らず共通)\log\frac{P(y_i\le j)}{P(y_i> j)}=\alpha_j-x_i^\top\beta\quad(\text{傾き }\beta\text{ は }j\text{ に依らず共通})

要するに「カテゴリをどこで切っても、説明変数の効き目(傾き)は同じ」。この仮定が崩れると(変数の効果が帯ごとに違う)順序モデルは不適切で、一般化順序ロジットなどが必要です。試験では「順序モデルは閾値で潜在変数を区切る/係数は全閾値共通(平行性・比例オッズ)/多項ロジットと違い順序情報を使う」が要点です。


2. 制限従属変数モデル — 切断と打ち切り

ここからは応答が連続だが観測範囲が制限されるケースです。切断(truncation)と打ち切り(censoring)の区別が本章の核心で、1級で最も問われます。

2.1 切断と打ち切りの違い(最重要)

同じ「y>0y>0 の部分しか興味がない」状況でも、標本に何が残るかが決定的に違います。

切断(truncated)打ち切り(censored・トービット)
観測される標本条件を満たす個体のみy>0y>0 の人だけ)全個体。ただし y0y\le0 は値が 00 に潰れる
説明変数 xx条件を満たす個体しか観測できない全個体で観測できる
所得が一定以下の世帯は調査対象外労働供給時間。働いていない人は 00 時間として記録に残る
失う情報「閾値以下の個体が存在したこと」自体が消える個体の存在は残るが、00 以下の真の値が潰れる
観測の仕組みyy で選別(yy が見えるかが yy 自身で決まる)yy^*00 で下から押し上げる

要するに「切断=標本から消える/打ち切り=0として残る」。情報の残り方が違うので尤度の形も変わります(打ち切りの方が『00 以下だった』という情報が残るぶん有利)。

graph TD
  STAR["潜在変数 y* = x'β + ε"] --> Q{"y* ≦ 閾値0 か?"}
  Q -->|切断| TR{"標本に含めるか"}
  TR -->|y*≦0 は除外| TROUT["データから消える<br/>(x も y も無い)"]
  TR -->|y*>0 のみ| TRIN["y = y* を観測"]
  Q -->|打ち切り| CE{"観測値の付け方"}
  CE -->|y*≦0| CEZERO["y = 0 として記録<br/>(x は残る)"]
  CE -->|y*>0| CEPOS["y = y* を観測"]

2.2 なぜOLSではダメか — 切られた誤差の期待値

直観:yy を下から切ると、残った標本では誤差 ε\varepsilon が平均的に正の側に偏る(小さい yy、つまり負の ε\varepsilon を持つ個体が抜ける/潰れる)。すると E[ε観測]0E[\varepsilon\mid\text{観測}]\neq0 となり、OLSの大前提(説明変数と無相関な平均0の誤差)が崩れます。

切断回帰の条件付き期待値(導出). y=xβ+εy^*=x^\top\beta+\varepsilonεN(0,σ2)\varepsilon\sim N(0,\sigma^2) とし、y>0y^*>0 の標本だけを観測する(切断)。観測された yy の条件付き期待値は

E[yy>0,x]=xβ+E[εε>xβ]E[y\mid y>0,x]=x^\top\beta+E[\varepsilon\mid \varepsilon>-x^\top\beta]

正規分布の切断モーメントの公式 E[εε>c]=σϕ(c/σ)1Φ(c/σ)E[\varepsilon\mid\varepsilon>c]=\sigma\,\dfrac{\phi(c/\sigma)}{1-\Phi(c/\sigma)}c=xβc=-x^\top\beta に当てると

  E[yy>0,x]=xβ+σϕ(xβ/σ)Φ(xβ/σ)逆ミルズ比 λ  \boxed{\;E[y\mid y>0,x]=x^\top\beta+\sigma\,\underbrace{\frac{\phi(x^\top\beta/\sigma)}{\Phi(x^\top\beta/\sigma)}}_{\text{逆ミルズ比 }\lambda}\;}

ここで ϕ,Φ\phi,\Phi は標準正規の密度・CDF、λ()=ϕ/Φ\lambda(\cdot)=\phi/\Phi逆ミルズ比(inverse Mills ratio)と呼びます。要するに「切断後の平均は、本来の xβx^\top\beta に正の下駄 σλ\sigma\lambda が乗る」。この σλ\sigma\lambdaxx の関数なので、OLSで無視すると欠落変数バイアスになり、係数は0方向に過小推定されます。

打ち切り(トービット)の無条件期待値. 打ち切りでは y=max(0,y)y=\max(0,y^*) なので、00 も含めた全標本の期待値は「y>0y>0 になる確率 × 正の部分の条件付き期待値」で

E[yx]=Φ ⁣(xβσ)[xβ+σλ(xβσ)]E[y\mid x]=\Phi\!\Big(\frac{x^\top\beta}{\sigma}\Big)\Big[x^\top\beta+\sigma\,\lambda\Big(\frac{x^\top\beta}{\sigma}\Big)\Big]

要するに「00 が多いほど平均が押し下げられ、xx の効き目(限界効果)も Φ\Phi の分だけ縮む」。だから「yy に直接OLS」も「y>0y>0 だけでOLS」も、どちらも β\beta を歪めます。正しくは最尤推定です。

2.3 トービットモデルの尤度(連続部分+離散質量の混合)

トービットの最尤推定の肝は、尤度が2種類の寄与の積になることです。yi=max(0, xiβ+εi)y_i=\max(0,\ x_i^\top\beta+\varepsilon_i)εiN(0,σ2)\varepsilon_i\sim N(0,\sigma^2) とします。

(a) yi>0y_i>0 の個体(連続部分). yi=xiβ+εiy_i=x_i^\top\beta+\varepsilon_i がそのまま観測されるので、寄与は正規密度

f(yixi)=1σϕ ⁣(yixiβσ)f(y_i\mid x_i)=\frac{1}{\sigma}\,\phi\!\Big(\frac{y_i-x_i^\top\beta}{\sigma}\Big)

要するに「正の観測は普通の回帰の密度で評価する」。

(b) yi=0y_i=0 の個体(離散質量). これは「y0y^*\le0 だった」という事象すべてに対応します。yy^* のどの値かは分からない(00 に潰れている)ので、寄与はその事象の確率(CDF)

P(yi=0xi)=P(yi0)=P(εixiβ)=Φ ⁣(xiβσ)=1Φ ⁣(xiβσ)P(y_i=0\mid x_i)=P(y_i^*\le0)=P(\varepsilon_i\le-x_i^\top\beta)=\Phi\!\Big(\frac{-x_i^\top\beta}{\sigma}\Big)=1-\Phi\!\Big(\frac{x_i^\top\beta}{\sigma}\Big)

要するに「00 の観測は『00 以下に潰れる確率』という塊(点質量)で評価する」。連続変数なのに y=0y=0 に有限の確率が集中する、ここが普通の回帰と決定的に違う点です。

(c) 尤度の合成. 全標本でこの2種を掛け合わせます(di=1{yi>0}d_i=\mathbf{1}\{y_i>0\} で場合分け)。

  L(β,σ)=i:yi>01σϕ ⁣(yixiβσ) × i:yi=0[1Φ ⁣(xiβσ)]  \boxed{\;L(\beta,\sigma)=\prod_{i:\,y_i>0}\frac{1}{\sigma}\phi\!\Big(\frac{y_i-x_i^\top\beta}{\sigma}\Big)\ \times\ \prod_{i:\,y_i=0}\Big[1-\Phi\!\Big(\frac{x_i^\top\beta}{\sigma}\Big)\Big]\;}

要するに「正の個体は密度で、0の個体はCDFで、それらの積を最大化する」。対数尤度

(β,σ)=i:yi>0[logϕ(yixiβσ)logσ]+i:yi=0log[1Φ(xiβσ)]\ell(\beta,\sigma)=\sum_{i:\,y_i>0}\Big[\log\phi\big(\tfrac{y_i-x_i^\top\beta}{\sigma}\big)-\log\sigma\Big] +\sum_{i:\,y_i=0}\log\Big[1-\Phi\big(\tfrac{x_i^\top\beta}{\sigma}\big)\Big]

を最大化します。これは β,σ\beta,\sigma について閉形式で解けず、ニュートン-ラフソン法等で数値的に解きます(最尤の一般論は 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論))。切断回帰の尤度は (b) の項を密度を切断確率で正規化した条件付き密度 (1/σ)ϕ()Φ(xβ/σ)\dfrac{(1/\sigma)\phi(\cdot)}{\Phi(x^\top\beta/\sigma)} に置き換えた形で、00 の個体はそもそも標本に居ません。

2.4 限界効果の注意(トービット)

トービットでは係数 β\betaそのまま限界効果ではありませんβj\beta_j は潜在変数 yy^* への効果であって、観測される yy への効果ではないからです。観測 yy の限界効果は(マクドナルド-モフィット分解)

E[yx]xj=βjΦ ⁣(xβσ)\frac{\partial E[y\mid x]}{\partial x_j}=\beta_j\cdot\Phi\!\Big(\frac{x^\top\beta}{\sigma}\Big)

要するに「観測 yy への効果は、係数 βj\beta_j を『y>0y>0 になる確率 Φ\Phi』で割り引いたもの」。00 が多い(Φ\Phi が小さい)ほど、潜在変数への効果が観測値に伝わりにくくなります。試験では「トービットの β\beta は潜在変数への効果。観測値の限界効果は Φ\Phi 倍に縮む」が引っかけ論点です。


3. 標本選択バイアスとヘーキット2段階

3.1 標本選択バイアスとは

切断・打ち切りを一般化したのが標本選択(sample selection)です。「観測されるかどうか」が、結果変数と相関する別のメカニズムで決まる状況を指します。古典例は賃金関数——賃金 yy働いている人しか観測できないが、「働くかどうか」の決定は賃金を左右する要因(能力・意欲)と相関します。すると観測標本(就業者)は無作為標本ではなく、OLSは選択バイアスを持ちます。

トービットとの違いは、選択の閾値と結果が別方程式である点です。トービット(タイプI)は「y0y^*\le0 なら 00」と1本の潜在変数で選択と結果が連動しますが、選択モデル(タイプII)は2本の方程式を持ちます。

選択方程式: si=wiγ+ui,si=1{si>0}(観測されるか)\text{選択方程式:}\ s_i^*=w_i^\top\gamma+u_i,\quad s_i=\mathbf{1}\{s_i^*>0\}\quad(\text{観測されるか}) 結果方程式: yi=xiβ+εi(si=1 のときだけ yi を観測)\text{結果方程式:}\ y_i=x_i^\top\beta+\varepsilon_i\quad(\text{}s_i=1\text{ のときだけ }y_i\text{ を観測})

そして誤差 (ui,εi)(u_i,\varepsilon_i)相関Corr=ρ0\mathrm{Corr}=\rho\neq0)しているのが選択バイアスの源です。ρ=0\rho=0(選択と結果が無関係)ならバイアスは生じません。

3.2 ヘーキット2段階と逆ミルズ比

ヘックマン(Heckit)2段階推定は、この選択バイアスを欠落変数問題として補正します。観測される yysi=1s_i=1)の条件付き期待値を取ると、切断のときと同じ機構で逆ミルズ比が現れます。

E[yisi=1,xi,wi]=xiβ+ρσεϕ(wiγ)Φ(wiγ)λi (逆ミルズ比)E[y_i\mid s_i=1,x_i,w_i]=x_i^\top\beta+\rho\sigma_\varepsilon\,\underbrace{\frac{\phi(w_i^\top\gamma)}{\Phi(w_i^\top\gamma)}}_{\lambda_i\ (\text{逆ミルズ比})}

要するに「観測標本での yy は、本来の xβx^\top\beta に『選択の度合いを表す項 ρσελi\rho\sigma_\varepsilon\lambda_i』が乗っている」。この λi\lambda_i欠落変数とみなして回帰に加えれば、バイアスが消えます。手順は:

flowchart LR
  S1["第1段階<br/>選択方程式をプロビット推定<br/>P(s=1)=Φ(w'γ)"] --> S2["各個体の<br/>逆ミルズ比<br/>λ=φ(w'γ̂)/Φ(w'γ̂)<br/>を計算"]
  S2 --> S3["第2段階<br/>観測標本(s=1)で<br/>y を x と λ に回帰<br/>(OLS)"]
  S3 --> S4["λ の係数 = ρσε<br/>有意なら選択バイアス有り"]
  1. 第1段階:全標本で「観測されるか ss」をプロビット回帰し、γ^\hat\gamma から各個体の逆ミルズ比 λ^i=ϕ(wiγ^)/Φ(wiγ^)\hat\lambda_i=\phi(w_i^\top\hat\gamma)/\Phi(w_i^\top\hat\gamma) を計算。
  2. 第2段階:観測標本(si=1s_i=1)だけで、yiy_ixix_iλ^i\hat\lambda_iOLS回帰λ^i\hat\lambda_i を入れたことで E[ε観測]=0E[\varepsilon\mid\text{観測}]=0 が回復し、β\beta が一致推定される。

λ^\hat\lambda の係数 ρσε\rho\sigma_\varepsilon が有意かどうかが選択バイアスの有無の検定になります(係数が0なら ρ=0\rho=0、つまり選択バイアスなし)。要するに「まず『観測される確率』をプロビットで測り、その情報(逆ミルズ比)を結果方程式に補助変数として足す」。

注意点(試験で問われる弱み). ヘーキットは (i) 誤差の2変量正規を仮定する、(ii) 選択方程式に結果方程式に無い変数(除外制約)が無いと、λ\lambdaxx とほぼ線形従属になり多重共線で不安定になる、という弱点があります。識別のためには「選択には効くが結果には直接効かない変数」が望ましい、という点が頻出論点です。


4. 試験での問われ方(1級)

社会科学分野の計量経済パートで、以下が典型的な出題角度です。

範囲・出題比重は改訂されうるため要最新確認。証明の完全再現より「どのモデルがどの状況に対応し、なぜOLSではダメか」という対応関係の説明が中心です。


5. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. 切断と打ち切りの違いを一言で言うと?

標本から消えるか、00 として残るか」です。切断(truncated)は条件を満たさない個体がデータセットから完全に欠落します(その個体の xxyy も手元に無い)。打ち切り(censored、トービット)は全個体がデータに残り、閾値以下の個体だけ被説明変数が端点(多くは 00)に潰れて記録されます。例えば労働時間で、無職の人を「対象から外す」のが切断、「00 時間として記録する」のが打ち切りです。打ち切りの方が「閾値以下の個体が存在した」という情報が残るぶん、推定に使える情報が多くなります。

Q2. なぜ y>0y>0 の標本だけで普通にOLSしてはいけないのですか?

yy を下から切ると、残った標本では誤差が平均的に正の側に偏るからです。小さい yy(負の誤差を持つ個体)が抜け落ちるので、観測標本では E[εy>0]>0E[\varepsilon\mid y>0]>0 となり、しかもこの偏りは xx に依存します(具体的には逆ミルズ比 σϕ/Φ\sigma\phi/\Phi という xx の関数)。これは欠落変数バイアスそのもので、OLSは係数を 00 方向に過小推定します。正しくは、切断回帰なら条件付き密度の最尤推定、選択バイアスならヘーキットで逆ミルズ比を補助変数として加えます。

Q3. トービットの尤度で、y=0y=0 の項だけ密度でなく確率(CDF)になるのはなぜですか?

y=0y=0 は「潜在変数 yy^*00 以下のどこかにあった」という事象全体に対応するからです。yy^*1-1 だったのか 3-3 だったのかは観測されず、すべて 00 に潰れています。観測されたのは「y0y^*\le0 という事象が起きた」ことだけなので、その寄与はその事象の確率 P(y0)=1Φ(xβ/σ)P(y^*\le0)=1-\Phi(x^\top\beta/\sigma) になります。一方 y>0y>0 の個体は yy^* の値がそのまま見えるので、点としての密度 1σϕ\frac1\sigma\phi で評価します。連続分布なのに y=0y=0 に有限の確率(点質量)が乗る、これがトービット尤度が「連続+離散の混合」と呼ばれる理由です。

Q4. IIAが「無関係な選択肢からの独立」とは、具体的に何が独立なのですか?

2つの選択肢の選ばれやすさの比」が「それ以外(無関係)の選択肢の存在・属性」から独立、という意味です。多項ロジットの式から、選択肢 jjmm の確率比は exp((zjzm)β)\exp((z_j-z_m)^\top\beta) となり、第3の選択肢 kk がどんなものでも、追加されても、この比は変わりません。問題は、似た選択肢(高い代替性)があるとこれが破綻することです。赤バスと青バスは実質同じなのに、IIAは「車:赤バス=1:1」を青バス追加後も保つため、車のシェアを不当に奪われたように予測してしまいます。だから代替性の濃淡がある状況では、ネステッドロジットや多項プロビットでIIAを緩める必要があります。

Q5. トービットとヘーキット(標本選択モデル)はどう使い分けるのですか?

観測されるかどうか」と「結果の大きさ」を別の要因で説明したいかどうかで決まります。トービット(タイプI)は、選択と結果が同一の潜在変数 yy^* で連動します——y0y^*\le0 なら 00、というように、00 になる理由と yy の大きさが同じ式から出ます。一方ヘーキット(タイプII)は、選択方程式(働くか)と結果方程式(賃金)を別々に持ち、両者の誤差相関 ρ\rho でバイアスを表します。賃金関数のように「就業の決定」と「賃金水準」が別のメカニズム(前者は留保賃金、後者は生産性)で動く場合はヘーキットが適切です。「すべての 00 が同じ潜在変数の端点解」と見なせるならトービットで十分です。

Q6. 順序ロジットと多項ロジットは、順序つきデータならどちらでもよいのですか?

原則は順序ロジットを使うべきです。多項ロジットは順序情報を捨てて各カテゴリを独立に扱うため、係数が増え(カテゴリごとに βj\beta_j)非効率で、しかも「満足>普通>不満」という順序の自然な制約を活かせません。順序ロジットは1本の β\beta +閾値で順序を表現し、簡潔かつ効率的です。ただし比例オッズ(平行性)仮定——説明変数の効果がどの閾値でも同じ——が前提です。これが崩れている(ある変数が低い満足度には効くが高い満足度には効かない等)なら、順序ロジットはミスフィットし、一般化順序ロジットや、いっそ多項ロジットの方が良いこともあります。まず順序モデルを当て、比例オッズ検定(Brant検定など)で仮定を確認するのが筋です。


まとめ


関連ノート