質的選択・切断回帰モデル｜統計検定テキスト

📊 対象級：1級　|　重要度：B（標準）

要点（BLUF）

被説明変数が「ふつうの連続変数ではない」（カテゴリである／一定範囲しか観測されない）ときの回帰を体系化します。土台はすべて潜在変数モデル——裏で連続的な強さ $y^*=x^\top\beta+\varepsilon$ が動き、その観測のされ方が違うだけです。2値プロビット（SVM・非線形回帰・プロビット分析）と同根なので、本ノートはそこからの差分として読んでください。

質的選択：応答がカテゴリ。3つ以上の名義カテゴリなら多項ロジット／条件付きロジット（ただしIIA＝無関係な選択肢からの独立という強い仮定が付く）、順序のあるカテゴリなら順序プロビット／順序ロジット（1本の $x^\top\beta$ を複数の閾値で区切る）。
切断回帰（truncated）と打ち切り回帰（censored＝トービット）の違いが最重要。切断は「条件を満たす標本しか手元に無い」（観測自体が選別）、打ち切りは「閾値以下が 0 に潰れて残る」。トービットは $y=\max(0,y^*)$ で、尤度が連続部分（密度）と離散質量（CDF）の混合になる。
なぜOLSではダメか：切断・打ち切りどちらも、 $y$ を切ったことで誤差の条件付き期待値が $0$ でなくなり（ $E[\varepsilon\mid \text{観測される}]\neq0$ ）、OLSは係数を0方向へ過小推定する。標本そのものが選別される標本選択バイアスはヘーキット2段階（選択方程式のプロビット→逆ミルズ比を結果方程式に投入）で補正する。

1級（統計応用・社会科学）では切断と打ち切りの区別・トービットの定式化・IIAの意味・なぜOLSが使えないかが問われます（範囲・配点は改訂されうるため要最新確認）。

graph TD
  ROOT["被説明変数が<br/>ふつうの連続変数でない"] --> CAT["カテゴリ（質的選択）"]
  ROOT --> LIM["連続だが範囲が制限<br/>（制限従属変数）"]
  CAT --> BIN["2値<br/>プロビット/ロジット<br/>（09-05で既出）"]
  CAT --> MULTI["3カテゴリ以上・名義<br/>多項ロジット<br/>条件付きロジット"]
  CAT --> ORD["順序つきカテゴリ<br/>順序プロビット/ロジット"]
  MULTI -.->|強い仮定| IIA["IIA<br/>無関係な選択肢からの独立"]
  LIM --> TRUNC["切断回帰<br/>条件外は標本に無い"]
  LIM --> CENS["打ち切り回帰＝トービット<br/>閾値以下は0で残る"]
  LIM --> SEL["標本選択バイアス<br/>→ ヘーキット2段階"]
  BIN -.->|潜在変数 y*=x'β+ε が同根| MULTI
  BIN -.-> ORD
  BIN -.-> CENS

1. 質的選択モデル

1.1 全体像 — 2値からの拡張

2値の応答 $y\in\{0,1\}$ は SVM・非線形回帰・プロビット分析でプロビット／ロジットとして扱いました。本節はその拡張で、応答が3つ以上のカテゴリになる場合です。カテゴリに順序があるかで2系統に分かれます。

応答の型	例	モデル	識別のための制約
2値	合格／不合格	プロビット・ロジット	閾値0・誤差分散1（09-05）
名義（順序なし）	通勤手段（電車／バス／車）	多項ロジット・条件付きロジット	基準カテゴリの係数を0
順序つき	満足度（不満／普通／満足）	順序プロビット・順序ロジット	閾値を昇順に並べ切片を吸収

要するに「カテゴリ数と順序の有無で道具が決まる」。以下、名義（1.2〜1.3）と順序（1.4）を分けて見ます。

1.2 多項ロジットと条件付きロジット

応答が $J$ 個の順序なしカテゴリ $\{1,\dots,J\}$ のとき、各カテゴリの選択確率を線形予測子から作ります。発想は「各カテゴリに効用 $V_j$ を割り当て、効用が最大のものが選ばれる」（ランダム効用モデル）。

多項ロジット（multinomial logit, MNL）. 説明変数 $x_i$ が個人ごとに決まる（年齢・所得など。カテゴリには依存しない）場合、カテゴリ $j$ ごとに別の係数 $\beta_j$ を持たせます。

P(y_i=j\mid x_i)=\frac{\exp(x_i^\top\beta_j)}{\sum_{k=1}^{J}\exp(x_i^\top\beta_k)}

要するに「各カテゴリの $\exp(\text{効用})$ を全カテゴリの和で割って確率にする」（ソフトマックス）。ただしこのままでは係数が一意に決まりません（全 $\beta_j$ に同じベクトルを足しても確率が不変）。そこで基準カテゴリ（例 $j=1$ ）の係数を $\beta_1=0$ と固定します。すると

P(y_i=j\mid x_i)=\frac{\exp(x_i^\top\beta_j)}{1+\sum_{k=2}^{J}\exp(x_i^\top\beta_k)}\quad(j\ge2),\qquad \log\frac{P(y_i=j)}{P(y_i=1)}=x_i^\top\beta_j

要するに「基準カテゴリに対する対数オッズが線形になる」。 $J=2$ なら通常のロジットに一致します。

条件付きロジット（conditional logit, CL）. 説明変数がカテゴリ（選択肢）ごとに値を持つ（各交通手段の所要時間・料金など）場合は、係数を1組 $\beta$ に共通化し、属性 $z_{ij}$ （個人 $i$ ・選択肢 $j$ の属性）を使います。

P(y_i=j)=\frac{\exp(z_{ij}^\top\beta)}{\sum_{k=1}^{J}\exp(z_{ik}^\top\beta)}

要するに「選択肢の属性そのもの（速い・安い等）で確率を説明する」。MNLが「人の属性で確率が変わる」のに対し、CLは「選択肢の属性で確率が変わる」。両者を混ぜた一般形が混合ロジットです。試験では「個人属性ならMNL、選択肢属性ならCL」という対応を押さえれば十分です。

1.3 IIA仮定（無関係な選択肢からの独立）

MNL／CLには強い前提が組み込まれています。IIA（Independence of Irrelevant Alternatives）——2つの選択肢の確率比が、他の選択肢の存在に左右されないという性質です。上の式から、任意の2カテゴリ $j,m$ について

\frac{P(y_i=j)}{P(y_i=m)}=\frac{\exp(z_{ij}^\top\beta)}{\exp(z_{im}^\top\beta)}=\exp\!\big((z_{ij}-z_{im})^\top\beta\big)

要するに「 $j$ と $m$ の確率比は、 $j$ と $m$ の属性だけで決まり、第3の選択肢 $k$ の中身に一切依存しない」（分母が約分で消える）。これがIIAの正体です。

何が問題か——赤バス／青バスの逆説. 古典的な反例があります。いま通勤手段が「車」と「赤いバス」で半々（各 $1/2$ ）だとします。ここに色だけ違う「青いバス」を加えると、バス利用者にとって赤・青は実質同じものなので、本来は「車 $1/2$ 、赤バス $1/4$ 、青バス $1/4$ 」となるはず。ところがIIAは「車：赤バスの比＝1:1」を新選択肢を加えても保つため、MNLは「車 $1/3$ 、赤バス $1/3$ 、青バス $1/3$ 」と誤って予測します。要するに「似た選択肢（代替性の高いもの）が混じると、IIAは確率を不当に奪い合わせる」。

graph LR
  subgraph 真の挙動
    A1["車 1/2"]
    A2["赤バス 1/4"]
    A3["青バス 1/4"]
  end
  subgraph IIA["IIAの予測（MNL）"]
    B1["車 1/3"]
    B2["赤バス 1/3"]
    B3["青バス 1/3"]
  end
  NOTE["青バス追加でも<br/>車:赤バス=1:1 を保つ<br/>→ 車の確率が不当に減る"]

回避策. IIAが破れる（選択肢間に代替性の濃淡がある）状況では、

ネステッド（入れ子）ロジット：選択肢を階層（まず「車かバスか」、次にバス内で「赤か青か」）に分け、入れ子内だけ相関を許す。
多項プロビット：誤差を多変量正規にして選択肢間の相関を直接モデル化（IIAを課さない）。ただし高次元の正規積分が必要で計算が重い。

IIAが成り立つときの利点は「選択肢集合の一部だけでも一致推定できる」こと。逆に言えば、IIAが妥当かはハウスマン検定などで検証すべき論点です。試験では「MNLはIIAを仮定する／IIAが破れる典型が代替性の高い選択肢／回避はネステッドロジットや多項プロビット」が頻出です。

1.4 順序選択モデル（順序プロビット／順序ロジット）

応答に順序がある（満足度の5段階、信用格付け等）ときは、カテゴリごとに別係数を持たせる多項ロジットは順序情報を捨ててしまい非効率です。代わりに、1本の潜在変数を複数の閾値で区切るのが順序選択モデルです。

潜在変数 $y_i^*=x_i^\top\beta+\varepsilon_i$ を考え、昇順の閾値 $\alpha_1<\alpha_2<\dots<\alpha_{J-1}$ で区切ります。

y_i=\begin{cases} 1 & (y_i^*\le \alpha_1)\\ 2 & (\alpha_1< y_i^*\le \alpha_2)\\ \ \vdots & \\ J & (\alpha_{J-1}< y_i^*) \end{cases}

要するに「裏の連続量 $y^*$ がどの帯に落ちたかで、観測カテゴリが決まる」。誤差 $\varepsilon$ のCDFを $F$ （正規なら順序プロビット、ロジスティックなら順序ロジット）とすると、カテゴリ $j$ の確率は閾値での累積差になります。

P(y_i=j\mid x_i)=F(\alpha_j-x_i^\top\beta)-F(\alpha_{j-1}-x_i^\top\beta) \qquad(\alpha_0=-\infty,\ \alpha_J=+\infty)

要するに「 $j$ の確率＝『 $\alpha_j$ 以下の累積』から『 $\alpha_{j-1}$ 以下の累積』を引いた帯の面積」。閾値と切片は同時識別できないので、切片を $0$ に固定するか閾値を自由パラメータにして識別します。

平行性（比例オッズ）仮定. この定式化では、説明変数の係数 $\beta$ がどの閾値でも共通—— $x$ が動くと潜在変数 $y^*$ が平行移動し、すべての帯境界が一斉に動く、という制約が入ります。順序ロジットでは、これは「どこで2分しても対数オッズの傾きが等しい」＝比例オッズ（proportional odds）仮定として現れます。

\log\frac{P(y_i\le j)}{P(y_i> j)}=\alpha_j-x_i^\top\beta\quad(\text{傾き }\beta\text{ は }j\text{ に依らず共通})

要するに「カテゴリをどこで切っても、説明変数の効き目（傾き）は同じ」。この仮定が崩れると（変数の効果が帯ごとに違う）順序モデルは不適切で、一般化順序ロジットなどが必要です。試験では「順序モデルは閾値で潜在変数を区切る／係数は全閾値共通（平行性・比例オッズ）／多項ロジットと違い順序情報を使う」が要点です。

2. 制限従属変数モデル — 切断と打ち切り

ここからは応答が連続だが観測範囲が制限されるケースです。切断（truncation）と打ち切り（censoring）の区別が本章の核心で、1級で最も問われます。

2.1 切断と打ち切りの違い（最重要）

同じ「 $y>0$ の部分しか興味がない」状況でも、標本に何が残るかが決定的に違います。

	切断（truncated）	打ち切り（censored・トービット）
観測される標本	条件を満たす個体のみ（ $y>0$ の人だけ）	全個体。ただし $y\le0$ は値が $0$ に潰れる
説明変数 $x$	条件を満たす個体しか観測できない	全個体で観測できる
例	所得が一定以下の世帯は調査対象外	労働供給時間。働いていない人は $0$ 時間として記録に残る
失う情報	「閾値以下の個体が存在したこと」自体が消える	個体の存在は残るが、 $0$ 以下の真の値が潰れる
観測の仕組み	$y$ で選別（ $y$ が見えるかが $y$ 自身で決まる）	$y^*$ を $0$ で下から押し上げる

要するに「切断＝標本から消える／打ち切り＝0として残る」。情報の残り方が違うので尤度の形も変わります（打ち切りの方が『 $0$ 以下だった』という情報が残るぶん有利）。

graph TD
  STAR["潜在変数 y* = x'β + ε"] --> Q{"y* ≦ 閾値0 か?"}
  Q -->|切断| TR{"標本に含めるか"}
  TR -->|y*≦0 は除外| TROUT["データから消える<br/>（x も y も無い）"]
  TR -->|y*>0 のみ| TRIN["y = y* を観測"]
  Q -->|打ち切り| CE{"観測値の付け方"}
  CE -->|y*≦0| CEZERO["y = 0 として記録<br/>（x は残る）"]
  CE -->|y*>0| CEPOS["y = y* を観測"]

2.2 なぜOLSではダメか — 切られた誤差の期待値

直観： $y$ を下から切ると、残った標本では誤差 $\varepsilon$ が平均的に正の側に偏る（小さい $y$ 、つまり負の $\varepsilon$ を持つ個体が抜ける／潰れる）。すると $E[\varepsilon\mid\text{観測}]\neq0$ となり、OLSの大前提（説明変数と無相関な平均0の誤差）が崩れます。

切断回帰の条件付き期待値（導出）. $y^*=x^\top\beta+\varepsilon$ 、 $\varepsilon\sim N(0,\sigma^2)$ とし、 $y^*>0$ の標本だけを観測する（切断）。観測された $y$ の条件付き期待値は

E[y\mid y>0,x]=x^\top\beta+E[\varepsilon\mid \varepsilon>-x^\top\beta]

正規分布の切断モーメントの公式 $E[\varepsilon\mid\varepsilon>c]=\sigma\,\dfrac{\phi(c/\sigma)}{1-\Phi(c/\sigma)}$ を $c=-x^\top\beta$ に当てると

\boxed{\;E[y\mid y>0,x]=x^\top\beta+\sigma\,\underbrace{\frac{\phi(x^\top\beta/\sigma)}{\Phi(x^\top\beta/\sigma)}}_{\text{逆ミルズ比 }\lambda}\;}

ここで $\phi,\Phi$ は標準正規の密度・CDF、 $\lambda(\cdot)=\phi/\Phi$ を逆ミルズ比（inverse Mills ratio）と呼びます。要するに「切断後の平均は、本来の $x^\top\beta$ に正の下駄 $\sigma\lambda$ が乗る」。この $\sigma\lambda$ は $x$ の関数なので、OLSで無視すると欠落変数バイアスになり、係数は0方向に過小推定されます。

打ち切り（トービット）の無条件期待値. 打ち切りでは $y=\max(0,y^*)$ なので、 $0$ も含めた全標本の期待値は「 $y>0$ になる確率 × 正の部分の条件付き期待値」で

E[y\mid x]=\Phi\!\Big(\frac{x^\top\beta}{\sigma}\Big)\Big[x^\top\beta+\sigma\,\lambda\Big(\frac{x^\top\beta}{\sigma}\Big)\Big]

要するに「 $0$ が多いほど平均が押し下げられ、 $x$ の効き目（限界効果）も $\Phi$ の分だけ縮む」。だから「 $y$ に直接OLS」も「 $y>0$ だけでOLS」も、どちらも $\beta$ を歪めます。正しくは最尤推定です。

2.3 トービットモデルの尤度（連続部分＋離散質量の混合）

トービットの最尤推定の肝は、尤度が2種類の寄与の積になることです。 $y_i=\max(0,\ x_i^\top\beta+\varepsilon_i)$ 、 $\varepsilon_i\sim N(0,\sigma^2)$ とします。

(a) $y_i>0$ の個体（連続部分）. $y_i=x_i^\top\beta+\varepsilon_i$ がそのまま観測されるので、寄与は正規密度：

f(y_i\mid x_i)=\frac{1}{\sigma}\,\phi\!\Big(\frac{y_i-x_i^\top\beta}{\sigma}\Big)

要するに「正の観測は普通の回帰の密度で評価する」。

(b) $y_i=0$ の個体（離散質量）. これは「 $y^*\le0$ だった」という事象すべてに対応します。 $y^*$ のどの値かは分からない（ $0$ に潰れている）ので、寄与はその事象の確率（CDF）：

P(y_i=0\mid x_i)=P(y_i^*\le0)=P(\varepsilon_i\le-x_i^\top\beta)=\Phi\!\Big(\frac{-x_i^\top\beta}{\sigma}\Big)=1-\Phi\!\Big(\frac{x_i^\top\beta}{\sigma}\Big)

要するに「 $0$ の観測は『 $0$ 以下に潰れる確率』という塊（点質量）で評価する」。連続変数なのに $y=0$ に有限の確率が集中する、ここが普通の回帰と決定的に違う点です。

(c) 尤度の合成. 全標本でこの2種を掛け合わせます（ $d_i=\mathbf{1}\{y_i>0\}$ で場合分け）。

\boxed{\;L(\beta,\sigma)=\prod_{i:\,y_i>0}\frac{1}{\sigma}\phi\!\Big(\frac{y_i-x_i^\top\beta}{\sigma}\Big)\ \times\ \prod_{i:\,y_i=0}\Big[1-\Phi\!\Big(\frac{x_i^\top\beta}{\sigma}\Big)\Big]\;}

要するに「正の個体は密度で、0の個体はCDFで、それらの積を最大化する」。対数尤度

\ell(\beta,\sigma)=\sum_{i:\,y_i>0}\Big[\log\phi\big(\tfrac{y_i-x_i^\top\beta}{\sigma}\big)-\log\sigma\Big] +\sum_{i:\,y_i=0}\log\Big[1-\Phi\big(\tfrac{x_i^\top\beta}{\sigma}\big)\Big]

を最大化します。これは $\beta,\sigma$ について閉形式で解けず、ニュートン-ラフソン法等で数値的に解きます（最尤の一般論は最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論））。切断回帰の尤度は (b) の項を密度を切断確率で正規化した条件付き密度 $\dfrac{(1/\sigma)\phi(\cdot)}{\Phi(x^\top\beta/\sigma)}$ に置き換えた形で、 $0$ の個体はそもそも標本に居ません。

2.4 限界効果の注意（トービット）

トービットでは係数 $\beta$ がそのまま限界効果ではありません。 $\beta_j$ は潜在変数 $y^*$ への効果であって、観測される $y$ への効果ではないからです。観測 $y$ の限界効果は（マクドナルド-モフィット分解）

\frac{\partial E[y\mid x]}{\partial x_j}=\beta_j\cdot\Phi\!\Big(\frac{x^\top\beta}{\sigma}\Big)

要するに「観測 $y$ への効果は、係数 $\beta_j$ を『 $y>0$ になる確率 $\Phi$ 』で割り引いたもの」。 $0$ が多い（ $\Phi$ が小さい）ほど、潜在変数への効果が観測値に伝わりにくくなります。試験では「トービットの $\beta$ は潜在変数への効果。観測値の限界効果は $\Phi$ 倍に縮む」が引っかけ論点です。

3. 標本選択バイアスとヘーキット2段階

3.1 標本選択バイアスとは

切断・打ち切りを一般化したのが標本選択（sample selection）です。「観測されるかどうか」が、結果変数と相関する別のメカニズムで決まる状況を指します。古典例は賃金関数——賃金 $y$ は働いている人しか観測できないが、「働くかどうか」の決定は賃金を左右する要因（能力・意欲）と相関します。すると観測標本（就業者）は無作為標本ではなく、OLSは選択バイアスを持ちます。

トービットとの違いは、選択の閾値と結果が別方程式である点です。トービット（タイプI）は「 $y^*\le0$ なら $0$ 」と1本の潜在変数で選択と結果が連動しますが、選択モデル（タイプII）は2本の方程式を持ちます。

\text{選択方程式：}\ s_i^*=w_i^\top\gamma+u_i,\quad s_i=\mathbf{1}\{s_i^*>0\}\quad(\text{観測されるか})

\text{結果方程式：}\ y_i=x_i^\top\beta+\varepsilon_i\quad(\text{}s_i=1\text{ のときだけ }y_i\text{ を観測})

そして誤差 $(u_i,\varepsilon_i)$ が相関（ $\mathrm{Corr}=\rho\neq0$ ）しているのが選択バイアスの源です。 $\rho=0$ （選択と結果が無関係）ならバイアスは生じません。

3.2 ヘーキット2段階と逆ミルズ比

ヘックマン（Heckit）2段階推定は、この選択バイアスを欠落変数問題として補正します。観測される $y$ （ $s_i=1$ ）の条件付き期待値を取ると、切断のときと同じ機構で逆ミルズ比が現れます。

E[y_i\mid s_i=1,x_i,w_i]=x_i^\top\beta+\rho\sigma_\varepsilon\,\underbrace{\frac{\phi(w_i^\top\gamma)}{\Phi(w_i^\top\gamma)}}_{\lambda_i\ (\text{逆ミルズ比})}

要するに「観測標本での $y$ は、本来の $x^\top\beta$ に『選択の度合いを表す項 $\rho\sigma_\varepsilon\lambda_i$ 』が乗っている」。この $\lambda_i$ を欠落変数とみなして回帰に加えれば、バイアスが消えます。手順は：

flowchart LR
  S1["第1段階<br/>選択方程式をプロビット推定<br/>P(s=1)=Φ(w'γ)"] --> S2["各個体の<br/>逆ミルズ比<br/>λ=φ(w'γ̂)/Φ(w'γ̂)<br/>を計算"]
  S2 --> S3["第2段階<br/>観測標本(s=1)で<br/>y を x と λ に回帰<br/>（OLS）"]
  S3 --> S4["λ の係数 = ρσε<br/>有意なら選択バイアス有り"]

第1段階：全標本で「観測されるか $s$ 」をプロビット回帰し、 $\hat\gamma$ から各個体の逆ミルズ比 $\hat\lambda_i=\phi(w_i^\top\hat\gamma)/\Phi(w_i^\top\hat\gamma)$ を計算。
第2段階：観測標本（ $s_i=1$ ）だけで、 $y_i$ を $x_i$ と $\hat\lambda_i$ にOLS回帰。 $\hat\lambda_i$ を入れたことで $E[\varepsilon\mid\text{観測}]=0$ が回復し、 $\beta$ が一致推定される。

$\hat\lambda$ の係数 $\rho\sigma_\varepsilon$ が有意かどうかが選択バイアスの有無の検定になります（係数が0なら $\rho=0$ 、つまり選択バイアスなし）。要するに「まず『観測される確率』をプロビットで測り、その情報（逆ミルズ比）を結果方程式に補助変数として足す」。

注意点（試験で問われる弱み）. ヘーキットは (i) 誤差の2変量正規を仮定する、(ii) 選択方程式に結果方程式に無い変数（除外制約）が無いと、 $\lambda$ が $x$ とほぼ線形従属になり多重共線で不安定になる、という弱点があります。識別のためには「選択には効くが結果には直接効かない変数」が望ましい、という点が頻出論点です。

4. 試験での問われ方（1級）

社会科学分野の計量経済パートで、以下が典型的な出題角度です。

切断と打ち切りの区別：「観測値が標本から除かれるのは切断か打ち切りか」「トップコーディング（上限で頭打ち）はどちらか」を問う。切断＝標本から消える／打ち切り＝端点に潰れて残るを即答できること。トップコーディングは打ち切り（上側）。
トービットの定式化： $y=\max(0,y^*)$ 、 $y^*=x^\top\beta+\varepsilon$ を書かせ、尤度が連続部分（密度 $\phi$ ）と離散質量（CDF $\Phi$ ）の混合になる理由を説明させる。 $y=0$ の寄与が密度ではなく確率（点質量）である点が核心。
なぜOLSが使えないか：切断・打ち切りで $E[\varepsilon\mid\text{観測}]\neq0$ となり、係数が0方向に過小推定される。逆ミルズ比という欠落変数が生じることを述べられること。
IIAの意味と破れる例：MNL／CLが課す「2選択肢の確率比が第3の選択肢に依存しない」性質。赤バス／青バスのような代替性の高い選択肢で破れる。回避はネステッドロジット・多項プロビット。
順序モデルの平行性（比例オッズ）仮定：1本の潜在変数を閾値で区切り、係数 $\beta$ が全閾値で共通。多項ロジットとの違い（順序情報を使う・係数が少ない）。
ヘーキット2段階：第1段階プロビット→逆ミルズ比→第2段階OLS、という流れと、 $\lambda$ の係数が選択バイアスの検定になること。除外制約の必要性。
限界効果：トービットの $\beta$ は潜在変数への効果。観測 $y$ への効果は $\Phi$ 倍に縮む（マクドナルド-モフィット）。

範囲・出題比重は改訂されうるため要最新確認。証明の完全再現より「どのモデルがどの状況に対応し、なぜOLSではダメか」という対応関係の説明が中心です。

5. 引っかけ・頻出論点

⚠️ 切断と打ち切りの取り違え：切断は「条件を満たす個体しか手元に無い」（ $x$ も $y$ も欠ける）、打ち切りは「全個体が残り閾値以下が $0$ に潰れる」（ $x$ は残る）。「働いていない人を $0$ 時間で記録」は打ち切り、「低所得世帯を調査から除外」は切断。情報量は打ち切りの方が多い。
⚠️ トービットの $y=0$ は密度ではなく確率：尤度で $y>0$ は密度 $\frac1\sigma\phi$ 、 $y=0$ は確率 $1-\Phi$ 。連続変数なのに $0$ に点質量が集中する。これを「全部密度」と書くと尤度が誤り。
⚠️ トービットの係数 $\beta$ ＝限界効果ではない： $\beta$ は潜在変数 $y^*$ への効果。観測 $y$ への限界効果は $\beta\cdot\Phi(x^\top\beta/\sigma)$ で、 $0$ が多いほど縮む。係数をそのまま「 $x$ が1増えると $y$ が $\beta$ 増える」と読むのは誤り。
⚠️ IIAは「無関係な選択肢からの独立」であって誤差の独立ではない：2選択肢の確率比が第3の選択肢に依存しない、という選択肢集合に関する性質。「誤差項が独立」と混同しない（実際MNLの裏にはガンベル誤差の独立仮定があるが、IIAという用語が指すのは確率比の不変性）。
⚠️ 赤バス／青バスはIIAの破れの例：代替性の高い（似た）選択肢が混じるとIIAが不当な結果を生む。回避はネステッドロジット（階層化）か多項プロビット（誤差相関を許す）。「IIAが常に成り立つ」は誤り。
⚠️ 順序モデルは多項ロジットより係数が少ない：順序モデルは1本の $\beta$ ＋閾値 $\alpha_1<\dots<\alpha_{J-1}$ 。多項ロジットはカテゴリごとに $\beta_j$ 。順序があるのに多項ロジットを使うと順序情報を捨て非効率。逆に平行性（比例オッズ）が崩れているのに順序モデルを使うと誤り。
⚠️ ヘーキットの除外制約：選択方程式に「結果には効かないが選択には効く変数」が無いと、逆ミルズ比 $\lambda$ が $x$ とほぼ線形従属になり多重共線で不安定。識別には除外変数が望ましい。
⚠️ トービット（タイプI）と選択モデル（タイプII）は別物：トービットは選択と結果が同一の潜在変数で連動（ $y^*\le0$ なら $0$ ）。ヘーキットは選択方程式と結果方程式が別で誤差相関 $\rho$ を許す。賃金関数のように「観測の決定」と「結果の大きさ」を分けたいときはタイプII。

よくある疑問（Q&A）

Q1. 切断と打ち切りの違いを一言で言うと?

「標本から消えるか、 $0$ として残るか」です。切断（truncated）は条件を満たさない個体がデータセットから完全に欠落します（その個体の $x$ も $y$ も手元に無い）。打ち切り（censored、トービット）は全個体がデータに残り、閾値以下の個体だけ被説明変数が端点（多くは $0$ ）に潰れて記録されます。例えば労働時間で、無職の人を「対象から外す」のが切断、「 $0$ 時間として記録する」のが打ち切りです。打ち切りの方が「閾値以下の個体が存在した」という情報が残るぶん、推定に使える情報が多くなります。

Q2. なぜ $y>0$ の標本だけで普通にOLSしてはいけないのですか?

$y$ を下から切ると、残った標本では誤差が平均的に正の側に偏るからです。小さい $y$ （負の誤差を持つ個体）が抜け落ちるので、観測標本では $E[\varepsilon\mid y>0]>0$ となり、しかもこの偏りは $x$ に依存します（具体的には逆ミルズ比 $\sigma\phi/\Phi$ という $x$ の関数）。これは欠落変数バイアスそのもので、OLSは係数を $0$ 方向に過小推定します。正しくは、切断回帰なら条件付き密度の最尤推定、選択バイアスならヘーキットで逆ミルズ比を補助変数として加えます。

Q3. トービットの尤度で、 $y=0$ の項だけ密度でなく確率（CDF）になるのはなぜですか?

$y=0$ は「潜在変数 $y^*$ が $0$ 以下のどこかにあった」という事象全体に対応するからです。 $y^*$ が $-1$ だったのか $-3$ だったのかは観測されず、すべて $0$ に潰れています。観測されたのは「 $y^*\le0$ という事象が起きた」ことだけなので、その寄与はその事象の確率 $P(y^*\le0)=1-\Phi(x^\top\beta/\sigma)$ になります。一方 $y>0$ の個体は $y^*$ の値がそのまま見えるので、点としての密度 $\frac1\sigma\phi$ で評価します。連続分布なのに $y=0$ に有限の確率（点質量）が乗る、これがトービット尤度が「連続＋離散の混合」と呼ばれる理由です。

Q4. IIAが「無関係な選択肢からの独立」とは、具体的に何が独立なのですか?

「2つの選択肢の選ばれやすさの比」が「それ以外（無関係）の選択肢の存在・属性」から独立、という意味です。多項ロジットの式から、選択肢 $j$ と $m$ の確率比は $\exp((z_j-z_m)^\top\beta)$ となり、第3の選択肢 $k$ がどんなものでも、追加されても、この比は変わりません。問題は、似た選択肢（高い代替性）があるとこれが破綻することです。赤バスと青バスは実質同じなのに、IIAは「車：赤バス＝1:1」を青バス追加後も保つため、車のシェアを不当に奪われたように予測してしまいます。だから代替性の濃淡がある状況では、ネステッドロジットや多項プロビットでIIAを緩める必要があります。

Q5. トービットとヘーキット（標本選択モデル）はどう使い分けるのですか?

「観測されるかどうか」と「結果の大きさ」を別の要因で説明したいかどうかで決まります。トービット（タイプI）は、選択と結果が同一の潜在変数 $y^*$ で連動します—— $y^*\le0$ なら $0$ 、というように、 $0$ になる理由と $y$ の大きさが同じ式から出ます。一方ヘーキット（タイプII）は、選択方程式（働くか）と結果方程式（賃金）を別々に持ち、両者の誤差相関 $\rho$ でバイアスを表します。賃金関数のように「就業の決定」と「賃金水準」が別のメカニズム（前者は留保賃金、後者は生産性）で動く場合はヘーキットが適切です。「すべての $0$ が同じ潜在変数の端点解」と見なせるならトービットで十分です。

Q6. 順序ロジットと多項ロジットは、順序つきデータならどちらでもよいのですか?

原則は順序ロジットを使うべきです。多項ロジットは順序情報を捨てて各カテゴリを独立に扱うため、係数が増え（カテゴリごとに $\beta_j$ ）非効率で、しかも「満足＞普通＞不満」という順序の自然な制約を活かせません。順序ロジットは1本の $\beta$ ＋閾値で順序を表現し、簡潔かつ効率的です。ただし比例オッズ（平行性）仮定——説明変数の効果がどの閾値でも同じ——が前提です。これが崩れている（ある変数が低い満足度には効くが高い満足度には効かない等）なら、順序ロジットはミスフィットし、一般化順序ロジットや、いっそ多項ロジットの方が良いこともあります。まず順序モデルを当て、比例オッズ検定（Brant検定など）で仮定を確認するのが筋です。

まとめ

すべて潜在変数モデル $y^*=x^\top\beta+\varepsilon$ が土台で、2値プロビット（SVM・非線形回帰・プロビット分析）と同根。観測のされ方だけが違う。
質的選択：名義3カテゴリ以上は多項ロジット（個人属性）／条件付きロジット（選択肢属性）。両者はIIA（無関係な選択肢からの独立）を仮定し、代替性の高い選択肢（赤バス／青バス）で破れる。回避はネステッドロジット・多項プロビット。順序つきは順序プロビット／ロジットで、1本の潜在変数を閾値で区切り、係数は全閾値共通（平行性・比例オッズ）。
制限従属変数：切断（標本から消える）と打ち切り＝トービット（ $0$ に潰れて残る）の区別が核心。トービットは $y=\max(0,y^*)$ で、尤度は $y>0$ の密度 $\frac1\sigma\phi$ と $y=0$ の確率 $1-\Phi$ の混合。閉形式で解けず最尤（最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論））。
なぜOLSがダメか： $y$ を切ると $E[\varepsilon\mid\text{観測}]\neq0$ となり、逆ミルズ比 $\phi/\Phi$ という欠落変数が生じて係数が0方向に過小推定。
標本選択バイアス：選択方程式と結果方程式が別で誤差相関 $\rho\neq0$ 。ヘーキット2段階＝第1段階プロビット→逆ミルズ比→第2段階OLSで補正。 $\lambda$ の係数が選択バイアスの検定。除外制約が識別に望ましい。
限界効果：トービットの $\beta$ は潜在変数への効果。観測 $y$ への効果は $\Phi$ 倍に縮む。