標本選択とヘックマン補正

🎓 レベル：発展　|　重要度：B（推奨） 📎 土台：ロジット・プロビット（選択方程式＝プロビット）・衝突点バイアスと選択バイアス（因果推論）

要点（BLUF）

標本選択バイアス ＝観測される標本が非ランダムに選ばれるために生じる偏り。古典例は「働いている人だけ賃金が見える」女性労働の賃金関数（Heckman）。
観測された部分だけで回帰すると、選択（働く決定）と賃金が共通の未観測要因でつながっているため、係数が偏ります。トービット（トービット・打ち切り回帰）と違い、観測の有無が別の方程式で決まるのが特徴。
解はヘックマンの2段階（Heckit）：まず選択方程式（プロビット）を推定し、そこから作る逆ミルズ比を結果方程式に入れて選択を制御します。

1. 問題：見えている標本が代表的でない

賃金 $w$ を学歴などで説明したいが、観測できるのは就業している人だけ。就業の決定 $s=1$ は、観測できない「やる気・健康・留保賃金」に依存し、それらは賃金 $w$ にも効きます。すると「観測された $w$ 」は、これらの未観測要因について選別された標本——平均的に賃金が高い（または低い）方向に偏っています。

形式的には、結果方程式 $w=x\beta+\varepsilon$ と選択方程式 $s^*=z\gamma+u$ （ $s=1\iff s^*>0$ ）があり、誤差 $\varepsilon$ と $u$ が相関するとき、観測標本（ $s=1$ ）での $E[\varepsilon\mid s=1]\neq 0$ となりOLSが偏ります。これは因果推論の選択バイアス・衝突点（衝突点バイアスと選択バイアス）の計量版です。

flowchart LR
    U["未観測要因（やる気・健康）"] --> S["就業する s=1（選択方程式・プロビット）"]
    U --> W["賃金 w（結果方程式）"]
    S -->|"s=1 の人だけ w が見える"| OBS["観測標本は非ランダムに選別"]
    OBS --> B["観測標本だけのOLSは偏る"]

2. ヘックマンの2段階補正（Heckit）

第1段（選択方程式）：全標本で「観測されるか（働くか）」をプロビット（ロジット・プロビット）で推定。そこから各個体の逆ミルズ比 $\lambda=\phi(z\hat\gamma)/\Phi(z\hat\gamma)$ を計算します。これは「選別された標本にいることの度合い」を表す補正項。
第2段（結果方程式）：観測標本で $w=x\beta+\rho\,\lambda+\varepsilon$ を回帰。 $\lambda$ を説明変数に加えることで、 $E[\varepsilon\mid s=1]$ の偏りを吸収し、 $\beta$ を一致推定します。 $\lambda$ の係数 $\rho$ が有意なら選択バイアスが存在した証拠。

これは「選択を制御変数として回帰に入れ直す」操作で、操作変数（第3章）が外生変動を借りるのとは別ルートの内生性対処です。最尤で同時推定する完全情報版（FIML Heckman）もあります。

3. 識別の勘所：除外変数が要る

ヘックマンが信頼できる鍵は、選択方程式 $z$ に、結果方程式 $x$ には含まれない除外変数があること——「就業決定には効くが賃金には直接効かない」変数（子どもの数、配偶者の所得など）。これが無いと、逆ミルズ比が $x$ とほぼ共線になり、補正が関数形の仮定（正規性）だけに頼る危険な推定になります。操作変数の除外制約（操作変数の考え方）と同じ発想で、選択の除外変数の説得力が推定の質を決めます。

⚠️ よくある誤解・落とし穴

「観測できる人だけで回帰すればよい」ではない：選択が未観測要因で決まるなら偏る。トービットでもなく、選択の構造をモデル化する。
「ヘックマンは除外変数なしでも動く」ではない：除外変数が無いと正規性の仮定だけに依存し、不安定。除外変数の正当化が肝。
トービットとヘックマンの混同：0で打ち切り（個体は標本に居る）はトービット、観測の有無が別方程式（個体ごと欠落）はヘックマン。
「 $\lambda$ が非有意＝選択バイアス無し」と即断しない：検出力やモデル誤指定で見逃すことも。設計段階で選択の有無を吟味する。

要点（BLUF）

1. 問題：見えている標本が代表的でない

2. ヘックマンの2段階補正（Heckit）

3. 識別の勘所：除外変数が要る

⚠️ よくある誤解・落とし穴

関連ノート