🎓 レベル:発展 | 重要度:B(推奨) 📎 土台:ロジット・プロビット(選択方程式=プロビット)・衝突点バイアスと選択バイアス(因果推論)
要点(BLUF)
- 標本選択バイアス = 観測される標本が非ランダムに選ばれるために生じる偏り。古典例は「働いている人だけ賃金が見える」女性労働の賃金関数(Heckman)。
- 観測された部分だけで回帰すると、選択(働く決定)と賃金が共通の未観測要因でつながっているため、係数が偏ります。トービット(トービット・打ち切り回帰)と違い、観測の有無が別の方程式で決まるのが特徴。
- 解はヘックマンの2段階(Heckit):まず選択方程式(プロビット)を推定し、そこから作る逆ミルズ比を結果方程式に入れて選択を制御します。
1. 問題:見えている標本が代表的でない
賃金 を学歴などで説明したいが、観測できるのは就業している人だけ。就業の決定 は、観測できない「やる気・健康・留保賃金」に依存し、それらは賃金 にも効きます。すると「観測された 」は、これらの未観測要因について選別された標本——平均的に賃金が高い(または低い)方向に偏っています。
形式的には、結果方程式 と選択方程式 ()があり、誤差 と が相関するとき、観測標本()での となりOLSが偏ります。これは因果推論の選択バイアス・衝突点(衝突点バイアスと選択バイアス)の計量版です。
flowchart LR
U["未観測要因(やる気・健康)"] --> S["就業する s=1(選択方程式・プロビット)"]
U --> W["賃金 w(結果方程式)"]
S -->|"s=1 の人だけ w が見える"| OBS["観測標本は非ランダムに選別"]
OBS --> B["観測標本だけのOLSは偏る"]
2. ヘックマンの2段階補正(Heckit)
- 第1段(選択方程式):全標本で「観測されるか(働くか)」をプロビット(ロジット・プロビット)で推定。そこから各個体の逆ミルズ比 を計算します。これは「選別された標本にいることの度合い」を表す補正項。
- 第2段(結果方程式):観測標本で を回帰。 を説明変数に加えることで、 の偏りを吸収し、 を一致推定します。 の係数 が有意なら選択バイアスが存在した証拠。
これは「選択を制御変数として回帰に入れ直す」操作で、操作変数(第3章)が外生変動を借りるのとは別ルートの内生性対処です。最尤で同時推定する完全情報版(FIML Heckman)もあります。
3. 識別の勘所:除外変数が要る
ヘックマンが信頼できる鍵は、選択方程式 に、結果方程式 には含まれない除外変数があること——「就業決定には効くが賃金には直接効かない」変数(子どもの数、配偶者の所得など)。これが無いと、逆ミルズ比が とほぼ共線になり、補正が関数形の仮定(正規性)だけに頼る危険な推定になります。操作変数の除外制約(操作変数の考え方)と同じ発想で、選択の除外変数の説得力が推定の質を決めます。
⚠️ よくある誤解・落とし穴
- 「観測できる人だけで回帰すればよい」ではない:選択が未観測要因で決まるなら偏る。トービットでもなく、選択の構造をモデル化する。
- 「ヘックマンは除外変数なしでも動く」ではない:除外変数が無いと正規性の仮定だけに依存し、不安定。除外変数の正当化が肝。
- トービットとヘックマンの混同:0で打ち切り(個体は標本に居る)はトービット、観測の有無が別方程式(個体ごと欠落)はヘックマン。
- 「 が非有意=選択バイアス無し」と即断しない:検出力やモデル誤指定で見逃すことも。設計段階で選択の有無を吟味する。
関連ノート
- トービット・打ち切り回帰(観測の制限のもう一つの型)
- ロジット・プロビット(選択方程式に使うプロビット)
- 操作変数の考え方(除外変数という共通の発想)
- 衝突点バイアスと選択バイアス(因果推論・選択バイアスの構造)
- 離散選択と制限従属変数 目次
- 計量経済学 全体目次