要点(BLUF)
- 線形確率モデル(LPM) = 0/1の被説明変数にそのままOLSを当てる方法。 なので、係数が「確率の差」として直読みできる手軽さが魅力。
- 限界は3つ:(1) 予測確率が0-1を外れる、(2) 誤差が本質的に不均一分散、(3) 限界効果が一定(端でも同じ)という非現実的な含意。
- だから確率を0-1に収める非線形モデル(ロジット・プロビット、ロジット・プロビット)へ進みます。ただしLPMは限界効果の近似や操作変数との併用で今も実務で使われます。
1. LPMの考え方と利点
(就職する/しない)に対し をOLS推定します。 が0か1なので条件付き期待値は確率そのもの:
よって は「 が1増えたときの確率の増分」と直読みできます。この解釈の明快さと、操作変数・固定効果との組み合わせやすさ(線形なので2SLSやFEにそのまま乗る)がLPMの強み。係数の符号と大きさを素早く把握したいときに便利です。
2. 3つの限界
flowchart TB
A["0/1 の y に OLS(LPM)"] --> B["予測 P(y=1|x) が 0-1 を外れる"]
A --> C["誤差が不均一分散(p(1-p)に依存)"]
A --> D["限界効果が一定(端でも同じ増分)"]
B --> E["→ ロジット/プロビットで 0-1 に収める"]
D --> E
- 範囲外の予測:線形なので が極端だと予測確率が負や1超になる。確率として解釈不能。
- 不均一分散: がベルヌーイなので と に依存。標準誤差は必ず頑健標準誤差(不均一分散と頑健標準誤差)にする必要があります(係数は一致)。
- 一定の限界効果:確率が0.05でも0.95でも同じ だけ動くという含意は不自然。端では効果が小さくなる(飽和する)はずです。
3. それでもLPMが使われる理由
非線形モデルの限界効果は、平均付近ではしばしばLPMの係数と近くなります。また、内生性対策(操作変数・固定効果)を施したいとき、ロジット/プロビットは非線形のため2SLSやFEを素直に組み込めない一方、LPMは線形なので相性が良い。実証ミクロでは「主結果はLPM+固定効果+頑健標準誤差、補助としてロジット/プロビット」という構成がよく見られます。手軽さと拡張性のトレードオフで選びます。
⚠️ よくある誤解・落とし穴
- 「予測が0-1を外れるからLPMは無価値」ではない:限界効果の近似や線形手法との併用では有用。要は目的次第。
- 「LPMの標準誤差は通常でよい」ではない:構造的に不均一分散なので頑健標準誤差は必須。
- 「係数=確率の差」をどんなでも適用できるわけではない:範囲の端では予測確率が破綻するので、その近辺の解釈は慎重に。
- 分類の評価指標を混同しない:ここで知りたいのは確率・限界効果。予測の良し悪し(ROC-AUC、評価指標(分類)とROC・AUC)とは目的が違います。
関連ノート
- ロジット・プロビット(0-1に収める非線形モデル)
- トービット・打ち切り回帰(連続だが制限される従属変数)
- ロジスティック回帰・評価指標(分類)とROC・AUC(機械学習・分類の機械)
- 不均一分散と頑健標準誤差(LPMに必須の頑健標準誤差)
- 離散選択と制限従属変数 目次
- 計量経済学 全体目次