🎓 第4章ハブ(機械学習と因果)
第4章 機械学習と因果
機械学習の強力な予測力をそのまま因果推定に差し込むと、正則化の縮小バイアスや過学習バイアスが処置効果に漏れて系統的に外れる。本章は「どんな仮定なら因果と言えるか(識別)」を保ったまま、「ML の予測器をどう使えば効果を正しく推定できるか(推定)」を、真の効果を仕込んだ擬似データで実証しながら積み上げる。鍵概念は Neyman 直交性・残差化(partialling-out)・交差適合(cross-fitting)・honest splitting。
土台は機械学習テキストの正則化(Ridge・Lasso・Elastic Net)(縮小バイアス)・訓練・検証・テストと交差検証(交差適合)・バギングとランダムフォレスト(因果フォレスト)にリンクし、重複は書かない。識別の前提は識別の仮定、推定の親戚は二重頑健推定AIPW。
トピック一覧
- MLをそのまま使うと因果を誤る理由 — 高次元交絡を ML で調整したいが、正則化の縮小バイアスが処置効果に一次で漏れる(Neyman 直交性の欠如)。素朴なプラグインが真値 2.0 を 0.89 に潰すことを擬似データで実証。
- Double/Debiased Machine Learning(DML) — 残差化+直交モーメント+交差適合で正則化・過学習バイアスを除く DML。手実装で真値を回収し、信頼区間の被覆率と
econmlLinearDML でも再現。 - 異質処置効果とメタ学習器(S/T/X-learner) — 「誰に効くか」を表す CATE τ(x) を既存回帰器で推定する S/T/X-learner。真の異質性を仕込み、S は平坦化・T は高分散・X が最良になることを RMSE と図で比較。
- 因果フォレスト(Causal Forest) — honest splitting で葉ごとに CATE と信頼区間を出す因果フォレスト。段差状の τ(x) を
econmlCausalForestDML が RF 近似より鋭く回収。
章の流れ
MLをそのまま使うと因果を誤る理由で「なぜ素朴な ML 調整が外れるか」を体感し、Double/Debiased Machine Learning(DML)でその修正(直交化+交差適合)を数理とコードで固める。後半は効果の異質性へ進み、異質処置効果とメタ学習器(S/T/X-learner)でメタ学習器、因果フォレスト(Causal Forest)で木ベースの CATE 推定と信頼区間を扱う。次章デザインの選び方へ続く準実験デザインとは、「交換可能性を観察データで仮定する(本章)」か「デザインで作りに行く(第5章)」かの対比で接続する。