バックドア基準と識別

🎓 レベル：基礎　|　重要度：A（必須）

📎 前提：因果ダイアグラムとd分離　|　次に読む：識別の仮定　|　数理：重回帰分析（統計）・交絡の調整（統計）

要点（BLUF）

識別（identification） とは「観測できる分布だけから因果効果を表す式を作れるか」。表せれば、あとは推定の問題に落ちます。
バックドア基準：調整集合 $Z$ が「(a) $X$ の子孫を含まず、(b) $X\to Y$ 以外で $X$ に矢印が入る経路（バックドアパス）をすべて塞ぐ」とき、ATE は バックドア調整公式 で識別できます。
正しい $Z$ （交絡）で調整すると真の ATE を当て、合流点や媒介を誤って調整集合に入れると外すことを、ATE_true を仕込んだ擬似データで数値で示します。

1. 識別とは何か

因果効果（例：ATE）は反事実 $Y(1),Y(0)$ で定義されますが、反事実は片方しか観測できません（潜在結果モデル）。そこで問うのが識別です。

観測できる量（ $X,Y,Z$ の同時分布）だけを使って、因果効果を一意な式で表せるか？

表せれば「識別可能（identifiable）」。あとはその式を有限データで推定するだけ（回帰による調整とその限界以降）。表せなければ、どれだけデータを集めても因果は出ません。識別と推定を分けるのが因果推論の作法です。バックドア基準は「交絡を調整すれば識別できる」ための、DAG 上の十分条件を与えます。

2. バックドアパスと調整の狙い

$X$ と $Y$ の間の経路のうち、 $X$ に矢印が入って始まる経路を バックドアパス と呼びます。下の DAG では $X \leftarrow C \rightarrow Y$ がそれです。バックドアパスは交絡由来の見せかけの相関を運ぶので、塞ぎたい。一方 $X\to Y$ （および $X\to M\to Y$ ）の因果的経路は残したい。

flowchart LR
  C["交絡 C"] --> X["処置 X"]
  C --> Y["結果 Y"]
  X --> M["媒介 M"] --> Y
  X --> K["合流点 K"]
  Y --> K
  X -.->|"直接効果"| Y

この図には罠が3つあります。

$C$ （交絡）：バックドアパス $X\leftarrow C\rightarrow Y$ を開く。調整して塞ぐべき。
$M$ （媒介）： $X\to M\to Y$ は因果的経路の一部。総合効果を見たいなら調整してはいけない（調整すると効果の一部が消える）。
$K$ （合流点）： $X\to K\leftarrow Y$ の共通結果。普段は閉じているが、調整すると開いてバイアスを生む（因果ダイアグラムとd分離）。

3. バックドア基準と調整公式

バックドア基準（Pearl）：変数集合 $Z$ が順序対 $(X,Y)$ に関してバックドア基準を満たすとは、

(a) $Z$ のどのノードも $X$ の子孫でない、かつ
(b) $Z$ が、 $X$ に矢印が入って始まる経路（バックドアパス）をすべてブロックする。

このとき ATE は バックドア調整公式（adjustment formula） で識別されます。離散の $Z$ なら

P\!\left(Y \mid do(X{=}x)\right) \;=\; \sum_{z} P\!\left(Y \mid X{=}x,\, Z{=}z\right)\,P(Z{=}z)

であり、平均処置効果は各層の効果を $Z$ の分布で加重した形になります。

\text{ATE} \;=\; E_{Z}\!\Big[\, E[Y \mid X{=}1, Z] - E[Y \mid X{=}0, Z] \,\Big]

ポイントは、右辺がすべて観測できる条件付き期待値と $Z$ の分布で書けていること。これが「識別できた」状態です。条件 (a) は「媒介や合流点を間違って入れるな」、(b) は「交絡を取りこぼすな」に対応します。

4. 擬似データで「正しい調整」と「誤った調整」を対比する

第2節の DAG をそのまま構造方程式にして、真の総合効果を $\text{ATE}_\text{true}=2.0$ （直接 $1.0$ ＋媒介 $2.0\times0.5=1.0$ ）と仕込みます。回帰の $X$ の係数で効果を推定し、調整集合を変えて当たり外れを見ます。

import numpy as np
import statsmodels.api as sm

# === バックドア：正しい調整集合は真値を当て、合流点/媒介を誤調整すると外す ===
rng = np.random.default_rng(2)
n = 40000

# 構造方程式モデル（SCM）
C = rng.normal(0, 1, n)                       # 交絡（C→X, C→Y）
X = 0.8 * C + rng.normal(0, 1, n)             # 処置
M = 0.5 * X + rng.normal(0, 1, n)             # 媒介 X→M→Y
b_X, b_M, b_C = 1.0, 2.0, 1.5
Y = b_X * X + b_M * M + b_C * C + rng.normal(0, 1, n)
K = 0.7 * X + 0.7 * Y + rng.normal(0, 1, n)   # 合流点 X→K←Y

# 真の総合効果 ＝ 直接 1.0 ＋ 媒介 2.0×0.5 ＝ 2.0
ATE_true = b_X + b_M * 0.5
print(f"真の総合効果 ATE = {ATE_true:.3f}\n")


def beta_on_X(extra_cols):
    design = sm.add_constant(np.column_stack([X] + extra_cols))
    return sm.OLS(Y, design).fit().params[1]   # 定数の次が X の係数


print(f"素朴 (調整なし)    Y~X      : {beta_on_X([]):.3f}")
print(f"交絡Cで調整(正解)  Y~X+C    : {beta_on_X([C]):.3f}")
print(f"媒介Mも調整(過剰)  Y~X+C+M  : {beta_on_X([C, M]):.3f}")
print(f"合流Kも調整(誤り)  Y~X+C+K  : {beta_on_X([C, K]):.3f}")

出力：

真の総合効果 ATE = 2.000

素朴 (調整なし)    Y~X      : 2.720
交絡Cで調整(正解)  Y~X+C    : 1.991
媒介Mも調整(過剰)  Y~X+C+M  : 1.005
合流Kも調整(誤り)  Y~X+C+K  : -0.132

出力の意味：4つの調整を真値 $2.0$ と照らします。

素朴（調整なし） $2.720$ ：バックドアパス $X\leftarrow C\rightarrow Y$ が開いたまま。交絡で過大評価。
交絡 $C$ で調整 $1.991$ ✓：バックドア基準を満たす $Z=\{C\}$ 。バックドアパスを塞ぎつつ媒介 $M$ は残すので、総合効果 $2.0$ を正しく当てる。識別の成功です。
媒介 $M$ も調整 $1.005$ ： $M$ を入れると因果的経路 $X\to M\to Y$ まで遮断され、残るのは直接効果 $1.0$ だけ。総合効果を見たい目的には過剰調整で過小評価。条件 (a)（子孫を入れない）違反です。
合流点 $K$ も調整 $-0.132$ ： $K$ は $X$ の子孫かつ $X,Y$ の合流点。条件づけると新たな経路が開き、符号まで壊れる。最悪の誤調整です。

「とにかく多く調整する」が安全でないことが数値で分かります。何を入れ、何を入れないかを DAG とバックドア基準で決める——これが識別の実務です。

5. 仮定の直観的意味：なぜ条件 (a)(b) なのか

(b) バックドアパスを塞ぐ＝交絡経由の見せかけの相関を断つこと。これが満たされると、層 $Z=z$ の中では $X$ が（潜在結果に対し）あたかもランダムに割り当てられた状態＝条件付き交換可能性 $\{Y(1),Y(0)\}\perp\!\!\!\perp X\mid Z$ に一致します（識別の仮定）。だから各層の素朴差が因果効果になり、 $Z$ で加重平均すれば ATE です。
(a) $X$ の子孫を入れない＝媒介（効果の通り道）や合流点（条件づけで開く）を巻き込まない安全装置。子孫を入れると、塞ぐべきでない因果的経路を塞いだり、閉じていた経路を開いたりして、せっかくの (b) を台無しにします。

要するにバックドア基準は、d分離（因果ダイアグラムとd分離）を「交絡だけをきれいに消す調整集合」の言葉に翻訳したものです。なお交絡を前から塞げないとき（未観測交絡があるとき）でも、媒介を経由して前から識別する フロントドア基準 など別ルートがあり、第6章の構造的因果モデルで扱います。

⚠️ よくある誤解・落とし穴

「共変量は多いほど良い」は誤り。媒介・合流点・ $X$ の子孫を入れると害になります（第4節）。投入変数は予測精度ではなく因果的役割で選びます。
「有意な共変量を全部入れる」も誤り。 $Y$ とよく相関する変数でも、それが合流点や媒介なら入れてはいけません。 $p$ 値や AIC は調整集合の選択基準になりません。
調整集合は一意でない。バックドア基準を満たす $Z$ は複数あり得ます（ $\{C\}$ でも $\{C, \text{別の交絡}\}$ でも可なことがある）。必要十分な「最小調整集合」を選ぶのが効率的です。
未観測交絡は塞げない。 $C$ が観測できなければバックドア基準は満たせず、回帰や傾向スコアでいくら頑張っても識別不能。そのときは操作変数（操作変数法と2SLS）など別デザインや、残るバイアスの感度分析（第7章）に頼ります。
線形回帰で当てられたのは設定が線形だから。一般には各層の効果を非線形に推定し $Z$ で加重する必要があります。回帰一本での調整の限界は回帰による調整とその限界へ。