構造的因果モデルとdo演算子

🎓 レベル：発展　|　重要度：B（標準）

📎 前提：因果ダイアグラムとd分離　|　バックドア基準と識別　|　関連：反事実とPearlの因果の階梯

要点（BLUF）

SCM（構造的因果モデル） は「各変数＝親＋外生ノイズ」という構造方程式の集合です。矢印つきの DAG（因果ダイアグラムとd分離）に、生成のメカニズムまで与えたものと考えられます。
介入 $do(X=x)$ は「 $X$ の構造方程式を消して $X$ を外から $x$ に固定する」操作（グラフ手術）。これにより観測分布 $P(Y\mid X{=}x)$ と介入分布 $P(Y\mid do(X{=}x))$ は別物になります。前者は「 $X{=}x$ だった人を見る」、後者は「全員に $X{=}x$ をする」。
do計算の三規則からバックドア調整公式 $P(y\mid do(x))=\sum_c P(y\mid x,c)P(c)$ が導けます。構造方程式で擬似データを作り、do介入が真の因果効果を当て、素朴な条件付き差がズレることを数値で確認します。

1. SCM：DAG に生成メカニズムを与える

構造的因果モデル（Structural Causal Model, SCM） は4つ組 $\langle U, V, F, P(U)\rangle$ です。

$V=\{V_1,\dots,V_k\}$ ：内生変数（観測する変数）
$U=\{U_1,\dots,U_k\}$ ：外生変数（モデル外の要因＝ノイズ）。互いに独立とします（マルコフ的 SCM）
$F=\{f_1,\dots,f_k\}$ ：構造方程式。各内生変数は自分の親と外生ノイズの関数

V_i \;=\; f_i\big(\mathrm{pa}(V_i),\ U_i\big)

$P(U)$ ：外生ノイズの分布

たとえば交絡 $C$ ・処置 $X$ ・結果 $Y$ なら、次の3本が SCM です。

C = U_C,\qquad X = f_X(C, U_X),\qquad Y = f_Y(X, C, U_Y)

この構造は下の DAG に対応します。 $C\to X$ と $C\to Y$ があるので、 $X\leftarrow C\to Y$ というバックドアパスが開いています。

flowchart LR
    C["交絡 C"] --> X["処置 X"]
    C --> Y["結果 Y"]
    X --> Y

外生ノイズが独立なら、同時分布は親への条件付き分布の積に分解されます（因果マルコフ条件、因果ダイアグラムとd分離）。

P(c,x,y) \;=\; P(c)\,P(x\mid c)\,P(y\mid x,c)

DAG は「どの変数が誰の親か」だけを描き、SCM は「親からどう生成されるか（ $f_i$ と $P(U)$ ）」まで指定します。do演算子の意味は、この生成メカニズムまで踏み込まないと定義できません。

2. do演算子：構造方程式を1本だけ書き換える

知りたいのは「 $X$ を外から操作したら $Y$ がどうなるか」です。SCM ではこれを、 $X$ の構造方程式 $X=f_X(C,U_X)$ を捨て、 $X$ を定数 $x$ で置き換えた新しいモデル $M_x$ で定義します。

do(X=x):\quad X=f_X(C,U_X)\ \longrightarrow\ X=x

グラフでいえば、 $X$ に入ってくる矢印をすべて切る操作です（ $C\to X$ が消える）。これをグラフ手術（graph surgery） と呼びます。残りの方程式はそのままなので、介入後の DAG は次のようになります。

flowchart LR
    C["交絡 C"] --> Y["結果 Y"]
    X["処置 X = x（外から固定）"] --> Y

この手術後のモデルが定める分布が介入分布 $P(Y\mid do(X{=}x))$ です。同時分布は、 $X$ の因子を落とした切断積（truncated product） になります。

P\big(c,y \mid do(X{=}x)\big) \;=\; P(c)\,P(y\mid x,c)

ここがポイントです。観測分布の分解 $P(c)P(x\mid c)P(y\mid x,c)$ と比べると、 $P(x\mid c)$ という「 $C$ が $X$ を選ぶ」因子だけが消えています。観測では「 $C$ の高い人ほど $X{=}1$ になりやすい」という相関が残るのに対し、 $do$ は $X$ を外から決めるのでその相関が断たれるのです。 $Y$ を周辺化すると介入分布の核心式が出ます。

P(y\mid do(X{=}x)) \;=\; \sum_c P(y\mid x,c)\,P(c)

これがまさにバックドア調整公式であり、バックドア基準と識別で潜在結果から導いた g公式と完全に一致します。観測の条件付き分布は対照的に

P(y\mid X{=}x) \;=\; \sum_c P(y\mid x,c)\,P(c\mid x)

で、重みが $P(c)$ ではなく $P(c\mid x)$ です。 $X$ と $C$ が相関する（ $P(c\mid x)\neq P(c)$ ）かぎり、両者はズレます。これが「見る $\neq$ する」の数式表現です。

3. do計算でバックドア調整を導く

Pearl のdo計算（do-calculus） は、 $do$ を含む式を変形するための3つの規則です。 $G_{\overline X}$ は「 $X$ へ入る矢印を消したグラフ」、 $G_{\underline X}$ は「 $X$ から出る矢印を消したグラフ」を表します。

規則1（観測の挿入・削除）： $(Y\perp Z\mid X,W)_{G_{\overline X}}$ なら $P(y\mid do(x),z,w)=P(y\mid do(x),w)$
規則2（介入と観測の交換）： $(Y\perp Z\mid X,W)_{G_{\overline X\,\underline Z}}$ なら $P(y\mid do(x),do(z),w)=P(y\mid do(x),z,w)$
規則3（介入の挿入・削除）： $(Y\perp Z\mid X,W)_{G_{\overline{X}\,\overline{Z(W)}}}$ なら $P(y\mid do(x),do(z),w)=P(y\mid do(x),w)$

これでバックドア調整を導きます。 $C$ がバックドア基準を満たす（ $X$ の非子孫で、すべてのバックドアパスを塞ぐ）とします。まず全確率の法則で $C$ を挟みます。

P(y\mid do(x)) \;=\; \sum_c P\big(y\mid do(x),c\big)\,P\big(c\mid do(x)\big)

第2因子に規則3を使います。 $C$ は $X$ の非子孫なので、 $X$ に介入しても $C$ の分布は変わりません（ $G_{\overline X}$ で $C\perp X$ ）。

P(c\mid do(x)) \;=\; P(c)

第1因子に規則2を使います。 $C$ がすべてのバックドアパスを塞ぐので、 $X$ から出る矢印を消したグラフ $G_{\underline X}$ で $Y\perp X\mid C$ 。したがって $do(x)$ を観測 $x$ に置き換えられます。

P(y\mid do(x),c) \;=\; P(y\mid x,c)

ふたつを戻すと、バックドア調整公式が出ます。

P(y\mid do(x)) \;=\; \sum_c P(y\mid x,c)\,P(c)

潜在結果（潜在結果モデル）と SCM という別々の言語が、同じ識別公式に行き着く。これが因果推論の2大枠組みの一致点です。なお do計算は完全（complete） であることが知られ、「 $do$ を含む量が観測分布だけで書けるか（識別可能か）」は三規則の有限回適用で判定できます（フロントドア基準などバックドアで届かない識別もここから出ます。do計算の完全性は確立した結果です）。

4. 擬似データで「見る≠する」を数値化する

構造方程式から擬似データを作り、(1) 観測の条件付き差、(2) バックドア調整、(3) do介入のシミュレーションを比べます。交絡 $C$ を二値にして、バックドア調整公式を 2 項の和としてそのまま実装します。真の効果は $\text{ATE}=2.0$ です。

import numpy as np

# === SCMから観測分布と介入分布を作り、do(X)が真の因果効果を当てることを確かめる ===
rng = np.random.default_rng(2026)
n = 40000
ATE_true = 2.0

# --- 構造方程式(SCM): 各変数を「親 + 外生ノイズ」で生成 ---
# 交絡 C(例:重症度。値1ほど治療されやすく、結果も底上げ)
C = rng.binomial(1, 0.5, size=n)

# 処置 X は C に依存(C=1なら受けやすい) ... これがバックドアパス X←C→Y
prob_treat = np.where(C == 1, 0.8, 0.2)
X = rng.binomial(1, prob_treat)

# 結果 Y = 1 + tau*X + 3*C + ノイズ
Y = 1.0 + ATE_true * X + 3.0 * C + rng.normal(0.0, 1.0, size=n)

# (1) 観測分布での素朴な条件付き差 E[Y|X=1]-E[Y|X=0]
naive = Y[X == 1].mean() - Y[X == 0].mean()

# (2) バックドア調整公式 Σ_c (E[Y|X=1,c]-E[Y|X=0,c]) P(c)
p_c1 = (C == 1).mean()
p_c0 = (C == 0).mean()
eff_in_c1 = Y[(X == 1) & (C == 1)].mean() - Y[(X == 0) & (C == 1)].mean()
eff_in_c0 = Y[(X == 1) & (C == 0)].mean() - Y[(X == 0) & (C == 0)].mean()
backdoor = eff_in_c1 * p_c1 + eff_in_c0 * p_c0

# (3) 介入分布 P(Y|do(X)): Xの構造方程式を消し、全員のXを外から固定して Y を再生成
#     Cの分布は介入で変わらない(C は X の上流) → C←X 辺だけが切れる
Y_do1 = 1.0 + ATE_true * 1 + 3.0 * C + rng.normal(0.0, 1.0, size=n)
Y_do0 = 1.0 + ATE_true * 0 + 3.0 * C + rng.normal(0.0, 1.0, size=n)
do_effect = Y_do1.mean() - Y_do0.mean()

print(f"真の ATE                         : {ATE_true:.2f}")
print(f"(1) 観測 E[Y|X=1]-E[Y|X=0]       : {naive:.2f}  (交絡で過大)")
print(f"(2) バックドア調整 Σ_c ... P(c)   : {backdoor:.2f}")
print(f"(3) 介入 E[Y|do(1)]-E[Y|do(0)]    : {do_effect:.2f}")
print(f"   各層の効果: C=1で{eff_in_c1:.2f} / C=0で{eff_in_c0:.2f}  P(C=1)={p_c1:.2f}")
print(f"   処置群のC=1割合={C[X==1].mean():.2f} 対照群のC=1割合={C[X==0].mean():.2f}")

実行すると次のように印字されます。

真の ATE                         : 2.00
(1) 観測 E[Y|X=1]-E[Y|X=0]       : 3.79  (交絡で過大)
(2) バックドア調整 Σ_c ... P(c)   : 1.97
(3) 介入 E[Y|do(1)]-E[Y|do(0)]    : 2.01
   各層の効果: C=1で1.99 / C=0で1.96  P(C=1)=0.50
   処置群のC=1割合=0.80 対照群のC=1割合=0.20

出力の意味：素朴な条件付き差 $3.79$ は真値 $2.0$ を大きく上回ります。理由は最後の行に出ています——処置群は 80% が $C{=}1$ 、対照群は 20% が $C{=}1$ と構成が偏り、 $C{=}1$ は $Y$ を $3.0$ 押し上げるので、群間の $C$ の差が処置効果に上乗せされるのです。これが観測分布の重み $P(c\mid x)$ が効いた結果です。一方、バックドア調整 $1.97$ と do介入 $2.01$ はどちらも真値 $2.0$ にほぼ一致します。バックドア調整は層内の効果（ $C{=}1$ で $1.99$ 、 $C{=}0$ で $1.96$ ）を $P(c)$ で重みづけし、do介入は $X$ を外から固定して $C\to X$ を断つ——別ルートで同じ真値に到達しました。第2項と第3項が一致するのは、まさに前節で導いた等式 $P(y\mid do(x))=\sum_c P(y\mid x,c)P(c)$ が成り立っているからです。

5. 仮定の直観的意味：なぜ「矢印を切る」のか

$do(X=x)$ で $X$ への矢印を切るのは、「外からの操作は、 $X$ を本来決めていた原因（ $C$ や $U_X$ ）を迂回する」からです。医師が重症度 $C$ を見て薬 $X$ を出す世界では $C\to X$ がありますが、私たちがコインで $X$ を割り当てれば、 $C$ はもう $X$ を決めません。ランダム化（なぜRCTが黄金律か）は、この $do$ をデータ収集の段階で物理的に実装する行為にほかなりません。do演算子は「もし $X$ をランダム化していたら何が起きるか」を、観測データと SCM から計算するための代数なのです。

そして観測データだけから $do$ を計算できる（識別できる）ための条件が、バックドアパスを塞ぐ調整集合の存在です。塞げない未観測交絡があれば $P(y\mid do(x))$ は観測分布で書けず、do計算は「識別不能」と正しく答えます。

⚠️ よくある誤解・落とし穴

$P(Y\mid X)$ と $P(Y\mid do(X))$ を混同しない。前者は条件づけ（見る）、後者は介入（する）。両者が一致するのは交絡がない（ $X\perp C$ ）か、ランダム化したときだけです。記号の $do$ を省くと、この致命的な差が見えなくなります。
「全変数を入れれば $do$ になる」ではない。 $X$ の子孫（媒介・因果ダイアグラムとd分離の合流点）を調整に入れると、バックドア基準が崩れて新たなバイアスが生じます。切るのは $X$ に入る矢印だけで、調整してよいのはバックドア基準を満たす集合だけです（媒介分析の過剰調整、過剰調整とMバイアス）。
SCM は仮定。構造方程式と矢印の向きは分野知識で入れるもので、データから自動では出ません（向きの探索は因果探索の概観）。do計算は「この SCM が正しければ」という条件つきの結論を返します。
識別可能でも推定誤差は別。do計算が「識別可能」と言っても、有限データでは層が薄い・正値性が危ういと推定は不安定になります（逆確率重み付けIPW）。識別と推定は分けて考えます。