因果機械学習とマーケティング｜マーケティングサイエンス

🎓 レベル：発展　|　重要度：A（必須）

📎 関連：マーケティング予算最適化　|　前提：アップリフトモデリング・A/Bテストの設計と分析

要点（BLUF）

アップリフトモデリングで、アップリフト＝個別の処置効果（CATE） $\tau(x)=E[Y\mid T{=}1,x]-E[Y\mid T{=}0,x]$ を A/B データから推定しました。本ノートはこれを ランダム化のない観察データ（＝交絡あり）と多数の特徴量へ一般化します——これが因果機械学習です。核心は2つ。第一に、予測と因果は別物：「誰が買うか」を当てる機械学習（ $E[Y\mid X]$ ）は当てはまりが良くても、介入したらどう変わるか（ $\tau(x)$ ）は出しません。第二に、観察データでは処置 $T$ が特徴 $X$ に依存する（交絡）ため、素朴な差も、結果を予測するだけの ML も、効果を誤ります。
これを外す鍵が直交化（Double Machine Learning）です。アウトカム $Y$ と処置 $T$ をそれぞれ $X$ で予測して残差をとり（ $\tilde Y=Y-\hat E[Y\mid X]$ 、 $\tilde T=T-\hat E[T\mid X]$ ）、残差同士を回帰すると、交絡を除いた因果効果が出ます（FWL）。本ノートの合成データ（ $N{=}5000$ 、傾向 $P(T{=}1\mid X)=0.2+0.6X$ で高 $X$ ほど処置されやすい、真の異質効果 $\tau(X)=0.2+0.3X$ 、真の ATE $=0.35$ ）では、素朴な差は $+0.792$ と大幅に過大（処置群の平均 $X$ が $0.603$ 、対照群が $0.394$ ＝交絡）。Double ML は $+0.340$ と真の ATE $0.35$ を回復します。
効果がわかれば、次はポリシー学習（誰に介入するか）です。交互作用回帰で CATE を $\hat\tau(x)=0.197+0.290\,x$ （真は $0.2+0.3x$ ）と推定し、推定 CATE が損益分岐 $c/V=0.30$ を超える顧客だけ介入すると、純利益 $+664{,}562$ 円。これは全員介入（ $+495{,}906$ 円）すら上回り（少人数なのに ── 低 CATE 客を外した分）、無作為に同人数（ $+324{,}820$ 円）の 2 倍です。⚠️ 因果機械学習は手法・実装の動きが速く、無交絡の前提検証や二重頑健・クロスフィッティングは要最新確認（本文で明記）。

1. 予測（誰が買うか）と因果（介入の効果）は別物

アップリフトモデリングは、A/B でランダム割付した4セグメントから、施策で態度が変わる量＝アップリフト（CATE）を測りました。そこには2つの理想的な条件がありました——ランダム化されている（処置群と対照群が比較可能＝交絡なし）ことと、特徴がセグメントという少数のカテゴリだったことです。現実のマーケティングは、しばしばどちらも満たしません。A/B が回せない（過去ログしかない、全顧客に配信済み、倫理・コスト上できない）ことは多く、特徴は年齢・購買履歴・閲覧行動など何十・何百次元にもなります。この観察データ＋多特徴で CATE を取り出すのが、**因果機械学習（causal machine learning）**です。

ここでまず潰すべき誤解が、「機械学習でよく当たるモデルを作れば、施策の効果もわかる」という思い込みです。違います。需要予測やコンバージョン予測の ML が学ぶのは、観測された結果の条件つき期待 $E[Y\mid X]$ ＝「誰が買うか」です。一方、施策の価値が知りたいのは「介入したら、買う確率がどれだけ変わるか」＝ $\tau(x)$ 。前者は予測（prediction）、後者は**因果（causation）**で、目的関数からして別物です。どれだけ予測精度（当てはまり）を上げても、介入の効果は副産物として出てきません。

なぜ素朴な方法が破綻するか。観察データでは、処置を受けた人と受けない人がもともと違うからです。本ノートの設定では、特徴 $X$ （顧客のエンゲージメント度とでも思ってください）が高い人ほど施策を打たれやすい（傾向 $P(T{=}1\mid X)=0.2+0.6X$ ）。これが交絡です。すると「処置群の平均反応 − 対照群の平均反応」という素朴な差は、施策の効果に加えて「処置群はもともと反応が高い層が多い」という素性の違いを丸ごと拾ってしまいます。広告・販促の効果測定の前後比較が時間方向でベースラインの違いを増分に混ぜたのと同じ病が、ここでは群間で起きます。

アップリフトモデリングが4つの離散カテゴリで考えた効果の異質性は、ここでは連続関数 $\tau(x)$ に一般化されます。「説得可能・鉄板・無関心・天邪鬼」という名前のセグメントの代わりに、特徴 $x$ ごとに効果の大きさが連続的に変わる——その曲線を、交絡を除きながら推定するのが目標です。

flowchart TB
  OBS["観察データ（ランダム化なし）<br/>処置Tは特徴Xに依存＝交絡"] --> Q{"何を知りたい？"}
  Q -->|"誰が買うか（予測）"| PRED["反応を当てるML E[Y given X]<br/>当てはまりは良くなる"]
  Q -->|"介入の効果（因果）"| CAUSAL["CATE τ(x)＝処置効果<br/>＝処置時の反応 − 非処置時の反応"]
  PRED --> WARN["素朴な差も予測モデルも<br/>交絡で効果を誤る（過大／過小）"]
  CAUSAL --> DML["直交化（Double ML）<br/>YとTをXで残差化して回帰"]
  DML --> OK["交絡を除いた因果効果<br/>→ CATEで誰に介入するか（ポリシー）"]

2. CATE・素朴な差のバイアス・直交化（Double ML）の数式

知りたい量はアップリフトモデリングと同じ CATE（条件つき平均処置効果）です。特徴 $x$ の人を処置したときと、しなかったときの反応の差。

\tau(x) \;=\; \underbrace{E[Y\mid T{=}1,\, x]}_{\text{処置したときの反応}} \;-\; \underbrace{E[Y\mid T{=}0,\, x]}_{\text{処置しなかったときの反応}}

観察データでこれが推定できるための前提が、条件無交絡（unconfoundedness）です。「 $X$ を固定すれば、処置はランダムに割り振られたのと同じ」＝観測した交絡要因 $X$ で条件づければ、処置の有無と潜在結果が独立になる、という仮定です。

\big(Y(0),\,Y(1)\big)\perp T \mid X \quad\Longrightarrow\quad \tau(x)=E[Y\mid T{=}1,x]-E[Y\mid T{=}0,x],\qquad \delta_{\text{ATE}}=E_x\big[\tau(x)\big]

この仮定のもとでなら、各 $x$ の中で処置群と対照群が比較可能になり、CATE が識別され、ATE はその母集団平均になります。A/Bテストの設計と分析のランダム化は、 $X$ で条件づけるまでもなく無条件で無交絡を保証する特別な場合です。観察データはそれが効かないので、「効果に関係する交絡を全部 $X$ に入れた」と仮定して、 $X$ で調整します。

では、なぜ素朴な差が外れるのか。アウトカムを「ベースライン $\mu(x)=E[Y(0)\mid x]$ ＋効果 $\tau(x)$ が処置時に乗る」と書くと、素朴な差の極限はこう分解できます。

\underbrace{E[Y\mid T{=}1]-E[Y\mid T{=}0]}_{\text{素朴な差}} =\underbrace{E[\tau(X)\mid T{=}1]}_{\text{処置群での効果}} +\underbrace{\big(E[\mu(X)\mid T{=}1]-E[\mu(X)\mid T{=}0]\big)}_{\text{交絡バイアス}}

第2項が交絡バイアスです。処置が $X$ に依存し（処置群は高 $X$ が多い）、ベースライン $\mu(x)$ が $X$ に依存する（高 $X$ ほど元から反応が高い）と、両群のベースライン水準が食い違い、その差が効果に化けます。本ノートでは高 $X$ ほど処置されやすく $\mu(x)=1+2x$ も高いので、素朴な差は上に膨らみます（§3で $+0.792$ ）。

これを外すのが Double Machine Learning（直交化）です。発想は広告・販促の効果測定の回帰と同じ「交絡を $X$ の関数で説明して引き算する」ですが、 $Y$ だけでなく処置 $T$ も $X$ で説明して引くのが肝です。アウトカムと処置をそれぞれ $X$ で予測し、残差をとります。

\tilde Y = Y-\hat E[Y\mid X],\qquad \tilde T = T-\hat E[T\mid X]

ここで $\hat E[T\mid X]$ は「特徴 $X$ の人が処置される確率」＝傾向スコア $e(x)$ の推定です。 $\tilde Y$ は「 $X$ から予測できる分を除いたアウトカムの動き」、 $\tilde T$ は「 $X$ から予測できる分を除いた処置の動き（＝偶然そうなった処置のばらつき）」。この残差同士を回帰した係数が、交絡を除いた因果効果です。

\hat\theta=\frac{\sum_i \tilde T_i\,\tilde Y_i}{\sum_i \tilde T_i^{2}}

これは回帰分析の FWL（Frisch–Waugh–Lovell）定理——「ある変数の係数は、他の説明変数で互いを残差化してから単回帰しても同じ」——の応用です。 $X$ で残差化することで、 $Y$ と $T$ の** $X$ 由来の連動（交絡）が両方から消え**、残った $\tilde T$ と $\tilde Y$ の関係だけが効果を映します。「Double」は、 $E[Y\mid X]$ と $E[T\mid X]$ という2つの予測モデル（ここは勾配ブースティング等の任意の ML でよい）を使うこと。残差をとる直交化のおかげで、どちらの予測が多少ずれても効果の推定が大きくは狂わない（Neyman 直交性）という頑健さが生まれます。

⚠️ 異質効果のときの中身： $\tau(x)$ が $x$ で変わる（異質）とき、 $\hat\theta$ が拾うのは厳密には処置のばらつきで重みづけた平均効果 $E[\mathrm{Var}(T\mid X)\,\tau(X)]/E[\mathrm{Var}(T\mid X)]$ です。本ノートの数値設定ではこれがちょうど ATE $0.35$ に一致します（だから §3 で $0.35$ を回復します）が、一般には重みづき平均である点に注意。 $x$ ごとの効果が知りたいなら、次節のように CATE を直接モデル化します。直交化・傾向スコア・二重頑健の理論は因果推論テキストの領域です。

3. 素朴な差は交絡で過大、Double MLが真値を回復（コード）

まず素朴な差が交絡でどれだけ外れるかを見ます。 $N{=}5000$ 、特徴 $X\sim\text{Uniform}(0,1)$ 、傾向 $P(T{=}1\mid X)=0.2+0.6X$ （高 $X$ ほど処置されやすい＝交絡）、アウトカム $Y=1.0+2.0X+\tau(X)\,T+N(0,0.5)$ 、異質効果 $\tau(X)=0.2+0.3X$ 。真の ATE は $E[\tau(X)]=0.2+0.3\cdot0.5=0.35$ 。素朴な差（処置群平均 $Y$ − 対照群平均 $Y$ ）がこの $0.35$ をどれだけ過大評価するか確かめます。

import numpy as np

rng = np.random.default_rng(0)
N = 5000
X = rng.uniform(0.0, 1.0, N)            # 顧客特徴（1次元、例：エンゲージメント度）
e = 0.2 + 0.6 * X                        # 傾向 P(T=1|X)：高Xほど介入されやすい（交絡）
T = rng.binomial(1, e)                   # 観察データの処置割付（ランダムでない）
tau = 0.2 + 0.3 * X                      # 真のCATE τ(x)＝異質な処置効果
Y = 1.0 + 2.0 * X + tau * T + rng.normal(0.0, 0.5, N)   # アウトカム

ate_true = 0.2 + 0.3 * 0.5               # E[τ(X)] = 0.35
naive = Y[T == 1].mean() - Y[T == 0].mean()

print(f"処置された割合 P(T=1) = {T.mean():.3f}")
print(f"処置群の平均X = {X[T==1].mean():.3f} / 対照群の平均X = {X[T==0].mean():.3f}  ← 交絡（高Xほど処置）")
print(f"素朴な差（処置群平均Y − 対照群平均Y） = {naive:+.3f}")
print(f"真のATE  E[τ(X)] = 0.2 + 0.3*0.5      = {ate_true:+.3f}")
print(f"素朴差のバイアス = {naive - ate_true:+.3f}（交絡で過大評価）")

出力：

処置された割合 P(T=1) = 0.502
処置群の平均X = 0.603 / 対照群の平均X = 0.394  ← 交絡（高Xほど処置）
素朴な差（処置群平均Y − 対照群平均Y） = +0.792
真のATE  E[τ(X)] = 0.2 + 0.3*0.5      = +0.350
素朴差のバイアス = +0.442（交絡で過大評価）

出力の意味：処置されたのは全体の $50.2\%$ ですが、その内訳が偏っています——処置群の平均 $X$ は $0.603$ 、対照群は $0.394$ 。傾向 $0.2+0.6X$ のとおり、高 $X$ の人ほど処置に回り、群が素性から違ってしまいました。これが交絡です。結果、素朴な差は $+0.792$ で、真の ATE $0.35$ を $+0.442$ も過大評価します。誤差の出どころは§2の分解どおり——処置群は $\mu(x)=1+2x$ で測るベースラインがもともと高い（高 $X$ だから）ので、その差 $2\times(0.603-0.394)\approx0.42$ が効果に化けています。ここで強調したいのは、 $E[Y\mid X]$ をどれだけ精密に予測する ML を作っても、この素朴な差の病は治らないこと。予測は群の違いを「説明」はしても、介入の効果を分離してはくれません。必要なのは、次の直交化です。

同じデータに **Double ML（直交化）**をかけます。 $E[Y\mid X]$ と $E[T\mid X]$ を $X$ の多項式で回帰（numpy.linalg.lstsq）して残差 $\tilde Y,\tilde T$ を作り、残差同士を回帰した係数 $\hat\theta$ が因果効果です。素朴な差と並べて、真の ATE $0.35$ を回復するか見ます。

import numpy as np

rng = np.random.default_rng(0)
N = 5000
X = rng.uniform(0.0, 1.0, N)
e = 0.2 + 0.6 * X
T = rng.binomial(1, e)
tau = 0.2 + 0.3 * X
Y = 1.0 + 2.0 * X + tau * T + rng.normal(0.0, 0.5, N)

# Xの多項式基底（柔軟な回帰で E[Y|X]・E[T|X] を当てる。実務はここを勾配ブースティング等のMLに）
def poly(x, deg=5):
    return np.column_stack([x**k for k in range(deg + 1)])   # 切片＋x＋…＋x^deg
Xb = poly(X, 5)

# (1) E[Y|X] を回帰して残差化：Y_tilde = Y −（Xで予測したY）
by, *_ = np.linalg.lstsq(Xb, Y, rcond=None)
Y_res = Y - Xb @ by
# (2) E[T|X]（傾向スコア）を回帰して残差化：T_tilde = T −（Xで予測したT）
bt, *_ = np.linalg.lstsq(Xb, T, rcond=None)
T_res = T - Xb @ bt
# (3) 残差同士を回帰：T_tilde への Y_tilde の係数が因果効果（直交化＝FWL）
theta = (T_res @ Y_res) / (T_res @ T_res)

naive = Y[T == 1].mean() - Y[T == 0].mean()
print(f"素朴な差            = {naive:+.3f}（交絡で過大）")
print(f"Double ML（直交化） = {theta:+.3f}")
print(f"真のATE             = {0.35:+.3f}")

出力：

素朴な差            = +0.792（交絡で過大）
Double ML（直交化） = +0.340
真のATE             = +0.350

出力の意味：Double ML は $+0.340$ と、真の ATE $0.35$ をほぼ回復しました（残り $0.01$ は有限標本のノイズ）。素朴な差 $+0.792$ から $0.45$ も下がり、交絡バイアスが消えています。やったことは「 $Y$ と $T$ をそれぞれ $X$ で予測して残差をとり、残差同士を回帰しただけ」——式 $\hat\theta=\sum\tilde T\tilde Y/\sum\tilde T^2$ 。 $T$ を $X$ で残差化する一手間（傾向スコアの除去）が、 $Y$ だけ調整する素朴な回帰との違いで、これが交絡を断ち切ります。ここでは $E[Y\mid X],E[T\mid X]$ を多項式回帰で当てましたが、この2つを勾配ブースティングやランダムフォレスト等の機械学習に差し替えても、直交化の枠組みはそのままです（だから「機械学習」が名前に付きます）。柔軟な ML を使うほど、多数の交絡 $X$ を非線形に調整でき、しかも直交化が推定を頑健にします。

4. CATEを推定して「誰に介入するか」を決める（コード）

ATE（平均効果）が回復できたら、次は $x$ ごとの CATE、そして「誰に介入すべきか」というポリシーです。CATE を直接モデル化する最も素直な方法が、交互作用つきの結果回帰（S-learner）です。条件無交絡のもとで $E[Y\mid X,T]$ を正しく $\beta_0+\beta_X X+\beta_T T+\beta_{XT}(X\!\cdot\!T)$ と書ければ、

\tau(x)=E[Y\mid T{=}1,x]-E[Y\mid T{=}0,x]=\beta_T+\beta_{XT}\,x

となり、 $\hat\tau(x)=\hat\beta_T+\hat\beta_{XT}x$ で CATE が出ます。真は $\tau(x)=0.2+0.3x$ なので、 $\beta_T\approx0.2$ 、 $\beta_{XT}\approx0.3$ が回復するはずです。numpy.linalg.lstsq で当てます。

import numpy as np

rng = np.random.default_rng(0)
N = 5000
X = rng.uniform(0.0, 1.0, N)
e = 0.2 + 0.6 * X
T = rng.binomial(1, e)
tau = 0.2 + 0.3 * X
Y = 1.0 + 2.0 * X + tau * T + rng.normal(0.0, 0.5, N)

# 交互作用つき回帰 Y ~ 1, X, T, X*T を最小二乗で当てる（S-learner＝結果回帰）
Xi = np.column_stack([np.ones(N), X, T, X * T])
b, *_ = np.linalg.lstsq(Xi, Y, rcond=None)
b0, bX, bT, bXT = b

# 推定CATE  tau(x) = beta_T + beta_XT * x
print(f"推定係数:  beta0={b0:+.3f}  beta_X={bX:+.3f}  beta_T={bT:+.3f}  beta_XT={bXT:+.3f}")
print(f"推定CATE  tau(x) = {bT:+.3f} + {bXT:+.3f}*x   （真は 0.200 + 0.300*x）")
for x0 in [0.1, 0.5, 0.9]:
    print(f"   x={x0}:  推定tau={bT + bXT*x0:+.3f}   真のtau={0.2 + 0.3*x0:+.3f}")
print(f"推定ATE = mean(tau(X)) = {bT + bXT*X.mean():+.3f}   （真 0.350）")

出力：

推定係数:  beta0=+1.003  beta_X=+2.013  beta_T=+0.197  beta_XT=+0.290
推定CATE  tau(x) = +0.197 + +0.290*x   （真は 0.200 + 0.300*x）
   x=0.1:  推定tau=+0.226   真のtau=+0.230
   x=0.5:  推定tau=+0.342   真のtau=+0.350
   x=0.9:  推定tau=+0.458   真のtau=+0.470
推定ATE = mean(tau(X)) = +0.342   （真 0.350）

出力の意味：交互作用回帰は $\hat\beta_T=+0.197$ （真 $0.2$ ）・ $\hat\beta_{XT}=+0.290$ （真 $0.3$ ）を回復し、推定 CATE $\hat\tau(x)=0.197+0.290x$ が真の $0.2+0.3x$ にほぼ重なります（ $x=0.1,0.5,0.9$ で誤差は $0.01$ 前後）。注目すべきは、交絡があるのに CATE が正しく出たこと。素朴な差（§3）は交絡で $+0.792$ も外したのに、なぜこちらは当たるのか—— $X$ を回帰に入れて条件づけ、結果モデルを正しく特定したからです（無交絡＋正しい関数形）。 $\beta_X=2.013$ がベースラインの $2X$ を、交絡をまたいで正しく拾い、効果 $T,X\!\cdot\!T$ と分離しています。なお推定 ATE は $\hat\beta_T+\hat\beta_{XT}\cdot\bar X=0.342$ で、§3 の Double ML（ $0.340$ ）とも整合します。両者は別ルート（直交化 vs 結果回帰）で同じ効果に達しました。

最後が本ノートの締め、ポリシー学習です。CATE がわかれば「誰に介入するか」を最適化できます。1コンバージョンの価値を $V$ 、1人あたり介入コストを $c$ とすると、集合 $S$ に介入したときの純利益は $\sum_{i\in S}\big(V\,\tau(x_i)-c\big)$ 。これを最大化する答えは明快で、 $V\,\tau(x_i)-c>0$ すなわち $\tau(x_i)>c/V$ （損益分岐 CATE）を超える顧客だけに介入することです。 $V{=}2000$ 円・ $c{=}600$ 円（損益分岐 $0.30$ ）で、(1) 全員介入・(2) 推定 CATE で狙う・(3) 無作為に同人数を、真の $\tau$ で採点して比べます。

import numpy as np

rng = np.random.default_rng(0)
N = 5000
X = rng.uniform(0.0, 1.0, N)
e = 0.2 + 0.6 * X
T = rng.binomial(1, e)
tau = 0.2 + 0.3 * X
Y = 1.0 + 2.0 * X + tau * T + rng.normal(0.0, 0.5, N)

# 交互作用回帰で推定したCATE（§4と同じ）
Xi = np.column_stack([np.ones(N), X, T, X * T])
b, *_ = np.linalg.lstsq(Xi, Y, rcond=None)
tau_hat = b[2] + b[3] * X                 # 推定CATE

# 介入の経済性：1コンバージョンの価値 V、1人あたり介入コスト c。
# 純利益 = V*τ − c。介入する価値があるのは τ > c/V の顧客だけ。
V, c = 2000.0, 600.0
breakeven = c / V                         # = 0.30（このCATEを超えたら黒字）

def net_value(mask):
    return float((V * tau[mask] - c).sum())   # 真のτで採点（合成データ）

# (1) 全員に介入
net_all = net_value(np.ones(N, dtype=bool))
# (2) CATEで狙う：推定CATEが損益分岐を超える顧客だけ介入
cate_mask = tau_hat > breakeven
n_t = int(cate_mask.sum())
net_cate = net_value(cate_mask)
# (3) 無作為に同人数だけ介入
rand_idx = rng.permutation(N)[:n_t]
rand_mask = np.zeros(N, dtype=bool); rand_mask[rand_idx] = True
net_rand = net_value(rand_mask)

print(f"損益分岐CATE = c/V = {breakeven:.2f}（τ がこれを超える顧客だけ介入する価値）")
print(f"(1) 全員に介入（{N}人）                 : 純利益 {net_all:+,.0f} 円")
print(f"(2) CATEで狙う（{n_t}人, tau_hat>{breakeven:.2f}）: 純利益 {net_cate:+,.0f} 円")
print(f"(3) 無作為に同人数（{n_t}人）           : 純利益 {net_rand:+,.0f} 円")
print(f"CATE狙い − 全員   = {net_cate - net_all:+,.0f} 円（少人数なのに全員超え）")
print(f"CATE狙い − 無作為 = {net_cate - net_rand:+,.0f} 円（同人数での差）")

出力：

損益分岐CATE = c/V = 0.30（τ がこれを超える顧客だけ介入する価値）
(1) 全員に介入（5000人）                 : 純利益 +495,906 円
(2) CATEで狙う（3219人, tau_hat>0.30）: 純利益 +664,562 円
(3) 無作為に同人数（3219人）           : 純利益 +324,820 円
CATE狙い − 全員   = +168,656 円（少人数なのに全員超え）
CATE狙い − 無作為 = +339,743 円（同人数での差）

出力の意味：損益分岐 CATE は $c/V=0.30$ 。推定 CATE が $0.30$ を超えるのは $X$ が概ね $1/3$ 以上の $3{,}219$ 人で、そこだけに介入するポリシーの純利益は $+664{,}562$ 円。これが全員介入（ $+495{,}906$ 円）を上回るのがポイントです——CATE 狙いは全員より** $1{,}781$ 人も少なく介入しているのに、利益は $+168{,}656$ 円多い。理由は、 $\tau(x)$ が小さい低 $X$ 客（ $V\,\tau<c$ ＝介入コストが効果の価値を下回る赤字客）を外した**から。全員介入はこの赤字客を抱え込んで利益を削ります。さらに、同じ $3{,}219$ 人を無作為に選ぶと $+324{,}820$ 円しか出ず、CATE 狙いはその 2 倍以上（差 $+339{,}743$ 円）。同じ人数・同じ予算でも、「誰に介入するか」を CATE で決めるだけで利益が倍増します。これはアップリフトモデリングで「効果が正のセグメントだけ狙えばブランケットに勝つ」と見たのと同じ構造を、連続的な CATE と損益分岐へ一般化したものです。「効果の大きい人だけを狙う」が、観察データ＋多特徴の世界でも最適なターゲティングです。

§3・§4 の結果を1枚にまとめます。左に素朴な差 vs Double ML vs 真の ATE、右に推定 CATE 曲線と真の CATE、介入の損益分岐ラインと介入領域を描きます。

import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib

rng = np.random.default_rng(0)
N = 5000
X = rng.uniform(0.0, 1.0, N)
e = 0.2 + 0.6 * X
T = rng.binomial(1, e)
tau = 0.2 + 0.3 * X
Y = 1.0 + 2.0 * X + tau * T + rng.normal(0.0, 0.5, N)

naive = Y[T == 1].mean() - Y[T == 0].mean()

# Double ML（直交化）の点推定
def poly(x, deg=5):
    return np.column_stack([x**k for k in range(deg + 1)])
Xb = poly(X, 5)
by, *_ = np.linalg.lstsq(Xb, Y, rcond=None)
bt, *_ = np.linalg.lstsq(Xb, T, rcond=None)
Y_res, T_res = Y - Xb @ by, T - Xb @ bt
theta = (T_res @ Y_res) / (T_res @ T_res)

# 交互作用回帰の推定CATE係数
Xi = np.column_stack([np.ones(N), X, T, X * T])
bb, *_ = np.linalg.lstsq(Xi, Y, rcond=None)
bT, bXT = bb[2], bb[3]

fig, (axL, axR) = plt.subplots(1, 2, figsize=(11, 4.4))

# 左：素朴な差 vs Double ML vs 真のATE
labels = ["素朴な差", "Double ML", "真のATE"]
vals = [naive, theta, 0.35]
bars = axL.bar(labels, vals, color=["C3", "C0", "gray"])
for bar, v in zip(bars, vals):
    axL.text(bar.get_x() + bar.get_width() / 2, v + 0.01, f"{v:.3f}", ha="center", fontsize=11)
axL.axhline(0.35, ls="--", color="gray", lw=1.2)
axL.set_ylabel("推定したATE")
axL.set_title("素朴な差は交絡で過大／Double MLが真値を回復")
axL.grid(alpha=0.3, axis="y")

# 右：推定CATE曲線 vs 真のCATE、損益分岐と介入領域
xs = np.linspace(0, 1, 200)
axR.plot(xs, 0.2 + 0.3 * xs, color="gray", lw=2.5, label="真のCATE τ(x)=0.2+0.3x")
axR.plot(xs, bT + bXT * xs, color="C0", lw=2, ls="--", label="推定CATE")
axR.axhline(0.30, color="C3", lw=1.3, ls=":", label="損益分岐 c/V=0.30")
x_star = (0.30 - bT) / bXT
axR.axvspan(x_star, 1, color="C2", alpha=0.12)
axR.annotate("介入する（τ>分岐）", (x_star + 0.5 * (1 - x_star), 0.46),
             ha="center", fontsize=9, color="C2")
axR.set_xlabel("顧客特徴 X"); axR.set_ylabel("CATE τ(x)")
axR.set_title("推定CATEとポリシー（介入の損益分岐）")
axR.legend(loc="upper left", fontsize=9)
axR.grid(alpha=0.3)

fig.suptitle("因果機械学習：交絡を直交化で除き、CATEで誰に介入するかを決める")
fig.tight_layout()
plt.show()

左図は3本の棒——素朴な差 $0.792$ が真の ATE（破線 $0.35$ ）を大きく超えて突き出し、Double ML $0.340$ と真の ATE $0.350$ がほぼ同じ高さで並びます。交絡を入れたまま（素朴）か、直交化で抜いた（DML）かの差が一目瞭然です。右図は推定 CATE（青破線）が真の CATE（灰）にぴたり重なり、赤い点線が損益分岐 $0.30$ 。緑に塗った右側（ $X\gtrsim1/3$ ）が介入すべき領域で、ここでは $\tau(x)>0.30$ ＝効果の価値が介入コストを上回ります。左の赤い領域（低 $X$ ）には触らない——この塗り分けがそのままポリシーです。

⚠️ よくある誤解

予測（誰が買うか）と因果（介入の効果）は別物：コンバージョンをよく当てる機械学習（ $E[Y\mid X]$ ）を作っても、介入したら何が変わるか $\tau(x)$ は出ません。目的関数が違うからで、当てはまり（予測精度）をいくら上げても因果効果は副産物として湧いてきません。§3で見たとおり、 $E[Y\mid X]$ を完璧に予測できても素朴な差は交絡で $+0.792$ と外れます。「買いそうな人ランキング」と「施策で動く人ランキング」は別物——アップリフトモデリングの反応率 vs アップリフトと同じ教訓が、観察データ＋多特徴でも生きます。
観察データの素朴な差は交絡でバイアス：処置を「打ちたい人・打てた人に打った」観察データでは、処置群と対照群がもともと違います（本ノートで平均 $X$ が $0.603$ 対 $0.394$ ）。素朴な差はその素性の違いを効果に混ぜます。A/Bテストの設計と分析のようにランダム化できるなら交絡はなく、こんな調整は不要——A/B が因果の王道である理由です。因果機械学習は「A/B が回せない場面」のための道具で、ランダム化の代わりに「観測した交絡 $X$ で条件づける」仮定を置きます。
無交絡（unconfoundedness）の仮定は検証不能で強い：Double ML も交互作用回帰も、「効果に効く交絡を全部 $X$ に入れた（ $X$ で条件づければ処置は実質ランダム）」という前提に完全に依存します。これはデータから検証できない仮定です。 $X$ に入れ忘れた交絡（例：観測できない購買意欲）があれば、どんなに高度な ML を使っても推定は偏ります（残差交絡）。本ノートが真値を回復できたのは、交絡 $X$ をすべて観測している合成データだから。現実では「本当に全部 $X$ に入っているか」が最大の論点で、感度分析や複数手法の突き合わせ、可能なら部分的にでも実験を組むことが要ります。観測されない交絡に対処する**操作変数（IV）**などは因果推論テキストへ。
正しく特定すれば結果回帰でも CATE は出るが、誤特定すれば崩れる：§4の交互作用回帰が当たったのは、結果モデル $E[Y\mid X,T]$ の関数形（線形＋交互作用）が真の生成と一致していたからです。実際の関係が非線形・高次交互作用なら、線形回帰は CATE を誤ります。だから柔軟な ML や、結果回帰と傾向スコアの両方を使う二重頑健（doubly robust）な推定が好まれます——どちらか一方のモデルが当たっていれば一貫推定が保てる性質です。S/T/X-learner などのメタ学習器の体系はアップリフトモデリングでも触れたとおり因果推論テキストの領域です。
過学習バイアスはクロスフィッティングで抑える（要最新確認）：柔軟な ML で $E[Y\mid X],E[T\mid X]$ を当てると、同じデータで残差化と効果推定を行うことで過学習由来のバイアスが混じり得ます。これを防ぐのがクロスフィッティング——データを分割し、片方で nuisance を学習・もう片方で残差化、を入れ替えて行う標準手法です。本ノートは核を見せるため簡略化（同一データで残差化）しましたが、 $N{=}5000$ ・低次多項式ゆえ過学習は無視できる範囲でした。実装の作法・ベストプラクティス（クロスフィッティングの分割数、二重頑健スコア、信頼区間）は動きが速く、要最新確認です。
理論と実装は別テキスト・要最新確認：本ノートは「予測≠因果 → 直交化で交絡を抜く → CATE → ポリシー」という因果機械学習の数理の核を合成データで示すことに徹しました。Double ML・メタ学習器・傾向スコア・操作変数の理論は因果推論テキスト、勾配ブースティングやランダムフォレストといった機械学習の手法そのものは機械学習テキストへ。EconML・DoWhy・CausalML といったライブラリや、アトリビューション・因果機械学習のベストプラクティスは実装も手法も動きが速い領域なので、最新情報を各自で確認してください。

⚠️ 要最新確認：因果機械学習（Double ML・causal forest・メタ学習器）とアトリビューションは、手法もライブラリ（EconML・DoWhy・CausalML 等）も活発に更新される領域です。本ノートは数理の核を numpy の最小実装で示しました。実務適用の際は、無交絡の妥当性検証・クロスフィッティング・二重頑健・信頼区間の出し方など、最新のベストプラクティスを確認してください。