← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:C(低頻度)

要点(BLUF)

範囲表外(出題実績あり):2015.5.8版の出題範囲表に「傾向スコア」の明示はありませんが、社会科学・医薬生物学分野の過去問で観察データの因果調整として問われています。層別解析・交絡の調整(交絡の調整)の土台になる考え方なので、共通事項として押さえます(範囲・配点は改訂されうるため要最新確認)。

無作為化実験は「e(x)e(x) が既知の定数(例 0.50.5)で XX に依存しない」特別な場合で、だから交絡が起きません。観察研究の因果推論は、その既知だった割り付け確率 e(x)e(x)データから推定して埋め合わせる営みだと捉えると全体像が掴めます。

flowchart TD
  Q["観察データで因果効果を出したい"] --> RCM["ルービン因果モデル<br/>潜在結果 Y(1), Y(0)"]
  RCM --> FP["因果推論の根本問題<br/>片方しか観測できない(反事実は欠測)"]
  FP --> EST["推定対象を平均に:ATE = E[Y(1)−Y(0)]、ATT"]
  EST --> ASM["識別の3仮定"]
  ASM --> A1["SUTVA<br/>干渉なし・処置の版が一意"]
  ASM --> A2["条件付き独立性(無交絡)<br/>潜在結果 ⊥ T | X"]
  ASM --> A3["正値性<br/>0 < e(x) < 1"]
  A2 --> PS["傾向スコア e(x)=P(T=1|X)<br/>共変量を1次元に圧縮"]
  PS --> BAL["バランシングスコア定理<br/>X ⊥ T | e(X)"]
  BAL --> ADJ["調整法"]
  ADJ --> M["マッチング"]
  ADJ --> S["層別"]
  ADJ --> I["IPW(逆確率重み付け)"]

1. ルービン因果モデル(潜在結果フレームワーク)

1.1 潜在結果と因果推論の根本問題

因果効果を「比較」として定義するのがルービンの枠組み(潜在結果フレームワーク)です。処置(介入)の有無を表す2値変数を T{0,1}T\in\{0,1\}11=処置、00=対照)とし、各個体 ii に対して2つの潜在結果を考えます。

Yi(1): 個体 i が処置を受けた場合の結果,Yi(0): 個体 i が処置を受けなかった場合の結果Y_i(1):\ \text{個体 } i \text{ が処置を受けた場合の結果},\qquad Y_i(0):\ \text{個体 } i \text{ が処置を受けなかった場合の結果}

要するに「同じ個体について『処置したらどうなるか』『しなかったらどうなるか』の両方を仮想的に並べる」。この2つの差が、その個体に対する処置の純粋な効果です。

  τi=Yi(1)Yi(0)(個体処置効果、ITE)  \boxed{\;\tau_i = Y_i(1) - Y_i(0)\quad(\text{個体処置効果、ITE})\;}

ところが現実には、個体 ii は処置を受ける(Ti=1T_i=1)か受けない(Ti=0T_i=0)かのどちらか一方しか起こりません。実際に観測される結果 YiobsY_i^{\text{obs}}

Yiobs=TiYi(1)+(1Ti)Yi(0)Y_i^{\text{obs}} = T_i\,Y_i(1) + (1-T_i)\,Y_i(0)

要するに「処置した人からは Y(1)Y(1) だけ、しなかった人からは Y(0)Y(0) だけが見える」。Ti=1T_i=1 なら Yi(0)Y_i(0) は、Ti=0T_i=0 なら Yi(1)Y_i(1) は永久に観測できません。この観測できない方の潜在結果を反事実(counterfactual) と呼びます。

因果推論の根本問題(Holland 1986):個体処置効果 τi=Yi(1)Yi(0)\tau_i=Y_i(1)-Y_i(0) は、片方の潜在結果が常に欠測するためどの個体についても直接は観測できない

これが因果推論を統計の問題たらしめている核心です。回帰や相関は観測できる量どうしの関係ですが、因果効果は観測できない反事実との差なので、そのままでは計算できません。

1.2 推定対象を平均にずらす — ATE と ATT

個体効果 τi\tau_i は観測できませんが、集団全体の平均なら推定できる見込みがあります。そこで推定対象(estimand)を平均にずらします。

  ATE=E[Y(1)Y(0)]=E[Y(1)]E[Y(0)]  \boxed{\;\text{ATE} = E[Y(1)-Y(0)] = E[Y(1)] - E[Y(0)]\;}

要するに「集団の全員が処置を受けた場合の平均結果と、全員が受けなかった場合の平均結果の差」。これが平均処置効果(Average Treatment Effect) です。個体ごとの効果は分からなくても、「集団としてどれだけ底上げされるか」は問えるわけです。

しばしば興味があるのは実際に処置を受けた人たちでの効果です。これを処置群における平均処置効果(ATT) といいます。

  ATT=E[Y(1)Y(0)T=1]  \boxed{\;\text{ATT} = E[Y(1)-Y(0)\mid T=1]\;}

要するに「実際に処置を受けた人たちが、もし受けていなかったら(反事実)どうなったかとの差」。例えば「ある研修を受けた社員」だけに絞った効果が知りたいなら ATT、「全社員に研修を課したら」という効果なら ATE です。処置の割り付けが結果と無関係なら ATE と ATT は一致しますが、効果に個人差があり処置を受けやすい人ほど効果が大きい(自己選択)状況では両者はずれます。

1.3 なぜ単純な群間比較ではダメか — 選択バイアス

「処置群の平均」と「対照群の平均」を引き算すれば良いのでは、と思えます。実際に観測量で計算できるのは

E[YobsT=1]E[YobsT=0]=E[Y(1)T=1]E[Y(0)T=0]E[Y^{\text{obs}}\mid T=1] - E[Y^{\text{obs}}\mid T=0] = E[Y(1)\mid T=1] - E[Y(0)\mid T=0]

です。ところがこれを ATE と比べると一致しません。E[Y(0)T=1]E[Y(0)\mid T=1] を足して引いて分解すると

E[Y(1)T=1]E[Y(0)T=1]ATT(真の効果)  +  E[Y(0)T=1]E[Y(0)T=0]選択バイアス\underbrace{E[Y(1)\mid T=1]-E[Y(0)\mid T=1]}_{\text{ATT(真の効果)}}\;+\;\underbrace{E[Y(0)\mid T=1]-E[Y(0)\mid T=0]}_{\text{選択バイアス}}

要するに「観測される群間差 = 真の効果 + 選択バイアス」。第2項は「処置群の人たちは、そもそも処置を受けなかったとしても対照群とは違う結果だったはず」というズレで、TT が結果と相関する要因(交絡)で決まるときに生じます。例えば「健康意識の高い人ほどサプリを飲む」なら、飲んだ群と飲まない群を比べてもサプリの効果と健康意識の差がごちゃ混ぜになります。この選択バイアスをゼロにする仕掛けが、次節の識別仮定です。


2. 識別の仮定(SUTVA・無交絡・正値性)

観察データから ATE を推定可能(識別可能)にするには、3つの仮定が要ります。

2.1 SUTVA(安定単位処置値仮定)

SUTVA(Stable Unit Treatment Value Assumption) は潜在結果がそもそも well-defined であるための前提で、2つの中身を持ちます。

要するに「各個体の潜在結果が『自分の処置だけ』で1つに定まる」。これが崩れる典型はワクチンの集団免疫(他人の接種が自分の感染リスクを下げる=干渉)や、SNSのネットワーク効果です。SUTVAがないと Yi(1),Yi(0)Y_i(1),Y_i(0) という記法自体が成り立ちません。

2.2 条件付き独立性(無交絡・ignorability)

最重要の仮定です。共変量 XX で条件付ければ、処置の割り付け TT が潜在結果と独立になる、というものです。

  {Y(0),Y(1)}TX  \boxed{\;\{Y(0),\,Y(1)\}\perp T \mid X\;}

要するに「XX が同じ個体だけ集めれば、その中での処置の有無はくじ引き同然(潜在結果と無関係)になる」。無交絡(unconfoundedness)/条件付き独立性/ignorability などと呼びます。意味するところは「処置を受けるかどうかを左右する要因が、すべて XX に観測されている」こと。XX を揃えれば選択バイアスの源を断てる、というのがこの仮定の主張です。

これが成り立つと、XX で条件付けた群間差が条件付き処置効果に一致します。TY(0)XT\perp Y(0)\mid X より E[Y(0)T=0,X]=E[Y(0)X]E[Y(0)\mid T=0,X]=E[Y(0)\mid X]、同様に E[Y(1)T=1,X]=E[Y(1)X]E[Y(1)\mid T=1,X]=E[Y(1)\mid X] なので

E[YobsT=1,X]E[YobsT=0,X]=E[Y(1)Y(0)X]E[Y^{\text{obs}}\mid T=1,X]-E[Y^{\text{obs}}\mid T=0,X]=E[Y(1)-Y(0)\mid X]

要するに「XX を固定すれば観測される群間差がそのまま因果効果になる」。あとはこれを XX の分布で平均すれば ATE=EX[E[Y(1)Y(0)X]]\text{ATE}=E_X\big[E[Y(1)-Y(0)\mid X]\big] が得られます。⚠️ ただし「すべての交絡が XX に入っている」は検証不能な仮定で、観測されない交絡(未測定の交絡因子)が1つでもあると破れます。

2.3 正値性(オーバーラップ)

XX の各値で、処置群・対照群の両方に個体が存在しうることを要求します。

  0<e(x)<1for all x,e(x):=P(T=1X=x)  \boxed{\;0 < e(x) < 1\quad\text{for all } x,\qquad e(x):=P(T=1\mid X=x)\;}

要するに「どんな共変量の値の人にも、処置される可能性と されない可能性の両方がある」。e(x)=0e(x)=011 の人がいると、その層には片方の群しかおらず反事実を埋めるデータが存在しません(外挿に頼るしかなくなる)。例えば「ある持病がある人は必ず投薬される(e=1e=1)」なら、その持病を持つ人の Y(0)Y(0) はどこにも観測されず効果を推定できません。条件付き独立性+正値性を合わせて 強い意味での無視可能性(strong ignorability) と呼びます。

仮定数式破れる典型例検証可能性
SUTVAYi(t)Y_i(t) が自分の tt だけで決まる集団免疫・ネットワーク効果一部は文脈で判断
条件付き独立性(無交絡){Y(0),Y(1)}TX\{Y(0),Y(1)\}\perp T\mid X未測定の交絡因子がある検証不能
正値性0<e(x)<10<e(x)<1必ず処置される層があるデータで概ね確認可

3. 傾向スコアとバランシングスコア定理

3.1 傾向スコアの定義と動機

無交絡 {Y(0),Y(1)}TX\{Y(0),Y(1)\}\perp T\mid X で調整するには、原理的には「XX が同じ個体どうしを比べる」必要があります。しかし XX が高次元(連続変数や多数のカテゴリ)だと、完全に一致する処置・対照のペアはほぼ存在せず、層別すると各層が空になります(次元の呪い)。これを回避するのが傾向スコアです。

  e(x)=P(T=1X=x)  \boxed{\;e(x) = P(T=1\mid X=x)\;}

要するに「共変量 xx を持つ個体が処置を受ける確率」。多次元の XX を、[0,1][0,1]1次元のスカラーに圧縮した量です。実際には未知なので、TT を応答・XX を説明変数とするロジスティック回帰一般化線形モデル(ロジスティック・ポアソン回帰) のロジットリンク)で推定するのが標準です。

e^(x)=11+exp(xβ^)\hat e(x) = \frac{1}{1+\exp(-x^\top\hat\beta)}

3.2 バランシングスコア定理(証明)

傾向スコアが効く根拠がバランシングスコア定理(Rosenbaum & Rubin 1983)です。バランシングスコアとは「それで条件付けると共変量 XX と処置 TT が独立になる関数 b(x)b(x)」、つまり XTb(X)X\perp T\mid b(X) を満たす関数のこと。定理は次を主張します。

定理:傾向スコア e(X)e(X) はバランシングスコアである。すなわち XTe(X)X\perp T\mid e(X)

証明。 XTe(X)X\perp T\mid e(X) を示すには、e(X)e(X) で条件付けたとき T=1T=1 となる確率が XX に依存しないこと、すなわち

P(T=1X,e(X))=P(T=1e(X))P(T=1\mid X,\,e(X)) = P(T=1\mid e(X))

を示せば十分です(両辺が等しければ、e(X)e(X) を知った後では XX の追加情報が TT の確率を変えない=条件付き独立)。

(i) 左辺。 e(X)e(X)XX の関数なので、XX を与えれば e(X)e(X) は自動的に決まり、条件として何も足しません。よって

P(T=1X,e(X))=P(T=1X)=e(X)P(T=1\mid X,\,e(X)) = P(T=1\mid X) = e(X)

要するに「XX が分かっていれば e(X)e(X) は重複情報。だから T=1T=1 の確率は定義どおり e(X)e(X)」。

(ii) 右辺。 期待値の繰り返しの公式(全期待値の法則)を e(X)e(X) で条件付けて使います。TT は0/1なので P(T=1)=E[T]P(T=1\mid\cdot)=E[T\mid\cdot] に注意して、

P(T=1e(X))=E[Te(X)]=E[E[TX]    e(X)]=E[e(X)e(X)]=e(X)P(T=1\mid e(X)) = E\big[\,T \mid e(X)\,\big] = E\big[\,E[T\mid X]\;\big|\;e(X)\,\big] = E\big[\,e(X)\mid e(X)\,\big] = e(X)

要するに「いったん XX まで細かく見れば確率は e(X)e(X)。それを e(X)e(X) の値で平均し直しても、e(X)e(X)e(X)e(X) で固定済みだからそのまま e(X)e(X)」。3番目の等号は内側の条件付き期待値 E[TX]=e(X)E[T\mid X]=e(X)、4番目は e(X)e(X)e(X)e(X) の条件下で定数であることを使っています。

(iii) 結論。 (i)=(ii)=e(X)e(X) より

P(T=1X,e(X))=e(X)=P(T=1e(X))P(T=1\mid X,\,e(X)) = e(X) = P(T=1\mid e(X))

が成り立ち、XTe(X)X\perp T\mid e(X) が示されました。\blacksquare

要するに「多次元の XX をすべて揃えなくても、たった1次元の e(X)e(X) さえ揃えれば、その層の中で処置はくじ引き同然(XX の分布が処置群と対照群で同じ)になる」。これが傾向スコアで次元を1まで落とせる理由です。e(X)e(X) は「最も粗い」バランシングスコアで、XX そのものもバランシングスコアですが(自明)、e(X)e(X) は情報を1次元まで圧縮した極限にあたります。

graph LR
  X["多次元の共変量 X<br/>(連続・多カテゴリ)"] -->|完全一致は不可能<br/>次元の呪い| FAIL["X で直接の層別は破綻"]
  X -->|ロジスティック回帰で推定| E["傾向スコア e(X)=P(T=1|X)<br/>1次元スカラー"]
  E -->|バランシングスコア定理| BAL["e(X) を揃えれば X ⊥ T<br/>=その層で処置はくじ引き同然"]
  BAL --> OK["1次元の e(X) だけ揃えれば交絡除去"]

3.3 無交絡は傾向スコアでも保たれる

バランシングだけでは因果推論には足りません。「e(X)e(X) を揃えると共変量がバランスする」ことと「e(X)e(X) を揃えると因果効果が識別できる」ことは別の主張だからです。ここで効くのが第2の定理です。

定理XX で強い無視可能性 {Y(0),Y(1)}TX\{Y(0),Y(1)\}\perp T\mid X が成り立つなら、傾向スコアでも {Y(0),Y(1)}Te(X)\{Y(0),Y(1)\}\perp T\mid e(X) が成り立つ。

要するに「XX 全部で無交絡なら、1次元の e(X)e(X) だけで条件付けても無交絡のまま」。これにより、XX ではなく e(X)e(X) で条件付けた群間差を e(X)e(X) の分布で平均するだけで ATE が得られます。

ATE=Ee(X)[E[YobsT=1,e(X)]E[YobsT=0,e(X)]]\text{ATE} = E_{e(X)}\Big[\,E[Y^{\text{obs}}\mid T=1,\,e(X)]-E[Y^{\text{obs}}\mid T=0,\,e(X)]\,\Big]

この2つの定理(バランシング+無交絡の保存)がそろって初めて、「高次元の共変量調整を、1次元の傾向スコア調整に置き換えてよい」が正当化されます。


4. 傾向スコアによる調整法

無交絡が e(X)e(X) で保たれることが分かったので、e(X)e(X) を使って実際に ATE/ATT を推定します。代表的に3つの方法があります。

4.1 マッチング

処置群の各個体に対し、傾向スコアが近い対照群の個体を相棒として選び、ペアの結果の差を平均します。

ATT^=1n1i:Ti=1(YiobsYm(i)obs),m(i)=argminj:Tj=0e^(xi)e^(xj)\widehat{\text{ATT}} = \frac{1}{n_1}\sum_{i:\,T_i=1}\Big(Y_i^{\text{obs}} - Y_{m(i)}^{\text{obs}}\Big),\qquad m(i)=\arg\min_{j:\,T_j=0}\big\lvert\hat e(x_i)-\hat e(x_j)\big\rvert

要するに「処置を受けた人に、受けやすさ(傾向スコア)がそっくりな受けなかった人を当てて、その人の結果を反事実の代用にする」。傾向スコアが近ければバランシング定理から共変量分布が似ているので、ペアの差が処置効果に近づきます。主に ATT の推定に使われます。

4.2 層別(サブクラス分類)

傾向スコアの値で個体をいくつかの層(よく5分位)に分け、各層内で群間差を計算し、層の大きさで重みづけて平均します。

ATE^=k=1Knkn(Yˉ1,kYˉ0,k)\widehat{\text{ATE}} = \sum_{k=1}^{K}\frac{n_k}{n}\Big(\bar Y_{1,k} - \bar Y_{0,k}\Big)

ここで Yˉ1,k,Yˉ0,k\bar Y_{1,k},\bar Y_{0,k} は層 kk での処置群・対照群の平均結果。要するに「傾向スコアが近い人どうしを束にして、束の中だけで比較し、最後に束を統合する」。各層内では e(X)e(X) がほぼ一定なのでバランスが取れています。層別は層別解析・交絡の調整(交絡の調整)と直結し、5層で交絡の約90%が除けるという経験則(Cochran)が知られます。

4.3 IPW(逆確率重み付け)

最も理論的に透明な方法です。各個体を自分が観測された群の確率の逆数で重みづけて、母集団全体を疑似的に復元します。処置群は 1/e(xi)1/e(x_i)、対照群は 1/(1e(xi))1/(1-e(x_i)) で重みづけます。

  ATE^IPW=1ni=1n[TiYiobse(xi)(1Ti)Yiobs1e(xi)]  \boxed{\;\widehat{\text{ATE}}_{\text{IPW}} = \frac{1}{n}\sum_{i=1}^{n}\left[\frac{T_i\,Y_i^{\text{obs}}}{e(x_i)} - \frac{(1-T_i)\,Y_i^{\text{obs}}}{1-e(x_i)}\right]\;}

これは標本調査のホルヴィッツ-トンプソン推定量(抽出確率の逆数で重みづける)の因果版です。要するに「処置されにくかったのに処置された人(ee が小さい)を重く数えて、処置群が母集団全体を代表するよう水増しする」。

不偏性の導出。 右辺第1項の期待値が E[Y(1)]E[Y(1)] になることを示します(第2項も対称に E[Y(0)]E[Y(0)])。まず XX で条件付けて期待値を取り、TTY(1)Y(1) の独立性(無交絡)を使います。YobsY^{\text{obs}} のうち Ti=1T_i=1 の項だけが残るので TiYiobs=TiYi(1)T_iY_i^{\text{obs}}=T_iY_i(1) に注意して、

E ⁣[TYobse(X)  |  X]=E ⁣[TY(1)e(X)  |  X]=1e(X)E[TY(1)X]E\!\left[\frac{T\,Y^{\text{obs}}}{e(X)}\;\middle|\;X\right] = E\!\left[\frac{T\,Y(1)}{e(X)}\;\middle|\;X\right] = \frac{1}{e(X)}\,E\big[T\,Y(1)\mid X\big]

ここで無交絡 Y(1)TXY(1)\perp T\mid X より E[TY(1)X]=E[TX]E[Y(1)X]=e(X)E[Y(1)X]E[T\,Y(1)\mid X]=E[T\mid X]\,E[Y(1)\mid X]=e(X)\,E[Y(1)\mid X]。代入して

=1e(X)e(X)E[Y(1)X]=E[Y(1)X]= \frac{1}{e(X)}\cdot e(X)\,E[Y(1)\mid X] = E[Y(1)\mid X]

要するに「重み 1/e(X)1/e(X) がちょうど処置を受ける確率 e(X)e(X) を打ち消して、処置の有無に関係なく E[Y(1)X]E[Y(1)\mid X] が復元される」。最後に XX の分布で平均(全期待値の法則)すれば

E ⁣[TYobse(X)]=EX[E[Y(1)X]]=E[Y(1)]E\!\left[\frac{T\,Y^{\text{obs}}}{e(X)}\right] = E_X\big[E[Y(1)\mid X]\big] = E[Y(1)]

第2項も同様に E ⁣[(1T)Yobs1e(X)]=E[Y(0)]E\!\left[\frac{(1-T)Y^{\text{obs}}}{1-e(X)}\right]=E[Y(0)] なので、

E[ATE^IPW]=E[Y(1)]E[Y(0)]=ATEE\big[\widehat{\text{ATE}}_{\text{IPW}}\big] = E[Y(1)]-E[Y(0)] = \text{ATE}

が示されました。要するに「逆確率の重みが選択の偏りをちょうど相殺するので、ナイーブな群間差で消えなかった選択バイアスが、重みづけで消える」。e(x)e(x) が真値なら不偏ですが、⚠️ e(x)e(x) が0や1に近い個体がいると重みが爆発して分散が極端に大きくなる弱点があります(重みを正規化した Hájek 推定量で安定化するのが実務)。

4.4 無作為化実験との対比

これらの調整が「何を復元しているか」は、無作為化比較試験(RCT)と並べると明快です。RCTでは処置をコイン投げ等で割り付けるので、傾向スコアは共変量に依存しない既知の定数です。

RCT:e(x)=P(T=1X=x)=P(T=1)=const (例えば 0.5)\text{RCT}:\quad e(x) = P(T=1\mid X=x) = P(T=1) = \text{const}\ (\text{例えば } 0.5)

このとき e(x)e(x)XX に依らないので、定義からして TXT\perp X、すなわち交絡が原理的に起きません(無交絡が設計で保証される)。観察研究との関係は次の表のとおり。

観点無作為化実験(RCT)観察研究+傾向スコア
傾向スコア e(x)e(x)既知の定数(設計者が決める)未知。データから推定
無交絡設計で保証(TXT\perp X仮定{Y(0),Y(1)}TX\{Y(0),Y(1)\}\perp T\mid X を信じる)
未測定交絡無作為化で自動的に除ける除けない(XX に入っていなければアウト)
ATE の単純群間差そのまま不偏選択バイアスを含む → 調整が必要

要するに「観察研究の因果推論は、RCTでは既知だった割り付け確率 e(x)e(x)XX から推定し直して、無作為化を後から人工的に復元する営み」。ただし RCT が無作為化で観測されない交絡までならすのに対し、傾向スコアは観測された XX の範囲でしか交絡を除けないのが決定的な違いです。


5. 試験での問われ方(1級)

統計検定1級「統計応用」では、社会科学医薬生物学の分野で観察データの因果効果推定として登場します。範囲表に「傾向スコア」の明示はありませんが(要最新確認)、関連手法として出題実績があります。

問われ方の軸はほぼ一定で「観察データで交絡を調整して因果効果を推定する論理」です。数式そのものより、(1) 根本問題(反事実は観測できない)、(2) 識別仮定がないと推定できない、(3) 傾向スコアで次元を落として調整する、(4) それでも未測定交絡には無力、という因果推論の枠組みの理解が中心になります。


6. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. 潜在結果 Y(1),Y(0)Y(1),Y(0) は両方は観測できないのに、なぜ ATE は推定できるのですか?

個体レベルでは確かに片方しか見えません(反事実は欠測)。しかし ATE は E[Y(1)]E[Y(0)]E[Y(1)]-E[Y(0)] という集団平均の差です。E[Y(1)]E[Y(1)] は「処置群で観測された Y(1)Y(1)」から、E[Y(0)]E[Y(0)] は「対照群で観測された Y(0)Y(0)」から、それぞれ別の人たちのデータで推定できます。鍵は無交絡 {Y(0),Y(1)}TX\{Y(0),Y(1)\}\perp T\mid X で、これがあれば「処置群で見た Y(1)Y(1) の平均」が「全体が処置されたときの平均 E[Y(1)]E[Y(1)]」を代表すると正当化されます。個体の効果は出せないが、平均なら別々の集団から復元できる、というのが要点です。

Q2. 共変量 XX で直接マッチング・層別すればよいのに、なぜわざわざ傾向スコアという1次元に潰すのですか?

XX が高次元だと、XX が完全に一致する処置・対照のペアがほぼ存在しないからです。連続変数が混じれば一致は事実上不可能、カテゴリ変数でも組み合わせ爆発で各層が空になります(次元の呪い)。傾向スコアは XX を「処置を受ける確率」という1次元に圧縮し、バランシングスコア定理 XTe(X)X\perp T\mid e(X) により「e(X)e(X) さえ揃えれば XX の分布が処置群と対照群で一致する」ことが保証されます。つまり多次元を全部揃える代わりに1次元を揃えるだけで済む。これが傾向スコアの最大の御利益です。

Q3. バランシングスコア定理で共変量のバランスが取れるなら、それで因果効果も言えるのではないですか?

言えません。ここが最も誤解されるところです。バランシングスコア定理 XTe(X)X\perp T\mid e(X)共変量 XX と処置 TT の関係だけを述べていて、結果変数 YY には一切触れていません。バランスが取れても、未測定の交絡(XX に入っていない要因)が結果を左右していれば因果効果は偏ります。因果効果が識別できるのは、別途「XX で無交絡なら e(X)e(X) でも無交絡」という第2の定理が成り立つ場合だけで、その大元の無交絡 {Y(0),Y(1)}TX\{Y(0),Y(1)\}\perp T\mid X 自体は検証不能な仮定です。「バランス=因果」ではなく「バランス+無交絡仮定=因果」です。

Q4. IPW で「逆確率の重み」をかけると、なぜ選択バイアスが消えるのですか?

処置を受けにくい人(e(x)e(x) が小さい)ほど処置群では過少に出現しています。その人を 1/e(x)1/e(x) という大きな重みで数え直すと、処置群が「もし全員が処置されていたら」という母集団を代表するように水増しされます。数式では、重み 1/e(X)1/e(X) が処置を受ける確率 e(X)e(X) をちょうど打ち消し、E[TY(1)/e(X)X]=E[Y(1)X]E[T\,Y(1)/e(X)\mid X]=E[Y(1)\mid X] となって処置の有無に依存しない量が復元されます。これを XX で平均すれば E[Y(1)]E[Y(1)]。標本調査で抽出確率の逆数をかけて母集団を復元するホルヴィッツ-トンプソン推定量と全く同じ発想で、「選ばれにくかったものを重く数えて偏りを相殺する」のがミソです。

Q5. 傾向スコアを使えば、観察データでも無作為化実験と同じ結論が得られるのですか?

得られません。傾向スコアが復元できるのは「観測された共変量 XX の範囲での無作為化」だけです。無作為化実験の本当の強みは、コイン投げが観測されない要因まで含めて処置群と対照群をならす点にあります。傾向スコアは XX に入っていない交絡(未測定交絡)には完全に無力で、XX の選び方が悪ければバイアスが残ります。だから傾向スコア分析の結論は常に「無交絡(全交絡が XX に観測済み)が成り立つなら」という条件付きで、その仮定はデータからは検証できません。RCTが「設計で」交絡を消すのに対し、傾向スコアは「仮定の下で」消すという、依拠の質の差があります。


まとめ


関連ノート