📊 対象級:1級 | 重要度:C(低頻度)
要点(BLUF)
範囲表外(出題実績あり):2015.5.8版の出題範囲表に「傾向スコア」の明示はありませんが、社会科学・医薬生物学分野の過去問で観察データの因果調整として問われています。層別解析・交絡の調整(交絡の調整)の土台になる考え方なので、共通事項として押さえます(範囲・配点は改訂されうるため要最新確認)。
- ルービン因果モデル(潜在結果):各個体に処置を受けた場合の結果 と受けなかった場合の結果 の両方を考える。個体の因果効果は 。だが実際に観測できるのは処置の有無に応じて片方だけで、もう片方(反事実)は永久に欠測する。これが因果推論の根本問題。
- 平均処置効果:個体効果は観測できないので、集団平均 を推定対象にする。処置群に限った もよく使う。
- 識別の3仮定:観察データで を識別するには SUTVA(個体間干渉なし・処置の版が一意)、条件付き独立性/無交絡 、正値性 が要る。
- 傾向スコア :多次元の共変量 を「処置を受ける確率」という1次元に圧縮した量(ロジスティック回帰=一般化線形モデル(ロジスティック・ポアソン回帰) で推定)。バランシングスコア定理により が成り立ち、無交絡も で条件付けたまま保たれる。だから高次元の ではなく1次元の を揃えるだけで交絡を除ける。
- 調整法:傾向スコアによるマッチング・層別・IPW(逆確率重み付け)。IPW 推定量は処置・対照を ・ で重みづけて疑似的に無作為化を復元し、 の不偏推定を与える。
無作為化実験は「 が既知の定数(例 )で に依存しない」特別な場合で、だから交絡が起きません。観察研究の因果推論は、その既知だった割り付け確率 をデータから推定して埋め合わせる営みだと捉えると全体像が掴めます。
flowchart TD Q["観察データで因果効果を出したい"] --> RCM["ルービン因果モデル<br/>潜在結果 Y(1), Y(0)"] RCM --> FP["因果推論の根本問題<br/>片方しか観測できない(反事実は欠測)"] FP --> EST["推定対象を平均に:ATE = E[Y(1)−Y(0)]、ATT"] EST --> ASM["識別の3仮定"] ASM --> A1["SUTVA<br/>干渉なし・処置の版が一意"] ASM --> A2["条件付き独立性(無交絡)<br/>潜在結果 ⊥ T | X"] ASM --> A3["正値性<br/>0 < e(x) < 1"] A2 --> PS["傾向スコア e(x)=P(T=1|X)<br/>共変量を1次元に圧縮"] PS --> BAL["バランシングスコア定理<br/>X ⊥ T | e(X)"] BAL --> ADJ["調整法"] ADJ --> M["マッチング"] ADJ --> S["層別"] ADJ --> I["IPW(逆確率重み付け)"]
1. ルービン因果モデル(潜在結果フレームワーク)
1.1 潜在結果と因果推論の根本問題
因果効果を「比較」として定義するのがルービンの枠組み(潜在結果フレームワーク)です。処置(介入)の有無を表す2値変数を (=処置、=対照)とし、各個体 に対して2つの潜在結果を考えます。
要するに「同じ個体について『処置したらどうなるか』『しなかったらどうなるか』の両方を仮想的に並べる」。この2つの差が、その個体に対する処置の純粋な効果です。
ところが現実には、個体 は処置を受ける()か受けない()かのどちらか一方しか起こりません。実際に観測される結果 は
要するに「処置した人からは だけ、しなかった人からは だけが見える」。 なら は、 なら は永久に観測できません。この観測できない方の潜在結果を反事実(counterfactual) と呼びます。
因果推論の根本問題(Holland 1986):個体処置効果 は、片方の潜在結果が常に欠測するためどの個体についても直接は観測できない。
これが因果推論を統計の問題たらしめている核心です。回帰や相関は観測できる量どうしの関係ですが、因果効果は観測できない反事実との差なので、そのままでは計算できません。
1.2 推定対象を平均にずらす — ATE と ATT
個体効果 は観測できませんが、集団全体の平均なら推定できる見込みがあります。そこで推定対象(estimand)を平均にずらします。
要するに「集団の全員が処置を受けた場合の平均結果と、全員が受けなかった場合の平均結果の差」。これが平均処置効果(Average Treatment Effect) です。個体ごとの効果は分からなくても、「集団としてどれだけ底上げされるか」は問えるわけです。
しばしば興味があるのは実際に処置を受けた人たちでの効果です。これを処置群における平均処置効果(ATT) といいます。
要するに「実際に処置を受けた人たちが、もし受けていなかったら(反事実)どうなったかとの差」。例えば「ある研修を受けた社員」だけに絞った効果が知りたいなら ATT、「全社員に研修を課したら」という効果なら ATE です。処置の割り付けが結果と無関係なら ATE と ATT は一致しますが、効果に個人差があり処置を受けやすい人ほど効果が大きい(自己選択)状況では両者はずれます。
1.3 なぜ単純な群間比較ではダメか — 選択バイアス
「処置群の平均」と「対照群の平均」を引き算すれば良いのでは、と思えます。実際に観測量で計算できるのは
です。ところがこれを ATE と比べると一致しません。 を足して引いて分解すると
要するに「観測される群間差 = 真の効果 + 選択バイアス」。第2項は「処置群の人たちは、そもそも処置を受けなかったとしても対照群とは違う結果だったはず」というズレで、 が結果と相関する要因(交絡)で決まるときに生じます。例えば「健康意識の高い人ほどサプリを飲む」なら、飲んだ群と飲まない群を比べてもサプリの効果と健康意識の差がごちゃ混ぜになります。この選択バイアスをゼロにする仕掛けが、次節の識別仮定です。
2. 識別の仮定(SUTVA・無交絡・正値性)
観察データから ATE を推定可能(識別可能)にするには、3つの仮定が要ります。
2.1 SUTVA(安定単位処置値仮定)
SUTVA(Stable Unit Treatment Value Assumption) は潜在結果がそもそも well-defined であるための前提で、2つの中身を持ちます。
- 個体間に干渉がない(no interference):個体 の潜在結果は、他人が処置を受けたかどうかに依存しない。 が自分の処置 だけで決まる。
- 処置の版が一意(no hidden variations):「処置 」が複数の異なるバージョンを含まない(同じ薬でも用量がバラバラ、ではない)。
要するに「各個体の潜在結果が『自分の処置だけ』で1つに定まる」。これが崩れる典型はワクチンの集団免疫(他人の接種が自分の感染リスクを下げる=干渉)や、SNSのネットワーク効果です。SUTVAがないと という記法自体が成り立ちません。
2.2 条件付き独立性(無交絡・ignorability)
最重要の仮定です。共変量 で条件付ければ、処置の割り付け が潜在結果と独立になる、というものです。
要するに「 が同じ個体だけ集めれば、その中での処置の有無はくじ引き同然(潜在結果と無関係)になる」。無交絡(unconfoundedness)/条件付き独立性/ignorability などと呼びます。意味するところは「処置を受けるかどうかを左右する要因が、すべて に観測されている」こと。 を揃えれば選択バイアスの源を断てる、というのがこの仮定の主張です。
これが成り立つと、 で条件付けた群間差が条件付き処置効果に一致します。 より 、同様に なので
要するに「 を固定すれば観測される群間差がそのまま因果効果になる」。あとはこれを の分布で平均すれば が得られます。⚠️ ただし「すべての交絡が に入っている」は検証不能な仮定で、観測されない交絡(未測定の交絡因子)が1つでもあると破れます。
2.3 正値性(オーバーラップ)
の各値で、処置群・対照群の両方に個体が存在しうることを要求します。
要するに「どんな共変量の値の人にも、処置される可能性と されない可能性の両方がある」。 や の人がいると、その層には片方の群しかおらず反事実を埋めるデータが存在しません(外挿に頼るしかなくなる)。例えば「ある持病がある人は必ず投薬される()」なら、その持病を持つ人の はどこにも観測されず効果を推定できません。条件付き独立性+正値性を合わせて 強い意味での無視可能性(strong ignorability) と呼びます。
| 仮定 | 数式 | 破れる典型例 | 検証可能性 |
|---|---|---|---|
| SUTVA | が自分の だけで決まる | 集団免疫・ネットワーク効果 | 一部は文脈で判断 |
| 条件付き独立性(無交絡) | 未測定の交絡因子がある | 検証不能 | |
| 正値性 | 必ず処置される層がある | データで概ね確認可 |
3. 傾向スコアとバランシングスコア定理
3.1 傾向スコアの定義と動機
無交絡 で調整するには、原理的には「 が同じ個体どうしを比べる」必要があります。しかし が高次元(連続変数や多数のカテゴリ)だと、完全に一致する処置・対照のペアはほぼ存在せず、層別すると各層が空になります(次元の呪い)。これを回避するのが傾向スコアです。
要するに「共変量 を持つ個体が処置を受ける確率」。多次元の を、 の1次元のスカラーに圧縮した量です。実際には未知なので、 を応答・ を説明変数とするロジスティック回帰(一般化線形モデル(ロジスティック・ポアソン回帰) のロジットリンク)で推定するのが標準です。
3.2 バランシングスコア定理(証明)
傾向スコアが効く根拠がバランシングスコア定理(Rosenbaum & Rubin 1983)です。バランシングスコアとは「それで条件付けると共変量 と処置 が独立になる関数 」、つまり を満たす関数のこと。定理は次を主張します。
定理:傾向スコア はバランシングスコアである。すなわち 。
証明。 を示すには、 で条件付けたとき となる確率が に依存しないこと、すなわち
を示せば十分です(両辺が等しければ、 を知った後では の追加情報が の確率を変えない=条件付き独立)。
(i) 左辺。 は の関数なので、 を与えれば は自動的に決まり、条件として何も足しません。よって
要するに「 が分かっていれば は重複情報。だから の確率は定義どおり 」。
(ii) 右辺。 期待値の繰り返しの公式(全期待値の法則)を で条件付けて使います。 は0/1なので に注意して、
要するに「いったん まで細かく見れば確率は 。それを の値で平均し直しても、 は で固定済みだからそのまま 」。3番目の等号は内側の条件付き期待値 、4番目は が の条件下で定数であることを使っています。
(iii) 結論。 (i)=(ii)= より
が成り立ち、 が示されました。
要するに「多次元の をすべて揃えなくても、たった1次元の さえ揃えれば、その層の中で処置はくじ引き同然( の分布が処置群と対照群で同じ)になる」。これが傾向スコアで次元を1まで落とせる理由です。 は「最も粗い」バランシングスコアで、 そのものもバランシングスコアですが(自明)、 は情報を1次元まで圧縮した極限にあたります。
graph LR X["多次元の共変量 X<br/>(連続・多カテゴリ)"] -->|完全一致は不可能<br/>次元の呪い| FAIL["X で直接の層別は破綻"] X -->|ロジスティック回帰で推定| E["傾向スコア e(X)=P(T=1|X)<br/>1次元スカラー"] E -->|バランシングスコア定理| BAL["e(X) を揃えれば X ⊥ T<br/>=その層で処置はくじ引き同然"] BAL --> OK["1次元の e(X) だけ揃えれば交絡除去"]
3.3 無交絡は傾向スコアでも保たれる
バランシングだけでは因果推論には足りません。「 を揃えると共変量がバランスする」ことと「 を揃えると因果効果が識別できる」ことは別の主張だからです。ここで効くのが第2の定理です。
定理: で強い無視可能性 が成り立つなら、傾向スコアでも が成り立つ。
要するに「 全部で無交絡なら、1次元の だけで条件付けても無交絡のまま」。これにより、 ではなく で条件付けた群間差を の分布で平均するだけで ATE が得られます。
この2つの定理(バランシング+無交絡の保存)がそろって初めて、「高次元の共変量調整を、1次元の傾向スコア調整に置き換えてよい」が正当化されます。
4. 傾向スコアによる調整法
無交絡が で保たれることが分かったので、 を使って実際に ATE/ATT を推定します。代表的に3つの方法があります。
4.1 マッチング
処置群の各個体に対し、傾向スコアが近い対照群の個体を相棒として選び、ペアの結果の差を平均します。
要するに「処置を受けた人に、受けやすさ(傾向スコア)がそっくりな受けなかった人を当てて、その人の結果を反事実の代用にする」。傾向スコアが近ければバランシング定理から共変量分布が似ているので、ペアの差が処置効果に近づきます。主に ATT の推定に使われます。
4.2 層別(サブクラス分類)
傾向スコアの値で個体をいくつかの層(よく5分位)に分け、各層内で群間差を計算し、層の大きさで重みづけて平均します。
ここで は層 での処置群・対照群の平均結果。要するに「傾向スコアが近い人どうしを束にして、束の中だけで比較し、最後に束を統合する」。各層内では がほぼ一定なのでバランスが取れています。層別は層別解析・交絡の調整(交絡の調整)と直結し、5層で交絡の約90%が除けるという経験則(Cochran)が知られます。
4.3 IPW(逆確率重み付け)
最も理論的に透明な方法です。各個体を自分が観測された群の確率の逆数で重みづけて、母集団全体を疑似的に復元します。処置群は 、対照群は で重みづけます。
これは標本調査のホルヴィッツ-トンプソン推定量(抽出確率の逆数で重みづける)の因果版です。要するに「処置されにくかったのに処置された人( が小さい)を重く数えて、処置群が母集団全体を代表するよう水増しする」。
不偏性の導出。 右辺第1項の期待値が になることを示します(第2項も対称に )。まず で条件付けて期待値を取り、 と の独立性(無交絡)を使います。 のうち の項だけが残るので に注意して、
ここで無交絡 より 。代入して
要するに「重み がちょうど処置を受ける確率 を打ち消して、処置の有無に関係なく が復元される」。最後に の分布で平均(全期待値の法則)すれば
第2項も同様に なので、
が示されました。要するに「逆確率の重みが選択の偏りをちょうど相殺するので、ナイーブな群間差で消えなかった選択バイアスが、重みづけで消える」。 が真値なら不偏ですが、⚠️ が0や1に近い個体がいると重みが爆発して分散が極端に大きくなる弱点があります(重みを正規化した Hájek 推定量で安定化するのが実務)。
4.4 無作為化実験との対比
これらの調整が「何を復元しているか」は、無作為化比較試験(RCT)と並べると明快です。RCTでは処置をコイン投げ等で割り付けるので、傾向スコアは共変量に依存しない既知の定数です。
このとき が に依らないので、定義からして 、すなわち交絡が原理的に起きません(無交絡が設計で保証される)。観察研究との関係は次の表のとおり。
| 観点 | 無作為化実験(RCT) | 観察研究+傾向スコア |
|---|---|---|
| 傾向スコア | 既知の定数(設計者が決める) | 未知。データから推定 |
| 無交絡 | 設計で保証() | 仮定( を信じる) |
| 未測定交絡 | 無作為化で自動的に除ける | 除けない( に入っていなければアウト) |
| ATE の単純群間差 | そのまま不偏 | 選択バイアスを含む → 調整が必要 |
要するに「観察研究の因果推論は、RCTでは既知だった割り付け確率 を から推定し直して、無作為化を後から人工的に復元する営み」。ただし RCT が無作為化で観測されない交絡までならすのに対し、傾向スコアは観測された の範囲でしか交絡を除けないのが決定的な違いです。
5. 試験での問われ方(1級)
統計検定1級「統計応用」では、社会科学と医薬生物学の分野で観察データの因果効果推定として登場します。範囲表に「傾向スコア」の明示はありませんが(要最新確認)、関連手法として出題実績があります。
- 論理の説明問題:「観察データでは群間差がなぜ因果効果と一致しないか」を選択バイアス()で説明させる、識別の3仮定を挙げさせる、といった概念問題。
- 層別解析・共通オッズ比:医薬生物学では因果調整として層別解析が頻出で、交絡がない場合の共通オッズ比やマンテル-ヘンツェル検定(カイ二乗検定(適合度・独立性) の層別版)が問われます。傾向スコア層別はこの一般化として位置づきます。
- 傾向スコアの推定と性質: をロジスティック回帰で推定する手順、バランシングの考え方、IPW 推定量の式と不偏性、 が極端なときの分散爆発、を記述させる。
- 研究デザインとの接続:観察研究 vs RCT の違い(研究の種類・疫学研究デザイン)、未測定交絡が傾向スコアでは除けないという限界。
問われ方の軸はほぼ一定で「観察データで交絡を調整して因果効果を推定する論理」です。数式そのものより、(1) 根本問題(反事実は観測できない)、(2) 識別仮定がないと推定できない、(3) 傾向スコアで次元を落として調整する、(4) それでも未測定交絡には無力、という因果推論の枠組みの理解が中心になります。
6. 引っかけ・頻出論点
- ⚠️ 観測される群間差は因果効果ではない: は「真の効果+選択バイアス」。バイアス項 は処置群と対照群の素の違いで、交絡がある限りゼロになりません。「平均の差=因果効果」と短絡しないこと。
- ⚠️ 個体処置効果は観測できない: は片方が常に反事実(欠測)。だから推定対象を ATE や ATT という平均にずらす。「個人ごとの効果が出せる」は誤り。
- ⚠️ ATE と ATT は別物:ATE は集団全員に処置した場合、ATT は実際に処置を受けた人での効果。処置の受けやすさと効果の大きさが相関する(自己選択)と両者はずれます。マッチングは主に ATT、層別・IPW は重みの取り方で ATE/ATT を出し分けます。
- ⚠️ 無交絡は検証不能な仮定: は「全交絡が に観測済み」を要求するが、これはデータからは検証できません。未測定の交絡因子が1つでもあれば傾向スコアでも調整しきれず、推定は偏ります。「傾向スコアを使えば因果が言える」は誤りで、仮定込みの主張です。
- ⚠️ バランシングは結果変数を見ていない:バランシングスコア定理 は共変量 と処置 の関係であって、潜在結果 は登場しません。バランスが取れても、それだけでは因果効果は識別できず、別途「無交絡が でも保たれる」第2の定理が要ります。両者を混同しないこと。
- ⚠️ 正値性の破れ: や の層があると、その層に片方の群しか存在せず反事実を埋められません。IPW では で重み となり推定量の分散が爆発します。「どんな共変量の人にも両群がいる」前提を忘れない。
- ⚠️ 傾向スコアは1次元への圧縮:高次元 を全部揃える代わりに という1次元を揃える。これが効くのはバランシングスコア定理のおかげで、「次元削減なのに調整が成り立つ」のは定理の帰結。 を揃えても の各成分が個別に一致するわけではない(あくまで処置群と対照群で の分布が一致する)点に注意。
- ⚠️ RCTでは傾向スコア調整は不要:無作為化では が既知の定数で なので交絡が起きず、単純群間差がそのまま不偏です。傾向スコア調整は観察研究で初めて意味を持ちます。
よくある疑問(Q&A)
Q1. 潜在結果 は両方は観測できないのに、なぜ ATE は推定できるのですか?
個体レベルでは確かに片方しか見えません(反事実は欠測)。しかし ATE は という集団平均の差です。 は「処置群で観測された 」から、 は「対照群で観測された 」から、それぞれ別の人たちのデータで推定できます。鍵は無交絡 で、これがあれば「処置群で見た の平均」が「全体が処置されたときの平均 」を代表すると正当化されます。個体の効果は出せないが、平均なら別々の集団から復元できる、というのが要点です。
Q2. 共変量 で直接マッチング・層別すればよいのに、なぜわざわざ傾向スコアという1次元に潰すのですか?
が高次元だと、 が完全に一致する処置・対照のペアがほぼ存在しないからです。連続変数が混じれば一致は事実上不可能、カテゴリ変数でも組み合わせ爆発で各層が空になります(次元の呪い)。傾向スコアは を「処置を受ける確率」という1次元に圧縮し、バランシングスコア定理 により「 さえ揃えれば の分布が処置群と対照群で一致する」ことが保証されます。つまり多次元を全部揃える代わりに1次元を揃えるだけで済む。これが傾向スコアの最大の御利益です。
Q3. バランシングスコア定理で共変量のバランスが取れるなら、それで因果効果も言えるのではないですか?
言えません。ここが最も誤解されるところです。バランシングスコア定理 は共変量 と処置 の関係だけを述べていて、結果変数 には一切触れていません。バランスが取れても、未測定の交絡( に入っていない要因)が結果を左右していれば因果効果は偏ります。因果効果が識別できるのは、別途「 で無交絡なら でも無交絡」という第2の定理が成り立つ場合だけで、その大元の無交絡 自体は検証不能な仮定です。「バランス=因果」ではなく「バランス+無交絡仮定=因果」です。
Q4. IPW で「逆確率の重み」をかけると、なぜ選択バイアスが消えるのですか?
処置を受けにくい人( が小さい)ほど処置群では過少に出現しています。その人を という大きな重みで数え直すと、処置群が「もし全員が処置されていたら」という母集団を代表するように水増しされます。数式では、重み が処置を受ける確率 をちょうど打ち消し、 となって処置の有無に依存しない量が復元されます。これを で平均すれば 。標本調査で抽出確率の逆数をかけて母集団を復元するホルヴィッツ-トンプソン推定量と全く同じ発想で、「選ばれにくかったものを重く数えて偏りを相殺する」のがミソです。
Q5. 傾向スコアを使えば、観察データでも無作為化実験と同じ結論が得られるのですか?
得られません。傾向スコアが復元できるのは「観測された共変量 の範囲での無作為化」だけです。無作為化実験の本当の強みは、コイン投げが観測されない要因まで含めて処置群と対照群をならす点にあります。傾向スコアは に入っていない交絡(未測定交絡)には完全に無力で、 の選び方が悪ければバイアスが残ります。だから傾向スコア分析の結論は常に「無交絡(全交絡が に観測済み)が成り立つなら」という条件付きで、その仮定はデータからは検証できません。RCTが「設計で」交絡を消すのに対し、傾向スコアは「仮定の下で」消すという、依拠の質の差があります。
まとめ
- ルービン因果モデル:各個体に潜在結果 を考え、個体効果は 。だが片方は常に反事実として欠測する(因果推論の根本問題)。だから推定対象を平均 や にずらす。観測される群間差は「真の効果+選択バイアス」で、そのままでは因果効果ではない。
- 識別の3仮定:SUTVA(干渉なし・処置の版が一意)、条件付き独立性/無交絡 (検証不能)、正値性 。後二者を合わせて strong ignorability。
- 傾向スコア :多次元 を1次元に圧縮(ロジスティック回帰で推定)。バランシングスコア定理 が から従い、さらに無交絡も で保たれるので、1次元の を揃えるだけで交絡調整ができる。
- 調整法:マッチング(傾向スコアが近い相棒を反事実に)、層別(傾向スコアで層化し層内比較を統合)、IPW(・ の重みで母集団を復元、ホルヴィッツ-トンプソン型)。IPW 推定量 は重みが選択確率を打ち消すので の不偏推定。 が0/1近傍だと分散爆発。
- RCTとの対比:無作為化は が既知定数で 、観測されない交絡まで除く。傾向スコアは未知の を推定して無作為化を人工的に復元するが、観測された の範囲でしか交絡を除けない。
- 引っかけ:群間差≠因果効果/個体効果は観測不能/無交絡は検証不能/バランシングは を見ていない(バランス+無交絡仮定で初めて因果)/正値性の破れで重み爆発。
関連ノート
- 研究の種類 観察研究と実験研究(RCT)の区別。傾向スコアは観察研究で交絡を調整する手法で、研究デザインの理解が前提
- 交絡の調整 層別解析・共通オッズ比・マンテル-ヘンツェルなど交絡調整の体系。傾向スコア層別はこの一般化
- 疫学研究デザイン コホート・症例対照などの観察研究デザイン。交絡と選択バイアスの源泉を具体的に扱う
- 一般化線形モデル(ロジスティック・ポアソン回帰) 傾向スコア はロジスティック回帰(ロジットリンクのGLM)で推定する
- カイ二乗検定(適合度・独立性) 層別の独立性検定・マンテル-ヘンツェル検定の土台。傾向スコア層別での群間比較に接続
- 構造方程式モデル・パス解析 因果を図(パス)で表現するもう一つの流儀。ルービン流(潜在結果)との対比で因果の枠組みを補完
- 1級「統計応用」(Phase 9 目次) 統計応用ドメインの全体地図
- 人文科学分野ハブ(Phase 9) 社会科学分野での因果推論の出題はこのハブから辿れる