← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:B(標準)

要点(BLUF)

データの取り方は大きく3種類——実験研究(研究者が介入して群を割り付ける)・観察研究(介入せず自然な状態を観察する。コホート/ケースコントロール/横断)・調査(母集団から標本を抽出して実態を測る)——で、そこから引き出せる結論の強さが段違いです。

因果を主張する力が最も強いのは**無作為化比較試験(RCT)**で、理由はただ一つ——無作為割付が、測定できない交絡因子まで含めて2群の背景を確率的に均すから。観察研究は介入しないぶん交絡が残り、放っておくと「相関」を「因果」と取り違えます。

この章は応用4分野(人文・社会・理工・医薬)すべての入口にあたる共通の枠組みです。研究デザインの分類、エビデンスの階層、内的妥当性/外的妥当性、3つのバイアス(交絡・選択・情報)を、なぜそうなるかの論理ごと押さえます(疫学固有の詳細デザインは 疫学研究デザイン で扱うので、ここは分野横断の骨格に留めます。出題範囲・配点は改訂されうるため要最新確認)。


1. 3つの研究の型

まず一番上の分かれ道は「研究者がデータの生成に手を加えるか(介入するか)」です。ここで実験研究と観察研究が分かれます。

1.1 実験研究(介入研究)

研究者が処置(曝露)を自分で割り付ける研究です。最も強いのが、その割付を無作為(ランダム)に行う無作為化比較試験(RCT, randomized controlled trial)。割付が研究者のコントロール下にあるのが本質です。

1.2 観察研究

研究者は介入せず、自然に起きている曝露と結果を観察するだけの研究です。誰が曝露されるかは研究者が決められません(自分でタバコを吸う/吸わないは本人が決める)。曝露を割り付けないので、後述の交絡が常につきまといます。時間の扱いで3つに分かれます。

デザイン時間の向き何をするか主な指標
コホート研究前向き(曝露→結果)曝露あり群/なし群を追跡し、将来どれだけ結果(発症など)が起きるか比べるリスク(発生率)・リスク比・リスク差
ケースコントロール研究後ろ向き(結果→曝露)結果あり(ケース)/なし(コントロール)を集め、過去に遡って曝露歴を比べるオッズ比(リスク比は出せない・後述)
横断研究ある一時点ある時点で曝露と結果を同時に測る(スナップショット)有病割合・関連の有無(前後関係は不明)

要するに「コホートは未来を追い、ケースコントロールは過去を遡り、横断は一瞬を切り取る」。同じ観察研究でも、時間の取り方で言えることが変わります。横断研究は曝露と結果を同時に測るため、どちらが先か(因果の向き)が原理的に分かりません。

1.3 調査(標本調査)

母集団から標本を抽出して、母集団の実態(割合・平均など)を推定する型です。曝露を割り付けるのでも追跡するのでもなく、「母集団の姿を正しく測る」こと自体が目的。世論調査・国勢調査・市場調査がこれ。

「無作為化」と「無作為抽出」は別物(最頻出の混同)。**無作為抽出(random sampling)**は母集団から標本を選ぶ段階の話で、外的妥当性(一般化可能性)に効きます。**無作為割付(random assignment / randomization)**は標本内で処置をどう振るかの話で、内的妥当性(交絡の除去)に効きます。RCTは「割付」を無作為にする手法であって、対象者を母集団から無作為抽出しているとは限りません。

flowchart TD
  S["研究の種類"] --> Q1{"研究者が処置を<br/>割り付けるか<br/>(介入するか)"}
  Q1 -- "はい(介入)" --> EXP["実験研究"]
  Q1 -- "いいえ(観察のみ)" --> Q2{"目的は?"}
  EXP --> RCT["無作為化比較試験<br/>(割付がランダム)<br/>因果に最強"]
  EXP --> NRE["非ランダム化実験<br/>(割付に研究者の判断)"]
  Q2 -- "曝露と結果の関連を見る" --> OBS["観察研究"]
  Q2 -- "母集団の実態を測る" --> SUR["調査<br/>(標本調査)"]
  OBS --> Q3{"時間の向き"}
  Q3 -- "前向き(曝露→結果)" --> COH["コホート研究<br/>リスク比が出せる"]
  Q3 -- "後ろ向き(結果→曝露)" --> CC["ケースコントロール研究<br/>オッズ比のみ"]
  Q3 -- "一時点" --> CS["横断研究<br/>前後関係は不明"]

2. エビデンスの階層(なぜRCTが最強か)

研究デザインは因果を主張する力で序列がつき、これを**エビデンスの階層(hierarchy of evidence)**と呼びます。上ほど因果に強い:

  1. 複数RCTのメタアナリシス/システマティックレビュー
  2. 無作為化比較試験(RCT)
  3. コホート研究(観察研究で最強。前向きで時間順が明確)
  4. ケースコントロール研究・横断研究
  5. 症例報告・専門家の意見

要するに「割付を操作した実験 > 追跡した観察 > 遡った/一瞬の観察 > 個別事例」。なぜRCTが頂点なのかは、次節の交絡と無作為化の論理を理解すれば腑に落ちます。逆に言えば、この階層の根拠そのものが「交絡をどれだけ除けるか」です(疫学のエビデンスレベルの詳細は 疫学研究デザイン。階層の細目は分野・年代で表現が異なるため要最新確認)。


3. 交絡——なぜ観察研究で相関が因果に化けるか

ここが本章の論理的な核心です。観察研究の最大の敵が**交絡(confounding)で、これを言葉だけでなく構造(因果の向き)**で理解します。

3.1 交絡因子の定義

交絡因子 CC とは、関心のある曝露 XX と結果 YY両方に影響を与える共通の原因です。正確には次の2条件を満たす変数:

  1. CC が曝露 XX と関連している(CXC \to X の関係、または CCXX が相関)
  2. CC が結果 YY の原因である(CYC \to Y
  3. (かつ CCXYX \to Y因果経路の途中(中間因子)ではない

構造を図にすると、交絡は「バックドア(裏口)経路」を作ります:

graph LR
  C["交絡因子 C<br/>(共通原因)"] -->|原因| X["曝露 X"]
  C -->|原因| Y["結果 Y"]
  X -.->|本当に知りたい因果| Y

要するに「CXC \to XCYC \to Y という裏口の道があるせいで、XXYYXYX \to Y の真の因果がゼロでも相関してしまう」。

3.2 なぜ交絡が偏りを生むのか(論理)

「自明」で済ませず、なぜ相関が出るかを追います。古典例——アイスクリームの売上 XX と水難事故 YY が正の相関。だがアイスが事故を起こすわけではない。共通原因は気温 CC

すると気温が高い日は XXYY も大きく、低い日は両方小さい。CC が両者を同時に押し上げ/押し下げるので、XXYY は連動して見える。これが見かけの相関の正体です。式で書けば、YYXX に単回帰したときの傾きは

(観察されるXYの関連)=XYの真の効果)知りたいもの+C経由のバックドアの寄与)交絡バイアス\text{(観察される}X\text{と}Y\text{の関連)}=\underbrace{\text{(}X\to Y\text{の真の効果)}}_{\text{知りたいもの}}+\underbrace{\text{(}C\text{経由のバックドアの寄与)}}_{\text{交絡バイアス}}

要するに「観察した関連 = 真の因果 + 交絡による下駄」。アイスの例では第1項がゼロなのに第2項(気温の効果)だけで相関が立つ。これが相関≠因果の数理的な中身です。交絡を取り除く(調整する)には、CC で層別する・CC を共変量に入れて重回帰分析する・傾向スコアで揃える(統計的因果推論・傾向スコア)といった手当てが要ります。ただし観察研究では「測れていない交絡因子」を調整できない——ここがRCTとの決定的な差です。

3.3 無作為化が交絡を消す仕組み

RCTの威力の源泉を論理で示します。無作為割付では、各被験者がどちらの群に入るかをコイン投げ(乱数)で決める。すると、

P(処置群に入るC=c)=P(処置群に入る)(任意の c で一定)P(\,\text{処置群に入る}\mid C=c\,)=P(\,\text{処置群に入る}\,)\quad(\text{任意の}\ c\ \text{で一定})

要するに「どんな背景 CC を持つ人でも、処置群に入る確率は同じ(コインの裏表だけで決まる)」。これは「割付 XX と背景 CC統計的に独立」を意味します。前節の図で言えば CXC \to X の矢印が設計によって切断される:

graph LR
  C["交絡因子 C<br/>(測定不能でもよい)"] -->|原因| Y["結果 Y"]
  R["無作為割付<br/>(コイン投げ)"] -->|これだけが決める| X["処置 X"]
  X -->|純粋な因果| Y

CXC \to X が消えればバックドア経路 XCYX \leftarrow C \to Y が断たれ、前節の式の第2項(交絡バイアス)が期待的にゼロになります。標本サイズ nn を大きくすれば、年齢・性別・遺伝・生活習慣……といった観測できない交絡因子まで含めて、2群の分布が確率的に均される(大数の法則で群間の背景差が 00 に収束)。

これが「無作為化は測れない交絡まで均す」の意味。共変量調整(回帰や層別)は測って入れた変数しか調整できないのに対し、無作為化は因子を一つも測らなくても、割付の独立性だけで全交絡を期待的に消す。だからRCTがエビデンスの頂点に立ちます。

注意:無作為化が均すのは確率的・期待的であって、ある1回の試験で群間の背景がぴたり一致する保証はありません(偶然の不均衡は起こりうる)。nn が小さいと偶然の偏りが残るため、層別無作為化やブロック化で補強します(フィッシャーの3原則 の局所管理の発想)。


4. 内的妥当性と外的妥当性

研究の「正しさ」は2つに分けて評価します。混同しないことが1級でも問われます。

内的妥当性(internal validity)外的妥当性(external validity)
問いこの研究の中で、推定した効果は真の因果効果か?その効果は他の集団・場面に一般化できるか?
脅かすもの交絡・選択バイアス・情報バイアス標本が母集団を代表していない・特殊な状況
効かせる設計無作為割付(交絡除去)無作為抽出・対象の代表性
関係これが無いと外的妥当性は意味を失う内的妥当性が前提(土台)

要するに「内的妥当性=この研究内で因果が正しいか、外的妥当性=それを外に持ち出せるか」。順序が大事で、内的妥当性が無い(=そもそも因果が間違っている)研究は、いくら一般化しても無意味。だから内的妥当性が先、外的妥当性が後。

RCTは内的妥当性に圧倒的に強い一方、対象を厳しく絞る(特定の年齢・重症度の患者だけ等)と外的妥当性が下がるトレードオフがあります。逆に大規模な観察研究は現実集団に近い(外的妥当性が高め)が、交絡で内的妥当性が揺らぐ。**「内的をRCTで、外的を観察で」**という補完関係を理解しておくと応用問題に効きます。


5. 3つのバイアス(交絡・選択・情報)

研究の結論を歪める系統誤差(バイアス)は、生じる段階で3つに整理できます。偶然誤差(標準誤差で評価し、nn を増やせば縮む)とは別物で、バイアスはnn を増やしても消えません。

graph TD
  B["系統誤差<br/>(バイアス/n を増やしても消えない)"] --> B1["交絡バイアス<br/>曝露と結果の共通原因 C"]
  B --> B2["選択バイアス<br/>対象の選び方・脱落で歪む"]
  B --> B3["情報バイアス<br/>測定・分類が不正確で歪む"]
  B -.対比.-> R["偶然誤差<br/>(標準誤差・n を増やせば縮む)"]

5.1 交絡バイアス

第3節の通り。共通原因 CC が曝露と結果を連動させる。手当ては設計(無作為化)か解析(層別・回帰・傾向スコア)。

5.2 選択バイアス(selection bias)

対象の選ばれ方・群分け・脱落によって、手元のデータが母集団(や比較したい群)を代表しなくなることで生じる偏り。

5.3 情報バイアス(information bias, 測定バイアス)

曝露や結果の測定・分類が不正確なために生じる偏り。


⚠️ 引っかけ・頻出論点


試験での問われ方(1級)

1級統計応用では、4分野いずれを選んでもこの枠組みが前提として効きます(範囲・配点は要最新確認)。典型的な問われ方:

仮説検定の枠組み(仮説検定の枠組み(帰無仮説・対立仮説・p値・有意水準))や標本調査(標本調査法)と組み合わせ、「この研究設計でこの検定・この推定をしてよいか」を問う形が定番です。


よくある疑問(Q&A)

Q1. 観察研究は、交絡をきちんと調整すればRCTと同じくらい因果を言えますか?

原理的に届きません。層別・回帰・傾向スコアで調整できるのは測定して手元にある交絡因子だけです。観察研究には常に「測っていない・気づいていない交絡因子(未測定交絡)」が残りえます。RCTの強みは、無作為割付によって測ろうが測るまいが全ての交絡因子を期待的に均す点にあり、これは解析後付けの調整では再現できません。だから「調整したから因果」とは言い切れず、観察研究の因果主張は常に未測定交絡の留保つきになります。

Q2. なぜケースコントロール研究ではリスク比が計算できず、オッズ比なのですか?

ケースコントロールは「結果あり(ケース)」と「結果なし(コントロール)」を研究者が任意の人数だけ集めて過去の曝露を比べる設計です。つまり集団中の発症率(リスク)そのものがサンプリングの段階で人工的に決まっているため、リスクも、リスク比(=曝露群のリスク÷非曝露群のリスク)も、母集団の値として推定できません。ところがオッズ比(曝露と結果の連関の指標)は、ケースとコントロールの採り方の比率を変えても値が変わらないという代数的性質を持つので、ケースコントロールでも一貫して推定できます。加えて疾患がまれなら オッズ比リスク比\text{オッズ比} \approx \text{リスク比} となるため、リスク比の代用として使えます。

Q3. 「相関は因果ではない」とよく言いますが、では相関から因果を主張するには何が要るのですか?

最強なのは無作為化(RCT)——割付をランダムにして交絡を断つこと。それが無理な場合、観察データで因果に迫るには (1) 時間順序(原因が結果より先)、(2) 交絡の調整(層別・回帰・傾向スコア・操作変数など)、(3) 頑健性の確認(複数デザイン・用量反応関係・他の説明の排除)を積み重ねます。ヒルの基準のような判断材料もありますが、いずれも「交絡・逆因果・選択/情報バイアスを一つずつ潰した結果として因果が残る」という論証であって、単一の観察的相関だけで因果を結論することはできません。詳しい調整手法は 統計的因果推論・傾向スコア で扱います。

Q4. 内的妥当性と外的妥当性、どちらを優先すべきですか?

内的妥当性が先です。内的妥当性が無い研究は「そもそも推定した効果が間違っている」ので、それをいくら一般化(外的妥当性)しても間違った結論を広げるだけで意味がありません。まず研究の内部で因果を正しく捉え(交絡・バイアスを除き)、その上で「どこまで一般化できるか」を論じる、という順序になります。RCTは内的妥当性を確保する代わりに対象を絞って外的妥当性を犠牲にしがちなので、現実集団に近い観察研究と役割分担で補い合うのが実務の考え方です。

Q5. 横断研究でも、変数間に強い相関があれば因果と言ってよいのでは?

言えません。横断研究は曝露と結果を同じ時点で同時に測るため、どちらが原因でどちらが結果か(時間順序)が分かりません。「運動量が少ない人ほど肥満」という横断的相関は、「運動不足→肥満」かもしれないし「肥満→動きにくい→運動不足」(逆因果)かもしれず、両者を区別できません。加えて交絡(年齢や所得など共通原因)も残ります。横断研究は関連の有無や有病割合の把握には有用ですが、因果の向きの主張には向きません。

Q6. 調査(標本調査)と横断研究はどう違うのですか? 同じに見えます。

重なりますが、主眼が違います。標本調査は「母集団の実態(割合・平均など)を、偏りなく正確に推定する」ことが目的で、関心は抽出設計と推定精度(標準誤差・信頼区間)にあります(標本調査法)。横断研究は「ある時点で曝露と結果の関連を見る」分析的な観察研究で、関心は変数間の連関にあります。実務では「ある時点で標本を抽出して曝露と結果を測る」と両者は同じ調査になりますが、目的が母数推定なら調査、関連分析なら横断研究という位置づけで捉えると整理できます。


まとめ


関連ノート