研究の種類｜統計検定テキスト

📊 対象級：1級　|　重要度：B（標準）

要点（BLUF）

データの取り方は大きく3種類——実験研究（研究者が介入して群を割り付ける）・観察研究（介入せず自然な状態を観察する。コホート／ケースコントロール／横断）・調査（母集団から標本を抽出して実態を測る）——で、そこから引き出せる結論の強さが段違いです。

因果を主張する力が最も強いのは**無作為化比較試験（RCT）**で、理由はただ一つ——無作為割付が、測定できない交絡因子まで含めて2群の背景を確率的に均すから。観察研究は介入しないぶん交絡が残り、放っておくと「相関」を「因果」と取り違えます。

この章は応用4分野（人文・社会・理工・医薬）すべての入口にあたる共通の枠組みです。研究デザインの分類、エビデンスの階層、内的妥当性／外的妥当性、3つのバイアス（交絡・選択・情報）を、なぜそうなるかの論理ごと押さえます（疫学固有の詳細デザインは疫学研究デザインで扱うので、ここは分野横断の骨格に留めます。出題範囲・配点は改訂されうるため要最新確認）。

1. 3つの研究の型

まず一番上の分かれ道は「研究者がデータの生成に手を加えるか（介入するか）」です。ここで実験研究と観察研究が分かれます。

1.1 実験研究（介入研究）

研究者が処置（曝露）を自分で割り付ける研究です。最も強いのが、その割付を無作為（ランダム）に行う無作為化比較試験（RCT, randomized controlled trial）。割付が研究者のコントロール下にあるのが本質です。

例：新薬の臨床試験で、患者をコイン投げで「新薬群」「プラセボ群」に割り付ける。施肥量を区画ごとにランダムに割り当てて収量を比べる（フィッシャーの3原則の農事試験はこの型）。
強み：割付を操作できるので、原因（処置）以外の条件を群間で揃えられる。これが因果推論の決定的な土台。
弱み：費用・時間・倫理の制約。「喫煙させて発がんを観察する」ような割付は不可能。対象を絞るほど現実集団から離れ、外的妥当性（後述）が下がりがち。

1.2 観察研究

研究者は介入せず、自然に起きている曝露と結果を観察するだけの研究です。誰が曝露されるかは研究者が決められません（自分でタバコを吸う／吸わないは本人が決める）。曝露を割り付けないので、後述の交絡が常につきまといます。時間の扱いで3つに分かれます。

デザイン	時間の向き	何をするか	主な指標
コホート研究	前向き（曝露→結果）	曝露あり群／なし群を追跡し、将来どれだけ結果（発症など）が起きるか比べる	リスク（発生率）・リスク比・リスク差
ケースコントロール研究	後ろ向き（結果→曝露）	結果あり（ケース）／なし（コントロール）を集め、過去に遡って曝露歴を比べる	オッズ比（リスク比は出せない・後述）
横断研究	ある一時点	ある時点で曝露と結果を同時に測る（スナップショット）	有病割合・関連の有無（前後関係は不明）

要するに「コホートは未来を追い、ケースコントロールは過去を遡り、横断は一瞬を切り取る」。同じ観察研究でも、時間の取り方で言えることが変わります。横断研究は曝露と結果を同時に測るため、どちらが先か（因果の向き）が原理的に分かりません。

1.3 調査（標本調査）

母集団から標本を抽出して、母集団の実態（割合・平均など）を推定する型です。曝露を割り付けるのでも追跡するのでもなく、「母集団の姿を正しく測る」こと自体が目的。世論調査・国勢調査・市場調査がこれ。

関心の中心は「いかに偏りなく母集団を代表させるか」。無作為抽出・層化抽出・多段抽出などの設計が核心で、詳しくは標本調査法。
観察研究と重なる面もあります（横断調査は標本調査でもある）。ただし因果よりも母数の推定精度（標準誤差・信頼区間）が主眼。

「無作為化」と「無作為抽出」は別物（最頻出の混同）。**無作為抽出（random sampling）**は母集団から標本を選ぶ段階の話で、外的妥当性（一般化可能性）に効きます。**無作為割付（random assignment / randomization）**は標本内で処置をどう振るかの話で、内的妥当性（交絡の除去）に効きます。RCTは「割付」を無作為にする手法であって、対象者を母集団から無作為抽出しているとは限りません。

flowchart TD
  S["研究の種類"] --> Q1{"研究者が処置を<br/>割り付けるか<br/>（介入するか）"}
  Q1 -- "はい（介入）" --> EXP["実験研究"]
  Q1 -- "いいえ（観察のみ）" --> Q2{"目的は？"}
  EXP --> RCT["無作為化比較試験<br/>（割付がランダム）<br/>因果に最強"]
  EXP --> NRE["非ランダム化実験<br/>（割付に研究者の判断）"]
  Q2 -- "曝露と結果の関連を見る" --> OBS["観察研究"]
  Q2 -- "母集団の実態を測る" --> SUR["調査<br/>（標本調査）"]
  OBS --> Q3{"時間の向き"}
  Q3 -- "前向き（曝露→結果）" --> COH["コホート研究<br/>リスク比が出せる"]
  Q3 -- "後ろ向き（結果→曝露）" --> CC["ケースコントロール研究<br/>オッズ比のみ"]
  Q3 -- "一時点" --> CS["横断研究<br/>前後関係は不明"]

2. エビデンスの階層（なぜRCTが最強か）

研究デザインは因果を主張する力で序列がつき、これを**エビデンスの階層（hierarchy of evidence）**と呼びます。上ほど因果に強い：

複数RCTのメタアナリシス／システマティックレビュー
無作為化比較試験（RCT）
コホート研究（観察研究で最強。前向きで時間順が明確）
ケースコントロール研究・横断研究
症例報告・専門家の意見

要するに「割付を操作した実験＞追跡した観察＞遡った／一瞬の観察＞個別事例」。なぜRCTが頂点なのかは、次節の交絡と無作為化の論理を理解すれば腑に落ちます。逆に言えば、この階層の根拠そのものが「交絡をどれだけ除けるか」です（疫学のエビデンスレベルの詳細は疫学研究デザイン。階層の細目は分野・年代で表現が異なるため要最新確認）。

3. 交絡——なぜ観察研究で相関が因果に化けるか

ここが本章の論理的な核心です。観察研究の最大の敵が**交絡（confounding）で、これを言葉だけでなく構造（因果の向き）**で理解します。

3.1 交絡因子の定義

交絡因子 $C$ とは、関心のある曝露 $X$ と結果 $Y$ の両方に影響を与える共通の原因です。正確には次の2条件を満たす変数：

$C$ が曝露 $X$ と関連している（ $C \to X$ の関係、または $C$ と $X$ が相関）
$C$ が結果 $Y$ の原因である（ $C \to Y$ ）
（かつ $C$ は $X \to Y$ の因果経路の途中（中間因子）ではない）

構造を図にすると、交絡は「バックドア（裏口）経路」を作ります：

graph LR
  C["交絡因子 C<br/>（共通原因）"] -->|原因| X["曝露 X"]
  C -->|原因| Y["結果 Y"]
  X -.->|本当に知りたい因果| Y

要するに「 $C \to X$ と $C \to Y$ という裏口の道があるせいで、 $X$ と $Y$ は $X \to Y$ の真の因果がゼロでも相関してしまう」。

3.2 なぜ交絡が偏りを生むのか（論理）

「自明」で済ませず、なぜ相関が出るかを追います。古典例——アイスクリームの売上 $X$ と水難事故 $Y$ が正の相関。だがアイスが事故を起こすわけではない。共通原因は気温 $C$ ：

暑い（ $C$ 高）→ アイスが売れる（ $C \to X$ ）
暑い（ $C$ 高）→ 泳ぐ人が増え事故も増える（ $C \to Y$ ）

すると気温が高い日は $X$ も $Y$ も大きく、低い日は両方小さい。 $C$ が両者を同時に押し上げ／押し下げるので、 $X$ と $Y$ は連動して見える。これが見かけの相関の正体です。式で書けば、 $Y$ を $X$ に単回帰したときの傾きは

\text{（観察される}X\text{と}Y\text{の関連）}=\underbrace{\text{（}X\to Y\text{の真の効果）}}_{\text{知りたいもの}}+\underbrace{\text{（}C\text{経由のバックドアの寄与）}}_{\text{交絡バイアス}}

要するに「観察した関連＝真の因果＋交絡による下駄」。アイスの例では第1項がゼロなのに第2項（気温の効果）だけで相関が立つ。これが相関≠因果の数理的な中身です。交絡を取り除く（調整する）には、 $C$ で層別する・ $C$ を共変量に入れて重回帰分析する・傾向スコアで揃える（統計的因果推論・傾向スコア）といった手当てが要ります。ただし観察研究では「測れていない交絡因子」を調整できない——ここがRCTとの決定的な差です。

3.3 無作為化が交絡を消す仕組み

RCTの威力の源泉を論理で示します。無作為割付では、各被験者がどちらの群に入るかをコイン投げ（乱数）で決める。すると、

P(\,\text{処置群に入る}\mid C=c\,)=P(\,\text{処置群に入る}\,)\quad(\text{任意の}\ c\ \text{で一定})

要するに「どんな背景 $C$ を持つ人でも、処置群に入る確率は同じ（コインの裏表だけで決まる）」。これは「割付 $X$ と背景 $C$ が統計的に独立」を意味します。前節の図で言えば $C \to X$ の矢印が設計によって切断される：

graph LR
  C["交絡因子 C<br/>（測定不能でもよい）"] -->|原因| Y["結果 Y"]
  R["無作為割付<br/>（コイン投げ）"] -->|これだけが決める| X["処置 X"]
  X -->|純粋な因果| Y

$C \to X$ が消えればバックドア経路 $X \leftarrow C \to Y$ が断たれ、前節の式の第2項（交絡バイアス）が期待的にゼロになります。標本サイズ $n$ を大きくすれば、年齢・性別・遺伝・生活習慣……といった観測できない交絡因子まで含めて、2群の分布が確率的に均される（大数の法則で群間の背景差が $0$ に収束）。

これが「無作為化は測れない交絡まで均す」の意味。共変量調整（回帰や層別）は測って入れた変数しか調整できないのに対し、無作為化は因子を一つも測らなくても、割付の独立性だけで全交絡を期待的に消す。だからRCTがエビデンスの頂点に立ちます。

注意：無作為化が均すのは確率的・期待的であって、ある1回の試験で群間の背景がぴたり一致する保証はありません（偶然の不均衡は起こりうる）。 $n$ が小さいと偶然の偏りが残るため、層別無作為化やブロック化で補強します（フィッシャーの3原則の局所管理の発想）。

4. 内的妥当性と外的妥当性

研究の「正しさ」は2つに分けて評価します。混同しないことが1級でも問われます。

	内的妥当性（internal validity）	外的妥当性（external validity）
問い	この研究の中で、推定した効果は真の因果効果か？	その効果は他の集団・場面に一般化できるか？
脅かすもの	交絡・選択バイアス・情報バイアス	標本が母集団を代表していない・特殊な状況
効かせる設計	無作為割付（交絡除去）	無作為抽出・対象の代表性
関係	これが無いと外的妥当性は意味を失う	内的妥当性が前提（土台）

要するに「内的妥当性＝この研究内で因果が正しいか、外的妥当性＝それを外に持ち出せるか」。順序が大事で、内的妥当性が無い（＝そもそも因果が間違っている）研究は、いくら一般化しても無意味。だから内的妥当性が先、外的妥当性が後。

RCTは内的妥当性に圧倒的に強い一方、対象を厳しく絞る（特定の年齢・重症度の患者だけ等）と外的妥当性が下がるトレードオフがあります。逆に大規模な観察研究は現実集団に近い（外的妥当性が高め）が、交絡で内的妥当性が揺らぐ。**「内的をRCTで、外的を観察で」**という補完関係を理解しておくと応用問題に効きます。

5. 3つのバイアス（交絡・選択・情報）

研究の結論を歪める系統誤差（バイアス）は、生じる段階で3つに整理できます。偶然誤差（標準誤差で評価し、 $n$ を増やせば縮む）とは別物で、バイアスは $n$ を増やしても消えません。

graph TD
  B["系統誤差<br/>（バイアス／n を増やしても消えない）"] --> B1["交絡バイアス<br/>曝露と結果の共通原因 C"]
  B --> B2["選択バイアス<br/>対象の選び方・脱落で歪む"]
  B --> B3["情報バイアス<br/>測定・分類が不正確で歪む"]
  B -.対比.-> R["偶然誤差<br/>（標準誤差・n を増やせば縮む）"]

5.1 交絡バイアス

第3節の通り。共通原因 $C$ が曝露と結果を連動させる。手当ては設計（無作為化）か解析（層別・回帰・傾向スコア）。

5.2 選択バイアス（selection bias）

対象の選ばれ方・群分け・脱落によって、手元のデータが母集団（や比較したい群）を代表しなくなることで生じる偏り。

例：「健康な人ほど追跡に残る」と、コホートの脱落が結果と関連して効果を歪める（生存者バイアス）。ケースコントロールでコントロール群の選び方が曝露と関連していると、オッズ比が歪む。
本質：選択の確率が曝露や結果に依存すると起こる。 $n$ を増やしても、選び方が偏っていれば偏りは残る。

5.3 情報バイアス（information bias, 測定バイアス）

曝露や結果の測定・分類が不正確なために生じる偏り。

例：思い出しバイアス（recall bias）——ケースコントロールで、病気になった人ほど過去の曝露を熱心に思い出す（過大報告）。測定誤差——血圧計の系統的なズレ。
結果が一律にぼやける誤分類は効果を $0$ 方向に薄める（希釈）一方、群で偏った誤分類は効果を過大にも過小にもしうる。

⚠️ 引っかけ・頻出論点

⚠️ 相関≠因果（最頻出の精神）：観察された $X$ – $Y$ の関連は「真の因果＋交絡＋選択バイアス＋情報バイアス＋偶然」の合成。観察研究で関連が出ても因果とは言えない。「相関があるから原因」「散布図で右肩上がりだから効果あり」は誤り。
⚠️ ケースコントロールでリスク比は出せない（オッズ比だけ）：ケースコントロールは結果（ケース／コントロール）の人数を研究者が決めて集めるため、その集団での「発症率」自体が設計で操作されており、リスク（発生割合）もリスク比も推定できない。一方オッズ比は、ケース・コントロールの比をいくら変えても不変なので算出できる。さらにまれな疾患ならオッズ比がリスク比をよく近似する（rare disease assumption）。「ケースコントロールでリスク比を計算」は典型的な誤り。
⚠️ 横断研究は前後関係（因果の向き）が不明：曝露と結果を同時に測るので、「運動不足だから太った」のか「太ったから動かない」のか区別できない（逆因果の可能性）。横断データで因果の矢印を断定しない。
⚠️ 無作為化（割付）と無作為抽出は別：割付の無作為化は内的妥当性（交絡除去）、抽出の無作為化は外的妥当性（一般化）。RCTでも対象が偏っていれば外的妥当性は低い。
⚠️ 交絡は $n$ では消えない：偶然誤差は標本を増やせば縮むが、交絡・選択・情報バイアスは系統誤差なので $n$ を増やしても残る（むしろ偏った推定値に確信を持ってしまい危険）。
⚠️ 中間因子を調整してはいけない： $X \to M \to Y$ の中間変数 $M$ は交絡因子ではない。これを共変量に入れると、知りたい $X \to Y$ の効果の一部を消してしまう（過剰調整）。交絡（共通原因）と中間因子（因果経路上）を取り違えない。

試験での問われ方（1級）

1級統計応用では、4分野いずれを選んでもこの枠組みが前提として効きます（範囲・配点は要最新確認）。典型的な問われ方：

デザインの判別と理由：与えられた研究設定を読み、実験／コホート／ケースコントロール／横断のどれかを判定し、そのデザインで言えること・言えないことを述べる。
交絡の指摘と調整法：ある関連が交絡で説明できるかを論じ、層別・回帰（重回帰分析）・傾向スコア（統計的因果推論・傾向スコア）での調整方針を述べる。
無作為化の意義：なぜ無作為割付が（測定できない）交絡まで除けるのかを、 $C \perp X$ （独立）の観点で論述する。
バイアスの分類：提示された偏りが交絡・選択・情報のどれかを判別し、 $n$ を増やしても消えない（系統誤差である）ことを指摘する。
指標の選択：コホートならリスク比、ケースコントロールならオッズ比、とデザインに整合した指標を選ぶ（なぜリスク比が出せないかも問われうる）。

仮説検定の枠組み（仮説検定の枠組み（帰無仮説・対立仮説・p値・有意水準））や標本調査（標本調査法）と組み合わせ、「この研究設計でこの検定・この推定をしてよいか」を問う形が定番です。

よくある疑問（Q&A）

Q1. 観察研究は、交絡をきちんと調整すればRCTと同じくらい因果を言えますか?

原理的に届きません。層別・回帰・傾向スコアで調整できるのは測定して手元にある交絡因子だけです。観察研究には常に「測っていない・気づいていない交絡因子（未測定交絡）」が残りえます。RCTの強みは、無作為割付によって測ろうが測るまいが全ての交絡因子を期待的に均す点にあり、これは解析後付けの調整では再現できません。だから「調整したから因果」とは言い切れず、観察研究の因果主張は常に未測定交絡の留保つきになります。

Q2. なぜケースコントロール研究ではリスク比が計算できず、オッズ比なのですか?

ケースコントロールは「結果あり（ケース）」と「結果なし（コントロール）」を研究者が任意の人数だけ集めて過去の曝露を比べる設計です。つまり集団中の発症率（リスク）そのものがサンプリングの段階で人工的に決まっているため、リスクも、リスク比（＝曝露群のリスク÷非曝露群のリスク）も、母集団の値として推定できません。ところがオッズ比（曝露と結果の連関の指標）は、ケースとコントロールの採り方の比率を変えても値が変わらないという代数的性質を持つので、ケースコントロールでも一貫して推定できます。加えて疾患がまれなら $\text{オッズ比} \approx \text{リスク比}$ となるため、リスク比の代用として使えます。

Q3. 「相関は因果ではない」とよく言いますが、では相関から因果を主張するには何が要るのですか?

最強なのは無作為化（RCT）——割付をランダムにして交絡を断つこと。それが無理な場合、観察データで因果に迫るには (1) 時間順序（原因が結果より先）、(2) 交絡の調整（層別・回帰・傾向スコア・操作変数など）、(3) 頑健性の確認（複数デザイン・用量反応関係・他の説明の排除）を積み重ねます。ヒルの基準のような判断材料もありますが、いずれも「交絡・逆因果・選択/情報バイアスを一つずつ潰した結果として因果が残る」という論証であって、単一の観察的相関だけで因果を結論することはできません。詳しい調整手法は統計的因果推論・傾向スコアで扱います。

Q4. 内的妥当性と外的妥当性、どちらを優先すべきですか?

内的妥当性が先です。内的妥当性が無い研究は「そもそも推定した効果が間違っている」ので、それをいくら一般化（外的妥当性）しても間違った結論を広げるだけで意味がありません。まず研究の内部で因果を正しく捉え（交絡・バイアスを除き）、その上で「どこまで一般化できるか」を論じる、という順序になります。RCTは内的妥当性を確保する代わりに対象を絞って外的妥当性を犠牲にしがちなので、現実集団に近い観察研究と役割分担で補い合うのが実務の考え方です。

Q5. 横断研究でも、変数間に強い相関があれば因果と言ってよいのでは?

言えません。横断研究は曝露と結果を同じ時点で同時に測るため、どちらが原因でどちらが結果か（時間順序）が分かりません。「運動量が少ない人ほど肥満」という横断的相関は、「運動不足→肥満」かもしれないし「肥満→動きにくい→運動不足」（逆因果）かもしれず、両者を区別できません。加えて交絡（年齢や所得など共通原因）も残ります。横断研究は関連の有無や有病割合の把握には有用ですが、因果の向きの主張には向きません。

Q6. 調査（標本調査）と横断研究はどう違うのですか? 同じに見えます。

重なりますが、主眼が違います。標本調査は「母集団の実態（割合・平均など）を、偏りなく正確に推定する」ことが目的で、関心は抽出設計と推定精度（標準誤差・信頼区間）にあります（標本調査法）。横断研究は「ある時点で曝露と結果の関連を見る」分析的な観察研究で、関心は変数間の連関にあります。実務では「ある時点で標本を抽出して曝露と結果を測る」と両者は同じ調査になりますが、目的が母数推定なら調査、関連分析なら横断研究という位置づけで捉えると整理できます。

まとめ

研究は3型。実験研究（介入・割付を操作。RCTが頂点）／観察研究（介入せず観察。コホート＝前向き・ケースコントロール＝後ろ向き・横断＝一時点）／調査（標本抽出で母集団の実態を推定）。
エビデンスの階層は「RCTのメタ＞ RCT ＞コホート＞ケースコントロール・横断＞症例報告」。序列の根拠は交絡をどれだけ除けるか。
交絡は共通原因 $C$ が作るバックドア経路 $X \leftarrow C \to Y$ 。観察した関連＝真の因果＋交絡の下駄。これが相関≠因果の中身。
無作為化は $C \to X$ を設計で切断し、割付 $X$ と背景 $C$ を独立にする。だから測れない交絡まで期待的に均せる——RCTが最強な理由。共変量調整は測った変数しか調整できない。
内的妥当性（研究内で因果が正しいか・無作為割付が効く）と外的妥当性（一般化できるか・無作為抽出が効く）を区別。内的が先、外的が後。
バイアスは3つ。交絡（共通原因）・選択（選び方・脱落）・情報（測定・分類の不正確）。いずれも系統誤差で** $n$ では消えない**。
引っかけ：相関≠因果／ケースコントロールはオッズ比のみ（リスク比不可）／横断は前後不明／無作為化≠無作為抽出／交絡は $n$ で消えない／中間因子を調整しない。