← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:C(低頻度)

要点(BLUF)

この項目は統計検定1級(統計応用・医薬生物学)の公式範囲表には明示されていませんが、出題実績があります(2021年の医薬生物学・問4で変量効果モデルとメタアナリシスが出題。範囲・出題傾向は改訂されうるため要最新確認)。メタアナリシスは、複数の独立した研究の効果量を1つの統合推定値にまとめる統計手法です。核心は「各研究の効果量を逆分散で重み付けした加重平均」の一点に尽きます。

1級(範囲表外)では逆分散加重の計算・固定/変量の違い・I2I^2 の解釈が問われ得ます。

graph TD
  ROOT["複数研究の効果量<br/>θ₁, θ₂, …, θₖ(各々分散 vᵢ)"] --> Q1{"研究間に効果の<br/>ばらつきがあるか?"}
  Q1 -->|"無い(共通の真値)"| FE["固定効果モデル<br/>重み wᵢ = 1/vᵢ"]
  Q1 -->|"有る(τ²>0)"| RE["変量効果モデル<br/>重み wᵢ* = 1/(vᵢ+τ²)"]
  FE --> POOL["統合推定値<br/>θ̂ = Σwθ / Σw"]
  RE --> POOL
  POOL --> HET["異質性の評価<br/>コクランのQ・I²"]
  POOL --> VIZ["可視化<br/>フォレスト/ファンネルプロット"]
  VIZ --> BIAS["出版バイアスの点検<br/>ファンネルの非対称性"]

1. メタアナリシスとは — なぜ研究を統合するのか

1.1 動機

同じ臨床的な問い(例:ある薬は血圧を下げるか)に対して、世界中で似た研究が複数行われます。1つ1つの研究は標本サイズが小さく、結論が割れることもあります。メタアナリシスは、これら複数研究の結果を統計的に統合して、より精度の高い1つの結論を出す手法です。

要するに「バラバラの小研究を寄せ集めて、1つの大きな証拠にまとめる」。標本を足し合わせるイメージですが、各研究で測定された**効果量(effect size)**そのものを統合する点がポイントです。効果量はオッズ比・リスク比・平均値差・標準化平均値差などで、その定義は効果の指標で扱います。ここでは「各研究 ii から、効果量の推定値 θi\theta_i とその分散 viv_i が得られている」ところから出発します。

1.2 統合の基本形 — 加重平均

kk 個の研究があり、研究 ii の効果量推定値が θi\theta_i、その分散が viv_i だとします。これらを統合する最も自然な形は加重平均です。

θ^=i=1kwiθii=1kwi\hat\theta=\frac{\sum_{i=1}^{k} w_i\,\theta_i}{\sum_{i=1}^{k} w_i}

要するに「各研究の効果量に重み wiw_i を付けて平均する」。問題は「重み wiw_i をどう決めるか」で、ここがメタアナリシスの肝です。直観的には「精度の高い(分散の小さい)研究ほど重く」したい。この直観を最適性として定式化したのが、次節の逆分散加重です。


2. 固定効果モデル — 逆分散加重とその最適性

2.1 固定効果モデルの仮定

固定効果モデル(fixed-effect model)は、すべての研究が同一の真の効果 θ\theta を測っていると仮定します。研究ごとの推定値のばらつきは、標本誤差だけから生じると考えます。

θi=θ+εi,εi(0, vi)\theta_i=\theta+\varepsilon_i,\qquad \varepsilon_i\sim(0,\ v_i)

要するに「真の効果は1つ(θ\theta)。研究によって推定値がずれるのは、たまたま標本が違うからだけ」。研究間に本質的な違いはない、という強い仮定です。各研究の推定値 θi\theta_i は不偏(E[θi]=θE[\theta_i]=\theta)で、分散 viv_i を持つ独立な観測とみなせます。

2.2 逆分散加重 — なぜ wi=1/viw_i=1/v_i が最小分散か

固定効果モデルでは、重みを分散の逆数に取ります。

  wi=1vi  \boxed{\;w_i=\frac{1}{v_i}\;}

これを**逆分散加重(inverse-variance weighting)と呼びます。なぜこの重みが最適なのか——「加重平均という形のうちで、統合推定量 θ^\hat\theta の分散を最小にする重みが wi1/viw_i\propto 1/v_i である」ことを証明します。これは推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式)最良線形不偏推定(最小分散不偏)**の発想そのものです。

証明(ラグランジュ未定乗数法). 統合推定量 θ^=aiθi\hat\theta=\sum a_i\theta_i を、重み aia_i の線形結合として書きます。θi\theta_i は独立で E[θi]=θE[\theta_i]=\thetaV(θi)=viV(\theta_i)=v_i とします。

まず不偏であるための制約:

E[θ^]=aiE[θi]=θai=θai=1E[\hat\theta]=\sum a_i\,E[\theta_i]=\theta\sum a_i=\theta \quad\Longrightarrow\quad \sum a_i=1

要するに「重みの和は1(でないと真値に系統的にずれる)」。次に、独立性より統合推定量の分散

V(θ^)=ai2viV(\hat\theta)=\sum a_i^2\,v_i

要するに「各研究の分散を重みの2乗で足したもの」。問題は「ai=1\sum a_i=1 の制約のもとで V(θ^)=ai2viV(\hat\theta)=\sum a_i^2 v_i を最小化する aia_i を求めよ」という制約付き最小化です。ラグランジュ関数

L=ai2viλ(ai1)L=\sum a_i^2 v_i-\lambda\Big(\sum a_i-1\Big)

aia_i で偏微分して0と置くと

Lai=2aiviλ=0ai=λ2vi1vi\frac{\partial L}{\partial a_i}=2a_i v_i-\lambda=0 \quad\Longrightarrow\quad a_i=\frac{\lambda}{2v_i}\propto\frac{1}{v_i}

要するに「最適な重みは分散の逆数に比例する」。制約 ai=1\sum a_i=1 で規格化すれば

  ai=1/vij1/vj=wijwj,wi=1vi  \boxed{\;a_i=\frac{1/v_i}{\sum_j 1/v_j}=\frac{w_i}{\sum_j w_j},\qquad w_i=\frac{1}{v_i}\;}

これが逆分散加重です。分散が小さい(精度が高い)研究ほど大きな重みを受ける——直観どおりの結果が、最小分散という最適性から導かれました。

なぜ「2乗で効く分散」を「逆数の重み」で抑えるのか:分散の大きい研究を重く扱うと V(θ^)=ai2viV(\hat\theta)=\sum a_i^2 v_i が膨らむ。各項の寄与 ai2via_i^2 v_i を均すには、viv_i が大きい研究ほど aia_i を小さくする必要があり、その最適点が ai1/via_i\propto 1/v_i になります。

2.3 統合推定量の分散は 1/wi1/\sum w_i

最適重み ai=wi/wja_i=w_i/\sum w_j を分散の式 V(θ^)=ai2viV(\hat\theta)=\sum a_i^2 v_i に代入します。wi=1/viw_i=1/v_i すなわち vi=1/wiv_i=1/w_i なので

V(θ^)=i(wijwj)2vi=1(jwj)2iwi21wi=1(jwj)2iwiV(\hat\theta)=\sum_i\left(\frac{w_i}{\sum_j w_j}\right)^2 v_i =\frac{1}{\left(\sum_j w_j\right)^2}\sum_i w_i^2\cdot\frac{1}{w_i} =\frac{1}{\left(\sum_j w_j\right)^2}\sum_i w_i

分子の iwi\sum_i w_i と分母の (jwj)2(\sum_j w_j)^2 のうち1つが約分されて

  V(θ^)=1i=1kwi  \boxed{\;V(\hat\theta)=\frac{1}{\sum_{i=1}^{k} w_i}\;}

要するに「統合推定値の分散は、重みの総和の逆数」。重み wi=1/viw_i=1/v_i(=各研究の精度)を足し上げた総和が、統合後の精度になります。研究を増やすほど wi\sum w_i が増え、統合分散が下がる——「証拠を寄せ集めると精度が上がる」ことが式で確認できます。統合推定値の標準誤差は 1/wi\sqrt{1/\sum w_i} で、信頼区間は θ^±zα/21/wi\hat\theta\pm z_{\alpha/2}\sqrt{1/\sum w_i} で作ります。


3. 変量効果モデル — 研究間分散とDerSimonian-Laird

3.1 変量効果モデルの仮定

固定効果モデルの「全研究が共通の真値」という仮定は、現実には強すぎることが多い。研究ごとに対象集団・投与量・追跡期間などが違えば、真の効果そのものが研究間でばらつくはずです。これを許すのが**変量効果モデル(random-effects model)**です。

θi=θ+ui+εi,ui(0, τ2),εi(0, vi)\theta_i=\theta+u_i+\varepsilon_i,\qquad u_i\sim(0,\ \tau^2),\quad \varepsilon_i\sim(0,\ v_i)

要するに「真の効果は研究ごとに θ+ui\theta+u_i と少しずつ違う。その違いの大きさが研究間分散 τ2\tau^2」。観測 θi\theta_i の分散は、2段階のばらつきの和になります。

V(θi)=τ2+viV(\theta_i)=\tau^2+v_i

要するに「研究間のばらつき τ2\tau^2 + 研究内(標本誤差)のばらつき viv_i の合計」。固定効果モデルは τ2=0\tau^2=0 の特殊ケースだと分かります。θ\theta はいまや「真の効果の平均」を表します。

3.2 重みが wi=1/(vi+τ2)w_i^\ast=1/(v_i+\tau^2) になる理由

逆分散加重の論理(第2.2節)は、効果量の全分散の逆数で重み付けすると最小分散になる、というものでした。変量効果モデルでは効果量 θi\theta_i の全分散が vi+τ2v_i+\tau^2 なので、同じ論理をそのまま適用すれば、最適な重みは

  wi=1vi+τ2  \boxed{\;w_i^\ast=\frac{1}{v_i+\tau^2}\;}

要するに「固定効果の重み 1/vi1/v_i の分母に、研究間分散 τ2\tau^2 を足しただけ」。τ2\tau^2 が分母に加わることで、次の2つが起こります。

3.3 DerSimonian-Laird による τ2\tau^2 の推定

τ2\tau^2 は未知なので推定が必要です。最も古典的で試験でも問われやすいのがDerSimonian-Laird(DL)法(モーメント法)です。これはコクランのQ統計量(第4節)を使い、観測された異質性から期待される標本誤差ぶんを差し引いて τ2\tau^2 を推定します。

  τ^DL2=max ⁣(0, Q(k1)C),C=iwiiwi2iwi  \boxed{\;\hat\tau^2_{DL}=\max\!\left(0,\ \frac{Q-(k-1)}{C}\right),\qquad C=\sum_i w_i-\frac{\sum_i w_i^2}{\sum_i w_i}\;}

ここで Q=iwi(θiθ^)2Q=\sum_i w_i(\theta_i-\hat\theta)^2 はコクランのQ統計量、wi=1/viw_i=1/v_i固定効果の逆分散重み、kk は研究数です。式の意味を分解します。

要するに「観測されたばらつきが偶然(k1k-1)を超えた分を、研究間分散 τ2\tau^2 として拾い上げる」というモーメント法の発想です。τ^DL2\hat\tau^2_{DL}wi=1/(vi+τ^DL2)w_i^\ast=1/(v_i+\hat\tau^2_{DL}) に代入して重みを作り直し、θ^=wiθi/wi\hat\theta^\ast=\sum w_i^\ast\theta_i/\sum w_i^\ast で統合します。

DL法は計算が軽く広く使われますが、τ2\tau^2 を過小評価しがちで、研究数が少ないと不安定という限界も知られます。近年は制限付き最尤(REML)など別の推定法も推奨されます(手法の優劣・推奨は更新されうるため要最新確認)。試験で問われやすいのはDL法の発想(Qから τ2\tau^2 を逆算)です。


4. 異質性 — コクランのQ統計量とI²

4.1 コクランのQ統計量

研究間に本当に効果のばらつき(異質性, heterogeneity)があるのかを検定するのがコクランのQ統計量です。固定効果の重み wi=1/viw_i=1/v_i を使い、各研究の効果量が固定効果統合値 θ^\hat\theta からどれだけ離れているかの重み付き残差平方和として定義します。

  Q=i=1kwi(θiθ^)2  \boxed{\;Q=\sum_{i=1}^{k} w_i\,(\theta_i-\hat\theta)^2\;}

要するに「各研究の効果量が統合値からどれだけ散らばっているかを、精度で重み付けして合計したもの」。回帰の残差平方和や χ2\chi^2 適合度統計量と同じ構造です。

帰無仮説と分布. 帰無仮説は「全研究の真の効果が等しい(異質性なし、τ2=0\tau^2=0)」。この帰無仮説のもとで、QQ は近似的に自由度 k1k-1 のカイ二乗分布に従います。

Q H0 χk12,E[Q]=k1Q\ \overset{H_0}{\sim}\ \chi^2_{k-1},\qquad E[Q]=k-1

要するに「異質性が無ければ Q は自由度 k1k-1 のカイ二乗、期待値は k1k-1」。QQk1k-1 を大きく超えれば(pp 値が小さければ)異質性ありと判断します。なお E[Q]=k1E[Q]=k-1 という事実が、前節のDL推定量で「QQ から k1k-1 を引く」根拠でした。

⚠️ Q検定は検出力が低いことに注意。研究数 kk が少ないと、本当は異質性があっても有意にならない(見逃す)ことが多い。逆に研究数が非常に多いと、わずかな異質性でも有意になりがち。だから「Q検定が有意でないから異質性なし」と断じるのは危険で、次の I2I^2程度を見るのが標準です。

4.2 I²統計量 — 異質性の「割合」

Q検定は「異質性があるか/ないか」の二択しか答えません。どの程度異質かを連続量で示すのが I2I^2 統計量です。

  I2=Q(k1)Q  (パーセント表示なら×100)\boxed{\;I^2=\frac{Q-(k-1)}{Q}\;}\qquad(\text{パーセント表示なら}\times100)

要するに「観測された全変動 QQ のうち、偶然(自由度 k1k-1)では説明できない超過分の占める割合」。分子 Q(k1)Q-(k-1) は研究間分散に由来する超過変動、分母 QQ は全変動なので、I2I^2全変動に占める研究間変動の割合を表します。負になる場合は0に丸めます。

I2I^2 の解釈の目安(あくまで慣習的な目安で絶対基準ではない、要最新確認):

I2I^2 の範囲異質性の程度
0〜40%重要でない(低い)かもしれない
30〜60%中程度
50〜90%大きい(substantial)
75〜100%高度

I2I^2 の利点は、Q と違って研究数 kk や効果量の種類に依存しにくいこと。Q は研究数が増えるほど大きくなりがちですが、I2I^2 は割合なので異なるメタアナリシス間で比較しやすい。I2I^2 が高ければ「研究間のばらつきが大きい→変量効果モデルを使うべき・異質性の原因をサブグループ解析等で探るべき」と判断します。

⚠️ I2I^2研究間分散の絶対量(τ2\tau^2)ではなく割合です。I2I^2 が高くても各研究の精度が高ければ実質的な効果のばらつき幅は小さいこともあるし、その逆もある。「I2I^2 が高い=効果の不一致が深刻」と短絡しないこと。I2I^2τ2\tau^2 は別物(I2I^2 は相対指標、τ2\tau^2 は絶対指標)です。


5. 可視化 — フォレストプロットとファンネルプロット

5.1 フォレストプロット — 効果と統合値を一望する

**フォレストプロット(forest plot)**は、メタアナリシスの結果を視覚化する標準的な図です。

graph LR
  subgraph FP["フォレストプロットの読み方(横軸=効果量)"]
    direction TB
    S1["研究1  ├──□──┤   小さめ・重み中"]
    S2["研究2    ├─□─┤   精度高・重み大(四角大)"]
    S3["研究3 ├────□────┤ 精度低・重み小(区間広)"]
    POOL["統合   ◇(菱形)  中心=統合値, 幅=統合CI"]
  end

フォレストプロットを見れば、(1) 各研究の効果と精度、(2) 研究間で効果がそろっているか(異質性の視覚的判断)、(3) 統合効果の大きさと有意性——が一目で分かります。四角がバラバラの位置にあれば異質性が高い、ということです。

5.2 ファンネルプロットと出版バイアス

**ファンネルプロット(funnel plot)**は、**出版バイアス(publication bias)**を点検するための散布図です。

出版バイアスとは、統計的に有意な(あるいは期待された方向の)結果を出した研究ほど論文として出版されやすく、否定的・非有意な結果はお蔵入りしやすい、という偏りです。小規模研究では特に「効果が大きく出た時だけ出版される」傾向が強い(小研究効果, small-study effect)。

graph TD
  A["ファンネルプロット<br/>横軸=効果量, 縦軸=精度(上ほど高精度)"] --> B{"左右対称か?"}
  B -->|"対称な漏斗形"| C["出版バイアスは小さい<br/>(小研究が左右に均等)"]
  B -->|"非対称<br/>(下部の片側が欠ける)"| D["出版バイアスを疑う<br/>小研究で効果小・非有意の論文が欠落"]

非対称性の読み方. 漏斗の下部(小研究の領域)で片側が欠けていれば、出版バイアスの疑いです。典型的には「効果が小さい/非有意だった小研究が出版されず欠落し、グラフが非対称になる」。この非対称性を統計的に検定するのが Egger検定(回帰による非対称性検定)や Begg検定(順位相関による検定)です(検定名は知識として押さえる程度でよい)。

⚠️ ファンネルプロットの非対称性は出版バイアスだけが原因ではありません。真の異質性(小研究と大研究で対象集団が違う)や研究の質の差でも非対称になり得ます。「非対称=出版バイアス確定」ではなく「出版バイアスを示唆する」程度に留める。また研究数が少ない(目安10未満)とファンネルプロットの判断自体が信頼できません。


6. 固定効果 vs 変量効果の使い分け

両モデルの違いを整理します。

観点固定効果モデル変量効果モデル
仮定全研究が共通の真値 θ\theta真の効果が研究間でばらつく(分散 τ2\tau^2
重みwi=1/viw_i=1/v_iwi=1/(vi+τ2)w_i^\ast=1/(v_i+\tau^2)
大研究と小研究の重みの差大きい(精度差がそのまま効く)小さい(τ2\tau^2 が差を均す)
統合値の信頼区間狭い広い(τ2\tau^2 ぶん上乗せ)
推測の対象これら kk 研究に共通の効果研究の母集団における平均効果
異質性が高いとき不適切(CIが過小)適切

使い分けの原則:研究間に異質性があると考えられるなら(現実にはほぼ常にそう)、変量効果モデルを使うのが安全側です。I2I^2 が低く異質性が無さそうでも、変量効果モデルは τ20\tau^2\to 0 で固定効果に近づくので、デフォルトを変量効果にしておく考え方が主流です。一方、対象集団も介入も完全に同質な少数研究の統合なら固定効果が適切なこともあります。

⚠️ よくある誤りは「I2I^2 が低い/Q検定が非有意だったから固定効果モデルを使う」という機械的判断です。Q検定は検出力が低く異質性を見逃しやすいので、「検定が非有意=異質性なし=固定効果でよい」とは限りません。モデル選択は検定結果だけでなく、研究の臨床的・方法論的な異質性(対象・介入・デザインの違い)も踏まえて決めます。


7. 試験での問われ方(1級)

前提:この項目は公式範囲表に明示されておらず、出題される保証はありません(2021年医薬生物学・問4で出題実績あり。要最新確認)。範囲表外ですが、出るとすれば以下の角度が想定されます。

なお2021年の出題では変量効果モデルの最尤推定と信頼区間まで踏み込んでおり、モーメント法(DL)だけでなく尤度ベースの推定(推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式)の最尤法)と接続する可能性も意識しておくとよいでしょう。


8. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. なぜ分散の逆数で重み付けすると最良なのですか? 標本サイズで重み付けではダメですか?

「加重平均という形のうち、統合推定量の分散を最小にする重み」を求めると、数学的に wi1/viw_i\propto 1/v_i が出てくるからです(第2.2節の証明)。ai=1\sum a_i=1 の制約下で V(θ^)=ai2viV(\hat\theta)=\sum a_i^2 v_i を最小化すると ai1/via_i\propto 1/v_i になる——これは推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式)の最小分散不偏推定と同じ論理です。標本サイズで重み付けしないのは、効果量の分散 viv_i が標本サイズだけでなく効果量の種類(オッズ比か平均値差か)やイベント発生率にも依存するからです。最小分散を保証するのはあくまで「分散の逆数」であって、標本サイズはその近似にすぎません。直観的にも「精度の高い(分散の小さい)研究の声を大きく」が最適、という結果は納得しやすいはずです。

Q2. 固定効果と変量効果、結局どちらを使えばいいのですか?

迷ったら変量効果モデルが安全側です。理由は、現実の研究は対象集団も介入も微妙に異なり、真の効果が研究間でばらつく(τ2>0\tau^2>0)のが自然だからです。変量効果モデルは τ20\tau^2\to 0 で固定効果モデルに一致するので、「異質性が無ければ固定効果と同じ、有れば適切に区間を広げる」という意味で守備範囲が広い。固定効果モデルが適切なのは、対象も介入も同質な少数研究を統合する場合や、「これら特定の kk 研究に共通の効果」だけを知りたい場合です。やってはいけないのは「Q検定が非有意だったから固定効果」という機械的選択で、Q検定は検出力が低く異質性を見逃すため、検定結果だけでモデルを決めるのは危険です。

Q3. I2I^2 が高いと、メタアナリシスの結論は信用できないのですか?

「信用できない」のではなく「研究間で効果がばらついているので、単一の統合値で要約するのは慎重に」というサインです。I2I^2 が高い(例えば75%)とき取るべき対応は、(1) 変量効果モデルを使う、(2) 異質性の原因を探る(対象集団・投与量・研究デザインの違いでサブグループ解析やメタ回帰を行う)、(3) 統合をやめる判断もあり得る、です。I2I^2 が高いこと自体は「研究が多様な状況をカバーしている」という情報でもあります。重要なのは、I2I^2 は研究間変動の割合なので、I2I^2 が高くても各研究の信頼区間が狭ければ実際の効果の幅は小さいこともある点。I2I^2 の数値だけで結論の信頼性を断じず、τ2\tau^2 や予測区間(次の研究で期待される効果の範囲)も併せて見ます。

Q4. ファンネルプロットが対称なら出版バイアスは無いと結論していいですか?

「無い」と断定はできず、「出版バイアスの証拠は乏しい」程度に留めます。理由は2つ。第一に、ファンネルプロットの判断は研究数が少ない(目安10未満)と信頼できず、見かけ上対称でも検出力不足の可能性がある。第二に、対称性は「出版バイアスが無い」ことの必要条件であって十分条件ではなく、複数のバイアスが打ち消し合って偶然対称に見えることもあり得ます。逆に非対称だからといって出版バイアス確定でもありません——真の異質性(小研究と大研究で対象が違う)や研究の質の差でも非対称になります。ファンネルプロットはあくまで「出版バイアスを示唆する手がかり」で、Egger検定など他の手法や、未発表研究の探索(グレーリテラチャー)と合わせて総合判断します。

Q5. DerSimonian-Laird法はなぜQ統計量を使って τ2\tau^2 を推定できるのですか?

鍵は「コクランのQの期待値が、異質性が無い(τ2=0\tau^2=0)とき自由度 k1k-1 になる」という事実です(第4.1節)。つまり QQk1k-1 を超えた超過分 Q(k1)Q-(k-1) は、偶然では説明できない研究間のばらつき=τ2\tau^2 に由来するはずです。DL法はこの超過分を適切な定数 CC で割って τ2\tau^2 のスケールに直し、τ^DL2=max(0,(Q(k1))/C)\hat\tau^2_{DL}=\max(0,(Q-(k-1))/C) とします。これは「観測されたモーメント(Qの実現値)を、理論上の期待値(k1k-1)に等しいと置いて未知パラメータを解く」モーメント法の典型です。max(0,)\max(0,\cdot) が付くのは分散が負になれないため。計算が軽く直観的なので広く使われますが、τ2\tau^2 を過小評価しがちな弱点があり、より精密なREML(制限付き最尤)などが代替として推奨されることもあります(手法の推奨は更新されうるため要最新確認)。


まとめ


関連ノート