メタアナリシス｜統計検定テキスト

📊 対象級：1級　|　重要度：C（低頻度）

要点（BLUF）

この項目は統計検定1級（統計応用・医薬生物学）の公式範囲表には明示されていませんが、出題実績があります（2021年の医薬生物学・問4で変量効果モデルとメタアナリシスが出題。範囲・出題傾向は改訂されうるため要最新確認）。メタアナリシスは、複数の独立した研究の効果量を1つの統合推定値にまとめる統計手法です。核心は「各研究の効果量を逆分散で重み付けした加重平均」の一点に尽きます。

固定効果モデル：全研究が共通の真の効果 $\theta$ を持つと仮定。各研究の効果量 $\theta_i$ を分散の逆数 $w_i=1/v_i$ で重み付けして統合する（ $\hat\theta=\sum w_i\theta_i/\sum w_i$ ）。逆分散加重が最小分散になるのは、推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）の最良線形不偏推定と同じ発想です。
変量効果モデル：真の効果が研究ごとにばらつく（研究間分散 $\tau^2$ ）と仮定。重みが $w_i^\ast=1/(v_i+\tau^2)$ になり、 $\tau^2$ は DerSimonian-Laird 法などで推定する。研究間にばらつきがあるなら原則こちらを使います。
異質性：研究間のばらつきの程度を測る。コクランのQ統計量（重み付き残差平方和）と $I^2$ 統計量（ $I^2=(Q-(k-1))/Q$ 、全変動のうち研究間変動が占める割合）で評価する。フォレストプロットで効果を、ファンネルプロットで出版バイアスを視覚的に点検します。

1級（範囲表外）では逆分散加重の計算・固定/変量の違い・ $I^2$ の解釈が問われ得ます。

graph TD
  ROOT["複数研究の効果量<br/>θ₁, θ₂, …, θₖ（各々分散 vᵢ）"] --> Q1{"研究間に効果の<br/>ばらつきがあるか?"}
  Q1 -->|"無い（共通の真値）"| FE["固定効果モデル<br/>重み wᵢ = 1/vᵢ"]
  Q1 -->|"有る（τ²>0）"| RE["変量効果モデル<br/>重み wᵢ* = 1/(vᵢ+τ²)"]
  FE --> POOL["統合推定値<br/>θ̂ = Σwθ / Σw"]
  RE --> POOL
  POOL --> HET["異質性の評価<br/>コクランのQ・I²"]
  POOL --> VIZ["可視化<br/>フォレスト/ファンネルプロット"]
  VIZ --> BIAS["出版バイアスの点検<br/>ファンネルの非対称性"]

1. メタアナリシスとは — なぜ研究を統合するのか

1.1 動機

同じ臨床的な問い（例：ある薬は血圧を下げるか）に対して、世界中で似た研究が複数行われます。1つ1つの研究は標本サイズが小さく、結論が割れることもあります。メタアナリシスは、これら複数研究の結果を統計的に統合して、より精度の高い1つの結論を出す手法です。

要するに「バラバラの小研究を寄せ集めて、1つの大きな証拠にまとめる」。標本を足し合わせるイメージですが、各研究で測定された**効果量（effect size）**そのものを統合する点がポイントです。効果量はオッズ比・リスク比・平均値差・標準化平均値差などで、その定義は効果の指標で扱います。ここでは「各研究 $i$ から、効果量の推定値 $\theta_i$ とその分散 $v_i$ が得られている」ところから出発します。

1.2 統合の基本形 — 加重平均

$k$ 個の研究があり、研究 $i$ の効果量推定値が $\theta_i$ 、その分散が $v_i$ だとします。これらを統合する最も自然な形は加重平均です。

\hat\theta=\frac{\sum_{i=1}^{k} w_i\,\theta_i}{\sum_{i=1}^{k} w_i}

要するに「各研究の効果量に重み $w_i$ を付けて平均する」。問題は「重み $w_i$ をどう決めるか」で、ここがメタアナリシスの肝です。直観的には「精度の高い（分散の小さい）研究ほど重く」したい。この直観を最適性として定式化したのが、次節の逆分散加重です。

2. 固定効果モデル — 逆分散加重とその最適性

2.1 固定効果モデルの仮定

固定効果モデル（fixed-effect model）は、すべての研究が同一の真の効果 $\theta$ を測っていると仮定します。研究ごとの推定値のばらつきは、標本誤差だけから生じると考えます。

\theta_i=\theta+\varepsilon_i,\qquad \varepsilon_i\sim(0,\ v_i)

要するに「真の効果は1つ（ $\theta$ ）。研究によって推定値がずれるのは、たまたま標本が違うからだけ」。研究間に本質的な違いはない、という強い仮定です。各研究の推定値 $\theta_i$ は不偏（ $E[\theta_i]=\theta$ ）で、分散 $v_i$ を持つ独立な観測とみなせます。

2.2 逆分散加重 — なぜ $w_i=1/v_i$ が最小分散か

固定効果モデルでは、重みを分散の逆数に取ります。

\boxed{\;w_i=\frac{1}{v_i}\;}

これを**逆分散加重（inverse-variance weighting）と呼びます。なぜこの重みが最適なのか——「加重平均という形のうちで、統合推定量 $\hat\theta$ の分散を最小にする重みが $w_i\propto 1/v_i$ である」ことを証明します。これは推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）の最良線形不偏推定（最小分散不偏）**の発想そのものです。

証明（ラグランジュ未定乗数法）. 統合推定量 $\hat\theta=\sum a_i\theta_i$ を、重み $a_i$ の線形結合として書きます。 $\theta_i$ は独立で $E[\theta_i]=\theta$ 、 $V(\theta_i)=v_i$ とします。

まず不偏であるための制約：

E[\hat\theta]=\sum a_i\,E[\theta_i]=\theta\sum a_i=\theta \quad\Longrightarrow\quad \sum a_i=1

要するに「重みの和は1（でないと真値に系統的にずれる）」。次に、独立性より統合推定量の分散は

V(\hat\theta)=\sum a_i^2\,v_i

要するに「各研究の分散を重みの2乗で足したもの」。問題は「 $\sum a_i=1$ の制約のもとで $V(\hat\theta)=\sum a_i^2 v_i$ を最小化する $a_i$ を求めよ」という制約付き最小化です。ラグランジュ関数

L=\sum a_i^2 v_i-\lambda\Big(\sum a_i-1\Big)

を $a_i$ で偏微分して0と置くと

\frac{\partial L}{\partial a_i}=2a_i v_i-\lambda=0 \quad\Longrightarrow\quad a_i=\frac{\lambda}{2v_i}\propto\frac{1}{v_i}

要するに「最適な重みは分散の逆数に比例する」。制約 $\sum a_i=1$ で規格化すれば

\boxed{\;a_i=\frac{1/v_i}{\sum_j 1/v_j}=\frac{w_i}{\sum_j w_j},\qquad w_i=\frac{1}{v_i}\;}

これが逆分散加重です。分散が小さい（精度が高い）研究ほど大きな重みを受ける——直観どおりの結果が、最小分散という最適性から導かれました。

なぜ「2乗で効く分散」を「逆数の重み」で抑えるのか：分散の大きい研究を重く扱うと $V(\hat\theta)=\sum a_i^2 v_i$ が膨らむ。各項の寄与 $a_i^2 v_i$ を均すには、 $v_i$ が大きい研究ほど $a_i$ を小さくする必要があり、その最適点が $a_i\propto 1/v_i$ になります。

2.3 統合推定量の分散は $1/\sum w_i$

最適重み $a_i=w_i/\sum w_j$ を分散の式 $V(\hat\theta)=\sum a_i^2 v_i$ に代入します。 $w_i=1/v_i$ すなわち $v_i=1/w_i$ なので

V(\hat\theta)=\sum_i\left(\frac{w_i}{\sum_j w_j}\right)^2 v_i =\frac{1}{\left(\sum_j w_j\right)^2}\sum_i w_i^2\cdot\frac{1}{w_i} =\frac{1}{\left(\sum_j w_j\right)^2}\sum_i w_i

分子の $\sum_i w_i$ と分母の $(\sum_j w_j)^2$ のうち1つが約分されて

\boxed{\;V(\hat\theta)=\frac{1}{\sum_{i=1}^{k} w_i}\;}

要するに「統合推定値の分散は、重みの総和の逆数」。重み $w_i=1/v_i$ （＝各研究の精度）を足し上げた総和が、統合後の精度になります。研究を増やすほど $\sum w_i$ が増え、統合分散が下がる——「証拠を寄せ集めると精度が上がる」ことが式で確認できます。統合推定値の標準誤差は $\sqrt{1/\sum w_i}$ で、信頼区間は $\hat\theta\pm z_{\alpha/2}\sqrt{1/\sum w_i}$ で作ります。

3. 変量効果モデル — 研究間分散とDerSimonian-Laird

3.1 変量効果モデルの仮定

固定効果モデルの「全研究が共通の真値」という仮定は、現実には強すぎることが多い。研究ごとに対象集団・投与量・追跡期間などが違えば、真の効果そのものが研究間でばらつくはずです。これを許すのが**変量効果モデル（random-effects model）**です。

\theta_i=\theta+u_i+\varepsilon_i,\qquad u_i\sim(0,\ \tau^2),\quad \varepsilon_i\sim(0,\ v_i)

要するに「真の効果は研究ごとに $\theta+u_i$ と少しずつ違う。その違いの大きさが研究間分散 $\tau^2$ 」。観測 $\theta_i$ の分散は、2段階のばらつきの和になります。

V(\theta_i)=\tau^2+v_i

要するに「研究間のばらつき $\tau^2$ ＋研究内（標本誤差）のばらつき $v_i$ の合計」。固定効果モデルは $\tau^2=0$ の特殊ケースだと分かります。 $\theta$ はいまや「真の効果の平均」を表します。

3.2 重みが $w_i^\ast=1/(v_i+\tau^2)$ になる理由

逆分散加重の論理（第2.2節）は、効果量の全分散の逆数で重み付けすると最小分散になる、というものでした。変量効果モデルでは効果量 $\theta_i$ の全分散が $v_i+\tau^2$ なので、同じ論理をそのまま適用すれば、最適な重みは

\boxed{\;w_i^\ast=\frac{1}{v_i+\tau^2}\;}

要するに「固定効果の重み $1/v_i$ の分母に、研究間分散 $\tau^2$ を足しただけ」。 $\tau^2$ が分母に加わることで、次の2つが起こります。

重みが全体に小さく・均される： $\tau^2>0$ を足すと分母が大きくなり全研究の重みが下がる。さらに $v_i$ の大小による重みの差が相対的に縮むため、大研究と小研究の重みの差が固定効果モデルより小さくなります。
統合分散が大きくなる： $V(\hat\theta^\ast)=1/\sum w_i^\ast$ は $w_i^\ast<w_i$ より固定効果より大きくなる。つまり変量効果モデルの信頼区間は広くなる（研究間のばらつきという不確実性を上乗せするので、安全側）。

3.3 DerSimonian-Laird による $\tau^2$ の推定

$\tau^2$ は未知なので推定が必要です。最も古典的で試験でも問われやすいのがDerSimonian-Laird（DL）法（モーメント法）です。これはコクランのQ統計量（第4節）を使い、観測された異質性から期待される標本誤差ぶんを差し引いて $\tau^2$ を推定します。

\boxed{\;\hat\tau^2_{DL}=\max\!\left(0,\ \frac{Q-(k-1)}{C}\right),\qquad C=\sum_i w_i-\frac{\sum_i w_i^2}{\sum_i w_i}\;}

ここで $Q=\sum_i w_i(\theta_i-\hat\theta)^2$ はコクランのQ統計量、 $w_i=1/v_i$ は固定効果の逆分散重み、 $k$ は研究数です。式の意味を分解します。

分子 $Q-(k-1)$ ：Q の期待値は「異質性が無い（ $\tau^2=0$ ）」とき $k-1$ （自由度）です（第4.1節）。だから観測された Q から $k-1$ を引いた超過分が、研究間のばらつき $\tau^2$ に由来する部分です。要するに「観測された散らばり − 偶然で説明できる散らばり」。
分母 $C$ ：超過分を $\tau^2$ のスケールに変換するための規格化定数（重みのモーメントから決まる）。
$\max(0,\cdot)$ ：分散は負になれないので、計算結果が負なら0に丸める。要するに「異質性が偶然の範囲内なら $\tau^2=0$ とみなす」（このとき変量効果モデルは固定効果モデルに一致）。

要するに「観測されたばらつきが偶然( $k-1$ )を超えた分を、研究間分散 $\tau^2$ として拾い上げる」というモーメント法の発想です。 $\hat\tau^2_{DL}$ を $w_i^\ast=1/(v_i+\hat\tau^2_{DL})$ に代入して重みを作り直し、 $\hat\theta^\ast=\sum w_i^\ast\theta_i/\sum w_i^\ast$ で統合します。

DL法は計算が軽く広く使われますが、 $\tau^2$ を過小評価しがちで、研究数が少ないと不安定という限界も知られます。近年は制限付き最尤（REML）など別の推定法も推奨されます（手法の優劣・推奨は更新されうるため要最新確認）。試験で問われやすいのはDL法の発想（Qから $\tau^2$ を逆算）です。

4. 異質性 — コクランのQ統計量とI²

4.1 コクランのQ統計量

研究間に本当に効果のばらつき（異質性, heterogeneity）があるのかを検定するのがコクランのQ統計量です。固定効果の重み $w_i=1/v_i$ を使い、各研究の効果量が固定効果統合値 $\hat\theta$ からどれだけ離れているかの重み付き残差平方和として定義します。

\boxed{\;Q=\sum_{i=1}^{k} w_i\,(\theta_i-\hat\theta)^2\;}

要するに「各研究の効果量が統合値からどれだけ散らばっているかを、精度で重み付けして合計したもの」。回帰の残差平方和や $\chi^2$ 適合度統計量と同じ構造です。

帰無仮説と分布. 帰無仮説は「全研究の真の効果が等しい（異質性なし、 $\tau^2=0$ ）」。この帰無仮説のもとで、 $Q$ は近似的に自由度 $k-1$ のカイ二乗分布に従います。

Q\ \overset{H_0}{\sim}\ \chi^2_{k-1},\qquad E[Q]=k-1

要するに「異質性が無ければ Q は自由度 $k-1$ のカイ二乗、期待値は $k-1$ 」。 $Q$ が $k-1$ を大きく超えれば（ $p$ 値が小さければ）異質性ありと判断します。なお $E[Q]=k-1$ という事実が、前節のDL推定量で「 $Q$ から $k-1$ を引く」根拠でした。

⚠️ Q検定は検出力が低いことに注意。研究数 $k$ が少ないと、本当は異質性があっても有意にならない（見逃す）ことが多い。逆に研究数が非常に多いと、わずかな異質性でも有意になりがち。だから「Q検定が有意でないから異質性なし」と断じるのは危険で、次の $I^2$ で程度を見るのが標準です。

4.2 I²統計量 — 異質性の「割合」

Q検定は「異質性があるか/ないか」の二択しか答えません。どの程度異質かを連続量で示すのが $I^2$ 統計量です。

\boxed{\;I^2=\frac{Q-(k-1)}{Q}\;}\qquad(\text{パーセント表示なら}\times100)

要するに「観測された全変動 $Q$ のうち、偶然（自由度 $k-1$ ）では説明できない超過分の占める割合」。分子 $Q-(k-1)$ は研究間分散に由来する超過変動、分母 $Q$ は全変動なので、 $I^2$ は全変動に占める研究間変動の割合を表します。負になる場合は0に丸めます。

$I^2$ の解釈の目安（あくまで慣習的な目安で絶対基準ではない、要最新確認）：

$I^2$ の範囲	異質性の程度
0〜40%	重要でない（低い）かもしれない
30〜60%	中程度
50〜90%	大きい（substantial）
75〜100%	高度

$I^2$ の利点は、Q と違って研究数 $k$ や効果量の種類に依存しにくいこと。Q は研究数が増えるほど大きくなりがちですが、 $I^2$ は割合なので異なるメタアナリシス間で比較しやすい。 $I^2$ が高ければ「研究間のばらつきが大きい→変量効果モデルを使うべき・異質性の原因をサブグループ解析等で探るべき」と判断します。

⚠️ $I^2$ は研究間分散の絶対量（ $\tau^2$ ）ではなく割合です。 $I^2$ が高くても各研究の精度が高ければ実質的な効果のばらつき幅は小さいこともあるし、その逆もある。「 $I^2$ が高い＝効果の不一致が深刻」と短絡しないこと。 $I^2$ と $\tau^2$ は別物（ $I^2$ は相対指標、 $\tau^2$ は絶対指標）です。

5. 可視化 — フォレストプロットとファンネルプロット

5.1 フォレストプロット — 効果と統合値を一望する

**フォレストプロット（forest plot）**は、メタアナリシスの結果を視覚化する標準的な図です。

各研究を1行で表し、横軸に効果量を取る。各研究の点推定値を四角（□、面積が重みに比例＝大きい研究ほど大きい四角）、信頼区間を水平線（ヒゲ）で示す。
一番下に統合推定値を菱形（◇）で置く。菱形の中心が統合点推定値、横幅が統合値の信頼区間を表す。
効果なしの基準線（オッズ比・リスク比なら1、平均値差なら0）を縦線で引く。菱形がこの線をまたぐかどうかで、統合効果が有意かを読み取る。

graph LR
  subgraph FP["フォレストプロットの読み方（横軸＝効果量）"]
    direction TB
    S1["研究1  ├──□──┤   小さめ・重み中"]
    S2["研究2    ├─□─┤   精度高・重み大（四角大）"]
    S3["研究3 ├────□────┤ 精度低・重み小（区間広）"]
    POOL["統合   ◇（菱形）  中心=統合値, 幅=統合CI"]
  end

フォレストプロットを見れば、(1) 各研究の効果と精度、(2) 研究間で効果がそろっているか（異質性の視覚的判断）、(3) 統合効果の大きさと有意性——が一目で分かります。四角がバラバラの位置にあれば異質性が高い、ということです。

5.2 ファンネルプロットと出版バイアス

**ファンネルプロット（funnel plot）**は、**出版バイアス（publication bias）**を点検するための散布図です。

横軸に効果量、縦軸に各研究の精度（標準誤差、ふつう上が高精度になるよう縦軸を反転）を取り、各研究を1点でプロットする。
異質性も出版バイアスも無ければ、点は統合値を中心に左右対称な漏斗（ファンネル）形に散らばる。精度の高い（標準誤差の小さい）研究は上部で統合値の近くに密集し、精度の低い小研究は下部で左右に大きく散らばる——これが漏斗の形になる理由です。

出版バイアスとは、統計的に有意な（あるいは期待された方向の）結果を出した研究ほど論文として出版されやすく、否定的・非有意な結果はお蔵入りしやすい、という偏りです。小規模研究では特に「効果が大きく出た時だけ出版される」傾向が強い（小研究効果, small-study effect）。

graph TD
  A["ファンネルプロット<br/>横軸=効果量, 縦軸=精度（上ほど高精度）"] --> B{"左右対称か?"}
  B -->|"対称な漏斗形"| C["出版バイアスは小さい<br/>（小研究が左右に均等）"]
  B -->|"非対称<br/>（下部の片側が欠ける）"| D["出版バイアスを疑う<br/>小研究で効果小・非有意の論文が欠落"]

非対称性の読み方. 漏斗の下部（小研究の領域）で片側が欠けていれば、出版バイアスの疑いです。典型的には「効果が小さい/非有意だった小研究が出版されず欠落し、グラフが非対称になる」。この非対称性を統計的に検定するのが Egger検定（回帰による非対称性検定）や Begg検定（順位相関による検定）です（検定名は知識として押さえる程度でよい）。

⚠️ ファンネルプロットの非対称性は出版バイアスだけが原因ではありません。真の異質性（小研究と大研究で対象集団が違う）や研究の質の差でも非対称になり得ます。「非対称＝出版バイアス確定」ではなく「出版バイアスを示唆する」程度に留める。また研究数が少ない（目安10未満）とファンネルプロットの判断自体が信頼できません。

6. 固定効果 vs 変量効果の使い分け

両モデルの違いを整理します。

観点	固定効果モデル	変量効果モデル
仮定	全研究が共通の真値 $\theta$	真の効果が研究間でばらつく（分散 $\tau^2$ ）
重み	$w_i=1/v_i$	$w_i^\ast=1/(v_i+\tau^2)$
大研究と小研究の重みの差	大きい（精度差がそのまま効く）	小さい（ $\tau^2$ が差を均す）
統合値の信頼区間	狭い	広い（ $\tau^2$ ぶん上乗せ）
推測の対象	これら $k$ 研究に共通の効果	研究の母集団における平均効果
異質性が高いとき	不適切（CIが過小）	適切

使い分けの原則：研究間に異質性があると考えられるなら（現実にはほぼ常にそう）、変量効果モデルを使うのが安全側です。 $I^2$ が低く異質性が無さそうでも、変量効果モデルは $\tau^2\to 0$ で固定効果に近づくので、デフォルトを変量効果にしておく考え方が主流です。一方、対象集団も介入も完全に同質な少数研究の統合なら固定効果が適切なこともあります。

⚠️ よくある誤りは「 $I^2$ が低い／Q検定が非有意だったから固定効果モデルを使う」という機械的判断です。Q検定は検出力が低く異質性を見逃しやすいので、「検定が非有意＝異質性なし＝固定効果でよい」とは限りません。モデル選択は検定結果だけでなく、研究の臨床的・方法論的な異質性（対象・介入・デザインの違い）も踏まえて決めます。

7. 試験での問われ方（1級）

前提：この項目は公式範囲表に明示されておらず、出題される保証はありません（2021年医薬生物学・問4で出題実績あり。要最新確認）。範囲表外ですが、出るとすれば以下の角度が想定されます。

逆分散加重の計算：数研究の効果量 $\theta_i$ と分散 $v_i$ （または標準誤差 $s_i$ ）が与えられ、 $w_i=1/v_i$ を計算し、 $\hat\theta=\sum w_i\theta_i/\sum w_i$ と統合分散 $1/\sum w_i$ 、信頼区間まで求めさせる。手を動かす計算問題になりやすい。
逆分散加重の最適性：「なぜ分散の逆数で重み付けするのか」を、 $\sum a_i=1$ の制約下で $V(\hat\theta)=\sum a_i^2 v_i$ を最小化する問題として導出させる（最小分散・ラグランジュ）。
固定効果 vs 変量効果：両モデルの仮定の違い、重みの違い（ $1/v_i$ vs $1/(v_i+\tau^2)$ ）、信頼区間がどちらで広くなるか（変量効果）を説明させる。
$I^2$ の解釈： $Q$ と $k$ から $I^2=(Q-(k-1))/Q$ を計算させ、異質性の程度を解釈させる。「 $I^2$ は研究間変動の割合であって $\tau^2$ そのものではない」点を問う。
DerSimonian-Laird：Q統計量から $\tau^2$ をモーメント法で推定する発想（ $Q$ の期待値が $k-1$ であることを使う）を説明させる。
出版バイアス：ファンネルプロットの非対称性が何を示唆するか（小研究効果・出版バイアス）、その限界（非対称の原因は複数）を述べさせる。

なお2021年の出題では変量効果モデルの最尤推定と信頼区間まで踏み込んでおり、モーメント法（DL）だけでなく尤度ベースの推定（推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）の最尤法）と接続する可能性も意識しておくとよいでしょう。

8. 引っかけ・頻出論点

⚠️ 固定効果と変量効果の重みを取り違える：固定効果は $w_i=1/v_i$ 、変量効果は $w_i^\ast=1/(v_i+\tau^2)$ 。分母に $\tau^2$ が入るのが変量効果。コクランのQやDL推定で使う重みは固定効果の $w_i=1/v_i$ である点も混同しやすい。
⚠️ $I^2$ と $\tau^2$ を同一視する： $I^2$ は「全変動に占める研究間変動の割合」（相対指標、0〜100%）、 $\tau^2$ は研究間分散の絶対量。 $I^2$ が高くても $\tau^2$ が大きいとは限らない（各研究の精度次第）。両者は別物。
⚠️ Q検定が非有意＝異質性なし、と断じる：Q検定は研究数が少ないと検出力が低く、異質性を見逃す。「非有意だから固定効果でよい」は誤り。 $I^2$ や臨床的判断と合わせて評価する。
⚠️ 逆分散加重で「分散」ではなく「標本サイズ」で重み付けする：素朴に標本サイズで重み付けしたくなるが、最小分散になるのは分散の逆数。標本サイズは分散と関係するが等価ではない（効果量の種類による）。
⚠️ 変量効果のほうが信頼区間が狭いと思う：逆。変量効果は研究間分散 $\tau^2$ ぶんの不確実性を上乗せするので、統合値の信頼区間は固定効果より広くなる（安全側）。
⚠️ 出版バイアスの見落とし：統合値が有意でも、ファンネルプロットが非対称なら出版バイアスで効果が過大評価されている恐れがある。統合結果だけ見て出版バイアスの点検を忘れない。逆に「非対称＝出版バイアス確定」も誤り（真の異質性等でも非対称になる）。
⚠️ 統合分散の公式を忘れる：固定効果の統合分散は $1/\sum w_i$ （重みの総和の逆数）。 $\sum w_i v_i$ などとしない。導出（ $V(\hat\theta)=\sum a_i^2 v_i$ に最適重みを代入）から再現できるようにする。

よくある疑問（Q&A）

Q1. なぜ分散の逆数で重み付けすると最良なのですか? 標本サイズで重み付けではダメですか?

「加重平均という形のうち、統合推定量の分散を最小にする重み」を求めると、数学的に $w_i\propto 1/v_i$ が出てくるからです（第2.2節の証明）。 $\sum a_i=1$ の制約下で $V(\hat\theta)=\sum a_i^2 v_i$ を最小化すると $a_i\propto 1/v_i$ になる——これは推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）の最小分散不偏推定と同じ論理です。標本サイズで重み付けしないのは、効果量の分散 $v_i$ が標本サイズだけでなく効果量の種類（オッズ比か平均値差か）やイベント発生率にも依存するからです。最小分散を保証するのはあくまで「分散の逆数」であって、標本サイズはその近似にすぎません。直観的にも「精度の高い（分散の小さい）研究の声を大きく」が最適、という結果は納得しやすいはずです。

Q2. 固定効果と変量効果、結局どちらを使えばいいのですか?

迷ったら変量効果モデルが安全側です。理由は、現実の研究は対象集団も介入も微妙に異なり、真の効果が研究間でばらつく（ $\tau^2>0$ ）のが自然だからです。変量効果モデルは $\tau^2\to 0$ で固定効果モデルに一致するので、「異質性が無ければ固定効果と同じ、有れば適切に区間を広げる」という意味で守備範囲が広い。固定効果モデルが適切なのは、対象も介入も同質な少数研究を統合する場合や、「これら特定の $k$ 研究に共通の効果」だけを知りたい場合です。やってはいけないのは「Q検定が非有意だったから固定効果」という機械的選択で、Q検定は検出力が低く異質性を見逃すため、検定結果だけでモデルを決めるのは危険です。

Q3. $I^2$ が高いと、メタアナリシスの結論は信用できないのですか?

「信用できない」のではなく「研究間で効果がばらついているので、単一の統合値で要約するのは慎重に」というサインです。 $I^2$ が高い（例えば75%）とき取るべき対応は、(1) 変量効果モデルを使う、(2) 異質性の原因を探る（対象集団・投与量・研究デザインの違いでサブグループ解析やメタ回帰を行う）、(3) 統合をやめる判断もあり得る、です。 $I^2$ が高いこと自体は「研究が多様な状況をカバーしている」という情報でもあります。重要なのは、 $I^2$ は研究間変動の割合なので、 $I^2$ が高くても各研究の信頼区間が狭ければ実際の効果の幅は小さいこともある点。 $I^2$ の数値だけで結論の信頼性を断じず、 $\tau^2$ や予測区間（次の研究で期待される効果の範囲）も併せて見ます。

Q4. ファンネルプロットが対称なら出版バイアスは無いと結論していいですか?

「無い」と断定はできず、「出版バイアスの証拠は乏しい」程度に留めます。理由は2つ。第一に、ファンネルプロットの判断は研究数が少ない（目安10未満）と信頼できず、見かけ上対称でも検出力不足の可能性がある。第二に、対称性は「出版バイアスが無い」ことの必要条件であって十分条件ではなく、複数のバイアスが打ち消し合って偶然対称に見えることもあり得ます。逆に非対称だからといって出版バイアス確定でもありません——真の異質性（小研究と大研究で対象が違う）や研究の質の差でも非対称になります。ファンネルプロットはあくまで「出版バイアスを示唆する手がかり」で、Egger検定など他の手法や、未発表研究の探索（グレーリテラチャー）と合わせて総合判断します。

Q5. DerSimonian-Laird法はなぜQ統計量を使って $\tau^2$ を推定できるのですか?

鍵は「コクランのQの期待値が、異質性が無い（ $\tau^2=0$ ）とき自由度 $k-1$ になる」という事実です（第4.1節）。つまり $Q$ が $k-1$ を超えた超過分 $Q-(k-1)$ は、偶然では説明できない研究間のばらつき＝ $\tau^2$ に由来するはずです。DL法はこの超過分を適切な定数 $C$ で割って $\tau^2$ のスケールに直し、 $\hat\tau^2_{DL}=\max(0,(Q-(k-1))/C)$ とします。これは「観測されたモーメント（Qの実現値）を、理論上の期待値（ $k-1$ ）に等しいと置いて未知パラメータを解く」モーメント法の典型です。 $\max(0,\cdot)$ が付くのは分散が負になれないため。計算が軽く直観的なので広く使われますが、 $\tau^2$ を過小評価しがちな弱点があり、より精密なREML（制限付き最尤）などが代替として推奨されることもあります（手法の推奨は更新されうるため要最新確認）。

まとめ

メタアナリシスの核心は逆分散加重の加重平均：各研究の効果量 $\theta_i$ を重み $w_i$ で統合する。 $\hat\theta=\sum w_i\theta_i/\sum w_i$ 。この項目は1級の公式範囲表外だが出題実績あり（2021年医薬生物学・問4。要最新確認）。
固定効果モデル：全研究が共通の真値と仮定。重みは $w_i=1/v_i$ （逆分散加重）。これが最小分散になるのは $\sum a_i=1$ 制約下で $V(\hat\theta)=\sum a_i^2 v_i$ を最小化すると $a_i\propto 1/v_i$ が出るから（最良線形不偏推定の発想）。統合分散は $1/\sum w_i$ 。
変量効果モデル：真の効果が研究間でばらつく（研究間分散 $\tau^2$ ）。全分散が $v_i+\tau^2$ になるので重みは $w_i^\ast=1/(v_i+\tau^2)$ 。 $\tau^2$ は DerSimonian-Laird 法（ $\hat\tau^2_{DL}=\max(0,(Q-(k-1))/C)$ ）などで推定。統合値の信頼区間は固定効果より広い（安全側）。
異質性：コクランのQ統計量 $Q=\sum w_i(\theta_i-\hat\theta)^2$ は $H_0$ （異質性なし）で $\chi^2_{k-1}$ 、期待値 $k-1$ 。 $I^2=(Q-(k-1))/Q$ は全変動に占める研究間変動の割合。 $I^2$ は割合（相対指標）で $\tau^2$ （絶対量）とは別物。Q検定は検出力が低いので非有意でも異質性なしと断じない。
可視化：フォレストプロット（各研究の効果と信頼区間＋統合値の菱形）で効果と異質性を、ファンネルプロット（効果量×精度の散布）の非対称性で出版バイアス・小研究効果を点検。ただし非対称の原因は複数あり、非対称＝出版バイアス確定ではない。
モデル選択：迷ったら変量効果（守備範囲が広い）。「Q検定が非有意だから固定効果」という機械的判断は誤り。