← 統計検定テキスト 一覧

📊 対象級:準1級 | 重要度:B(標準)

要点(BLUF)


なぜ問題になるのか(多重性)

3群以上の平均を比べるとき、「A対B」「A対C」「B対C」と tt 検定を繰り返したくなります。ところが検定を繰り返すと、1回あたりの過誤確率は α\alpha のままでも、全体として「どれか1つでも誤って有意と判定する確率」がどんどん上がっていきます。これが多重比較問題(多重性, multiplicity)です。

直観的には「20回くじを引けば、確率1/20の当たりも一度くらい引いてしまう」のと同じです。各検定が単独では正しくても、束(family)として見ると偽陽性が紛れ込みやすくなる、ということです。

FWERの膨張を導出する

「すべての帰無仮説が真」という前提で、mm 個の検定がすべて互いに独立だとします。記号を置きます。

求めたいのは「少なくとも1回は誤って棄却してしまう確率」です。これは余事象(1回も過誤を犯さない)の補集合なので、

FWER=1(1α)m\mathrm{FWER} = 1-(1-\alpha)^m

要するに:「1つも間違えない確率」を1から引けば「1つでも間違える確率」になる、という余事象の計算です。

具体的に α=0.05\alpha=0.05mm を増やすと、この値は急速に1へ近づきます。

検定回数 mmFWER =1(10.05)m=1-(1-0.05)^m意味
10.050もともとの有意水準
20.098約10%に倍増
50.226約23%
100.401約40%
200.642約64%(本来5%のはずが…)
500.923ほぼ確実にどこかで誤判定

m=20m=20 のとき 10.9520=10.358=0.6421-0.95^{20}=1-0.358=0.642本来5%に抑えたはずの第一種過誤が、束全体では64%まで膨らんでいます。これでは「有意」と言っても信用できません。多重比較の補正は、この膨張を抑えるための仕組みです。

注:上の式は検定が独立な場合の値です。検定どうしが正に相関していると実際のFWERはこれより小さくなりますが、いずれにせよ α\alpha より大きくなる点は変わりません。


2つの誤り率:FWER と FDR

「何を抑えたいのか」で制御対象が分かれます。mm 個の検定結果を次の表で整理します(VV が偽陽性の個数)。

帰無を棄却しない帰無を棄却した合計
帰無が真(効果なし)UUVV(偽陽性)m0m_0
帰無が偽(効果あり)TT(偽陰性)SS(真陽性)mm0m-m_0
合計mRm-RRRmm
FWER=P(V1)\mathrm{FWER}=P(V\ge 1)

要するに:「偽陽性を1個でも出してしまう確率」。1つの誤りも許さない、厳しい基準。

FDR=E ⁣[VR](R1 のとき。R=0 なら 0)\mathrm{FDR}=E\!\left[\frac{V}{R}\right]\quad(R\ge 1\text{ のとき。}R=0\text{ なら }0)

要するに:「有意と判定したもののうち、偽陽性が占める割合の期待値」。例えばFDR=0.1なら「有意とした100件のうち平均10件は偽物でも許す」。

違いの本質:FWERは「誤りの個数を0にしたい」、FDRは「誤りの割合を一定以下にしたい」。FWERのほうが厳しく、検定数が多いと検出力(本物を見つける力)が大きく落ちます。FDRは緩い分だけ検出力を保てるので、何千何万と検定する探索的研究(遺伝子発現解析など)で使われます。

graph TD
    A["多重に検定する状況"] --> B{"何を抑えたい?"}
    B -->|"偽陽性を1個も出したくない<br/>(確証的・少数比較)"| C["FWER制御"]
    B -->|"偽陽性の割合を一定以下に<br/>(探索的・多数比較)"| D["FDR制御"]
    C --> C1["Bonferroni / Holm<br/>Tukey / Dunnett / Scheffé"]
    D --> D1["Benjamini-Hochberg"]

FWERを制御する補正法

Bonferroni 補正

最も単純。各検定の有意水準を α/m\alpha/m に下げるだけ。m=20m=20α=0.05\alpha=0.05 なら各検定は 0.00250.0025 で判定します(あるいは各 pp 値を mm 倍して α\alpha と比べても同じ)。

なぜFWERが α\alpha 以下になるか(ボンフェロニ不等式から導出)

事象 AiA_i を「ii 番目の検定で(帰無が真なのに)誤って棄却する」とします。FWERは「どれかの AiA_i が起きる確率」P(i=1mAi)P(\cup_{i=1}^{m} A_i) です。ここで確率の**劣加法性(ブール不等式 / ボンフェロニ不等式)**を使います。

P ⁣(i=1mAi)i=1mP(Ai)P\!\left(\bigcup_{i=1}^{m} A_i\right)\le \sum_{i=1}^{m} P(A_i)

要するに:「和集合の確率は、各確率の単純な足し算を超えない」。重なり(共通部分)がある分だけ左辺は小さくなるので、不等号で上から押さえられます。和集合の包除原理 P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(A\cap B) で、引き算される共通部分が非負だから、と考えると分かりやすいです。

各検定の有意水準を α/m\alpha/m にすると P(Ai)α/mP(A_i)\le \alpha/m。よって

FWER=P ⁣(Ai)i=1mαm=mαm=α\mathrm{FWER}=P\!\left(\bigcup A_i\right)\le \sum_{i=1}^{m} \frac{\alpha}{m}=m\cdot\frac{\alpha}{m}=\alpha

要するに:1個あたりの過誤を α/m\alpha/m まで削っておけば、mm 個足し合わせても合計が α\alpha を超えない。これでFWERが α\alpha 以下に保証されます。

長所:仮定が要らない(検定の独立性すら不要。劣加法性は常に成り立つ)。どんな検定の組にも使える万能性。 短所保守的すぎる。不等式で上から押さえているだけなので、mm が大きいと閾値 α/m\alpha/m が極端に小さくなり、本物の差を見逃しやすくなる(検出力が低下)。

Holm 法(逐次棄却型 / step-down)

Bonferroniの弱点(一律に α/m\alpha/m で削る無駄)を改善した方法。FWERを α\alpha 以下に保証したまま、Bonferroniより必ず検出力が高い(一様により強力)。手順は次の通り。

  1. mm 個の pp 値を小さい順に並べる:p(1)p(2)p(m)p_{(1)}\le p_{(2)}\le\cdots\le p_{(m)}
  2. jj 番目(小さいほうから)の閾値を αmj+1\dfrac{\alpha}{m-j+1} とする。
  3. j=1j=1 から順に p(j)αmj+1p_{(j)}\le \dfrac{\alpha}{m-j+1} かを調べる。満たす限り棄却し次へ進む。
  4. 初めて満たさなくなった時点で停止し、それ以降(p(j)p_{(j)} 以上)はすべて棄却しない。

最初の検定の閾値は α/m\alpha/m でBonferroniと同じですが、棄却が進むにつれ分母が m1,m2,m-1,\,m-2,\dots と小さくなり閾値が緩くなっていきます。だからBonferroniで棄却できたものは必ず棄却でき、加えて棄却できるものが増えうる。それでもFWERは α\alpha 以下に保たれます(証明は逐次的に最初の偽棄却が起きる確率を押さえる)。

要するに:Bonferroniが「全員に同じ厳しい関門」を課すのに対し、Holmは「最初だけ厳しく、通過するごとに関門を緩める」。これで検出力を取り戻しつつ、誤りの保証はそのまま。

Tukey の HSD(全対比較)

3群以上ですべてのペア(全対比較, all pairwise)を比べる定番。正規性・等分散を仮定し、検定統計量に**スチューデント化範囲分布(studentized range distribution, qq 分布)**を用います。qq は「群平均の最大値と最小値の差を、群内のばらつきで標準化した量」の分布で、tt 分布を「最大差」用に拡張したものと考えると分かりやすいです。

平均差 xˉixˉj\lvert \bar{x}_i-\bar{x}_j \rvert がしきい値(HSD = Honestly Significant Difference)を超えれば有意。全ペアを同時に評価してFWERを α\alpha に制御します。全ペアを見るなら、ペアごとにBonferroniするより効率的(検出力が高い)です。各群の標本サイズが等しいときFWERはちょうど α\alpha、不揃いだと α\alpha 未満(やや保守的)になります。

Dunnett 法(対照群との比較)

1つの対照群(コントロール)と、各処理群を比べる専用。比較は「対照 vs 処理1」「対照 vs 処理2」…の m1m-1 本だけで、処理群どうしは比べません。比較数が全対比較より少ない分、Tukeyより検出力が高くなります。用量反応試験(プラセボ vs 各用量)などで標準的に使われます。

Scheffé 法(任意の対比)

任意の線形対比(contrast)iciμi\sum_i c_i \mu_iici=0\sum_i c_i=0)すべてに対して同時に有意水準を制御する、最も一般的で最も保守的な方法。「群1と群2の平均 vs 群3」のような複雑な対比も検定できます。

検定統計量を FF 分布の臨界値 (k1)Fα,k1,Nk(k-1)F_{\alpha,\,k-1,\,N-k} と比べる形(kk は群数)。あらゆる対比を許す代償として閾値が高く、単純なペア比較だけならTukeyより検出力が劣ります。データを見てから「ここが差がありそう」と事後に対比を決める(data snooping)場合に、それでもFWERを守れる点が強みです。

flowchart TD
    S["分散分析が有意<br/>→ どこに差があるか調べたい"] --> Q1{"比較したいのは?"}
    Q1 -->|"全ペアの平均差"| TUKEY["Tukey HSD<br/>(studentized range q)"]
    Q1 -->|"対照群と各処理群だけ"| DUNNETT["Dunnett 法<br/>(比較数が少なく高検出力)"]
    Q1 -->|"任意の対比<br/>(複雑な線形結合・事後に決める)"| SCHEFFE["Scheffé 法<br/>(最も保守的・最も汎用)"]
    Q1 -->|"任意の検定の組<br/>(平均比較に限らない)"| GEN{"検出力を上げたい?"}
    GEN -->|"単純でよい"| BONF["Bonferroni(α/m)"]
    GEN -->|"はい"| HOLM["Holm(逐次棄却)"]

FDRを制御する補正法:Benjamini-Hochberg(BH法)

検定数が膨大(数千〜)で、FWERだと厳しすぎて何も検出できないときに使います。FDR(偽発見の割合の期待値)を目標水準 qq 以下に抑えます。手順は次の通り。

  1. mm 個の pp 値を昇順に並べる:p(1)p(2)p(m)p_{(1)}\le p_{(2)}\le\cdots\le p_{(m)}
  2. ii について閾値 imq\dfrac{i}{m}q を計算する(qq は目標FDR、例 0.1)。
  3. p(i)imqp_{(i)}\le \dfrac{i}{m}q を満たす最大の iikk とする。
  4. p(1),,p(k)p_{(1)},\dots,p_{(k)} をすべて有意とする(kk 番目以下は全部棄却)。

要するに:「pp 値を小さい順に並べ、右肩上がりの基準線 imq\dfrac{i}{m}q を下回る最後の点まで一気に棄却する」。Holmが小さい順に上から見て最初の失敗で止めるのに対し、BHは下から見て最後の成功まで採用する点が対照的です。

独立または正に相関した pp 値のもとで、この手順は FDRm0mqq\mathrm{FDR}\le \dfrac{m_0}{m}q\le q を保証します(m0m_0 は真の帰無の個数)。FWERより緩い基準なので、棄却される仮説の数(検出力)が大きく増えます。「100件棄却してFDR=0.1なら、誤りは平均10件まで」と割り切る運用です。


分散分析の事後検定としての位置づけ

多重比較が最も典型的に現れるのが、分散分析(一元配置分散分析)の後です。分散分析の FF 検定は「どこかの群間に差がある」かどうかしか教えてくれません(全体検定, omnibus test)。どのペアに差があるかを特定するには、FF 検定で有意だった後にペアごとの比較が必要で、ここで多重性が発生します。この「全体検定のあとに行う比較」を**事後検定(post hoc test)**と呼びます。

Tukey・Dunnett・Scheffé はまさにこの事後検定の道具立てで、いずれも分散分析の枠組み(群内変動 VEV_E を共通の誤差分散の推定に使う)の上に乗っています。第一種過誤の制御という観点は 第一種の過誤・第二種の過誤・検出力(2種類の誤りとトレードオフ・サンプルサイズ設計) と直結しており、多重比較は「第一種過誤を束全体で守る技術」と捉えると体系の中で位置づけられます。


⚠️ 引っかけポイント・頻出論点


よくある疑問

Q1. 分散分析が有意だったので、あとは普通に tt 検定で全ペアを比べてよいですか? A. だめです。分散分析の FF 検定は「どこかに差がある」ことしか言わず、どのペアかを特定するには複数回の比較が要ります。その複数回に多重性が生じるので、補正なしの tt 検定を繰り返すとFWERが膨らみます(mm ペアなら最大で 1(1α)m1-(1-\alpha)^m 近くまで)。事後検定(Tukey等)で同時に制御してください。「全体検定が有意なら個別比較は自由」は典型的な誤りです。

Q2. とりあえずBonferroniにしておけば安全ですか? A. 「安全(FWER α\le\alpha)」という意味では正しいですが、安全すぎて損をします。Bonferroniは劣加法性で上から押さえるだけなので保守的で、mm が大きいと閾値 α/m\alpha/m が極端に小さく、本物の差を見逃します。FWERを保ちたいなら検出力で勝るHolmを、多数比較なら割合を制御するFDR(BH法)を使うほうが実用的です。Bonferroniの出番は「比較数が少なく、仮定を置きたくない」場面です。

Q3. FWERとFDR、どちらを制御すべきですか? A. 研究の性格で決めます。確証的(confirmatory)で誤りを1つも出したくない少数比較ならFWER(Bonferroni/Holm/Tukey等)。探索的(exploratory)で大量の候補から有望なものを拾いたいならFDR(BH法)。例えば遺伝子発現解析で2万遺伝子を一度に検定するとき、FWERでは厳しすぎて何も残らないため、FDRで「見つけた中の偽陽性割合を10%以下に」と運用するのが標準です。

Q4. 比較の回数 mm は、実際に検定したペアの数で数えればよいですか? A. 事前に計画した比較の数で数えるのが原則です。データを見てから「差が大きそうなペアだけ」選んで比較し、mm を小さく見積もるのは多重性を隠す不正な操作(チェリーピッキング)になります。どのペアを比べるか事前に決められないなら、mm を全ペア数とするか、事後に任意の対比を立てても守れるScheffé法を使うべきです。「データを見てから検定対象を決める」場合は実質的な検定回数が膨らんでいることを忘れないでください。

Q5. 全ペアを比べたいとき、Bonferroniで全ペア数で割るのとTukeyはどう違いますか? A. どちらも全対比較のFWERを α\alpha に制御しますが、Tukeyのほうが検出力が高いです。Bonferroniは各ペアを独立に扱って一律 α/m\alpha/m で割るため、ペア間の相関(同じ群平均を共有している)を無視して過度に保守的になります。Tukeyはスチューデント化範囲分布で「最大の平均差」を直接扱い、同時性を効率的に処理するので、全対比較に特化した分だけ無駄が少ない。だから全ペア比較が目的ならTukeyが第一選択です。


まとめ


関連ノート