ノンパラメトリック検定（符号・順位和・Wilcoxon）

📊 対象級：準1級　|　重要度：B（標準）

要点（BLUF）

ノンパラメトリック検定は母集団の分布形（正規性など）を仮定せず、データを順位や符号に変換して検定する手法。外れ値に頑健で、分布が歪んでいても使える。
主役は4つ：符号検定（差の符号だけ）、Wilcoxon符号順位検定（差の絶対値の順位＋符号、対応あり）、Wilcoxon順位和検定＝Mann-Whitney U（2標本を混ぜて順位付け）、Kruskal-Wallis検定（3群以上）。それぞれパラメトリック検定の代替として対応がつく。
準1級では、各統計量の帰無分布の期待値・分散を導出して正規近似するところまでが核。「無仮定」ではなく連続性・対称性・同一分布形などの仮定がある点が引っかけ。

なぜノンパラメトリックなのか

これまでの母平均の検定（1標本・2標本t検定）で扱った $t$ 検定は、母集団が正規分布に従うことを前提にしていました。標本サイズが小さいときこの前提が崩れると、 $t$ 統計量の帰無分布が本当に $t$ 分布になる保証がなくなり、有意水準がずれます。

ノンパラメトリック検定は、データの実数値そのものではなく順位（rank）や符号（sign）だけを使うことでこの問題を回避します。順位は分布形に依存しないので、帰無分布を分布形の仮定なしに（組合せ的に）計算できる、というのが基本アイデアです。

graph LR
    subgraph パラメトリック["パラメトリック（正規性を仮定）"]
        A1["対応あり t 検定"]
        A2["2標本 t 検定"]
        A3["一元配置分散分析"]
    end
    subgraph ノンパラ["ノンパラメトリック（順位・符号で代替）"]
        B1["符号検定 / Wilcoxon符号順位検定"]
        B2["Wilcoxon順位和検定 = Mann-Whitney U"]
        B3["Kruskal-Wallis検定"]
    end
    A1 -.対応.-> B1
    A2 -.対応.-> B2
    A3 -.対応.-> B3

要するに、左のパラメトリック検定それぞれに、右のノンパラメトリック版が一対一で対応します。「正規性が怪しいときの代打」と覚えてください。

1. 符号検定（sign test）

対応のある2標本（同じ対象を2回測ったペアデータ）で、2条件に差があるかを調べる最もシンプルな検定です。

統計量と帰無分布

各ペア $i$ について差 $D_i = X_i - Y_i$ を取り、その符号だけを見ます（大きさは無視）。差が0のペアは除外します。

帰無仮説 $H_0$ ：「正の差と負の差が出る確率は等しい」（中央値の差が0、 $P(D_i>0)=P(D_i<0)=1/2$ ）

このとき、正の符号の個数 $S^{+}$ は、 $n$ 個のペアそれぞれが確率 $1/2$ で「正」になるベルヌーイ試行の和なので、

S^{+} \sim B\!\left(n,\ \tfrac{1}{2}\right)

二項分布に従います（ベルヌーイ分布・二項分布の直接の応用）。これは要するに「公平なコインを $n$ 回投げて表が出た回数」と全く同じ構造です。

帰無分布が二項分布だとわかれば、 $P(S^{+} \ge s)$ を二項分布の裾確率として正確に計算できます（小標本では正確検定、大標本では正規近似 $S^{+}\approx N(n/2,\ n/4)$ ）。

符号検定の弱点

符号検定は差の大きさを完全に捨てるため、情報の使い方が荒く、検出力が低くなりがちです。「差はあるが小さい」のか「差が大きい」のかを区別できません。この情報損失を補うのが次の符号順位検定です。

2. Wilcoxon符号順位検定（1標本・対応あり）

符号検定が「符号だけ」を使うのに対し、Wilcoxon符号順位検定は差の絶対値の順位も使います。これにより「大きな差ほど大きく効く」ようになり、検出力が上がります。対応のある $t$ 検定のノンパラ版です。

統計量の定義

手順：

各ペアの差 $D_i = X_i - Y_i$ を取る（ $D_i=0$ は除外し、残りを $n$ 個とする）
絶対値 $\lvert D_i \rvert$ に、小さい順に順位 $R_i$ （ $1$ から $n$ ）を付ける
もとの符号が正だった順位だけを足し合わせ、正の順位和 $W^{+}$ とする

W^{+} = \sum_{i:\, D_i>0} R_i

要するに「プラス方向の差につけた順位の合計点」です。 $H_0$ （分布が0について対称）が正しければ、大きい順位がプラス側に偏ることもマイナス側に偏ることもなく、 $W^{+}$ は中くらいの値になるはずです。

帰無分布の期待値・分散の導出（省略しない）

ここが準1級の核心です。指示変数（インジケータ）を使った導出を最後まで追います。

各順位 $r\in\{1,2,\dots,n\}$ に対し、「順位 $r$ がついた差が正だったら1、負だったら0」という指示変数 $I_r$ を定義します。 $H_0$ の下では各差の符号は独立に確率 $1/2$ で正・負になるので、

I_r = \begin{cases} 1 & (\text{順位 } r \text{ の差が正}) \\ 0 & (\text{負}) \end{cases}, \qquad P(I_r=1)=\tfrac{1}{2}

これを使うと正の順位和は

W^{+} = \sum_{r=1}^{n} r\, I_r

と書けます。要するに「各順位 $r$ にコインを割り当て、表が出た順位だけ足す」という形に分解できました。あとは $I_r$ が独立なベルヌーイ( $1/2$ )であることを使うだけです。

期待値： $E[I_r]=1/2$ なので、

E[W^{+}] = \sum_{r=1}^{n} r\, E[I_r] = \frac{1}{2}\sum_{r=1}^{n} r = \frac{1}{2}\cdot\frac{n(n+1)}{2} = \frac{n(n+1)}{4}

ここで $\sum_{r=1}^{n} r = n(n+1)/2$ （自然数の和の公式）を使いました。要するに、全順位の合計 $n(n+1)/2$ のうち平均して半分がプラス側に来る、というだけです。

分散： $I_r$ はベルヌーイ( $1/2$ )なので $V[I_r]=p(1-p)=\tfrac12\cdot\tfrac12=\tfrac14$ 。各 $I_r$ は独立だから分散は単純に足せて、係数 $r$ は二乗で外に出ます：

V[W^{+}] = \sum_{r=1}^{n} r^2\, V[I_r] = \frac{1}{4}\sum_{r=1}^{n} r^2 = \frac{1}{4}\cdot\frac{n(n+1)(2n+1)}{6} = \frac{n(n+1)(2n+1)}{24}

ここで $\sum_{r=1}^{n} r^2 = n(n+1)(2n+1)/6$ （平方和の公式）を使いました。要するに、各順位が独立に「入る／入らない」を決めるので、分散も順位の二乗の合計の $1/4$ になります。

正規近似

$n$ がある程度大きい（目安 $n\ge 20\sim25$ ）と、 $W^{+}$ は近似的に正規分布に従うので、

z = \frac{W^{+} - E[W^{+}]}{\sqrt{V[W^{+}]}} = \frac{W^{+} - \dfrac{n(n+1)}{4}}{\sqrt{\dfrac{n(n+1)(2n+1)}{24}}}

を標準正規分布で評価して $p$ 値を求めます。要するに「期待値からどれだけ標準偏差ぶん離れているか」を見るいつもの $z$ 検定の形です。

3. Wilcoxon順位和検定＝ Mann-Whitney U（2標本）

独立な2群（対応なし）の代表値に差があるかを調べる検定で、2標本 $t$ 検定のノンパラ版です。Wilcoxonの順位和統計量 $W$ とMann-WhitneyのU統計量は数学的に等価で、定数ぶんずれているだけです。

統計量の定義

群1（サイズ $n_1$ ）と群2（サイズ $n_2$ ）の全 $N=n_1+n_2$ 個のデータをまとめて小さい順に順位付けします。群1のデータについた順位の合計を $W$ （順位和）とします。

W = \sum_{i \in \text{群1}} R_i

要するに「2群を混ぜて並べたとき、群1のメンバーが順位表のどのあたりに陣取っているか」の合計点です。群1が全体的に小さければ $W$ は小さく、大きければ $W$ は大きくなります。

U統計量との関係

Mann-Whitney の $U$ は「群1の各データが群2の各データより小さい回数」を数えたもので、 $W$ とは

U = W - \frac{n_1(n_1+1)}{2}

の関係があります。なぜこの定数を引くのか――群1だけで占めうる最小の順位和は $1+2+\dots+n_1 = n_1(n_1+1)/2$ です。 $W$ からこの「群1内だけの下駄」を取り除くと、純粋に「群2に対してどれだけ勝ち越したか」を表す $U$ になります。要するに $U$ は $W$ の原点をずらしただけで、検定としては同じものです。

帰無分布の期待値・分散の導出（省略しない）

$U$ の方が導出が直観的なので $U$ で導きます。 $U$ は「群1の各値 $X_a$ と群2の各値 $Y_b$ のペアごとに、 $X_a < Y_b$ なら1点」を全ペアで合計したものとして定義できます。指示変数を

U_{ab} = \begin{cases} 1 & (X_a < Y_b) \\ 0 & (X_a > Y_b) \end{cases}, \qquad U = \sum_{a=1}^{n_1}\sum_{b=1}^{n_2} U_{ab}

と置きます。 $H_0$ （2群が同一分布）の下では、無作為に1個ずつ取った $X_a, Y_b$ のどちらが大きいかは五分五分なので $P(X_a<Y_b)=1/2$ 、よって $E[U_{ab}]=1/2$ 。

期待値：ペアは全部で $n_1 n_2$ 組あり、各組の期待値が $1/2$ なので、

E[U] = \sum_{a,b} E[U_{ab}] = n_1 n_2 \cdot \frac{1}{2} = \frac{n_1 n_2}{2}

要するに「全 $n_1 n_2$ 対決のうち、平均して半分は群1が勝つ」というだけです。

分散： $U_{ab}$ 単体はベルヌーイ( $1/2$ )なので $V[U_{ab}]=1/4$ 。しかし $U_{ab}$ どうしは独立ではありません（同じ $X_a$ を共有するペアや同じ $Y_b$ を共有するペアは相関する）。そのため単純な和にはならず、共分散項を足す必要があります：

V[U] = \sum_{a,b} V[U_{ab}] + \sum_{\substack{(a,b)\neq(a',b')}} \mathrm{Cov}(U_{ab},\, U_{a'b'})

この共分散をすべて足し上げる計算（順位の置換に基づく組合せ計算）を経ると、結果は

V[U] = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12} = \frac{n_1 n_2 (N+1)}{12}

になります。要するに、全データ数 $N$ が増えるほど順位のばらつく余地が広がるので、分散は $(N+1)$ に比例して大きくなる、と読めます。

補足：共分散項の完全展開は準1級の試験では問われません（公式の暗記＋使えれば十分）。導出の筋（指示変数の二重和＋相関ゆえの共分散補正）と最終形を押さえてください。 $W$ の分散も $U$ と定数ずれの関係なので $V[W]=V[U]$ で同じ値です。

正規近似

z = \frac{U - \dfrac{n_1 n_2}{2}}{\sqrt{\dfrac{n_1 n_2 (n_1+n_2+1)}{12}}}

を標準正規分布で評価します。小標本では $U$ の正確な帰無分布表を使います。

4. Kruskal-Wallis検定（3群以上）

一元配置分散分析（母平均の検定（1標本・2標本t検定）の多群版）のノンパラ版で、3群以上の代表値が等しいかを順位で検定します。

全データをまとめて順位付けし、各群の順位和 $R_j$ （群 $j$ のサイズ $n_j$ 、総数 $N$ ）から統計量

H = \frac{12}{N(N+1)} \sum_{j=1}^{k} \frac{R_j^{2}}{n_j} - 3(N+1)

を作ります。 $H_0$ （全群同一分布）の下で、 $H$ は近似的に自由度 $k-1$ のカイ二乗分布に従います（t分布・カイ二乗分布・F分布（標本分布の三役）参照）。要するに「各群の順位和が、全体平均からどれだけ散らばっているか」を測り、散らばりが大きいほど $H$ が大きくなって有意になります。

$k=2$ のときの Kruskal-Wallis は Wilcoxon順位和検定と等価です（カイ二乗の自由度1と正規近似の二乗が一致）。

具体例（Wilcoxon符号順位検定）

ある薬の服用前後で症状スコアを6人で測定し、差 $D_i=$ （後） $-$ （前）が次のようになったとします。

対象	差 $D_i$	$\lvert D_i \rvert$	順位 $R_i$	符号
A	$-1$	1	1	$-$
B	$+3$	3	3	$+$
C	$+2$	2	2	$+$
D	$+6$	6	5	$+$
E	$-4$	4	4	$-$
F	$+8$	8	6	$+$

正の順位和は $W^{+} = 3+2+5+6 = 16$ 。帰無分布の期待値は $E[W^{+}]=\dfrac{6\cdot 7}{4}=10.5$ 、分散は $V[W^{+}]=\dfrac{6\cdot 7\cdot 13}{24}=22.75$ 。 $n=6$ は小さいので本来は正確分布表を使いますが、形式上 $z=\dfrac{16-10.5}{\sqrt{22.75}}\approx 1.15$ 。要するに「観測された $W^{+}=16$ は期待 $10.5$ より約1.15標準偏差プラス側」で、この程度では有意になりません。

⚠️ 引っかけポイント

「ノンパラ＝無仮定」は誤り。分布形の仮定（正規性）は外せますが、観測値の連続性・群間で分布形が同じ・符号順位検定では0について対称といった仮定は残ります。仮定の見落としは頻出の引っかけです。
何を検定しているか。分布形が同じ（位置だけずれる）という前提があるとき、Wilcoxon系は実質「中央値の差」の検定になります。前提がないと「分布全体が違うか」の検定であって、中央値の差とは限りません。「常に中央値の検定」と断定すると誤り。
タイ（同順位）の処理。同じ値が複数あるときは平均順位（midrank）を割り当て、正規近似では分散にタイ補正を入れます（補正でわずかに分散が小さくなる）。タイを無視して計算させる引っかけに注意。
片側・両側。 $W^{+}$ や $U$ が「期待値より大きい側／小さい側」のどちらに寄ると対立仮説を支持するのかを取り違えないこと。両側検定では小さい方の順位和（または $\min(U, n_1n_2-U)$ ）を使う流儀がある点も混乱の元。
$W$ と $U$ の混同。問題文が「順位和 $W$ 」か「 $U$ 統計量」かで期待値・分散の式や引く定数が変わります。 $U=W-n_1(n_1+1)/2$ の関係を押さえ、どちらを問われているか確認すること。

よくある疑問

Q1. 「ノンパラメトリック」は本当に何も仮定しないのですか？ いいえ。「母集団の分布形（正規分布であること等）を仮定しない」という意味であって、仮定ゼロではありません。たとえば符号順位検定は差の分布が0について対称であること、順位和検定は2群の分布形が同じで位置だけずれること（位置母数モデル）を典型的に仮定します。観測値が連続（理論上タイが起きない）という前提も共通です。「分布の形を仮定しない」と「無仮定」を区別してください。

Q2. それなら常にノンパラを使えば安全では？なぜパラメトリックを使うのですか？ データが本当に正規分布なら、パラメトリック検定の方が検出力が高いからです。順位に変換すると情報が一部失われます。正規分布の下での 2標本 $t$ 検定に対する順位和検定の漸近相対効率（ARE）は $3/\pi \approx 0.955$ 。これは「同じ検出力を得るのに順位和検定は約 $1/0.955\approx1.05$ 倍の標本が要る」という意味です。要するに正規なら $t$ 検定が約5%お得。一方で分布が裾の重い形なら ARE が1を超え、ノンパラが逆に有利になります。なお ARE の具体値は分布に依存するので「常に0.955」ではなく「正規分布の場合に0.955」と理解してください。

Q3. Wilcoxon符号順位検定と符号検定はどう違うのですか？ どちらも対応あり2標本ですが、使う情報量が違います。符号検定は差の符号だけ（プラスかマイナスか）。符号順位検定はそれに加えて差の絶対値の順位（大きさの順番）も使います。情報を多く使う符号順位検定の方が検出力が高いのが普通です。代わりに符号順位検定は「差の分布が対称」という追加の仮定を要求します。

Q4. なぜ順位に変換すると外れ値に強くなるのですか？ 順位は値の大小の順番しか見ないからです。たとえばデータが $\{1,2,3,1000\}$ でも、順位は $\{1,2,3,4\}$ になり、 $1000$ という極端な値の影響は「4番目」という事実だけに圧縮されます。平均はこの $1000$ に引きずられますが、順位和は引きずられません。要するに「どれだけ大きいか」ではなく「何番目に大きいか」だけを見るので、外れ値が結果を支配できなくなります。これがノンパラメトリック検定が頑健（ロバスト）と言われる理由です。

Q5. タイ（同順位）があるとき、なぜ平均順位を使い、分散を補正するのですか？ 複数のデータが同じ値のとき、本来その順位は区別できません。たとえば値が同じで3位・4位を占めるべき2個には、両方に平均の $3.5$ 位を与えます（midrank）。こうすると順位和の総和が崩れず、期待値の式がそのまま使えます。一方タイがあると順位のばらつきが理論値よりわずかに小さくなるため、正規近似の**分散を下方修正（タイ補正）**します。補正を入れないと分散を過大評価し、検定が保守的（有意になりにくい方向）にずれます。試験ではタイ補正式そのものより「タイには平均順位＋分散補正」という方針を問われます。

まとめ

ノンパラメトリック検定は、データを順位・符号に変換することで分布形の仮定を外し、外れ値に頑健な検定を実現する。
符号検定：差の符号のみ、 $S^{+}\sim B(n,1/2)$ 。Wilcoxon符号順位検定：差の絶対値の順位＋符号、 $E[W^{+}]=\dfrac{n(n+1)}{4},\ V[W^{+}]=\dfrac{n(n+1)(2n+1)}{24}$ 。順位和検定＝Mann-Whitney U：2群混合順位、 $U=W-\dfrac{n_1(n_1+1)}{2},\ E[U]=\dfrac{n_1n_2}{2},\ V[U]=\dfrac{n_1n_2(N+1)}{12}$ 。Kruskal-Wallis：3群以上、 $H$ が自由度 $k-1$ のカイ二乗。
いずれも帰無分布の期待値・分散を指示変数の和として導出でき、大標本では正規（KWはカイ二乗）近似する。これが準1級で問われる中心。
「無仮定ではない」「正規ならパラメトリックの方が検出力が高い（ARE≈0.955）」「中央値の検定とは限らない」「タイは平均順位＋分散補正」が定番の引っかけ。

要点（BLUF）

なぜノンパラメトリックなのか

1. 符号検定（sign test）

統計量と帰無分布

符号検定の弱点

2. Wilcoxon符号順位検定（1標本・対応あり）

統計量の定義

帰無分布の期待値・分散の導出（省略しない）

正規近似

3. Wilcoxon順位和検定 ＝ Mann-Whitney U（2標本）

統計量の定義

U統計量との関係

帰無分布の期待値・分散の導出（省略しない）

正規近似

4. Kruskal-Wallis検定（3群以上）

具体例（Wilcoxon符号順位検定）

⚠️ 引っかけポイント

よくある疑問

まとめ

関連ノート

3. Wilcoxon順位和検定＝ Mann-Whitney U（2標本）