← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:C(低頻度)

順序統計量の分布

要点(BLUF)


本文

0. なにを並べ替えるのか

標本 X1,X2,,XnX_1,X_2,\dots,X_n は「取った順」のデータです。これを値の小さい順に並べ替えると、

X(1)X(2)X(n)X_{(1)}\le X_{(2)}\le \dots \le X_{(n)}

という新しい確率変数の列ができます。これらを**順序統計量(order statistics)**と呼びます。括弧つきの添字 (k)(k) は「順位 kk 番目」を意味し、XkX_kkk 番目に取ったデータ)とは別物です。

記号意味別名
X(1)X_{(1)}最小値 miniXi\min_i X_i第1順序統計量
X(n)X_{(n)}最大値 maxiXi\max_i X_inn 順序統計量
X(k)X_{(k)}kk 番目に小さい値kk 順序統計量
X(n)X(1)X_{(n)}-X_{(1)}範囲(レンジ)range
X((n+1)/2)X_{((n+1)/2)} など中央値median(nn 奇数のとき)

前提:以下では X1,,XnX_1,\dots,X_n独立同分布(i.i.d.)で、共通の累積分布関数(CDF)F(x)=P(Xx)F(x)=P(X\le x) と密度 f(x)=F(x)f(x)=F'(x) を持つ連続分布とします。連続なら同点(タイ)が確率0で起きないので、不等号はすべて狭義 X(1)<<X(n)X_{(1)}<\dots<X_{(n)} と思って構いません。

graph LR
    R["生データ X1,X2,...,Xn 取った順"] --> S["小さい順に並べ替え"]
    S --> O1["X(1) 最小"]
    S --> Ok["X(k) 第k"]
    S --> On["X(n) 最大"]
    O1 --> RANGE["範囲 = X(n) - X(1)"]
    On --> RANGE
    Ok --> MED["中央値 = 真ん中の順序統計量"]

なぜ重要か:極値(洪水の最大水位、部品寿命の最小値=一番早く壊れるもの)、範囲(管理図のレンジ RR)、中央値・分位点(外れ値に強い要約)はどれも順序統計量です。ノンパラメトリック手法(ノンパラメトリック検定(符号・順位和・Wilcoxon))や信頼区間の一部も順序統計量で構成されます。


1. 導出の核:「xx 以下の個数」は二項分布

順序統計量の分布はすべて、次の橋渡しから出ます。

XiX_i について「XixX_i\le x かどうか」を成功・失敗とみなす。1個が「xx 以下」になる確率は F(x)F(x)nn 個は独立なので、xx 以下になった個数 NxN_x は二項分布 Bin(n,F(x))\mathrm{Bin}(n,\,F(x)) にしたがう

ここで決定的な同値関係:

{X(k)x}  {x 以下の個数が k 個以上}={Nxk}.\{X_{(k)}\le x\}\ \Longleftrightarrow\ \{x\text{ 以下の個数が }k\text{ 個以上}\}=\{N_x\ge k\}.

要するに:「kk 番目に小さい値が xx 以下」とは「少なくとも kk 個が xx の左側に来た」ということ。kk 個以上左にあれば、kk 番目の値は xx を超えられません。逆も同様。この左辺=右辺の言い換えが、順序統計量を二項分布の問題に翻訳します。

graph TD
    Q["X(k) ≤ x ?"] --> E["⇔ x以下の個数 Nx ≥ k"]
    E --> B["Nx ~ Bin(n, F(x))"]
    B --> CDF["F_X(k)(x) = P(Nx ≥ k) = Σ_(j=k)^n C(n,j) F(x)^j (1-F(x))^(n-j)"]

2. 最大値・最小値(特別な場合から先に)

kk の一般式の前に、k=nk=n(最大)と k=1k=1(最小)を直接やると感覚がつかめます。

2-1. 最大値 X(n)X_{(n)}

「最大値が xx 以下」⇔「全員が xx 以下」。独立なので確率を掛け算:

FX(n)(x)=P(X(n)x)=P(X1x,,Xnx)=i=1nP(Xix)=F(x)n.F_{X_{(n)}}(x)=P(X_{(n)}\le x)=P(X_1\le x,\dots,X_n\le x)=\prod_{i=1}^n P(X_i\le x)=F(x)^n.

密度はこれを微分(合成関数の微分、ddxF(x)n=nF(x)n1f(x)\dfrac{d}{dx}F(x)^n=nF(x)^{n-1}f(x)):

fX(n)(x)=nf(x)F(x)n1.\boxed{\,f_{X_{(n)}}(x)=n\,f(x)\,F(x)^{n-1}\,}.

要するに:最大値が xx 付近にあるには「ちょうど1個が xx(密度 f(x)f(x)、それが誰でもいいので ×n\times n)、残り n1n-1 個は xx より小さい(各 F(x)F(x))」。

2-2. 最小値 X(1)X_{(1)}

「最小値が xx より大きい」⇔「全員が xx より大きい」のほうが素直なので、補集合から攻めます:

P(X(1)>x)=P(X1>x,,Xn>x)={1F(x)}n.P(X_{(1)}>x)=P(X_1>x,\dots,X_n>x)=\{1-F(x)\}^n.

よってCDFは

FX(1)(x)=1P(X(1)>x)=1{1F(x)}n.F_{X_{(1)}}(x)=1-P(X_{(1)}>x)=1-\{1-F(x)\}^n.

微分して(ddx{1F(x)}n=n{1F(x)}n1f(x)\dfrac{d}{dx}\{1-F(x)\}^n=-n\{1-F(x)\}^{n-1}f(x)、マイナスが打ち消える):

fX(1)(x)=nf(x){1F(x)}n1.\boxed{\,f_{X_{(1)}}(x)=n\,f(x)\,\{1-F(x)\}^{n-1}\,}.

要するに:最小値が xx 付近にあるには「ちょうど1個が xx×n\times n 通り)、残り n1n-1 個は xx より大きい(各 1F(x)1-F(x))」。最大値の式で F1FF\leftrightarrow 1-F を入れ替えただけ。


3. 第 kk 順序統計量の完全導出

一般の X(k)X_{(k)} を2通りで導きます。(A) CDFを二項和で書いて微分(B) 微小区間で多項分布として直接。どちらも同じ式に着地します。

(A) CDFを微分する(二項和ルート)

第1節の核から、CDFは「xx 以下が kk 個以上」の確率=二項分布の上側和:

FX(k)(x)=P(Nxk)=j=kn(nj)F(x)j{1F(x)}nj.F_{X_{(k)}}(x)=P(N_x\ge k)=\sum_{j=k}^{n}\binom{n}{j}F(x)^j\,\{1-F(x)\}^{n-j}.

これを xx で微分すると密度が出ます。各項を微分し、F(x)=f(x)F'(x)=f(x) を使うと隣り合う項どうしが望遠鏡的に打ち消し合い(telescoping)、中央の1項だけが残ります。結果(途中計算は本節末の補足参照):

fX(k)(x)=n!(k1)!(nk)!f(x)F(x)k1{1F(x)}nk.\boxed{\,f_{X_{(k)}}(x)=\frac{n!}{(k-1)!\,(n-k)!}\,f(x)\,F(x)^{k-1}\,\{1-F(x)\}^{n-k}\,}.

(B) 微小区間で直接数える(多項分布ルート・直感的)

密度の定義 fX(k)(x)dxP(X(k)[x,x+dx])f_{X_{(k)}}(x)\,dx\approx P\big(X_{(k)}\in[x,x+dx]\big) を、「nn 個を3つの箱に振り分ける」問題として数えます。X(k)X_{(k)} が微小区間 [x,x+dx][x,x+dx] にあるとは:

条件個数1個あたり確率
xx より小さいk1k-1F(x)F(x)
[x,x+dx][x,x+dx] にあるちょうど1個f(x)dxf(x)\,dx
x+dxx+dx より大きいnkn-k1F(x)1-F(x)

「どの個体がどの箱か」の割り当て総数は多項係数 n!(k1)!1!(nk)!\dfrac{n!}{(k-1)!\,1!\,(n-k)!}。掛け合わせて:

fX(k)(x)dx=n!(k1)!(nk)!割り当て数F(x)k1f(x)dx中の1個{1F(x)}nk.f_{X_{(k)}}(x)\,dx=\underbrace{\frac{n!}{(k-1)!\,(n-k)!}}_{\text{割り当て数}}\,F(x)^{k-1}\,\underbrace{f(x)\,dx}_{\text{中の1個}}\,\{1-F(x)\}^{n-k}.

両辺を dxdx で割れば (A) と同じ式。要するに:第 kk 順序統計量の密度は「境界 xx の左に k1k-1 個・xx に1個・右に nkn-k 個」を並べる多項分布そのもの。

graph LR
    L["左の箱: k-1 個 各 F(x)"] --- C["中の箱: 1個 f(x)dx"]
    C --- Rt["右の箱: n-k 個 各 1-F(x)"]
    M["多項係数 n! / ((k-1)! 1! (n-k)!)"] -.掛ける.-> C

整合チェック

💡 補足((A) のtelescoping):ddxj=kn(nj)Fj(1F)nj\dfrac{d}{dx}\sum_{j=k}^n\binom{n}{j}F^j(1-F)^{n-j} を積の微分で展開すると、各 jj から +(nj)jFj1(1F)njf+\binom{n}{j}jF^{j-1}(1-F)^{n-j}f(nj)(nj)Fj(1F)nj1f-\binom{n}{j}(n-j)F^{j}(1-F)^{n-j-1}f の2項が出る。(nj)j=(nj1)(nj+1)\binom{n}{j}j=\binom{n}{j-1}(n-j+1) などの恒等式で隣接項が相殺し、和の下端 j=kj=k 由来の項 (nk)kFk1(1F)nkf\binom{n}{k}kF^{k-1}(1-F)^{n-k}f だけが生き残る。(nk)k=n!(k1)!(nk)!\binom{n}{k}k=\dfrac{n!}{(k-1)!(n-k)!} なので所望の式。


4. 一様分布の順序統計量=ベータ分布

ここが順序統計量の「正体」が見える名場面です。XiU(0,1)X_i\sim U(0,1)一様分布(連続一様分布))なら、0x10\le x\le 1F(x)=xF(x)=xf(x)=1f(x)=1。第 kk の密度式に代入すると:

fX(k)(x)=n!(k1)!(nk)!xk1(1x)nk(0x1).f_{X_{(k)}}(x)=\frac{n!}{(k-1)!\,(n-k)!}\,x^{k-1}\,(1-x)^{n-k}\qquad(0\le x\le 1).

これはベータ分布指数分布・ガンマ分布・ベータ分布)の密度 1B(α,β)xα1(1x)β1\dfrac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} そのもの。α1=k1\alpha-1=k-1β1=nk\beta-1=n-k と読み取れば α=k\alpha=kβ=nk+1\beta=n-k+1。正規化定数も一致します(n!(k1)!(nk)!=1B(k,nk+1)\dfrac{n!}{(k-1)!(n-k)!}=\dfrac{1}{B(k,\,n-k+1)}、ベータ関数 B(α,β)=(α1)!(β1)!(α+β1)!B(\alpha,\beta)=\dfrac{(\alpha-1)!(\beta-1)!}{(\alpha+\beta-1)!} を使う)。したがって

X(k)Be(k, nk+1).\boxed{\,X_{(k)}\sim \mathrm{Be}(k,\ n-k+1)\,}.

ベータ分布の平均 αα+β\dfrac{\alpha}{\alpha+\beta}、分散 αβ(α+β)2(α+β+1)\dfrac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}α=k, β=nk+1\alpha=k,\ \beta=n-k+1 を入れて:

E[X(k)]=kn+1,V[X(k)]=k(nk+1)(n+1)2(n+2).E[X_{(k)}]=\frac{k}{n+1},\qquad V[X_{(k)}]=\frac{k(n-k+1)}{(n+1)^2(n+2)}.

要するにnn 個の一様乱数は区間 [0,1][0,1]n+1n+1 個の隙間に等間隔で分け合う。だから kk 番目の点は期待値で kn+1\dfrac{k}{n+1} の位置に来る(n=1n=1 なら唯一の点が真ん中 1/21/2n=3n=3 なら 1/4,2/4,3/41/4,2/4,3/4)。これは確率積分変換(任意の連続 XXU=F(X)U(0,1)U=F(X)\sim U(0,1))を通じて、あらゆる連続分布の順序統計量の解析を一様分布に帰着できることの入口でもあります。

一様分布(n=10)の順序統計量:kが大きいほど山が右へ(Be(k,n-k+1))

図は simulations/junjo_toukeiryo_beta_keijou.py で生成。


5. 同時分布と「独立でない」こと

5-1. 全順序統計量の同時密度

X(1),,X(n)X_{(1)},\dots,X_{(n)} の同時密度は、y1<y2<<yny_1<y_2<\dots<y_n の領域上で

fX(1),,X(n)(y1,,yn)=n!i=1nf(yi)(y1<<yn).f_{X_{(1)},\dots,X_{(n)}}(y_1,\dots,y_n)=n!\,\prod_{i=1}^n f(y_i)\qquad(y_1<\dots<y_n).

要するに:もとの nn 個は区別がつくので n!n! 通りの並べ方がある。それを「小さい順」の1通りに固定したので、密度が n!n! 倍に集中する(同時分布・周辺分布・条件付き分布)。

5-2. なぜ独立でないのか

もとの XiX_i は独立でも、並べ替えた瞬間に順序統計量どうしは独立でなくなります。理由は順序制約 X(1)X(2)X(n)X_{(1)}\le X_{(2)}\le\dots\le X_{(n)} そのもの。たとえば X(2)X_{(2)} の値を知ると「X(1)X_{(1)} はそれ以下」という情報が必ず付くので、X(1)X_{(1)} の条件付き分布が変わる。同時密度が ifX(i)(yi)\prod_i f_{X_{(i)}}(y_i) の形に因数分解できない(領域が y1<<yny_1<\dots<y_n という三角形で、長方形でない)ことが数学的な証拠です。

⚠️ 「もとが独立だから順序統計量も独立」は誤り。並べ替えは独立性を壊す操作。一様分布の場合、隣接する順序統計量の差(スペーシング)X(k)X(k1)X_{(k)}-X_{(k-1)} には正の相関的な制約が入る。


6. 数値例

例1:3個の一様乱数の最大値

X1,X2,X3U(0,1)X_1,X_2,X_3\sim U(0,1) 独立。最大値 X(3)X_{(3)} について。

例2:指数分布の最小値

X1,,XnExp(λ)X_1,\dots,X_n\sim \mathrm{Exp}(\lambda) 独立(F(x)=1eλxF(x)=1-e^{-\lambda x})。最小値 X(1)X_{(1)} の分布は?

FX(1)(x)=1{1F(x)}n=1(eλx)n=1enλx.F_{X_{(1)}}(x)=1-\{1-F(x)\}^n=1-\big(e^{-\lambda x}\big)^n=1-e^{-n\lambda x}.

これは指数分布 Exp(nλ)\mathrm{Exp}(n\lambda) のCDFそのもの。つまり「nn 個の指数の最小値は、レート nn 倍の指数」。

min(X1,,Xn)Exp(nλ),E[X(1)]=1nλ.\boxed{\,\min(X_1,\dots,X_n)\sim \mathrm{Exp}(n\lambda)\,},\qquad E[X_{(1)}]=\frac{1}{n\lambda}.

要するにnn 個の部品(各寿命がレート λ\lambda の指数)を並列に動かすと、最初に壊れるまでの時間はレート nλn\lambda の指数。故障率が nn 倍になる(待ち行列・信頼性で頻出)。指数分布の無記憶性が効く美しい例。


7. 試験での問われ方(級差)

準1級:最小値・最大値のCDF/PDFを公式または短い導出で出せること、一様分布の順序統計量がベータになること・期待値 k/(n+1)k/(n+1) を使えることが中心。 1級(数理):第 kk の一般式を自力で完全導出、2つの順序統計量の同時分布・共分散、指数や一様での具体計算、確率積分変換を絡めた応用まで。記述式で導出過程が採点対象。

典型的な問い求められる深さ
準1級min/max\min/\max の分布、U(0,1)U(0,1)E[X(k)]E[X_{(k)}]公式適用+簡単な導出
1級fX(k)f_{X_{(k)}} の導出、Cov(X(i),X(j))\mathrm{Cov}(X_{(i)},X_{(j)})、同時分布完全導出・多変数積分

年度・出題範囲表は改訂されうるため要最新確認(特に準1級・1級の範囲表)。重要度は全体としては C(低頻度)だが、出たときは導出を問われると差がつくテーマ。


⚠️ 引っかけポイント


よくある疑問

Q1. 第 kk 順序統計量のPDFの係数が、なぜ二項係数 (nk)\binom{n}{k} ではなく n!(k1)!(nk)!\dfrac{n!}{(k-1)!(n-k)!} なんですか? A. 順序統計量は nn 個を3つのグループに分ける問題だからです。二項係数は「2グループに分ける(xx 以下が kk 個・残り)」場合の数。一方、密度では「xx より小さい k1k-1 個・ちょうど xx の1個・xx より大きい nkn-k 個」と3グループに分けるので、多項係数 n!(k1)!1!(nk)!=n!(k1)!(nk)!\dfrac{n!}{(k-1)!\,1!\,(n-k)!}=\dfrac{n!}{(k-1)!(n-k)!} になります。「ちょうど xx に1個ある」という中央のグループ(密度 f(x)f(x) に対応)が二項にはない第3のグループです。CDF(xx 以下が kk 個以上)の段階なら二項係数で正しく、それを微分すると中央項が立ち上がって多項係数に化けます。

Q2. 一様分布だとベータになるのはわかりました。一様でない一般の分布の順序統計量はどう扱うんですか? A. 確率積分変換を使います。任意の連続分布 XFX\sim F に対し U=F(X)U=F(X)U(0,1)U(0,1) にしたがう、という定理があります。順序を保つ単調変換なので F(X(k))=U(k)Be(k,nk+1)F(X_{(k)})=U_{(k)}\sim\mathrm{Be}(k,n-k+1)。つまり一般の順序統計量は「一様の順序統計量(=ベータ)を F1F^{-1} で押し戻したもの」と見なせます。たとえば X(k)=F1(U(k))X_{(k)}=F^{-1}(U_{(k)}) の関係から、一様で計算してから変換で戻すという定石が使えます。一様分布が「順序統計量の標準形」である理由です。

Q3. なぜ順序統計量は独立でないんですか?もとのデータは独立なのに。 A. 「並べ替える」という操作自体が独立性を壊すからです。並べ替えた後は定義上 X(1)X(2)X_{(1)}\le X_{(2)}\le\dots という順序の鎖が必ず成り立ちます。すると X(2)=vX_{(2)}=v と知った瞬間「X(1)vX_{(1)}\le v」が確定し、X(1)X_{(1)} の取りうる範囲が縛られる。これは「X(2)X_{(2)} の情報が X(1)X_{(1)} の分布を変える」ということ、すなわち独立でないということです。数式では同時密度 n!if(yi)n!\prod_i f(y_i)y1<<yny_1<\dots<y_n という三角形の領域でしか正でなく、各変数の周辺密度の積(長方形領域なら独立)に分解できないことが証拠になります。

Q4. 範囲(レンジ)R=X(n)X(1)R=X_{(n)}-X_{(1)} の分布はどう求めるんですか? A. 最大値と最小値の同時分布から差の分布へ変数変換します。X(1)=uX_{(1)}=uX(n)=vX_{(n)}=vuvu\le v)の同時密度は、「1個が uu・1個が vv・残り n2n-2 個が (u,v)(u,v) の間」を数えて fX(1),X(n)(u,v)=n(n1)f(u)f(v){F(v)F(u)}n2f_{X_{(1)},X_{(n)}}(u,v)=n(n-1)f(u)f(v)\{F(v)-F(u)\}^{n-2}u<vu<v)。ここから R=vuR=v-u の周辺分布を積分で出します。一様 U(0,1)U(0,1) なら RBe(n1,2)R\sim\mathrm{Be}(n-1,2)E[R]=n1n+1E[R]=\dfrac{n-1}{n+1} という綺麗な結果になります。1級でこの同時密度の導出が問われることがあります。

Q5. 中央値(メディアン)も順序統計量ですよね。標本中央値の分布は? A. はい。nn が奇数なら標本中央値は X((n+1)/2)X_{((n+1)/2)} という1個の順序統計量そのものなので、第 kk の公式に k=(n+1)/2k=(n+1)/2 を入れれば分布が出ます。一様分布なら Be(n+12,n+12)\mathrm{Be}\big(\tfrac{n+1}{2},\tfrac{n+1}{2}\big) で、左右対称・期待値 1/21/2nn が偶数なら中央の2つ X(n/2),X(n/2+1)X_{(n/2)},X_{(n/2+1)} の平均と定義するので、2つの順序統計量の同時分布から平均の分布を導きます(独立でないので単純な畳み込みにはならない点に注意)。標本中央値が外れ値に強い・大標本で漸近正規になることは、この分布から議論されます。


まとめ


関連ノート