← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:B(標準)

要点(BLUF)

線形推測とは、線形モデル y=Xβ+ε\boldsymbol y=X\boldsymbol\beta+\boldsymbol\varepsilon のもとで「パラメータの線形な関数」を推定したり「線形な仮説」を検定したりする枠組みの総称です。分散分析の群平均比較も重回帰の係数検定も、すべてこの一つの型に収まります。1級(理工学)では対比の構成・直交性・一般線形仮説のF統計量がまとまって問われます(範囲・配点は改訂されうるため要最新確認)。

graph TD
  ROOT["線形推測<br/>線形モデル y=Xβ+ε での<br/>線形な関数・線形な仮説"] --> EST["推定可能関数 λ'β<br/>λ' が X の行空間に属する<br/>⇔ 一意に推定できる"]
  ROOT --> CONT["線形対比 ψ=Σ c_i ȳ_i<br/>係数和 Σc_i=0<br/>(推定可能関数の代表)"]
  ROOT --> GLH["一般線形仮説<br/>H0: Cβ=h の F検定"]
  CONT --> SS["対比の平方和(自由度1)<br/>SS_ψ = ψ̂² / Σ(c_i²/n_i)"]
  SS --> ORTH["直交対比<br/>Σ c_i d_i / n_i = 0<br/>→ 処理平方和の直交分解"]
  GLH --> TWO["分子の二つの見方<br/>① 二次形式 (Cβ̂-h)'[...]⁻¹(Cβ̂-h)<br/>② 残差平方和の差 RSS0-RSS"]
  ORTH --> MULT["多重比較・シェッフェ法<br/>全対比の同時信頼区間"]
  GLH --> MULT

1. 線形対比(コントラスト)

1.1 対比とは — 係数和ゼロの線形結合

分散分析で aa 個の群(処理)があり、各群の母平均を μ1,,μa\mu_1,\dots,\mu_a、標本平均を yˉ1,,yˉa\bar y_1,\dots,\bar y_a、各群のサンプルサイズを n1,,nan_1,\dots,n_a とします。群平均の線形結合

ψ=i=1aciμi,推定量ψ^=i=1aciyˉi\psi = \sum_{i=1}^{a} c_i\,\mu_i,\qquad \text{推定量}\quad \hat\psi=\sum_{i=1}^{a} c_i\,\bar y_i

のうち、係数が次の条件

  i=1aci=0  \boxed{\;\sum_{i=1}^{a} c_i = 0\;}

を満たすものを**線形対比(linear contrast、コントラスト)**と呼びます。要するに「係数の合計がゼロになるように組んだ群平均の重みづけ和」です。

なぜ係数和ゼロが本質かというと、対比は「全体の水準」には反応せず「群間の差」だけを取り出す量だからです。仮にすべての群平均が同じ定数 mm だけ底上げされても(μiμi+m\mu_i\to\mu_i+m)、対比の値は

ici(μi+m)=iciμi+mici=0=iciμi\sum_i c_i(\mu_i+m)=\sum_i c_i\mu_i + m\underbrace{\sum_i c_i}_{=0}=\sum_i c_i\mu_i

と変わりません。要するに「係数和ゼロのおかげで、全体の底上げ(共通の水準)が打ち消され、対比は純粋に群どうしの違いだけを測る」。これが対比を「差の検定」の言語にしている理由です。

典型的な対比の例. 4群(a=4a=4)で考えます。

対比係数 (c1,c2,c3,c4)(c_1,c_2,c_3,c_4)ci\sum c_i意味
群1 対 群2(1,1,0,0)(1,-1,0,0)00群1と群2の平均の差
群1・2 対 群3・4(1,1,1,1)(1,1,-1,-1)00前半2群と後半2群の差
線形傾向(3,1,1,3)(-3,-1,1,3)00水準が等間隔のときの直線的傾向
単純平均(1,1,1,1)(1,1,1,1)404\ne0対比ではない(全体水準を測る)

最後の行のように係数和がゼロでない線形結合は対比ではありません。「2群の単純比較」「群を2つのグループに分けた比較」「等間隔水準での傾向(直交多項式)」がよく出る対比です。

1.2 対比の分散と平方和(自由度1)

対比の推定量 ψ^=iciyˉi\hat\psi=\sum_i c_i\bar y_i の分散を求めます。各群の観測は分散 σ2\sigma^2 を共有し(等分散の仮定)、群平均 yˉi\bar y_i は互いに独立なので、独立な確率変数の線形結合の分散公式から

  V(ψ^)=i=1aci2V(yˉi)=σ2i=1aci2ni  \boxed{\;V(\hat\psi)=\sum_{i=1}^{a} c_i^2\,V(\bar y_i)=\sigma^2\sum_{i=1}^{a}\frac{c_i^2}{n_i}\;}

要するに「対比の分散は、係数の二乗を群のサンプルサイズで割って足し、誤差分散 σ2\sigma^2 を掛けたもの」。各群平均の分散が σ2/ni\sigma^2/n_i で、係数 cic_i が掛かると分散には ci2c_i^2 が掛かる、というだけです。

この対比を単独で検定するための**対比の平方和(自由度1)**は次で定義されます。

  SSψ=ψ^2i=1aci2/ni=(iciyˉi)2ici2/ni  \boxed{\;SS_\psi=\frac{\hat\psi^{\,2}}{\displaystyle\sum_{i=1}^{a} c_i^2/n_i}=\frac{\Bigl(\sum_i c_i\bar y_i\Bigr)^2}{\sum_i c_i^2/n_i}\;}

なぜこの形になるのか. 帰無仮説 H0:ψ=0H_0:\psi=0 のもとで ψ^N ⁣(0, σ2ci2/ni)\hat\psi\sim N\!\bigl(0,\ \sigma^2\sum c_i^2/n_i\bigr) なので、これを標準化して二乗すると

(ψ^σ2ci2/ni)2=ψ^2σ2ci2/niχ12.\left(\frac{\hat\psi}{\sqrt{\sigma^2\sum c_i^2/n_i}}\right)^2=\frac{\hat\psi^2}{\sigma^2\sum c_i^2/n_i}\sim \chi^2_1 .

分子の ψ^2/(ci2/ni)\hat\psi^2/\sum(c_i^2/n_i) が「σ2\sigma^2 を除いたカイ二乗(自由度1)の中身」、すなわち対比に対応する平方和です。要するに「対比の平方和は、標準化した対比統計量の二乗(自由度1のカイ二乗の素)から σ2\sigma^2 を外した量」。これを誤差分散の推定量 σ^2=MSE\hat\sigma^2=MS_E(残差平均平方)で割れば、対比を検定するF統計量

Fψ=SSψ/1MSE=ψ^2/(ci2/ni)MSEF1, naF_\psi=\frac{SS_\psi/1}{MS_E}=\frac{\hat\psi^2/\sum(c_i^2/n_i)}{MS_E}\sim F_{1,\ n-a}

が得られます。分子の自由度が1なのは「対比1本=1つの線形制約 ψ=0\psi=0 を検定している」からです。同じことを tt 統計量で書けば t=ψ^/MSEci2/nitnat=\hat\psi/\sqrt{MS_E\sum c_i^2/n_i}\sim t_{n-a} で、t2=Fψt^2=F_\psi の関係(自由度1のFは tt の二乗)が成り立ちます。

1.3 直交対比と処理平方和の直交分解

複数の対比を考えるとき、それらが**直交(orthogonal)**しているかが決定的に重要です。2つの対比 ψ=ciyˉi\psi=\sum c_i\bar y_iϕ=diyˉi\phi=\sum d_i\bar y_i が直交するとは

  i=1acidini=0  \boxed{\;\sum_{i=1}^{a}\frac{c_i\,d_i}{n_i}=0\;}

を満たすことです(各群のサンプルサイズが等しい ni=nn_i=n のときは単に icidi=0\sum_i c_id_i=0)。要するに「係数の積をサンプルサイズで割って足したものがゼロ」。

直交が意味すること(独立性). 直交対比どうしは推定量が統計的に独立になります。実際、独立な群平均の線形結合どうしの共分散は

Cov(ψ^,ϕ^)=Cov ⁣(iciyˉi, jdjyˉj)=icidiV(yˉi)=σ2icidini\mathrm{Cov}(\hat\psi,\hat\phi)=\mathrm{Cov}\!\Bigl(\sum_i c_i\bar y_i,\ \sum_j d_j\bar y_j\Bigr)=\sum_i c_id_i\,V(\bar y_i)=\sigma^2\sum_i\frac{c_id_i}{n_i}

で、直交条件 cidi/ni=0\sum c_id_i/n_i=0 はこの共分散をゼロにします。正規性のもとで共分散ゼロは独立を意味するので、要するに「直交対比どうしの推定量は無相関=独立。だから別々の検定が互いに干渉しない」。

処理平方和の直交分解. ここが対比のクライマックスです。aa 群の処理平方和 SStreatSS_{treat} は自由度 a1a-1 を持ちますが、これを互いに直交する a1a-1 本の対比に対応する自由度1の平方和へ、過不足なく分解できます。

  SStreat=SSψ1+SSψ2++SSψa1  (ψ1,,ψa1 が互いに直交)\boxed{\;SS_{treat}=SS_{\psi_1}+SS_{\psi_2}+\dots+SS_{\psi_{a-1}}\;}\qquad(\psi_1,\dots,\psi_{a-1}\ \text{が互いに直交)}

要するに「自由度 a1a-1 の処理平方和は、直交する a1a-1 本の対比それぞれの自由度1平方和の単純な足し算に割れる」。これは幾何学的には、処理効果が張る (a1)(a-1) 次元の部分空間を、直交対比という互いに直交する (a1)(a-1) 本の軸へ正射影で分解していることに相当します(だから平方和がピタゴラスの定理のように足し算で繋がる)。

graph TD
  TREAT["処理平方和 SS_treat<br/>自由度 a-1"] --> P1["SS_ψ1(自由度1)<br/>対比 ψ1"]
  TREAT --> P2["SS_ψ2(自由度1)<br/>対比 ψ2"]
  TREAT --> PD["…"]
  TREAT --> PK["SS_ψ(a-1)(自由度1)<br/>対比 ψ(a-1)"]
  P1 -. 直交 Σc_id_i/n_i=0 .- P2
  P2 -. 直交 .- PK

⚠️ この足し算が成り立つのは対比どうしが直交しているときだけです。直交していない対比を寄せ集めても、平方和は SStreatSS_{treat} にならず、重複してカウントされます(合計が SStreatSS_{treat} を超えたり下回ったりする)。直交分解は「直交」あってのものです。

直交対比の使いどころ. 「処理平方和が有意」という分散分析の結論は「どこかに差がある」までしか言いません。そこを「群1と群2の差なのか」「前半群と後半群の差なのか」「直線的傾向なのか」と意味のある成分へ分解するのが直交対比の役割です。あらかじめ(データを見る前に)立てた直交対比なら、多重比較の補正なしに a1a-1 本まで検定できます。


2. 一般線形仮説のF検定

2.1 一般線形仮説の型 — Cβ=h

対比は「群平均の線形結合=定数」という制約でした。これを線形モデル一般に拡張したのが**一般線形仮説(general linear hypothesis)**です。線形モデル

y=Xβ+ε,εN(0, σ2In),X は n×p のフルランク\boldsymbol y=X\boldsymbol\beta+\boldsymbol\varepsilon,\qquad \boldsymbol\varepsilon\sim N(\boldsymbol 0,\ \sigma^2 I_n),\quad X\ \text{は}\ n\times p\ \text{のフルランク}

に対し、パラメータ β\boldsymbol\betapp 次元)の複数の線形制約を一度に検定します。

  H0: Cβ=h  C は q×p のフルランク行列(qp), h は q 次元定数\boxed{\;H_0:\ C\boldsymbol\beta=\boldsymbol h\;}\qquad C\ \text{は}\ q\times p\ \text{のフルランク行列}(q\le p),\ \boldsymbol h\ \text{は}\ q\ \text{次元定数}

要するに「CC の各行が1本の線形制約を表し、qq 本の制約を同時に検定する」。CC がフルランク(行階数 qq)とは、qq 本の制約が互いに重複していない(独立な)ことを意味します。具体例で型に慣れます(β=(β0,β1,β2,β3)\boldsymbol\beta=(\beta_0,\beta_1,\beta_2,\beta_3)^\top とする)。

検定したい仮説CCh\boldsymbol hqq
β1=0\beta_1=0(係数1が無効)(0,1,0,0)(0,1,0,0)0011
β1=β2\beta_1=\beta_2(2係数が等しい)(0,1,1,0)(0,1,-1,0)0011
β1=β2=β3=0\beta_1=\beta_2=\beta_3=0(同時無効)(010000100001)\begin{pmatrix}0&1&0&0\\0&0&1&0\\0&0&0&1\end{pmatrix}0\boldsymbol 033
β1+β2=1\beta_1+\beta_2=1(0,1,1,0)(0,1,1,0)1111

「ある係数がゼロか」も「複数係数がまとめてゼロか」も「係数どうしが等しいか」も、すべて Cβ=hC\boldsymbol\beta=\boldsymbol h の形に収まります。分散分析の処理効果の検定も対比の検定も、適切な CC を選べばこの枠組みの特殊例です。

2.2 F統計量の構成(二次形式による導出)

検定統計量を、推定量 β^=(XX)1Xy\hat\beta=(X^\top X)^{-1}X^\top\boldsymbol y の分布から組み立てます。

ステップ1:Cβ^C\hat\beta の分布. 正規誤差のもとで β^N ⁣(β, σ2(XX)1)\hat\beta\sim N\!\bigl(\boldsymbol\beta,\ \sigma^2(X^\top X)^{-1}\bigr) です。線形変換 Cβ^C\hat\beta も正規分布に従い、

Cβ^N ⁣(Cβ, σ2C(XX)1C).C\hat\beta\sim N\!\Bigl(C\boldsymbol\beta,\ \sigma^2\,C(X^\top X)^{-1}C^\top\Bigr).

要するに「β^\hat\beta が正規だから、その線形結合 Cβ^C\hat\beta も正規。平均は CβC\beta、分散行列は σ2C(XX)1C\sigma^2 C(X^\top X)^{-1}C^\top」。H0:Cβ=hH_0:C\boldsymbol\beta=\boldsymbol h が真なら平均は h\boldsymbol h になります。

ステップ2:二次形式でカイ二乗を作る. u=Cβ^h\boldsymbol u=C\hat\beta-\boldsymbol h とおくと、H0H_0 のもとで uN(0, σ2V)\boldsymbol u\sim N(\boldsymbol 0,\ \sigma^2 V)(ただし V=C(XX)1CV=C(X^\top X)^{-1}C^\topq×qq\times q の正則行列)。多変量正規ベクトルの二次形式の一般則「uN(0,Σ)\boldsymbol u\sim N(\boldsymbol 0,\Sigma) なら uΣ1uχdim2\boldsymbol u^\top\Sigma^{-1}\boldsymbol u\sim\chi^2_{\dim}」を使うと

1σ2uV1u=(Cβ^h)[C(XX)1C]1(Cβ^h)σ2χq2.\frac{1}{\sigma^2}\,\boldsymbol u^\top V^{-1}\boldsymbol u=\frac{(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)}{\sigma^2}\sim\chi^2_q .

要するに「制約のズレ Cβ^hC\hat\beta-h を、自分の分散行列の逆で挟んで二乗すると、自由度 qq のカイ二乗になる」。V1V^{-1} で挟むのは、各方向のばらつきの大きさで割って「標準化された距離」にするためです(マハラノビス距離の二乗)。

ステップ3:σ2\sigma^2 を消す. σ2\sigma^2 は未知なので、残差から作る不偏推定量 σ^2=RSS/(np)\hat\sigma^2=\mathrm{RSS}/(n-p) で置き換えます。線形モデルの基本定理より RSS/σ2χnp2\mathrm{RSS}/\sigma^2\sim\chi^2_{n-p} で、しかもこれは β^\hat\beta(したがって分子)と独立です。独立な2つのカイ二乗をそれぞれの自由度で割って比を取るとF分布になる(FF の定義)ので

F=[uV1u/σ2]/q[RSS/σ2]/(np)=(Cβ^h)[C(XX)1C]1(Cβ^h)/qσ^2.F=\frac{\bigl[\boldsymbol u^\top V^{-1}\boldsymbol u/\sigma^2\bigr]\big/q}{\bigl[\mathrm{RSS}/\sigma^2\bigr]\big/(n-p)} =\frac{(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)/q}{\hat\sigma^2}.

σ2\sigma^2 が分子・分母で約分されて消え、

  F=(Cβ^h)[C(XX)1C]1(Cβ^h)/qσ^2  Fq, np(H0 のもとで)  \boxed{\;F=\frac{(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)/q}{\hat\sigma^2}\ \sim\ F_{q,\ n-p}\quad(H_0\ \text{のもとで})\;}

要するに「標準化したカイ二乗(自由度 qq)を、独立な残差カイ二乗(自由度 npn-p)で割った比」。分子の自由度 qq は制約の本数、分母の自由度 npn-p は残差の自由度です。H0H_0 が偽だと分子が大きくなる(Cβ^C\hat\betah\boldsymbol h から離れる)ので、FF が大きいとき H0H_0 を棄却します。

2.3 もう一つの見方 — 残差平方和の差(同値性の証明)

実務でよく使うのは、同じF統計量を二つのモデルの残差平方和の差で書く形です。

  F=(RSS0RSS)/qRSS/(np)  \boxed{\;F=\frac{(\mathrm{RSS}_0-\mathrm{RSS})/q}{\mathrm{RSS}/(n-p)}\;}

ここで RSS\mathrm{RSS} は制約を課さないフルモデルの残差平方和、RSS0\mathrm{RSS}_0H0:Cβ=hH_0:C\boldsymbol\beta=\boldsymbol h制約として課して当てはめたモデル(縮約モデル)の残差平方和です。要するに「制約を課すと当てはまりがどれだけ悪くなったか(残差平方和の増分)を、本数 qq で割って残差分散で標準化したもの」。制約を課せば自由度が減るので必ず RSS0RSS\mathrm{RSS}_0\ge\mathrm{RSS}、増分は非負です。

flowchart TD
  Y["観測 y"] --> FULL["フルモデル<br/>制約なし y=Xβ+ε<br/>残差平方和 RSS(自由度 n-p)"]
  Y --> RED["縮約モデル<br/>制約 Cβ=h を課す<br/>残差平方和 RSS0(自由度 n-p+q)"]
  FULL --> DIFF["差 RSS0 - RSS ≥ 0<br/>制約で増えた当てはまりの悪さ<br/>自由度 q"]
  RED --> DIFF
  DIFF --> F["F = (RSS0-RSS)/q ÷ RSS/(n-p)<br/>~ F(q, n-p)"]

二つの見方が同値であることの証明. 簡単のため h=0\boldsymbol h=\boldsymbol 0H0:Cβ=0H_0:C\boldsymbol\beta=\boldsymbol 0)の場合を示します(一般の h\boldsymbol h も平行移動で同じ結論)。鍵は射影行列です。フルモデルの当てはめは XX の列空間への正射影 P=X(XX)1XP=X(X^\top X)^{-1}X^\top、縮約モデルの当てはめは制約付き部分空間への正射影 P0P_0 で表され、残差平方和はそれぞれ

RSS=y(IP)y,RSS0=y(IP0)y.\mathrm{RSS}=\boldsymbol y^\top(I-P)\boldsymbol y,\qquad \mathrm{RSS}_0=\boldsymbol y^\top(I-P_0)\boldsymbol y .

その差は

RSS0RSS=y[(IP0)(IP)]y=y(PP0)y.\mathrm{RSS}_0-\mathrm{RSS}=\boldsymbol y^\top\bigl[(I-P_0)-(I-P)\bigr]\boldsymbol y=\boldsymbol y^\top(P-P_0)\boldsymbol y .

要するに「残差平方和の差は、フルモデルと縮約モデルの射影の差 (PP0)(P-P_0) による二次形式」。縮約モデルの空間はフルモデルの空間の部分空間(制約で次元が qq 減る)なので、(PP0)(P-P_0) は「制約で失われる qq 次元の方向」への正射影行列(対称・冪等、階数 qq)になります。この方向は、まさに CβC\boldsymbol\beta がゼロから離れうる方向に対応します。

制約付き最小二乗(ラグランジュ未定乗数法)を解くと、制約なし推定量 β^\hat\beta と制約付き推定量 β^0\hat\beta_0 の関係から

y(PP0)y=(Cβ^)[C(XX)1C]1(Cβ^)\boldsymbol y^\top(P-P_0)\boldsymbol y=(C\hat\beta)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta)

が導けます(h=0\boldsymbol h=0 の場合)。左辺=右辺なので、これを qq で割って σ^2=RSS/(np)\hat\sigma^2=\mathrm{RSS}/(n-p) で割れば、§2.2 の二次形式によるF統計量と§2.3 の残差平方和の差によるF統計量がぴったり一致します。

(Cβ^)[C(XX)1C]1(Cβ^)二次形式(§2.2 の分子×q=RSS0RSS残差平方和の差(§2.3 の分子×q\underbrace{(C\hat\beta)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta)}_{\text{二次形式(§2.2 の分子×}q\text{)}}=\underbrace{\mathrm{RSS}_0-\mathrm{RSS}}_{\text{残差平方和の差(§2.3 の分子×}q\text{)}}

要するに「『制約のズレを分散で標準化した二次形式』と『制約を課したときの残差平方和の増分』は、同じ量を二通りに書いただけ」。前者は β^\hat\beta から直接計算する見方、後者は二つのモデルを当てはめて比べる見方で、どちらも同じFを与えます。試験ではこの同値性を「なぜ成り立つか」まで問われることがあります。

⚠️ RSS0\mathrm{RSS}_0 の自由度は np+qn-p+q(フルモデルの自由度 npn-p に、制約で取り戻した qq を足す)です。差 RSS0RSS\mathrm{RSS}_0-\mathrm{RSS} の自由度は (np+q)(np)=q(n-p+q)-(n-p)=q。F分子の自由度が qq になるのはこのためで、「制約の本数=分子自由度」と覚えると整合します。


3. 推定可能関数

3.1 なぜ「推定可能性」が問題になるのか — 過剰パラメータ化

§2 では XX がフルランク(XXX^\top X が正則)と仮定し、β^=(XX)1Xy\hat\beta=(X^\top X)^{-1}X^\top\boldsymbol y が一意に決まりました。ところが分散分析を「効果」で書くモデルは、しばしば**過剰パラメータ化(overparameterized)**されていて XX がフルランクになりません。例として一元配置を

yij=μ+αi+εij(i=1,,a 群, j=1,,ni)y_{ij}=\mu+\alpha_i+\varepsilon_{ij}\qquad(i=1,\dots,a\ \text{群},\ j=1,\dots,n_i)

と書くと、パラメータは μ,α1,,αa\mu,\alpha_1,\dots,\alpha_aa+1a+1 個ですが、群は aa 個しかありません。「総平均 μ\mu を上げて各効果 αi\alpha_i を同じだけ下げる」と当てはめは変わらないので、μ\muαi\alpha_i個別には一意に決まりません(識別不能)。このとき XX は列がフルランクでなく、XXX^\top X は逆行列を持ちません。

要するに「過剰パラメータ化モデルでは、パラメータ単体(μ\muαi\alpha_i そのもの)は一意に推定できない」。では何なら推定できるのか——それを判定するのが推定可能関数の理論です。

3.2 推定可能関数の定義と条件

線形関数 λβ\boldsymbol\lambda^\top\boldsymbol\betaλ\boldsymbol\lambdapp 次元定数ベクトル)が**推定可能(estimable)**であるとは、その関数が「観測の期待値の線形結合として表せる」ことをいいます。形式的には、ある nn 次元定数ベクトル a\boldsymbol a が存在して

E[ay]=λβ(すべての β について)E[\boldsymbol a^\top\boldsymbol y]=\boldsymbol\lambda^\top\boldsymbol\beta\quad(\text{すべての}\ \boldsymbol\beta\ \text{について})

が成り立つことです。E[y]=XβE[\boldsymbol y]=X\boldsymbol\beta なので左辺は aXβ\boldsymbol a^\top X\boldsymbol\beta。これが任意の β\boldsymbol\betaλβ\boldsymbol\lambda^\top\boldsymbol\beta に等しいには λ=aX\boldsymbol\lambda^\top=\boldsymbol a^\top X が要ります。つまり

  λβ が推定可能      λ が X の行空間に属する (a: λ=aX)  \boxed{\;\boldsymbol\lambda^\top\boldsymbol\beta\ \text{が推定可能}\ \iff\ \boldsymbol\lambda^\top\ \text{が}\ X\ \text{の行空間に属する}\ (\exists\,\boldsymbol a:\ \boldsymbol\lambda^\top=\boldsymbol a^\top X)\;}

要するに「λ\boldsymbol\lambdaXX の行が張る空間の中にあれば推定可能、外なら推定不能」。直観は「観測の期待値は XβX\boldsymbol\beta という形でしか手に入らないので、推定できるのは XβX\boldsymbol\beta の成分を線形に混ぜて作れる量だけ」ということです。XX の行空間の外にある方向(過剰パラメータ化で潰れた方向)は、データがいくらあっても情報を持ちません。

推定可能なら一意に推定できる(不偏・BLUE). λβ\boldsymbol\lambda^\top\boldsymbol\beta が推定可能なら、β^\hat\beta を一般逆行列で(どう選んでも)作っても λβ^\boldsymbol\lambda^\top\hat\beta の値は一意に定まり、しかもガウス・マルコフの定理により λβ^\boldsymbol\lambda^\top\hat\betaλβ\boldsymbol\lambda^\top\boldsymbol\beta の**最良線形不偏推定量(BLUE)**になります。要するに「推定可能関数は、パラメータ化の任意性に左右されず一意・最良に推定できる量」。

3.3 対比は推定可能関数の代表例

一元配置 yij=μ+αi+εijy_{ij}=\mu+\alpha_i+\varepsilon_{ij} で何が推定可能かを見ます。各群の母平均は E[yˉi]=μ+αiE[\bar y_i]=\mu+\alpha_i なので、μ+αi\mu+\alpha_i は推定可能です(観測平均の期待値そのもの)。ところが μ\mu 単独や αi\alpha_i 単独は推定不能でした。では効果の αiαi\alpha_i-\alpha_{i'} は?

αiαi=(μ+αi)(μ+αi)=E[yˉi]E[yˉi]\alpha_i-\alpha_{i'}=(\mu+\alpha_i)-(\mu+\alpha_{i'})=E[\bar y_i]-E[\bar y_{i'}]

と観測平均の差の期待値で書けるので、μ\mu が打ち消えて推定可能です。より一般に、効果の線形結合 iciαi\sum_i c_i\alpha_i

iciαi=ici(μ+αi)μici=iciE[yˉi]μici\sum_i c_i\alpha_i=\sum_i c_i(\mu+\alpha_i)-\mu\sum_i c_i=\sum_i c_iE[\bar y_i]-\mu\sum_i c_i

なので、ici=0\sum_i c_i=0対比の条件!)ならば μ\mu の項が消え、iciαi=iciE[yˉi]\sum_i c_i\alpha_i=\sum_i c_iE[\bar y_i] と観測平均の線形結合の期待値で表せます。つまり

  iciαi が推定可能      ici=0 (=対比であること)  \boxed{\;\sum_i c_i\alpha_i\ \text{が推定可能}\ \iff\ \sum_i c_i=0\ (\text{=対比であること})\;}

要するに「効果の線形結合が推定可能になる条件は、ちょうど『係数和ゼロ=対比』という条件と一致する」。§1 で「対比は全体水準に反応しない」と述べたことと、ここで「対比は識別不能な μ\mu を含まないから推定可能」と述べたことは、同じ事実の表と裏です。だから過剰パラメータ化された分散分析モデルでも、対比だけは曖昧さなく推定・検定できます。これが「対比は推定可能関数の代表例」と言われる理由です。


4. 多重比較との接続(シェッフェの方法)

対比は1本なら自由度1のF(または tt)で検定できますが、「考えうるすべての対比を同時に見たい」場合は多重性の補正が要ります。ここで効くのが**シェッフェの方法(Scheffé’s method)**です。

シェッフェ法は「aa 群から作れる任意の対比について同時に成り立つ信頼区間」を与えます。対比 ψ=ciμi\psi=\sum c_i\mu_i の同時信頼区間は

ψ^ ± (a1)Fα;a1,na  MSEici2ni\hat\psi\ \pm\ \sqrt{(a-1)\,F_{\alpha;\,a-1,\,n-a}}\ \cdot\ \sqrt{MS_E\sum_i\frac{c_i^2}{n_i}}

の形を取り、係数 (a1)Fα;a1,na\sqrt{(a-1)F_{\alpha;a-1,n-a}} が「無数の対比を見ても全体の信頼水準を保つ」ための割増分です。要するに「シェッフェ法は『どんな対比でも、いくつ見ても』第一種過誤を抑える、最も保守的な同時区間」。

シェッフェ法には分散分析のF検定とぴったり噛み合う性質があります。

全体のF検定が有意 ⇔ 信頼区間がゼロを含まない対比が少なくとも1本存在する

要するに「分散分析が『どこかに差がある』と言ったなら、シェッフェ法でゼロをまたがない(有意な)対比が必ず1本見つかる」。F検定が棄却したのにシェッフェで有意な対比が一つもない、ということは起こりません。逆に保守的すぎる(検出力が低い)のが弱点で、あらかじめ少数の対比に絞れるならテューキー法やボンフェローニ法の方が検出力が高いことが多いです。多重比較の手法選択の詳細は 多重比較 に譲ります。


5. 試験での問われ方(1級)

理工学分野での1級の典型的な問われ方を論点ごとに整理します(出題範囲・配点は要最新確認)。


6. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. 対比の「係数和ゼロ」と推定可能関数の話は、結局同じことを言っているのですか?

実質同じ事実の二つの顔です。過剰パラメータ化モデル yij=μ+αi+εijy_{ij}=\mu+\alpha_i+\varepsilon_{ij} では、効果の線形結合 ciαi\sum c_i\alpha_i が推定可能になる条件が「ci=0\sum c_i=0」でした(§3.3)。一方、対比の定義もまさに「ci=0\sum c_i=0」です。つまり「対比であること」と「効果の線形結合が(識別不能な μ\mu を巻き込まずに)推定可能であること」は同じ条件に行き着きます。§1 では「係数和ゼロだと全体水準に反応しない」と幾何学的に説明し、§3 では「係数和ゼロだと推定不能な μ\mu が消える」と代数的に説明しましたが、どちらも「μ\mu(共通の底上げ)を打ち消す」という同一の働きを別角度から見ているだけです。

Q2. 一般線形仮説のF統計量は、二次形式と残差平方和の差のどちらで覚えるべきですか?

両方とも理解しておくべきで、用途が違います。二次形式の形 (Cβ^h)[C(XX)1C]1(Cβ^h)/q÷σ^2(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)/q\div\hat\sigma^2 は、β^\hat\beta さえ手元にあれば追加のモデル当てはめなしに計算でき、「制約のズレを標準化する」という統計的意味が見えます。残差平方和の差の形 (RSS0RSS)/q÷σ^2(\mathrm{RSS}_0-\mathrm{RSS})/q\div\hat\sigma^2 は、フルモデルと縮約モデルの二つを当てはめて比べるだけなので実装が直感的で、ネストしたモデル比較(変数選択など)と同じ枠組みで扱えます。§2.3 で示したとおり両者は恒等的に等しいので、計算しやすい方を使えばよく、試験では「同値であることの説明」を求められます。

Q3. なぜ CC はフルランクでないといけないのですか?

CC の行が互いに線形従属だと、制約が重複していて「本当の制約の本数」が行数 qq より少なくなります。例えば β1=β2\beta_1=\beta_2β2=β1\beta_2=\beta_1 を両方並べても新しい情報は1本ぶんしかありません。このとき分散行列 V=C(XX)1CV=C(X^\top X)^{-1}C^\top特異になり、F統計量の中央の逆行列 V1V^{-1} が存在しなくなります。CC がフルランク(行階数 qq)なら VV は正則で逆行列が定義でき、F分子の自由度がちょうど qq になります。要するに「CC のフルランク=制約が重複していない=分子自由度が正しく qq」という対応です。

Q4. 推定可能でない関数を「無理やり推定」したら何が起きますか?

推定可能でない関数 λβ\boldsymbol\lambda^\top\boldsymbol\betaλ\boldsymbol\lambda^\topXX の行空間の外)は、一般逆行列の選び方によって λβ^\boldsymbol\lambda^\top\hat\beta の値が変わってしまいます。同じデータでも、ソフトウェアが内部でどの制約(例:αi=0\sum\alpha_i=0αa=0\alpha_a=0 か)を置くかで答えが違う、という事態です。つまり「推定値」が一意に決まらず、信頼区間も検定も意味を持ちません。これが「推定不能」の実害です。だからソフトウェアの出力でも、各効果の推定値は「ある基準(参照群など)を置いたうえでの相対値」として表示され、生の μ,αi\mu,\alpha_i そのものは出てきません。推定可能な量(対比や群平均)だけが、基準の置き方に依らず一意です。

Q5. シェッフェ法とF検定が同値というのは、どういう意味ですか?

「分散分析の全体F検定が水準 α\alpha で有意」であることと、「シェッフェ法(同じ α\alpha)で信頼区間がゼロを含まない対比が少なくとも1本存在する」ことが、論理的に一致するという意味です。背景はこうです。シェッフェ法の臨界値 (a1)Fα;a1,na\sqrt{(a-1)F_{\alpha;a-1,n-a}} は、考えうる全対比のうち最も有意になる対比(データに最もフィットする方向)を基準に作られています。その「最強の対比」がちょうど全体F検定に対応するため、F検定が棄却する ⇔ 最強の対比がゼロをまたがない、という同値が成り立ちます。実用上は「F検定で有意と出たのに、シェッフェでどの対比も有意にならない」という矛盾は起きない、と理解すれば十分です。


まとめ


関連ノート