線形推測｜統計検定テキスト

📊 対象級：1級　|　重要度：B（標準）

要点（BLUF）

線形推測とは、線形モデル $\boldsymbol y=X\boldsymbol\beta+\boldsymbol\varepsilon$ のもとで「パラメータの線形な関数」を推定したり「線形な仮説」を検定したりする枠組みの総称です。分散分析の群平均比較も重回帰の係数検定も、すべてこの一つの型に収まります。1級（理工学）では対比の構成・直交性・一般線形仮説のF統計量がまとまって問われます（範囲・配点は改訂されうるため要最新確認）。

線形対比（コントラスト）：係数和がゼロ（ $\sum_i c_i=0$ ）の群平均の線形結合 $\psi=\sum_i c_i\bar y_i$ 。これは群間の「差」だけを測る量で、全体水準のずれに反応しません。対比1本は自由度1の平方和 $SS_\psi=\hat\psi^2/\sum_i(c_i^2/n_i)$ を持ち、直交対比（ $\sum_i c_id_i/n_i=0$ ）どうしなら処理平方和が独立な1自由度成分に直交分解されます。
一般線形仮説： $H_0:C\boldsymbol\beta=\boldsymbol h$ （ $C$ は $q\times p$ のフルランク制約行列）を検定する $F=\dfrac{(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)/q}{\hat\sigma^2}\sim F_{q,\,n-p}$ 。この分子は「制約を課したモデルと課さないモデルの残差平方和の差 $(\mathrm{RSS}_0-\mathrm{RSS})$ 」に等しく、二つの見方は同値です。
推定可能関数：過剰パラメータ化（ $X$ がフルランクでない）モデルでも一意に推定できる線形関数 $\boldsymbol\lambda^\top\boldsymbol\beta$ 。条件は「 $\boldsymbol\lambda^\top$ が $X$ の行空間に属する」。対比はその代表例で、だからこそ過剰パラメータ化された分散分析モデルでも対比は曖昧さなく推定できます。

graph TD
  ROOT["線形推測<br/>線形モデル y=Xβ+ε での<br/>線形な関数・線形な仮説"] --> EST["推定可能関数 λ'β<br/>λ' が X の行空間に属する<br/>⇔ 一意に推定できる"]
  ROOT --> CONT["線形対比 ψ=Σ c_i ȳ_i<br/>係数和 Σc_i=0<br/>（推定可能関数の代表）"]
  ROOT --> GLH["一般線形仮説<br/>H0: Cβ=h の F検定"]
  CONT --> SS["対比の平方和（自由度1）<br/>SS_ψ = ψ̂² / Σ(c_i²/n_i)"]
  SS --> ORTH["直交対比<br/>Σ c_i d_i / n_i = 0<br/>→ 処理平方和の直交分解"]
  GLH --> TWO["分子の二つの見方<br/>① 二次形式 (Cβ̂-h)'[...]⁻¹(Cβ̂-h)<br/>② 残差平方和の差 RSS0-RSS"]
  ORTH --> MULT["多重比較・シェッフェ法<br/>全対比の同時信頼区間"]
  GLH --> MULT

1. 線形対比（コントラスト）

1.1 対比とは — 係数和ゼロの線形結合

分散分析で $a$ 個の群（処理）があり、各群の母平均を $\mu_1,\dots,\mu_a$ 、標本平均を $\bar y_1,\dots,\bar y_a$ 、各群のサンプルサイズを $n_1,\dots,n_a$ とします。群平均の線形結合

\psi = \sum_{i=1}^{a} c_i\,\mu_i,\qquad \text{推定量}\quad \hat\psi=\sum_{i=1}^{a} c_i\,\bar y_i

のうち、係数が次の条件

\boxed{\;\sum_{i=1}^{a} c_i = 0\;}

を満たすものを**線形対比（linear contrast、コントラスト）**と呼びます。要するに「係数の合計がゼロになるように組んだ群平均の重みづけ和」です。

なぜ係数和ゼロが本質かというと、対比は「全体の水準」には反応せず「群間の差」だけを取り出す量だからです。仮にすべての群平均が同じ定数 $m$ だけ底上げされても（ $\mu_i\to\mu_i+m$ ）、対比の値は

\sum_i c_i(\mu_i+m)=\sum_i c_i\mu_i + m\underbrace{\sum_i c_i}_{=0}=\sum_i c_i\mu_i

と変わりません。要するに「係数和ゼロのおかげで、全体の底上げ（共通の水準）が打ち消され、対比は純粋に群どうしの違いだけを測る」。これが対比を「差の検定」の言語にしている理由です。

典型的な対比の例. 4群（ $a=4$ ）で考えます。

対比	係数 $(c_1,c_2,c_3,c_4)$	$\sum c_i$	意味
群1 対群2	$(1,-1,0,0)$	$0$	群1と群2の平均の差
群1・2 対群3・4	$(1,1,-1,-1)$	$0$	前半2群と後半2群の差
線形傾向	$(-3,-1,1,3)$	$0$	水準が等間隔のときの直線的傾向
単純平均	$(1,1,1,1)$	$4\ne0$	対比ではない（全体水準を測る）

最後の行のように係数和がゼロでない線形結合は対比ではありません。「2群の単純比較」「群を2つのグループに分けた比較」「等間隔水準での傾向（直交多項式）」がよく出る対比です。

1.2 対比の分散と平方和（自由度1）

対比の推定量 $\hat\psi=\sum_i c_i\bar y_i$ の分散を求めます。各群の観測は分散 $\sigma^2$ を共有し（等分散の仮定）、群平均 $\bar y_i$ は互いに独立なので、独立な確率変数の線形結合の分散公式から

\boxed{\;V(\hat\psi)=\sum_{i=1}^{a} c_i^2\,V(\bar y_i)=\sigma^2\sum_{i=1}^{a}\frac{c_i^2}{n_i}\;}

要するに「対比の分散は、係数の二乗を群のサンプルサイズで割って足し、誤差分散 $\sigma^2$ を掛けたもの」。各群平均の分散が $\sigma^2/n_i$ で、係数 $c_i$ が掛かると分散には $c_i^2$ が掛かる、というだけです。

この対比を単独で検定するための**対比の平方和（自由度1）**は次で定義されます。

\boxed{\;SS_\psi=\frac{\hat\psi^{\,2}}{\displaystyle\sum_{i=1}^{a} c_i^2/n_i}=\frac{\Bigl(\sum_i c_i\bar y_i\Bigr)^2}{\sum_i c_i^2/n_i}\;}

なぜこの形になるのか. 帰無仮説 $H_0:\psi=0$ のもとで $\hat\psi\sim N\!\bigl(0,\ \sigma^2\sum c_i^2/n_i\bigr)$ なので、これを標準化して二乗すると

\left(\frac{\hat\psi}{\sqrt{\sigma^2\sum c_i^2/n_i}}\right)^2=\frac{\hat\psi^2}{\sigma^2\sum c_i^2/n_i}\sim \chi^2_1 .

分子の $\hat\psi^2/\sum(c_i^2/n_i)$ が「 $\sigma^2$ を除いたカイ二乗（自由度1）の中身」、すなわち対比に対応する平方和です。要するに「対比の平方和は、標準化した対比統計量の二乗（自由度1のカイ二乗の素）から $\sigma^2$ を外した量」。これを誤差分散の推定量 $\hat\sigma^2=MS_E$ （残差平均平方）で割れば、対比を検定するF統計量

F_\psi=\frac{SS_\psi/1}{MS_E}=\frac{\hat\psi^2/\sum(c_i^2/n_i)}{MS_E}\sim F_{1,\ n-a}

が得られます。分子の自由度が1なのは「対比1本＝1つの線形制約 $\psi=0$ を検定している」からです。同じことを $t$ 統計量で書けば $t=\hat\psi/\sqrt{MS_E\sum c_i^2/n_i}\sim t_{n-a}$ で、 $t^2=F_\psi$ の関係（自由度1のFは $t$ の二乗）が成り立ちます。

1.3 直交対比と処理平方和の直交分解

複数の対比を考えるとき、それらが**直交（orthogonal）**しているかが決定的に重要です。2つの対比 $\psi=\sum c_i\bar y_i$ と $\phi=\sum d_i\bar y_i$ が直交するとは

\boxed{\;\sum_{i=1}^{a}\frac{c_i\,d_i}{n_i}=0\;}

を満たすことです（各群のサンプルサイズが等しい $n_i=n$ のときは単に $\sum_i c_id_i=0$ ）。要するに「係数の積をサンプルサイズで割って足したものがゼロ」。

直交が意味すること（独立性）. 直交対比どうしは推定量が統計的に独立になります。実際、独立な群平均の線形結合どうしの共分散は

\mathrm{Cov}(\hat\psi,\hat\phi)=\mathrm{Cov}\!\Bigl(\sum_i c_i\bar y_i,\ \sum_j d_j\bar y_j\Bigr)=\sum_i c_id_i\,V(\bar y_i)=\sigma^2\sum_i\frac{c_id_i}{n_i}

で、直交条件 $\sum c_id_i/n_i=0$ はこの共分散をゼロにします。正規性のもとで共分散ゼロは独立を意味するので、要するに「直交対比どうしの推定量は無相関＝独立。だから別々の検定が互いに干渉しない」。

処理平方和の直交分解. ここが対比のクライマックスです。 $a$ 群の処理平方和 $SS_{treat}$ は自由度 $a-1$ を持ちますが、これを互いに直交する $a-1$ 本の対比に対応する自由度1の平方和へ、過不足なく分解できます。

\boxed{\;SS_{treat}=SS_{\psi_1}+SS_{\psi_2}+\dots+SS_{\psi_{a-1}}\;}\qquad(\psi_1,\dots,\psi_{a-1}\ \text{が互いに直交)}

要するに「自由度 $a-1$ の処理平方和は、直交する $a-1$ 本の対比それぞれの自由度1平方和の単純な足し算に割れる」。これは幾何学的には、処理効果が張る $(a-1)$ 次元の部分空間を、直交対比という互いに直交する $(a-1)$ 本の軸へ正射影で分解していることに相当します（だから平方和がピタゴラスの定理のように足し算で繋がる）。

graph TD
  TREAT["処理平方和 SS_treat<br/>自由度 a-1"] --> P1["SS_ψ1（自由度1）<br/>対比 ψ1"]
  TREAT --> P2["SS_ψ2（自由度1）<br/>対比 ψ2"]
  TREAT --> PD["…"]
  TREAT --> PK["SS_ψ(a-1)（自由度1）<br/>対比 ψ(a-1)"]
  P1 -. 直交 Σc_id_i/n_i=0 .- P2
  P2 -. 直交 .- PK

⚠️ この足し算が成り立つのは対比どうしが直交しているときだけです。直交していない対比を寄せ集めても、平方和は $SS_{treat}$ にならず、重複してカウントされます（合計が $SS_{treat}$ を超えたり下回ったりする）。直交分解は「直交」あってのものです。

直交対比の使いどころ. 「処理平方和が有意」という分散分析の結論は「どこかに差がある」までしか言いません。そこを「群1と群2の差なのか」「前半群と後半群の差なのか」「直線的傾向なのか」と意味のある成分へ分解するのが直交対比の役割です。あらかじめ（データを見る前に）立てた直交対比なら、多重比較の補正なしに $a-1$ 本まで検定できます。

2. 一般線形仮説のF検定

2.1 一般線形仮説の型 — Cβ=h

対比は「群平均の線形結合＝定数」という制約でした。これを線形モデル一般に拡張したのが**一般線形仮説（general linear hypothesis）**です。線形モデル

\boldsymbol y=X\boldsymbol\beta+\boldsymbol\varepsilon,\qquad \boldsymbol\varepsilon\sim N(\boldsymbol 0,\ \sigma^2 I_n),\quad X\ \text{は}\ n\times p\ \text{のフルランク}

に対し、パラメータ $\boldsymbol\beta$ （ $p$ 次元）の複数の線形制約を一度に検定します。

\boxed{\;H_0:\ C\boldsymbol\beta=\boldsymbol h\;}\qquad C\ \text{は}\ q\times p\ \text{のフルランク行列}(q\le p),\ \boldsymbol h\ \text{は}\ q\ \text{次元定数}

要するに「 $C$ の各行が1本の線形制約を表し、 $q$ 本の制約を同時に検定する」。 $C$ がフルランク（行階数 $q$ ）とは、 $q$ 本の制約が互いに重複していない（独立な）ことを意味します。具体例で型に慣れます（ $\boldsymbol\beta=(\beta_0,\beta_1,\beta_2,\beta_3)^\top$ とする）。

検定したい仮説	$C$	$\boldsymbol h$	$q$
$\beta_1=0$ （係数1が無効）	$(0,1,0,0)$	$0$	$1$
$\beta_1=\beta_2$ （2係数が等しい）	$(0,1,-1,0)$	$0$	$1$
$\beta_1=\beta_2=\beta_3=0$ （同時無効）	$\begin{pmatrix}0&1&0&0\\0&0&1&0\\0&0&0&1\end{pmatrix}$	$\boldsymbol 0$	$3$
$\beta_1+\beta_2=1$	$(0,1,1,0)$	$1$	$1$

「ある係数がゼロか」も「複数係数がまとめてゼロか」も「係数どうしが等しいか」も、すべて $C\boldsymbol\beta=\boldsymbol h$ の形に収まります。分散分析の処理効果の検定も対比の検定も、適切な $C$ を選べばこの枠組みの特殊例です。

2.2 F統計量の構成（二次形式による導出）

検定統計量を、推定量 $\hat\beta=(X^\top X)^{-1}X^\top\boldsymbol y$ の分布から組み立てます。

ステップ1： $C\hat\beta$ の分布. 正規誤差のもとで $\hat\beta\sim N\!\bigl(\boldsymbol\beta,\ \sigma^2(X^\top X)^{-1}\bigr)$ です。線形変換 $C\hat\beta$ も正規分布に従い、

C\hat\beta\sim N\!\Bigl(C\boldsymbol\beta,\ \sigma^2\,C(X^\top X)^{-1}C^\top\Bigr).

要するに「 $\hat\beta$ が正規だから、その線形結合 $C\hat\beta$ も正規。平均は $C\beta$ 、分散行列は $\sigma^2 C(X^\top X)^{-1}C^\top$ 」。 $H_0:C\boldsymbol\beta=\boldsymbol h$ が真なら平均は $\boldsymbol h$ になります。

ステップ2：二次形式でカイ二乗を作る. $\boldsymbol u=C\hat\beta-\boldsymbol h$ とおくと、 $H_0$ のもとで $\boldsymbol u\sim N(\boldsymbol 0,\ \sigma^2 V)$ （ただし $V=C(X^\top X)^{-1}C^\top$ 、 $q\times q$ の正則行列）。多変量正規ベクトルの二次形式の一般則「 $\boldsymbol u\sim N(\boldsymbol 0,\Sigma)$ なら $\boldsymbol u^\top\Sigma^{-1}\boldsymbol u\sim\chi^2_{\dim}$ 」を使うと

\frac{1}{\sigma^2}\,\boldsymbol u^\top V^{-1}\boldsymbol u=\frac{(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)}{\sigma^2}\sim\chi^2_q .

要するに「制約のズレ $C\hat\beta-h$ を、自分の分散行列の逆で挟んで二乗すると、自由度 $q$ のカイ二乗になる」。 $V^{-1}$ で挟むのは、各方向のばらつきの大きさで割って「標準化された距離」にするためです（マハラノビス距離の二乗）。

ステップ3： $\sigma^2$ を消す. $\sigma^2$ は未知なので、残差から作る不偏推定量 $\hat\sigma^2=\mathrm{RSS}/(n-p)$ で置き換えます。線形モデルの基本定理より $\mathrm{RSS}/\sigma^2\sim\chi^2_{n-p}$ で、しかもこれは $\hat\beta$ （したがって分子）と独立です。独立な2つのカイ二乗をそれぞれの自由度で割って比を取るとF分布になる（ $F$ の定義）ので

F=\frac{\bigl[\boldsymbol u^\top V^{-1}\boldsymbol u/\sigma^2\bigr]\big/q}{\bigl[\mathrm{RSS}/\sigma^2\bigr]\big/(n-p)} =\frac{(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)/q}{\hat\sigma^2}.

$\sigma^2$ が分子・分母で約分されて消え、

\boxed{\;F=\frac{(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)/q}{\hat\sigma^2}\ \sim\ F_{q,\ n-p}\quad(H_0\ \text{のもとで})\;}

要するに「標準化したカイ二乗（自由度 $q$ ）を、独立な残差カイ二乗（自由度 $n-p$ ）で割った比」。分子の自由度 $q$ は制約の本数、分母の自由度 $n-p$ は残差の自由度です。 $H_0$ が偽だと分子が大きくなる（ $C\hat\beta$ が $\boldsymbol h$ から離れる）ので、 $F$ が大きいとき $H_0$ を棄却します。

2.3 もう一つの見方 — 残差平方和の差（同値性の証明）

実務でよく使うのは、同じF統計量を二つのモデルの残差平方和の差で書く形です。

\boxed{\;F=\frac{(\mathrm{RSS}_0-\mathrm{RSS})/q}{\mathrm{RSS}/(n-p)}\;}

ここで $\mathrm{RSS}$ は制約を課さないフルモデルの残差平方和、 $\mathrm{RSS}_0$ は $H_0:C\boldsymbol\beta=\boldsymbol h$ を制約として課して当てはめたモデル（縮約モデル）の残差平方和です。要するに「制約を課すと当てはまりがどれだけ悪くなったか（残差平方和の増分）を、本数 $q$ で割って残差分散で標準化したもの」。制約を課せば自由度が減るので必ず $\mathrm{RSS}_0\ge\mathrm{RSS}$ 、増分は非負です。

flowchart TD
  Y["観測 y"] --> FULL["フルモデル<br/>制約なし y=Xβ+ε<br/>残差平方和 RSS（自由度 n-p）"]
  Y --> RED["縮約モデル<br/>制約 Cβ=h を課す<br/>残差平方和 RSS0（自由度 n-p+q）"]
  FULL --> DIFF["差 RSS0 - RSS ≥ 0<br/>制約で増えた当てはまりの悪さ<br/>自由度 q"]
  RED --> DIFF
  DIFF --> F["F = (RSS0-RSS)/q ÷ RSS/(n-p)<br/>~ F(q, n-p)"]

二つの見方が同値であることの証明. 簡単のため $\boldsymbol h=\boldsymbol 0$ （ $H_0:C\boldsymbol\beta=\boldsymbol 0$ ）の場合を示します（一般の $\boldsymbol h$ も平行移動で同じ結論）。鍵は射影行列です。フルモデルの当てはめは $X$ の列空間への正射影 $P=X(X^\top X)^{-1}X^\top$ 、縮約モデルの当てはめは制約付き部分空間への正射影 $P_0$ で表され、残差平方和はそれぞれ

\mathrm{RSS}=\boldsymbol y^\top(I-P)\boldsymbol y,\qquad \mathrm{RSS}_0=\boldsymbol y^\top(I-P_0)\boldsymbol y .

その差は

\mathrm{RSS}_0-\mathrm{RSS}=\boldsymbol y^\top\bigl[(I-P_0)-(I-P)\bigr]\boldsymbol y=\boldsymbol y^\top(P-P_0)\boldsymbol y .

要するに「残差平方和の差は、フルモデルと縮約モデルの射影の差 $(P-P_0)$ による二次形式」。縮約モデルの空間はフルモデルの空間の部分空間（制約で次元が $q$ 減る）なので、 $(P-P_0)$ は「制約で失われる $q$ 次元の方向」への正射影行列（対称・冪等、階数 $q$ ）になります。この方向は、まさに $C\boldsymbol\beta$ がゼロから離れうる方向に対応します。

制約付き最小二乗（ラグランジュ未定乗数法）を解くと、制約なし推定量 $\hat\beta$ と制約付き推定量 $\hat\beta_0$ の関係から

\boldsymbol y^\top(P-P_0)\boldsymbol y=(C\hat\beta)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta)

が導けます（ $\boldsymbol h=0$ の場合）。左辺＝右辺なので、これを $q$ で割って $\hat\sigma^2=\mathrm{RSS}/(n-p)$ で割れば、§2.2 の二次形式によるF統計量と§2.3 の残差平方和の差によるF統計量がぴったり一致します。

\underbrace{(C\hat\beta)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta)}_{\text{二次形式（§2.2 の分子×}q\text{）}}=\underbrace{\mathrm{RSS}_0-\mathrm{RSS}}_{\text{残差平方和の差（§2.3 の分子×}q\text{）}}

要するに「『制約のズレを分散で標準化した二次形式』と『制約を課したときの残差平方和の増分』は、同じ量を二通りに書いただけ」。前者は $\hat\beta$ から直接計算する見方、後者は二つのモデルを当てはめて比べる見方で、どちらも同じFを与えます。試験ではこの同値性を「なぜ成り立つか」まで問われることがあります。

⚠️ $\mathrm{RSS}_0$ の自由度は $n-p+q$ （フルモデルの自由度 $n-p$ に、制約で取り戻した $q$ を足す）です。差 $\mathrm{RSS}_0-\mathrm{RSS}$ の自由度は $(n-p+q)-(n-p)=q$ 。F分子の自由度が $q$ になるのはこのためで、「制約の本数＝分子自由度」と覚えると整合します。

3. 推定可能関数

3.1 なぜ「推定可能性」が問題になるのか — 過剰パラメータ化

§2 では $X$ がフルランク（ $X^\top X$ が正則）と仮定し、 $\hat\beta=(X^\top X)^{-1}X^\top\boldsymbol y$ が一意に決まりました。ところが分散分析を「効果」で書くモデルは、しばしば**過剰パラメータ化（overparameterized）**されていて $X$ がフルランクになりません。例として一元配置を

y_{ij}=\mu+\alpha_i+\varepsilon_{ij}\qquad(i=1,\dots,a\ \text{群},\ j=1,\dots,n_i)

と書くと、パラメータは $\mu,\alpha_1,\dots,\alpha_a$ の $a+1$ 個ですが、群は $a$ 個しかありません。「総平均 $\mu$ を上げて各効果 $\alpha_i$ を同じだけ下げる」と当てはめは変わらないので、 $\mu$ と $\alpha_i$ は個別には一意に決まりません（識別不能）。このとき $X$ は列がフルランクでなく、 $X^\top X$ は逆行列を持ちません。

要するに「過剰パラメータ化モデルでは、パラメータ単体（ $\mu$ や $\alpha_i$ そのもの）は一意に推定できない」。では何なら推定できるのか——それを判定するのが推定可能関数の理論です。

3.2 推定可能関数の定義と条件

線形関数 $\boldsymbol\lambda^\top\boldsymbol\beta$ （ $\boldsymbol\lambda$ は $p$ 次元定数ベクトル）が**推定可能（estimable）**であるとは、その関数が「観測の期待値の線形結合として表せる」ことをいいます。形式的には、ある $n$ 次元定数ベクトル $\boldsymbol a$ が存在して

E[\boldsymbol a^\top\boldsymbol y]=\boldsymbol\lambda^\top\boldsymbol\beta\quad(\text{すべての}\ \boldsymbol\beta\ \text{について})

が成り立つことです。 $E[\boldsymbol y]=X\boldsymbol\beta$ なので左辺は $\boldsymbol a^\top X\boldsymbol\beta$ 。これが任意の $\boldsymbol\beta$ で $\boldsymbol\lambda^\top\boldsymbol\beta$ に等しいには $\boldsymbol\lambda^\top=\boldsymbol a^\top X$ が要ります。つまり

\boxed{\;\boldsymbol\lambda^\top\boldsymbol\beta\ \text{が推定可能}\ \iff\ \boldsymbol\lambda^\top\ \text{が}\ X\ \text{の行空間に属する}\ (\exists\,\boldsymbol a:\ \boldsymbol\lambda^\top=\boldsymbol a^\top X)\;}

要するに「 $\boldsymbol\lambda$ が $X$ の行が張る空間の中にあれば推定可能、外なら推定不能」。直観は「観測の期待値は $X\boldsymbol\beta$ という形でしか手に入らないので、推定できるのは $X\boldsymbol\beta$ の成分を線形に混ぜて作れる量だけ」ということです。 $X$ の行空間の外にある方向（過剰パラメータ化で潰れた方向）は、データがいくらあっても情報を持ちません。

推定可能なら一意に推定できる（不偏・BLUE）. $\boldsymbol\lambda^\top\boldsymbol\beta$ が推定可能なら、 $\hat\beta$ を一般逆行列で（どう選んでも）作っても $\boldsymbol\lambda^\top\hat\beta$ の値は一意に定まり、しかもガウス・マルコフの定理により $\boldsymbol\lambda^\top\hat\beta$ が $\boldsymbol\lambda^\top\boldsymbol\beta$ の**最良線形不偏推定量（BLUE）**になります。要するに「推定可能関数は、パラメータ化の任意性に左右されず一意・最良に推定できる量」。

3.3 対比は推定可能関数の代表例

一元配置 $y_{ij}=\mu+\alpha_i+\varepsilon_{ij}$ で何が推定可能かを見ます。各群の母平均は $E[\bar y_i]=\mu+\alpha_i$ なので、 $\mu+\alpha_i$ は推定可能です（観測平均の期待値そのもの）。ところが $\mu$ 単独や $\alpha_i$ 単独は推定不能でした。では効果の差 $\alpha_i-\alpha_{i'}$ は?

\alpha_i-\alpha_{i'}=(\mu+\alpha_i)-(\mu+\alpha_{i'})=E[\bar y_i]-E[\bar y_{i'}]

と観測平均の差の期待値で書けるので、 $\mu$ が打ち消えて推定可能です。より一般に、効果の線形結合 $\sum_i c_i\alpha_i$ は

\sum_i c_i\alpha_i=\sum_i c_i(\mu+\alpha_i)-\mu\sum_i c_i=\sum_i c_iE[\bar y_i]-\mu\sum_i c_i

なので、 $\sum_i c_i=0$ （対比の条件！）ならば $\mu$ の項が消え、 $\sum_i c_i\alpha_i=\sum_i c_iE[\bar y_i]$ と観測平均の線形結合の期待値で表せます。つまり

\boxed{\;\sum_i c_i\alpha_i\ \text{が推定可能}\ \iff\ \sum_i c_i=0\ (\text{＝対比であること})\;}

要するに「効果の線形結合が推定可能になる条件は、ちょうど『係数和ゼロ＝対比』という条件と一致する」。§1 で「対比は全体水準に反応しない」と述べたことと、ここで「対比は識別不能な $\mu$ を含まないから推定可能」と述べたことは、同じ事実の表と裏です。だから過剰パラメータ化された分散分析モデルでも、対比だけは曖昧さなく推定・検定できます。これが「対比は推定可能関数の代表例」と言われる理由です。

4. 多重比較との接続（シェッフェの方法）

対比は1本なら自由度1のF（または $t$ ）で検定できますが、「考えうるすべての対比を同時に見たい」場合は多重性の補正が要ります。ここで効くのが**シェッフェの方法（Scheffé’s method）**です。

シェッフェ法は「 $a$ 群から作れる任意の対比について同時に成り立つ信頼区間」を与えます。対比 $\psi=\sum c_i\mu_i$ の同時信頼区間は

\hat\psi\ \pm\ \sqrt{(a-1)\,F_{\alpha;\,a-1,\,n-a}}\ \cdot\ \sqrt{MS_E\sum_i\frac{c_i^2}{n_i}}

の形を取り、係数 $\sqrt{(a-1)F_{\alpha;a-1,n-a}}$ が「無数の対比を見ても全体の信頼水準を保つ」ための割増分です。要するに「シェッフェ法は『どんな対比でも、いくつ見ても』第一種過誤を抑える、最も保守的な同時区間」。

シェッフェ法には分散分析のF検定とぴったり噛み合う性質があります。

全体のF検定が有意 ⇔ 信頼区間がゼロを含まない対比が少なくとも1本存在する

要するに「分散分析が『どこかに差がある』と言ったなら、シェッフェ法でゼロをまたがない（有意な）対比が必ず1本見つかる」。F検定が棄却したのにシェッフェで有意な対比が一つもない、ということは起こりません。逆に保守的すぎる（検出力が低い）のが弱点で、あらかじめ少数の対比に絞れるならテューキー法やボンフェローニ法の方が検出力が高いことが多いです。多重比較の手法選択の詳細は多重比較に譲ります。

5. 試験での問われ方（1級）

理工学分野での1級の典型的な問われ方を論点ごとに整理します（出題範囲・配点は要最新確認）。

対比の構成と検定：与えられた群比較（「群1と群2の差」「処理群と対照群の比較」など）を係数 $c_i$ （ $\sum c_i=0$ ）で書かせ、対比の平方和 $SS_\psi=\hat\psi^2/\sum(c_i^2/n_i)$ と $F_\psi=SS_\psi/MS_E\sim F_{1,n-a}$ を計算させる。 $t$ 統計量との対応（ $t^2=F$ ）も問われる。
直交性の確認と直交分解：複数の対比について $\sum c_id_i/n_i=0$ を確認させ、直交なら処理平方和が $SS_{treat}=\sum SS_{\psi_k}$ と分解することを使って各成分を求めさせる。「直交でないと分解できない」点が頻出の注意。
一般線形仮説のF統計量：仮説 $\beta_1=\beta_2$ や「複数係数が同時にゼロ」を $C\boldsymbol\beta=\boldsymbol h$ の形に書かせ、 $C$ と $q$ を特定させる。F統計量を「二次形式 $(C\hat\beta-h)^\top[\cdots]^{-1}(C\hat\beta-h)/q\div\hat\sigma^2$ 」と「残差平方和の差 $(\mathrm{RSS}_0-\mathrm{RSS})/q\div\hat\sigma^2$ 」の二通りで書け、同値であることを説明させる。自由度 $(q,\ n-p)$ の根拠まで。
推定可能関数の判定：過剰パラメータ化モデル $y_{ij}=\mu+\alpha_i+\varepsilon_{ij}$ で「 $\mu$ は推定不能・ $\mu+\alpha_i$ と対比は推定可能」を判定させ、推定可能の条件（ $\boldsymbol\lambda^\top$ が $X$ の行空間に属する／効果の線形結合なら係数和ゼロ）を述べさせる。
多重比較との接続：シェッフェ法が全対比の同時信頼区間を与えること、F検定との同値関係（F有意 ⇔ ゼロを含まない対比が存在）を問う。

6. 引っかけ・頻出論点

⚠️ 対比は係数和ゼロが必須： $\sum_i c_i=0$ を満たさない線形結合（例：単純平均 $\frac1a\sum\bar y_i$ ）は対比ではありません。係数和がゼロでないと全体水準に反応してしまい、「群間差を測る」という対比の意味が崩れます。「係数和ゼロ」を確認せず対比の平方和の公式を当てるのは誤り。
⚠️ 直交でない対比は平方和が分解しない： $SS_{treat}=\sum SS_{\psi_k}$ が成り立つのは対比が互いに直交（ $\sum c_id_i/n_i=0$ ）するときだけ。非直交の対比を足しても処理平方和に一致しません（重複カウント）。「対比をいくつか作れば自動で分解できる」は誤り。直交性の確認が前提です。
⚠️ 直交対比は最大 $a-1$ 本： $a$ 群の処理平方和の自由度は $a-1$ なので、互いに直交する対比は最大 $a-1$ 本しか取れません。 $a$ 本目以降は必ず既存の対比と直交できなくなります（自由度の上限）。
⚠️ 推定不能な関数が存在する：過剰パラメータ化モデルでは $\mu$ 単独・ $\alpha_i$ 単独のように推定できない関数がある。「線形モデルだから全パラメータが推定できる」は誤り。推定可能なのは $\boldsymbol\lambda^\top$ が $X$ の行空間に入る関数（効果なら係数和ゼロの対比）だけ。推定不能な量について信頼区間や検定を立てるのは無意味です。
⚠️ 一般線形仮説の二次形式は「分散行列の逆」で挟む：F分子は $(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)$ で、中央は $C\hat\beta$ の分散行列（の $\sigma^2$ を除いた部分）の逆です。 $(X^\top X)^{-1}$ をそのまま挟む、 $C^\top C$ で挟む、といった式は誤り。ズレを「自分のばらつき」で標準化するからこそカイ二乗になります。
⚠️ 制約を課すと残差平方和は増える（減らない）： $\mathrm{RSS}_0\ge\mathrm{RSS}$ が常に成り立ちます（制約は自由度を奪い当てはめを悪化させる方向）。差 $\mathrm{RSS}_0-\mathrm{RSS}$ は非負で、その自由度は制約の本数 $q$ 。「制約で残差が減ることがある」は誤り。
⚠️ シェッフェ法は保守的：全対比を保証する代償として検出力が低い。あらかじめ対比が少数に決まっているなら、テューキー法（全ペア比較）やボンフェローニ法の方が検出力で勝ることが多い。「多重比較は常にシェッフェ」は誤りで、保証したい対比の範囲で使い分けます。

よくある疑問（Q&A）

Q1. 対比の「係数和ゼロ」と推定可能関数の話は、結局同じことを言っているのですか?

実質同じ事実の二つの顔です。過剰パラメータ化モデル $y_{ij}=\mu+\alpha_i+\varepsilon_{ij}$ では、効果の線形結合 $\sum c_i\alpha_i$ が推定可能になる条件が「 $\sum c_i=0$ 」でした（§3.3）。一方、対比の定義もまさに「 $\sum c_i=0$ 」です。つまり「対比であること」と「効果の線形結合が（識別不能な $\mu$ を巻き込まずに）推定可能であること」は同じ条件に行き着きます。§1 では「係数和ゼロだと全体水準に反応しない」と幾何学的に説明し、§3 では「係数和ゼロだと推定不能な $\mu$ が消える」と代数的に説明しましたが、どちらも「 $\mu$ （共通の底上げ）を打ち消す」という同一の働きを別角度から見ているだけです。

Q2. 一般線形仮説のF統計量は、二次形式と残差平方和の差のどちらで覚えるべきですか?

両方とも理解しておくべきで、用途が違います。二次形式の形 $(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)/q\div\hat\sigma^2$ は、 $\hat\beta$ さえ手元にあれば追加のモデル当てはめなしに計算でき、「制約のズレを標準化する」という統計的意味が見えます。残差平方和の差の形 $(\mathrm{RSS}_0-\mathrm{RSS})/q\div\hat\sigma^2$ は、フルモデルと縮約モデルの二つを当てはめて比べるだけなので実装が直感的で、ネストしたモデル比較（変数選択など）と同じ枠組みで扱えます。§2.3 で示したとおり両者は恒等的に等しいので、計算しやすい方を使えばよく、試験では「同値であることの説明」を求められます。

Q3. なぜ $C$ はフルランクでないといけないのですか?

$C$ の行が互いに線形従属だと、制約が重複していて「本当の制約の本数」が行数 $q$ より少なくなります。例えば $\beta_1=\beta_2$ と $\beta_2=\beta_1$ を両方並べても新しい情報は1本ぶんしかありません。このとき分散行列 $V=C(X^\top X)^{-1}C^\top$ が特異になり、F統計量の中央の逆行列 $V^{-1}$ が存在しなくなります。 $C$ がフルランク（行階数 $q$ ）なら $V$ は正則で逆行列が定義でき、F分子の自由度がちょうど $q$ になります。要するに「 $C$ のフルランク＝制約が重複していない＝分子自由度が正しく $q$ 」という対応です。

Q4. 推定可能でない関数を「無理やり推定」したら何が起きますか?

推定可能でない関数 $\boldsymbol\lambda^\top\boldsymbol\beta$ （ $\boldsymbol\lambda^\top$ が $X$ の行空間の外）は、一般逆行列の選び方によって $\boldsymbol\lambda^\top\hat\beta$ の値が変わってしまいます。同じデータでも、ソフトウェアが内部でどの制約（例： $\sum\alpha_i=0$ か $\alpha_a=0$ か）を置くかで答えが違う、という事態です。つまり「推定値」が一意に決まらず、信頼区間も検定も意味を持ちません。これが「推定不能」の実害です。だからソフトウェアの出力でも、各効果の推定値は「ある基準（参照群など）を置いたうえでの相対値」として表示され、生の $\mu,\alpha_i$ そのものは出てきません。推定可能な量（対比や群平均）だけが、基準の置き方に依らず一意です。

Q5. シェッフェ法とF検定が同値というのは、どういう意味ですか?

「分散分析の全体F検定が水準 $\alpha$ で有意」であることと、「シェッフェ法（同じ $\alpha$ ）で信頼区間がゼロを含まない対比が少なくとも1本存在する」ことが、論理的に一致するという意味です。背景はこうです。シェッフェ法の臨界値 $\sqrt{(a-1)F_{\alpha;a-1,n-a}}$ は、考えうる全対比のうち最も有意になる対比（データに最もフィットする方向）を基準に作られています。その「最強の対比」がちょうど全体F検定に対応するため、F検定が棄却する ⇔ 最強の対比がゼロをまたがない、という同値が成り立ちます。実用上は「F検定で有意と出たのに、シェッフェでどの対比も有意にならない」という矛盾は起きない、と理解すれば十分です。

まとめ

線形対比：係数和ゼロ（ $\sum c_i=0$ ）の群平均線形結合 $\psi=\sum c_i\bar y_i$ 。全体水準に反応せず群間差だけを測る。分散は $\sigma^2\sum c_i^2/n_i$ 、対比の平方和は $SS_\psi=\hat\psi^2/\sum(c_i^2/n_i)$ （自由度1）で $F_\psi=SS_\psi/MS_E\sim F_{1,n-a}$ 。
直交対比と直交分解： $\sum c_id_i/n_i=0$ なら対比どうしは独立。互いに直交する $a-1$ 本の対比で処理平方和が $SS_{treat}=\sum SS_{\psi_k}$ と過不足なく分解できる（直交でないと分解しない）。
一般線形仮説： $H_0:C\boldsymbol\beta=\boldsymbol h$ （ $C$ は $q\times p$ フルランク）を $F=(C\hat\beta-h)^\top[C(X^\top X)^{-1}C^\top]^{-1}(C\hat\beta-h)/q\div\hat\sigma^2\sim F_{q,n-p}$ で検定。分子は二次形式（制約のズレを分散で標準化）で、これは縮約モデルとフルモデルの残差平方和の差 $(\mathrm{RSS}_0-\mathrm{RSS})$ に恒等的に等しい。自由度 $q$ は制約の本数。
推定可能関数：過剰パラメータ化モデルでは $\mu$ 単独などは推定不能。 $\boldsymbol\lambda^\top\boldsymbol\beta$ が推定可能 ⇔ $\boldsymbol\lambda^\top$ が $X$ の行空間に属する。効果の線形結合なら「係数和ゼロ＝対比」が推定可能条件で、対比は推定可能関数の代表例。推定可能なら $\boldsymbol\lambda^\top\hat\beta$ は一意かつBLUE。
多重比較との接続：シェッフェ法は全対比の同時信頼区間を与え、全体F検定と同値（F有意 ⇔ ゼロを含まない対比が存在）。保守的なので、対比が少数なら他法の方が検出力が高いことが多い。