ガウス・マルコフの定理とGLS｜統計検定テキスト

📊 対象級：1級　|　重要度：A（頻出）

要点（BLUF）

線形回帰モデル $y=X\beta+\varepsilon$ に、いくつかの古典的仮定（誤差の期待値0・等分散・無相関・説明変数は full rank）を置くと、最小二乗推定量（OLS）

\hat\beta=(X^\top X)^{-1}X^\top y

が最良線形不偏推定量（BLUE：Best Linear Unbiased Estimator）になります。これがガウス・マルコフの定理です。

\boxed{\; \mathrm{E}(\varepsilon)=0,\ \ \mathrm{Var}(\varepsilon)=\sigma^2 I \ \Longrightarrow\ \hat\beta=(X^\top X)^{-1}X^\top y\ \text{は BLUE} \;}

要するに「線形かつ不偏な推定量の中で、OLS が一番ばらつき（分散）が小さい」。重要なのは、ここに正規性は要らないこと。仮定は2次（分散・共分散）までで十分です。

ところが現実には等分散・無相関が崩れます（不均一分散・系列相関）。このとき $\mathrm{Var}(\varepsilon)=\sigma^2\Omega$ （ $\Omega\neq I$ ）となり、OLS は依然として不偏だが、もはや BLUE ではない（非効率）。さらに OLS の標準誤差の式が壊れ、検定・信頼区間が誤ります。この場合に BLUE を回復するのが**一般化最小二乗法（GLS）**です。

\boxed{\; \mathrm{Var}(\varepsilon)=\sigma^2\Omega \ \Longrightarrow\ \hat\beta_{\mathrm{GLS}}=(X^\top \Omega^{-1}X)^{-1}X^\top \Omega^{-1}y\ \text{が BLUE} \;}

GLS は「 $\Omega^{-1/2}$ でデータを変換して、誤差を等分散・無相関に戻し、変換後のモデルに古典的 OLS を当てる」だけで、ガウス・マルコフの定理にそのまま帰着します。1級（統計応用・計量経済の文脈）では、BLUE 性の主張と証明、GLS／WLS の使い分けと導出が頻出です（範囲・配点は改訂されうるため要最新確認）。

1. 線形回帰モデルと古典的仮定

ガウス・マルコフの定理の主張を正確に書くには、まずどんな仮定の下での話かを厳密に押さえる必要があります。これらの仮定こそが定理の前提条件であり、後で「どれが崩れると何が起きるか」を整理する基礎になります。

観測を $n$ 個、説明変数（パラメータ）を $k$ 個とし、行列で

y=X\beta+\varepsilon,\qquad y\in\mathbb{R}^{n},\ X\in\mathbb{R}^{n\times k},\ \beta\in\mathbb{R}^{k},\ \varepsilon\in\mathbb{R}^{n}

と書きます。要するに「観測ベクトル $y$ は、計画行列 $X$ に係数 $\beta$ を掛けた線形項と、誤差 $\varepsilon$ の和」。古典的仮定は次の通りです。

#	仮定	数式	意味
(A1)	線形性	$y=X\beta+\varepsilon$	モデルが係数 $\beta$ について線形
(A2)	誤差の期待値0	$\mathrm{E}(\varepsilon)=0$	系統的なズレがない（外生性の最小限）
(A3)	等分散・無相関	$\mathrm{Var}(\varepsilon)=\sigma^2 I$	各誤差の分散が一定 $\sigma^2$ で互いに無相関
(A4)	非確率・full rank	$X$ は非確率で $\mathrm{rank}(X)=k$	$X^\top X$ が正則（逆行列が存在）

(A3) を成分で書くと意味がはっきりします。

\mathrm{Var}(\varepsilon)=\sigma^2 I \iff \mathrm{Var}(\varepsilon_i)=\sigma^2\ (\text{すべての } i),\quad \mathrm{Cov}(\varepsilon_i,\varepsilon_j)=0\ (i\neq j)

要するに「全部の誤差が同じばらつきを持ち（等分散・homoscedastic）、互いに相関しない（無相関）」。この2つがセットで、共分散行列が $\sigma^2$ 倍の単位行列という最も扱いやすい形になります。

(A4) の full rank は、 $X^\top X$ が正則であることと同値で、 $(X^\top X)^{-1}$ が存在して OLS の式が定義できることを保証します（列が一次従属＝完全多重共線性だと逆行列が作れない。回帰の前提は重回帰分析を参照）。

正規性は仮定に入っていないことに注意。 $\varepsilon\sim N(0,\sigma^2 I)$ はガウス・マルコフの定理には不要です。正規性が要るのは「 $\hat\beta$ が全不偏推定量の中で最良（UMVUE）」と言いたいときや、 $t$ ・ $F$ 検定の厳密分布を出したいときです。ガウス・マルコフはあくまで「線形不偏の中で最良」であり、2次までの仮定（A1〜A4）だけで成立します。

2. OLS推定量とその基本性質

定理の証明に入る前に、OLS が満たす2つの性質——線形であることと不偏であること——を確認します。BLUE の “L”（線形）と “U”（不偏）に対応します。

2.1 OLS推定量の導出

OLS は残差平方和 $S(\beta)=(y-X\beta)^\top(y-X\beta)$ を最小化する $\beta$ です。 $\beta$ で微分してゼロと置くと（正規方程式）

\frac{\partial S}{\partial \beta}=-2X^\top(y-X\beta)=0 \ \Longrightarrow\ X^\top X\,\hat\beta=X^\top y \ \Longrightarrow\ \hat\beta=(X^\top X)^{-1}X^\top y

要するに「残差平方和が最小になる係数を解いた結果がこの式」。導出の詳細は単回帰・重回帰のノート（単回帰分析、重回帰分析）に譲り、ここでは結果を使います。

2.2 線形性

$\hat\beta$ は $y$ の線形変換です。行列 $C:=(X^\top X)^{-1}X^\top$ （ $k\times n$ 、 $X$ が非確率なので定数行列）を使えば

\hat\beta=Cy,\qquad C=(X^\top X)^{-1}X^\top

要するに「 $\hat\beta$ は観測 $y$ に既知の行列 $C$ を掛けただけ＝ $y$ について線形」。これが BLUE の “Linear”。なお $C$ は

CX=(X^\top X)^{-1}X^\top X=I_k

という重要な性質を満たします（後の証明で使う）。要するに「 $C$ を $X$ に掛けると単位行列に戻る」。

2.3 不偏性

$\hat\beta$ の期待値を取ります。 $y=X\beta+\varepsilon$ を代入し、 $\mathrm{E}(\varepsilon)=0$ （A2）を使うと

\mathrm{E}(\hat\beta)=\mathrm{E}\big[C(X\beta+\varepsilon)\big] =CX\beta+C\,\mathrm{E}(\varepsilon) =I_k\beta+0=\beta

要するに「OLS の期待値は真の係数 $\beta$ そのもの＝不偏」。これが BLUE の “Unbiased”。点推定量の不偏性の一般論は点推定（推定量の良さ：不偏性・一致性・有効性・十分性）を参照。

2.4 OLSの分散共分散行列

「最良（最小分散）」を論じる準備として、OLS の分散を計算します。 $\hat\beta-\beta=C\varepsilon$ （不偏性の計算の途中から）なので、 $\mathrm{Var}(\varepsilon)=\sigma^2 I$ （A3）を使い

\mathrm{Var}(\hat\beta)=\mathrm{Var}(C\varepsilon)=C\,\mathrm{Var}(\varepsilon)\,C^\top =C(\sigma^2 I)C^\top=\sigma^2 CC^\top

$CC^\top=(X^\top X)^{-1}X^\top X (X^\top X)^{-1}=(X^\top X)^{-1}$ なので

\boxed{\;\mathrm{Var}(\hat\beta)=\sigma^2 (X^\top X)^{-1}\;}

要するに「OLS のばらつきは $\sigma^2(X^\top X)^{-1}$ 」。ガウス・マルコフの定理は、これが「あらゆる線形不偏推定量の分散の中で最小（行列の意味で）」と主張します。

3. ガウス・マルコフの定理：証明

ここが本ノートの核心です。**任意の線形不偏推定量の分散共分散行列が、OLS の分散共分散行列より「大きい」（差が半正定値）**ことを省略なく示します。

3.1 主張の正確な定式化

OLS 以外の任意の線形推定量を $\tilde\beta=Ay$ （ $A$ は $k\times n$ の定数行列）とします。この $\tilde\beta$ が不偏であるとき、

\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)\ \text{は半正定値（positive semidefinite）}

これが定理の主張です。「分散行列の差が半正定値」が何を意味するかを明確にしておきます。任意の定数ベクトル $\ell\in\mathbb{R}^k$ に対し $\ell^\top[\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)]\ell\ge0$ 、すなわち

\mathrm{Var}(\ell^\top\tilde\beta)\ \ge\ \mathrm{Var}(\ell^\top\hat\beta)\quad(\text{任意の } \ell)

要するに「係数のどんな線形結合 $\ell^\top\beta$ を推定しても、OLS の方が分散が小さいか等しい」。 $\ell$ を単位ベクトルにとれば各係数 $\hat\beta_j$ の分散が最小、ということも含みます。これが「最良（Best）」の正確な意味です。

3.2 不偏性が課す制約（鍵となる条件 $AX=I$ ）

$\tilde\beta=Ay$ が不偏であるための条件を求めます。

\mathrm{E}(\tilde\beta)=\mathrm{E}\big[A(X\beta+\varepsilon)\big]=AX\beta+A\,\mathrm{E}(\varepsilon)=AX\beta

これが任意の $\beta$ について $\beta$ に等しくなければならないので

AX\beta=\beta\ (\forall\beta)\ \Longrightarrow\ \boxed{\,AX=I_k\,}

要するに「線形推定量 $Ay$ が不偏 $\iff AX=I_k$ 」。OLS の $C$ も $CX=I_k$ を満たしていたので、これは OLS が満たす条件の一般化です。

3.3 差分行列の導入と分散の分解

$A$ を OLS の $C$ からのズレで書きます。

D:=A-C=A-(X^\top X)^{-1}X^\top,\qquad \text{すなわち}\quad A=C+D

要するに「任意の線形不偏推定量 $A$ を『OLS の $C$ ＋ズレ $D$ 』に分解する」。ここで $D$ について重要な性質が出ます。 $AX=I_k$ と $CX=I_k$ から

DX=(A-C)X=AX-CX=I_k-I_k=0 \quad\Longrightarrow\quad \boxed{\,DX=0\,}

要するに「不偏という制約が、ズレ $D$ に「 $DX=0$ 」を強制する」。これが証明全体を回す鍵です。

次に $\tilde\beta=Ay$ の分散を計算します。 $\tilde\beta$ も不偏なので $\tilde\beta-\beta=A\varepsilon$ 、よって

\mathrm{Var}(\tilde\beta)=A\,\mathrm{Var}(\varepsilon)\,A^\top=\sigma^2 AA^\top

ここに $A=C+D$ を代入して展開します。

AA^\top=(C+D)(C+D)^\top =CC^\top+CD^\top+DC^\top+DD^\top

クロス項 $CD^\top$ と $DC^\top$ を $DX=0$ で消します。 $C=(X^\top X)^{-1}X^\top$ なので

CD^\top=(X^\top X)^{-1}X^\top D^\top=(X^\top X)^{-1}(DX)^\top=(X^\top X)^{-1}\cdot 0^\top=0

同様に $DC^\top=(DC^\top)$ も $DC^\top=D X(X^\top X)^{-1}=0\cdot(X^\top X)^{-1}=0$ 。要するに「不偏制約 $DX=0$ のおかげで、OLS 部分 $C$ とズレ $D$ のクロス項が完全に消える」。したがって

AA^\top=CC^\top+DD^\top=(X^\top X)^{-1}+DD^\top

両辺に $\sigma^2$ を掛けると

\mathrm{Var}(\tilde\beta)=\sigma^2 AA^\top =\underbrace{\sigma^2(X^\top X)^{-1}}_{=\,\mathrm{Var}(\hat\beta)}+\sigma^2 DD^\top

3.4 差は半正定値（結論）

移項すると

\boxed{\;\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)=\sigma^2 DD^\top\;}

ここで $DD^\top$ は任意の実行列 $D$ について半正定値です（グラム行列）。実際、任意のベクトル $\ell$ に対し

\ell^\top(DD^\top)\ell=(D^\top\ell)^\top(D^\top\ell)=\lVert D^\top\ell\rVert^2\ \ge\ 0

要するに「 $DD^\top$ は『あるベクトルとその転置の積』の形だから、必ず半正定値（差し引いて損はしない）」。 $\sigma^2>0$ なので $\sigma^2 DD^\top$ も半正定値。よって

\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)\ \succeq\ 0

すなわち任意の線形不偏推定量 $\tilde\beta$ の分散は、OLS の分散以上。これでガウス・マルコフの定理が証明できました。

等号が成り立つ（OLS と分散が完全に一致する）のは $D^\top\ell=0$ がすべての $\ell$ で成り立つとき、すなわち $D=0$ すなわち $A=C$ のとき。要するに「OLS と同じ分散を達成する線形不偏推定量は OLS だけ」。この意味で OLS は線形不偏クラスにおいて一意の最良推定量です。

4. 古典的仮定が崩れるとき

ガウス・マルコフの定理が効くのは (A1)〜(A4) が全部成り立つときだけ。現実には特に (A3) 等分散・無相関がよく崩れます。崩れ方は2つです。

4.1 不均一分散（heteroskedasticity）と系列相関

(A3) が崩れると、共分散行列は単位行列の定数倍ではなくなり、一般に

\mathrm{Var}(\varepsilon)=\sigma^2\Omega,\qquad \Omega\ \text{は既知の正定値対称行列}（\Omega\neq I）

と書けます。代表的な崩れ方：

不均一分散：分散が観測ごとに違う（ $\mathrm{Var}(\varepsilon_i)=\sigma_i^2$ ）。 $\Omega$ は対角行列だが対角成分が一定でない。横断面データ（所得が大きいほど誤差も大きい等）で典型的。
系列相関（自己相関）：誤差が互いに相関する（ $\mathrm{Cov}(\varepsilon_i,\varepsilon_j)\neq0$ ）。 $\Omega$ は非対角成分を持つ。時系列データで典型的（計量時系列の発展（単位根・共和分・ARCH/GARCH）で扱う AR 誤差など）。残差から崩れを診断する手順は残差分析・回帰診断を参照。

4.2 このとき OLS に何が起きるか（不偏だが非効率・標準誤差が誤る）

OLS vs GLS（不均一分散）

不均一分散では OLS（赤）は分散の大きい点に引っ張られ非効率。GLS/WLS（青）は分散の逆数で重み付けし精度の高い点を重視、真の直線（黒点線）に安定して近い。図は simulations/gls_vs_ols_keijou.py で生成。

ここは1級の頻出論点なので正確に整理します。 $\mathrm{Var}(\varepsilon)=\sigma^2\Omega$ の下で OLS $\hat\beta=Cy$ を使うと：

(i) 不偏性は保たれる。 不偏性の証明（2.3節）で使ったのは $\mathrm{E}(\varepsilon)=0$ （A2）だけで、(A3) は使っていません。よって

\mathrm{E}(\hat\beta)=\beta\quad(\text{依然として不偏})

要するに「等分散・無相関が崩れても、OLS は相変わらず的を外さない（不偏）」。

(ii) しかし非効率（もはや BLUE でない）。 OLS の真の分散は (A3) が崩れたので $\sigma^2(X^\top X)^{-1}$ ではなくなり、正しくは

\mathrm{Var}(\hat\beta)=C\,\mathrm{Var}(\varepsilon)\,C^\top=\sigma^2 C\Omega C^\top =\sigma^2(X^\top X)^{-1}X^\top \Omega X(X^\top X)^{-1}

これは後述の GLS の分散より（半正定値の意味で）大きい。要するに「OLS はまだ不偏だが、もっとばらつきの小さい推定量（GLS）が存在する＝OLS は無駄にばらついている＝非効率」。

(iii) 標準誤差の式が壊れる（検定・信頼区間が誤る）。 最も実務的に危険なのはこれです。ソフトウェアが既定で出す OLS の分散推定 $\hat\sigma^2(X^\top X)^{-1}$ は (A3) を仮定した式なので、(A3) が崩れていると真の分散 $\sigma^2 C\Omega C^\top$ と一致しません。

\hat\sigma^2(X^\top X)^{-1}\ \neq\ \sigma^2(X^\top X)^{-1}X^\top\Omega X(X^\top X)^{-1}

要するに「標準誤差を間違って計算する → $t$ 値・ $p$ 値・信頼区間が全部ズレる」。点推定は当たっているのに、その精度の見積もりが嘘になるのが不均一分散の本当の怖さです。対処は2系統：

崩れの構造を直す： $\Omega$ がわかれば（または推定できれば）GLS／WLSで BLUE を回復する（次節・本ノートの主題）。
標準誤差だけ直す：OLS の点推定はそのまま使い、分散推定だけを $\sigma^2 C\Omega C^\top$ を近似する**頑健標準誤差（ロバスト標準誤差・ホワイト標準誤差）**に差し替える。 $\Omega$ の構造を仮定せずに済む手軽さがあり、 $n$ が大きいとき有効。

5. 一般化最小二乗法（GLS）

$\mathrm{Var}(\varepsilon)=\sigma^2\Omega$ （ $\Omega$ 既知・正定値）のときに BLUE を回復する方法が一般化最小二乗法（GLS）、別名 Aitken 推定量です。核心は「 $\Omega^{-1/2}$ でモデルを変換して、誤差を等分散・無相関に戻し、変換後のモデルに古典的 OLS を当てる」——つまりガウス・マルコフの定理にそのまま帰着させることです。

5.1 $\Omega^{-1/2}$ 変換による導出

$\Omega$ は正定値対称行列なので、対称な平方根 $\Omega^{1/2}$ （ $\Omega^{1/2}\Omega^{1/2}=\Omega$ 、 $\Omega^{1/2}$ も対称正則）が存在し、その逆 $\Omega^{-1/2}$ も対称正則です（固有値分解 $\Omega=Q\Lambda Q^\top$ から $\Omega^{1/2}=Q\Lambda^{1/2}Q^\top$ として構成できる。多変量正規での同様の白色化は多変量正規分布参照）。これを使ってモデル全体を左から掛けます（変換）。

\underbrace{\Omega^{-1/2}y}_{=:y^\ast}=\underbrace{\Omega^{-1/2}X}_{=:X^\ast}\beta+\underbrace{\Omega^{-1/2}\varepsilon}_{=:\varepsilon^\ast} \quad\Longleftrightarrow\quad y^\ast=X^\ast\beta+\varepsilon^\ast

要するに「元のモデルの両辺に $\Omega^{-1/2}$ を掛けた、見た目だけ別の線形回帰」。係数 $\beta$ は変換しても同じであることに注意。狙いは、この変換後の誤差 $\varepsilon^\ast$ が等分散・無相関になっていることです。実際

\mathrm{Var}(\varepsilon^\ast)=\mathrm{Var}(\Omega^{-1/2}\varepsilon) =\Omega^{-1/2}\,\mathrm{Var}(\varepsilon)\,(\Omega^{-1/2})^\top =\Omega^{-1/2}(\sigma^2\Omega)\Omega^{-1/2}

$\Omega^{-1/2}$ は対称なので転置は自分自身。 $\Omega^{-1/2}\Omega\,\Omega^{-1/2}=\Omega^{-1/2}\Omega^{1/2}\Omega^{1/2}\Omega^{-1/2}=I$ より

\boxed{\;\mathrm{Var}(\varepsilon^\ast)=\sigma^2 I\;}

要するに「変換後の誤差はちょうど古典的仮定 (A3) を満たす（等分散・無相関に戻った）」。期待値も $\mathrm{E}(\varepsilon^\ast)=\Omega^{-1/2}\mathrm{E}(\varepsilon)=0$ で (A2) も満たす。つまり変換後のモデル $y^\ast=X^\ast\beta+\varepsilon^\ast$ にはガウス・マルコフの定理がそのまま使える。

だから変換後モデルに古典的 OLS を当てれば、それが BLUE です。

\hat\beta_{\mathrm{GLS}}=(X^{\ast\top}X^\ast)^{-1}X^{\ast\top}y^\ast

これを元の記号に戻します。 $X^\ast=\Omega^{-1/2}X$ 、 $y^\ast=\Omega^{-1/2}y$ なので

X^{\ast\top}X^\ast=(\Omega^{-1/2}X)^\top(\Omega^{-1/2}X)=X^\top\Omega^{-1/2}\Omega^{-1/2}X=X^\top\Omega^{-1}X

X^{\ast\top}y^\ast=(\Omega^{-1/2}X)^\top(\Omega^{-1/2}y)=X^\top\Omega^{-1}y

代入して

\boxed{\;\hat\beta_{\mathrm{GLS}}=(X^\top\Omega^{-1}X)^{-1}X^\top\Omega^{-1}y\;}

要するに「OLS の式の真ん中に $\Omega^{-1}$ を挟んだ形。 $\Omega=I$ なら OLS そのものに戻る」。 $\Omega^{-1}$ は「分散が大きい（信頼できない）観測ほど軽く、小さい観測ほど重く」効かせる重み付けの役割を果たします。

5.2 GLS が BLUE である理由と分散

GLS が BLUE であることは、上の導出からただちに従います。変換後モデルは古典的仮定を満たし、 $\hat\beta_{\mathrm{GLS}}$ はその OLS なので、ガウス・マルコフの定理により変換後モデルにおける BLUE。そして「変換後モデルの線形不偏推定量」と「元モデルの線形不偏推定量」は $\Omega^{-1/2}$ が正則だから1対1に対応する（ $\Omega^{-1/2}$ で写しても線形性・不偏性は保たれる）ので、 $\hat\beta_{\mathrm{GLS}}$ は元のモデルにおいても線形不偏推定量の中で BLUE。これが Aitken の定理です。

GLS の分散は、変換後モデルの OLS の分散 $\sigma^2(X^{\ast\top}X^\ast)^{-1}$ をそのまま書けば

\boxed{\;\mathrm{Var}(\hat\beta_{\mathrm{GLS}})=\sigma^2(X^\top\Omega^{-1}X)^{-1}\;}

要するに「GLS のばらつきは $\sigma^2(X^\top\Omega^{-1}X)^{-1}$ 」。ガウス・マルコフの定理を $\Omega\neq I$ の世界に持ち上げた結果として、これが（ $\Omega$ が崩れている状況での）線形不偏推定量の最小分散です。前節で見た OLS の真の分散 $\sigma^2(X^\top X)^{-1}X^\top\Omega X(X^\top X)^{-1}$ との差は半正定値（OLS の方が大きい）であり、これが「OLS は不偏だが非効率、GLS が効率的」の数式的な中身です。

5.3 重み付き最小二乗法（WLS）： $\Omega$ が対角の特別な場合

不均一分散だが無相関のときは $\Omega$ が対角行列になります。

\Omega=\mathrm{diag}(\omega_1,\dots,\omega_n),\qquad \mathrm{Var}(\varepsilon_i)=\sigma^2\omega_i

このとき GLS は特に**重み付き最小二乗法（WLS：Weighted Least Squares）**と呼ばれ、 $\Omega^{-1}=\mathrm{diag}(1/\omega_1,\dots,1/\omega_n)$ なので、各観測を $w_i=1/\omega_i$ で重みづけた残差平方和

\hat\beta_{\mathrm{WLS}}=\arg\min_\beta\ \sum_{i=1}^n w_i\,(y_i-x_i^\top\beta)^2,\qquad w_i=\frac{1}{\omega_i}

を最小化することに等しくなります。要するに「ばらつきが大きい観測（ $\omega_i$ 大）ほど軽く、小さい観測ほど重く扱って二乗和を最小化する」。 $\Omega^{-1/2}=\mathrm{diag}(1/\sqrt{\omega_i})$ による変換は「各行（各観測）をその誤差の標準偏差 $\sqrt{\omega_i}$ で割る」操作になり、割った後はみな等分散になる、という直観そのものです。WLS は GLS の特別ケース（ $\Omega$ 対角）に過ぎません。

5.4 実行可能GLS（FGLS）： $\Omega$ が未知のとき

ここまでは $\Omega$ が既知という前提でした。しかし現実には $\Omega$ （誤差の相関・分散構造）は普通わからない。そこで2段階で進めます。これが**実行可能GLS（FGLS：Feasible GLS）**です。

第1段階：まず OLS で回帰し、残差から Ω の構造を推定して Ω̂ を作る
第2段階：Ω̂ を真の Ω の代わりに使って GLS を実行する

数式では、推定した $\hat\Omega$ を $\Omega$ に代入して

\hat\beta_{\mathrm{FGLS}}=(X^\top\hat\Omega^{-1}X)^{-1}X^\top\hat\Omega^{-1}y

要するに「 $\Omega$ がわからないから、まず OLS の残差で $\Omega$ を当てて（ $\hat\Omega$ ）、それを使って GLS する」。 $\hat\Omega$ を作るには、誤差構造にモデルを仮定する必要があります（不均一分散なら分散関数 $\sigma_i^2=h(x_i)$ を推定、系列相関なら AR モデルを当てる、など）。

FGLS の理論的注意（1級で問われうる）： $\hat\Omega$ は推定値で誤差を含むため、FGLS は厳密には BLUE ではない。 $\hat\Omega$ が真の $\Omega$ に一致するのは標本が大きいときの漸近的な話で、FGLS の良い性質（一致性・漸近効率）は**漸近的（ $n\to\infty$ ）**にしか保証されません。「GLS は BLUE」だが「FGLS は漸近的にしか GLS の効率に届かない」——この区別が頻出の引っかけです。

6. 全体像：OLS → 仮定が崩れる → GLS/WLS の判断フロー

ここまでの流れを1枚にまとめます。

flowchart TD
  S["線形回帰モデル<br/>y = Xβ + ε"] --> A2{"E(ε)=0 か？<br/>（A2 外生性）"}
  A2 -- いいえ --> NG["OLS は不偏ですらない<br/>（内生性。GM定理の対象外）"]
  A2 -- はい --> A3{"Var(ε)=σ²I か？<br/>（A3 等分散・無相関）"}
  A3 -- "はい（成立）" --> OLS["OLS = (XᵀX)⁻¹Xᵀy<br/>ガウス・マルコフ定理 → BLUE"]
  A3 -- "いいえ（崩れる）" --> Het["Var(ε)=σ²Ω, Ω≠I<br/>OLS は不偏だが非効率・標準誤差が誤る"]
  Het --> Diag{"Ω は対角か？<br/>（不均一分散のみ）"}
  Diag -- "はい（対角）" --> WLS["WLS = 重み wᵢ=1/ωᵢ で<br/>重みづけ最小二乗（GLS の特例）"]
  Diag -- "いいえ（非対角）" --> GLS["GLS = (XᵀΩ⁻¹X)⁻¹XᵀΩ⁻¹y<br/>系列相関も含め BLUE を回復"]
  Het --> Known{"Ω は既知か？"}
  Known -- "いいえ（未知）" --> FGLS["FGLS：残差から Ω̂ を推定し<br/>GLS（厳密には漸近的に効率的）"]
  Known -- "いいえ（構造を仮定したくない）" --> Robust["OLS の点推定はそのまま<br/>＋ ロバスト標準誤差（検定だけ補正）"]

要するに「まず外生性 (A2) が要。これが崩れたら GM 定理の土俵外。(A2) があって (A3) も成り立てば OLS が BLUE。(A3) が崩れたら GLS（対角なら WLS）で BLUE を回復。 $\Omega$ が未知なら FGLS かロバスト標準誤差」。

7. 引っかけ・頻出論点

⚠️ BLUE は「線形・不偏」クラスの中での最良：ガウス・マルコフは「線形かつ不偏な推定量の中で OLS が最小分散」と言っているだけです。この縛りを外せば——非線形な推定量や、わざとバイアスを許す推定量（リッジ回帰など、正則化（リッジ・Lasso）参照）なら、OLS より MSE が小さくなることがあります。「OLS はあらゆる推定量の中で最良」は誤り。
⚠️ 正規性は不要：ガウス・マルコフの定理に $\varepsilon\sim N(0,\sigma^2 I)$ は要りません。仮定は2次（分散・共分散）まで（A1〜A4）。正規性が要るのは「全不偏推定量の中での最良（UMVUE/有効性）」や $t$ ・ $F$ 検定の厳密分布のとき。「BLUE には正規分布が必要」は誤り。
⚠️ 不均一分散でも OLS は不偏：(A3) が崩れても不偏性（ $\mathrm{E}\hat\beta=\beta$ ）は保たれます。失われるのは効率性（最小分散）と標準誤差の正しさ。「不均一分散だと OLS が偏る」は誤り——偏るのではなく非効率になり、かつ標準誤差を誤算します。
⚠️ 標準誤差の式が壊れる方が実害が大きい：点推定が当たっていても、既定の $\hat\sigma^2(X^\top X)^{-1}$ が真の分散 $\sigma^2(X^\top X)^{-1}X^\top\Omega X(X^\top X)^{-1}$ とズレるため、 $t$ 値・ $p$ 値・信頼区間が全部信用できなくなります。対処はロバスト標準誤差か GLS/WLS。
⚠️ WLS は GLS の特別ケース： $\Omega$ が対角（不均一分散のみ・無相関）のときの GLS が WLS。系列相関で $\Omega$ が非対角なら WLS では足りず、フルの GLS が要ります。「WLS と GLS は別物」ではなく包含関係。
⚠️ GLS（ $\Omega$ 既知）は BLUE だが FGLS（ $\Omega$ 推定）は厳密には BLUE でない：FGLS は $\hat\Omega$ の推定誤差を含むため、効率性は漸近的にしか保証されません。「FGLS は BLUE」は不正確。
⚠️ full rank が前提： $X^\top X$ が正則（完全多重共線性がない）でなければ $(X^\top X)^{-1}$ も $(X^\top\Omega^{-1}X)^{-1}$ も作れず、定理も GLS も土台から崩れます。

よくある疑問（Q&A）

Q1. ガウス・マルコフの定理に正規分布の仮定は本当に要らないのですか?

要りません。定理の証明（3章）で使ったのは $\mathrm{E}(\varepsilon)=0$ と $\mathrm{Var}(\varepsilon)=\sigma^2 I$ という1次・2次のモーメントの仮定だけで、分布の形（正規かどうか）は一切使っていません。だから誤差がどんな分布でも、期待値0・等分散・無相関でさえあれば OLS は BLUE です。正規性が登場するのは、(i)「線形に限らない全不偏推定量の中で最良（UMVUE/有効性）」を言いたいとき、(ii) $t$ ・ $F$ 統計量の厳密な標本分布を導きたいとき。ガウス・マルコフはあくまで「線形不偏クラスの中での最良」なので正規性は不要、というのが正確な切り分けです。

Q2. 「最良（Best）」とは具体的に何が最小なのですか? スカラーの分散ではないのですか?

行列の意味での最小です。OLS の分散共分散行列 $\mathrm{Var}(\hat\beta)$ と任意の線形不偏推定量の分散共分散行列 $\mathrm{Var}(\tilde\beta)$ を比べて、差 $\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)$ が半正定値であることを「OLS が最良」と呼びます。これはスカラーに翻訳でき、任意の線形結合 $\ell^\top\beta$ の推定について $\mathrm{Var}(\ell^\top\hat\beta)\le\mathrm{Var}(\ell^\top\tilde\beta)$ ということ。 $\ell$ を単位ベクトルにとれば各係数 $\hat\beta_j$ の分散が最小、 $\ell$ を予測点にとれば予測の分散が最小、と何にでも効きます。だから「ある1つの量の分散」ではなく「係数のあらゆる線形結合の分散が同時に最小」という強い意味です。

Q3. 不均一分散があると、回帰の結果（係数の推定値）は信用できないのですか?

係数の点推定値そのものは信用できます。OLS は不均一分散があっても不偏だからです（的は外していない）。信用できなくなるのは標準誤差・ $t$ 値・ $p$ 値・信頼区間の方です。既定の標準誤差は等分散を仮定した式で計算されるので、不均一分散の下では真の精度とズレ、検定が甘すぎたり厳しすぎたりします。だから「係数の値は使えるが、その有意性の判定は補正が要る」が正しい理解。補正は、構造がわかれば GLS/WLS で効率も回復、構造を仮定したくなければロバスト（ホワイト）標準誤差で検定だけ直す、の2択です。

Q4. GLS と WLS の違いは何ですか? どう使い分けますか?

WLS は GLS の特別ケースです。誤差の共分散行列 $\Omega$ が対角（＝不均一分散はあるが誤差どうしは無相関）のときの GLS が WLS。このとき重み $w_i=1/\omega_i$ で各観測を重みづけるだけで済みます。一方、誤差が互いに相関している（系列相関・クラスタ相関など）と $\Omega$ は非対角になり、対角の重みづけでは足りず、 $\Omega^{-1}$ をフルに使う一般の GLS が要ります。使い分けの目安は「誤差が無相関で分散だけ不均一 → WLS、誤差に相関がある → フルの GLS」。横断面データの不均一分散は WLS、時系列の自己相関は GLS、というのが典型です。

Q5. 実際には $\Omega$ がわからないのに、GLS は使えるのですか?

そのままでは使えません。だから現実には $\Omega$ を残差から推定して代入する実行可能GLS（FGLS）を使います。手順は「①まず OLS で回帰 → ②残差を見て $\Omega$ の構造（不均一分散の分散関数や AR 誤差など）を推定して $\hat\Omega$ を作る → ③ $\hat\Omega$ で GLS する」。ただし $\hat\Omega$ は推定値なので、FGLS は厳密には BLUE ではなく、効率性は標本が大きいときの漸近的な性質としてしか保証されません。 $\Omega$ の構造を仮定したくない／標本が大きい場合は、いっそ GLS をやめて OLS ＋ロバスト標準誤差で済ませる選択肢もあります。

まとめ

古典的仮定（A1 線形性／A2 $\mathrm{E}\varepsilon=0$ ／A3 $\mathrm{Var}\varepsilon=\sigma^2 I$ 等分散・無相関／A4 $X$ 非確率・full rank）の下で、ガウス・マルコフの定理：OLS $\hat\beta=(X^\top X)^{-1}X^\top y$ は BLUE（線形不偏の中で最小分散）。正規性は不要。
証明の骨子：任意の線形不偏 $\tilde\beta=Ay$ を $A=C+D$ と分解。不偏性が $DX=0$ を強制し、クロス項が消えて $\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)=\sigma^2 DD^\top\succeq0$ （グラム行列ゆえ半正定値）。等号は $D=0$ 、すなわち OLS のみ。
(A3) が崩れると $\mathrm{Var}(\varepsilon)=\sigma^2\Omega$ （不均一分散： $\Omega$ 対角／系列相関： $\Omega$ 非対角）。OLS は不偏だが非効率、かつ標準誤差の式が壊れて検定・区間が誤る。
GLS： $\Omega^{-1/2}$ で変換すると $\mathrm{Var}(\varepsilon^\ast)=\sigma^2 I$ に戻り、変換後モデルの OLS がガウス・マルコフにより BLUE。元の記号で $\hat\beta_{\mathrm{GLS}}=(X^\top\Omega^{-1}X)^{-1}X^\top\Omega^{-1}y$ 、分散 $\sigma^2(X^\top\Omega^{-1}X)^{-1}$ （Aitken の定理）。
WLS は $\Omega$ 対角の GLS（重み $w_i=1/\omega_i$ ）。FGLS は $\Omega$ 未知時に残差から $\hat\Omega$ を推定して代入（厳密には漸近的にのみ効率的）。
引っかけ：BLUE は線形不偏クラス内の最良（非線形・有偏ならもっと良いことも）／正規性不要／不均一分散で OLS は不偏だが標準誤差を誤る／WLS⊂GLS／FGLS は厳密には BLUE でない。