← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:A(頻出)

要点(BLUF)

線形回帰モデル y=Xβ+εy=X\beta+\varepsilon に、いくつかの古典的仮定(誤差の期待値0・等分散・無相関・説明変数は full rank)を置くと、最小二乗推定量(OLS)

β^=(XX)1Xy\hat\beta=(X^\top X)^{-1}X^\top y

最良線形不偏推定量(BLUE:Best Linear Unbiased Estimator)になります。これがガウス・マルコフの定理です。

  E(ε)=0,  Var(ε)=σ2I  β^=(XX)1Xy は BLUE  \boxed{\; \mathrm{E}(\varepsilon)=0,\ \ \mathrm{Var}(\varepsilon)=\sigma^2 I \ \Longrightarrow\ \hat\beta=(X^\top X)^{-1}X^\top y\ \text{は BLUE} \;}

要するに「線形かつ不偏な推定量の中で、OLS が一番ばらつき(分散)が小さい」。重要なのは、ここに正規性は要らないこと。仮定は2次(分散・共分散)までで十分です。

ところが現実には等分散・無相関が崩れます(不均一分散・系列相関)。このとき Var(ε)=σ2Ω\mathrm{Var}(\varepsilon)=\sigma^2\OmegaΩI\Omega\neq I)となり、OLS は依然として不偏だが、もはや BLUE ではない(非効率)。さらに OLS の標準誤差の式が壊れ、検定・信頼区間が誤ります。この場合に BLUE を回復するのが**一般化最小二乗法(GLS)**です。

  Var(ε)=σ2Ω  β^GLS=(XΩ1X)1XΩ1y が BLUE  \boxed{\; \mathrm{Var}(\varepsilon)=\sigma^2\Omega \ \Longrightarrow\ \hat\beta_{\mathrm{GLS}}=(X^\top \Omega^{-1}X)^{-1}X^\top \Omega^{-1}y\ \text{が BLUE} \;}

GLS は「Ω1/2\Omega^{-1/2} でデータを変換して、誤差を等分散・無相関に戻し、変換後のモデルに古典的 OLS を当てる」だけで、ガウス・マルコフの定理にそのまま帰着します。1級(統計応用・計量経済の文脈)では、BLUE 性の主張と証明、GLS/WLS の使い分けと導出が頻出です(範囲・配点は改訂されうるため要最新確認)。


1. 線形回帰モデルと古典的仮定

ガウス・マルコフの定理の主張を正確に書くには、まずどんな仮定の下での話かを厳密に押さえる必要があります。これらの仮定こそが定理の前提条件であり、後で「どれが崩れると何が起きるか」を整理する基礎になります。

観測を nn 個、説明変数(パラメータ)を kk 個とし、行列で

y=Xβ+ε,yRn, XRn×k, βRk, εRny=X\beta+\varepsilon,\qquad y\in\mathbb{R}^{n},\ X\in\mathbb{R}^{n\times k},\ \beta\in\mathbb{R}^{k},\ \varepsilon\in\mathbb{R}^{n}

と書きます。要するに「観測ベクトル yy は、計画行列 XX に係数 β\beta を掛けた線形項と、誤差 ε\varepsilon の和」。古典的仮定は次の通りです。

#仮定数式意味
(A1)線形性y=Xβ+εy=X\beta+\varepsilonモデルが係数 β\beta について線形
(A2)誤差の期待値0E(ε)=0\mathrm{E}(\varepsilon)=0系統的なズレがない(外生性の最小限)
(A3)等分散・無相関Var(ε)=σ2I\mathrm{Var}(\varepsilon)=\sigma^2 I各誤差の分散が一定 σ2\sigma^2 で互いに無相関
(A4)非確率・full rankXX は非確率で rank(X)=k\mathrm{rank}(X)=kXXX^\top X が正則(逆行列が存在)

(A3) を成分で書くと意味がはっきりします。

Var(ε)=σ2I    Var(εi)=σ2 (すべての i),Cov(εi,εj)=0 (ij)\mathrm{Var}(\varepsilon)=\sigma^2 I \iff \mathrm{Var}(\varepsilon_i)=\sigma^2\ (\text{すべての } i),\quad \mathrm{Cov}(\varepsilon_i,\varepsilon_j)=0\ (i\neq j)

要するに「全部の誤差が同じばらつきを持ち(等分散・homoscedastic)、互いに相関しない(無相関)」。この2つがセットで、共分散行列が σ2\sigma^2 倍の単位行列という最も扱いやすい形になります。

(A4) の full rank は、XXX^\top X が正則であることと同値で、(XX)1(X^\top X)^{-1} が存在して OLS の式が定義できることを保証します(列が一次従属=完全多重共線性だと逆行列が作れない。回帰の前提は 重回帰分析 を参照)。

正規性は仮定に入っていないことに注意。εN(0,σ2I)\varepsilon\sim N(0,\sigma^2 I)ガウス・マルコフの定理には不要です。正規性が要るのは「β^\hat\beta全不偏推定量の中で最良(UMVUE)」と言いたいときや、ttFF 検定の厳密分布を出したいときです。ガウス・マルコフはあくまで「線形不偏の中で最良」であり、2次までの仮定(A1〜A4)だけで成立します。


2. OLS推定量とその基本性質

定理の証明に入る前に、OLS が満たす2つの性質——線形であること不偏であること——を確認します。BLUE の “L”(線形)と “U”(不偏)に対応します。

2.1 OLS推定量の導出

OLS は残差平方和 S(β)=(yXβ)(yXβ)S(\beta)=(y-X\beta)^\top(y-X\beta) を最小化する β\beta です。β\beta で微分してゼロと置くと(正規方程式)

Sβ=2X(yXβ)=0  XXβ^=Xy  β^=(XX)1Xy\frac{\partial S}{\partial \beta}=-2X^\top(y-X\beta)=0 \ \Longrightarrow\ X^\top X\,\hat\beta=X^\top y \ \Longrightarrow\ \hat\beta=(X^\top X)^{-1}X^\top y

要するに「残差平方和が最小になる係数を解いた結果がこの式」。導出の詳細は単回帰・重回帰のノート(単回帰分析重回帰分析)に譲り、ここでは結果を使います。

2.2 線形性

β^\hat\betayy の線形変換です。行列 C:=(XX)1XC:=(X^\top X)^{-1}X^\topk×nk\times nXX が非確率なので定数行列)を使えば

β^=Cy,C=(XX)1X\hat\beta=Cy,\qquad C=(X^\top X)^{-1}X^\top

要するに「β^\hat\beta は観測 yy に既知の行列 CC を掛けただけ= yy について線形」。これが BLUE の “Linear”。なお CC

CX=(XX)1XX=IkCX=(X^\top X)^{-1}X^\top X=I_k

という重要な性質を満たします(後の証明で使う)。要するに「CCXX に掛けると単位行列に戻る」。

2.3 不偏性

β^\hat\beta の期待値を取ります。y=Xβ+εy=X\beta+\varepsilon を代入し、E(ε)=0\mathrm{E}(\varepsilon)=0(A2)を使うと

E(β^)=E[C(Xβ+ε)]=CXβ+CE(ε)=Ikβ+0=β\mathrm{E}(\hat\beta)=\mathrm{E}\big[C(X\beta+\varepsilon)\big] =CX\beta+C\,\mathrm{E}(\varepsilon) =I_k\beta+0=\beta

要するに「OLS の期待値は真の係数 β\beta そのもの=不偏」。これが BLUE の “Unbiased”。点推定量の不偏性の一般論は 点推定(推定量の良さ:不偏性・一致性・有効性・十分性) を参照。

2.4 OLSの分散共分散行列

「最良(最小分散)」を論じる準備として、OLS の分散を計算します。β^β=Cε\hat\beta-\beta=C\varepsilon(不偏性の計算の途中から)なので、Var(ε)=σ2I\mathrm{Var}(\varepsilon)=\sigma^2 I(A3)を使い

Var(β^)=Var(Cε)=CVar(ε)C=C(σ2I)C=σ2CC\mathrm{Var}(\hat\beta)=\mathrm{Var}(C\varepsilon)=C\,\mathrm{Var}(\varepsilon)\,C^\top =C(\sigma^2 I)C^\top=\sigma^2 CC^\top

CC=(XX)1XX(XX)1=(XX)1CC^\top=(X^\top X)^{-1}X^\top X (X^\top X)^{-1}=(X^\top X)^{-1} なので

  Var(β^)=σ2(XX)1  \boxed{\;\mathrm{Var}(\hat\beta)=\sigma^2 (X^\top X)^{-1}\;}

要するに「OLS のばらつきは σ2(XX)1\sigma^2(X^\top X)^{-1}」。ガウス・マルコフの定理は、これが「あらゆる線形不偏推定量の分散の中で最小(行列の意味で)」と主張します。


3. ガウス・マルコフの定理:証明

ここが本ノートの核心です。**任意の線形不偏推定量の分散共分散行列が、OLS の分散共分散行列より「大きい」(差が半正定値)**ことを省略なく示します。

3.1 主張の正確な定式化

OLS 以外の任意の線形推定量を β~=Ay\tilde\beta=AyAAk×nk\times n の定数行列)とします。この β~\tilde\beta不偏であるとき、

Var(β~)Var(β^) は半正定値(positive semidefinite)\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)\ \text{は半正定値(positive semidefinite)}

これが定理の主張です。「分散行列の差が半正定値」が何を意味するかを明確にしておきます。任意の定数ベクトル Rk\ell\in\mathbb{R}^k に対し [Var(β~)Var(β^)]0\ell^\top[\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)]\ell\ge0、すなわち

Var(β~)  Var(β^)(任意の )\mathrm{Var}(\ell^\top\tilde\beta)\ \ge\ \mathrm{Var}(\ell^\top\hat\beta)\quad(\text{任意の } \ell)

要するに「係数のどんな線形結合 β\ell^\top\beta を推定しても、OLS の方が分散が小さいか等しい」。\ell を単位ベクトルにとれば各係数 β^j\hat\beta_j の分散が最小、ということも含みます。これが「最良(Best)」の正確な意味です。

3.2 不偏性が課す制約(鍵となる条件 AX=IAX=I

β~=Ay\tilde\beta=Ay が不偏であるための条件を求めます。

E(β~)=E[A(Xβ+ε)]=AXβ+AE(ε)=AXβ\mathrm{E}(\tilde\beta)=\mathrm{E}\big[A(X\beta+\varepsilon)\big]=AX\beta+A\,\mathrm{E}(\varepsilon)=AX\beta

これが任意の β\beta について β\beta に等しくなければならないので

AXβ=β (β)  AX=IkAX\beta=\beta\ (\forall\beta)\ \Longrightarrow\ \boxed{\,AX=I_k\,}

要するに「線形推定量 AyAy が不偏     AX=Ik\iff AX=I_k」。OLS の CCCX=IkCX=I_k を満たしていたので、これは OLS が満たす条件の一般化です。

3.3 差分行列の導入と分散の分解

AA を OLS の CC からのズレで書きます。

D:=AC=A(XX)1X,すなわちA=C+DD:=A-C=A-(X^\top X)^{-1}X^\top,\qquad \text{すなわち}\quad A=C+D

要するに「任意の線形不偏推定量 AA を『OLS の CC + ズレ DD』に分解する」。ここで DD について重要な性質が出ます。AX=IkAX=I_kCX=IkCX=I_k から

DX=(AC)X=AXCX=IkIk=0DX=0DX=(A-C)X=AX-CX=I_k-I_k=0 \quad\Longrightarrow\quad \boxed{\,DX=0\,}

要するに「不偏という制約が、ズレ DD に「DX=0DX=0」を強制する」。これが証明全体を回す鍵です。

次に β~=Ay\tilde\beta=Ay の分散を計算します。β~\tilde\beta も不偏なので β~β=Aε\tilde\beta-\beta=A\varepsilon、よって

Var(β~)=AVar(ε)A=σ2AA\mathrm{Var}(\tilde\beta)=A\,\mathrm{Var}(\varepsilon)\,A^\top=\sigma^2 AA^\top

ここに A=C+DA=C+D を代入して展開します。

AA=(C+D)(C+D)=CC+CD+DC+DDAA^\top=(C+D)(C+D)^\top =CC^\top+CD^\top+DC^\top+DD^\top

クロス項 CDCD^\topDCDC^\topDX=0DX=0 で消します。C=(XX)1XC=(X^\top X)^{-1}X^\top なので

CD=(XX)1XD=(XX)1(DX)=(XX)10=0CD^\top=(X^\top X)^{-1}X^\top D^\top=(X^\top X)^{-1}(DX)^\top=(X^\top X)^{-1}\cdot 0^\top=0

同様に DC=(DC)DC^\top=(DC^\top)DC=DX(XX)1=0(XX)1=0DC^\top=D X(X^\top X)^{-1}=0\cdot(X^\top X)^{-1}=0。要するに「不偏制約 DX=0DX=0 のおかげで、OLS 部分 CC とズレ DD のクロス項が完全に消える」。したがって

AA=CC+DD=(XX)1+DDAA^\top=CC^\top+DD^\top=(X^\top X)^{-1}+DD^\top

両辺に σ2\sigma^2 を掛けると

Var(β~)=σ2AA=σ2(XX)1=Var(β^)+σ2DD\mathrm{Var}(\tilde\beta)=\sigma^2 AA^\top =\underbrace{\sigma^2(X^\top X)^{-1}}_{=\,\mathrm{Var}(\hat\beta)}+\sigma^2 DD^\top

3.4 差は半正定値(結論)

移項すると

  Var(β~)Var(β^)=σ2DD  \boxed{\;\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)=\sigma^2 DD^\top\;}

ここで DDDD^\top は任意の実行列 DD について半正定値です(グラム行列)。実際、任意のベクトル \ell に対し

(DD)=(D)(D)=D2  0\ell^\top(DD^\top)\ell=(D^\top\ell)^\top(D^\top\ell)=\lVert D^\top\ell\rVert^2\ \ge\ 0

要するに「DDDD^\top は『あるベクトルとその転置の積』の形だから、必ず半正定値(差し引いて損はしない)」。σ2>0\sigma^2>0 なので σ2DD\sigma^2 DD^\top も半正定値。よって

Var(β~)Var(β^)  0\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta)\ \succeq\ 0

すなわち任意の線形不偏推定量 β~\tilde\beta の分散は、OLS の分散以上。これでガウス・マルコフの定理が証明できました。

等号が成り立つ(OLS と分散が完全に一致する)のは D=0D^\top\ell=0 がすべての \ell で成り立つとき、すなわち D=0D=0 すなわち A=CA=C のとき。要するに「OLS と同じ分散を達成する線形不偏推定量は OLS だけ」。この意味で OLS は線形不偏クラスにおいて一意の最良推定量です。


4. 古典的仮定が崩れるとき

ガウス・マルコフの定理が効くのは (A1)〜(A4) が全部成り立つときだけ。現実には特に (A3) 等分散・無相関がよく崩れます。崩れ方は2つです。

4.1 不均一分散(heteroskedasticity)と系列相関

(A3) が崩れると、共分散行列は単位行列の定数倍ではなくなり、一般に

Var(ε)=σ2Ω,Ω は既知の正定値対称行列(ΩI\mathrm{Var}(\varepsilon)=\sigma^2\Omega,\qquad \Omega\ \text{は既知の正定値対称行列}(\Omega\neq I)

と書けます。代表的な崩れ方:

4.2 このとき OLS に何が起きるか(不偏だが非効率・標準誤差が誤る)

OLS vs GLS(不均一分散)

不均一分散では OLS(赤)は分散の大きい点に引っ張られ非効率。GLS/WLS(青)は分散の逆数で重み付けし精度の高い点を重視、真の直線(黒点線)に安定して近い。図は simulations/gls_vs_ols_keijou.py で生成。

ここは1級の頻出論点なので正確に整理します。Var(ε)=σ2Ω\mathrm{Var}(\varepsilon)=\sigma^2\Omega の下で OLS β^=Cy\hat\beta=Cy を使うと:

(i) 不偏性は保たれる。 不偏性の証明(2.3節)で使ったのは E(ε)=0\mathrm{E}(\varepsilon)=0(A2)だけで、(A3) は使っていません。よって

E(β^)=β(依然として不偏)\mathrm{E}(\hat\beta)=\beta\quad(\text{依然として不偏})

要するに「等分散・無相関が崩れても、OLS は相変わらず的を外さない(不偏)」。

(ii) しかし非効率(もはや BLUE でない)。 OLS の真の分散は (A3) が崩れたので σ2(XX)1\sigma^2(X^\top X)^{-1} ではなくなり、正しくは

Var(β^)=CVar(ε)C=σ2CΩC=σ2(XX)1XΩX(XX)1\mathrm{Var}(\hat\beta)=C\,\mathrm{Var}(\varepsilon)\,C^\top=\sigma^2 C\Omega C^\top =\sigma^2(X^\top X)^{-1}X^\top \Omega X(X^\top X)^{-1}

これは後述の GLS の分散より(半正定値の意味で)大きい。要するに「OLS はまだ不偏だが、もっとばらつきの小さい推定量(GLS)が存在する=OLS は無駄にばらついている=非効率」。

(iii) 標準誤差の式が壊れる(検定・信頼区間が誤る)。 最も実務的に危険なのはこれです。ソフトウェアが既定で出す OLS の分散推定 σ^2(XX)1\hat\sigma^2(X^\top X)^{-1} は (A3) を仮定した式なので、(A3) が崩れていると真の分散 σ2CΩC\sigma^2 C\Omega C^\top と一致しません。

σ^2(XX)1  σ2(XX)1XΩX(XX)1\hat\sigma^2(X^\top X)^{-1}\ \neq\ \sigma^2(X^\top X)^{-1}X^\top\Omega X(X^\top X)^{-1}

要するに「標準誤差を間違って計算する → tt 値・pp 値・信頼区間が全部ズレる」。点推定は当たっているのに、その精度の見積もりが嘘になるのが不均一分散の本当の怖さです。対処は2系統:


5. 一般化最小二乗法(GLS)

Var(ε)=σ2Ω\mathrm{Var}(\varepsilon)=\sigma^2\OmegaΩ\Omega 既知・正定値)のときに BLUE を回復する方法が一般化最小二乗法(GLS)、別名 Aitken 推定量です。核心は「Ω1/2\Omega^{-1/2} でモデルを変換して、誤差を等分散・無相関に戻し、変換後のモデルに古典的 OLS を当てる」——つまりガウス・マルコフの定理にそのまま帰着させることです。

5.1 Ω1/2\Omega^{-1/2} 変換による導出

Ω\Omega は正定値対称行列なので、対称な平方根 Ω1/2\Omega^{1/2}Ω1/2Ω1/2=Ω\Omega^{1/2}\Omega^{1/2}=\OmegaΩ1/2\Omega^{1/2} も対称正則)が存在し、その逆 Ω1/2\Omega^{-1/2} も対称正則です(固有値分解 Ω=QΛQ\Omega=Q\Lambda Q^\top から Ω1/2=QΛ1/2Q\Omega^{1/2}=Q\Lambda^{1/2}Q^\top として構成できる。多変量正規での同様の白色化は 多変量正規分布 参照)。これを使ってモデル全体を左から掛けます(変換)。

Ω1/2y=:y=Ω1/2X=:Xβ+Ω1/2ε=:εy=Xβ+ε\underbrace{\Omega^{-1/2}y}_{=:y^\ast}=\underbrace{\Omega^{-1/2}X}_{=:X^\ast}\beta+\underbrace{\Omega^{-1/2}\varepsilon}_{=:\varepsilon^\ast} \quad\Longleftrightarrow\quad y^\ast=X^\ast\beta+\varepsilon^\ast

要するに「元のモデルの両辺に Ω1/2\Omega^{-1/2} を掛けた、見た目だけ別の線形回帰」。係数 β\beta は変換しても同じであることに注意。狙いは、この変換後の誤差 ε\varepsilon^\ast等分散・無相関になっていることです。実際

Var(ε)=Var(Ω1/2ε)=Ω1/2Var(ε)(Ω1/2)=Ω1/2(σ2Ω)Ω1/2\mathrm{Var}(\varepsilon^\ast)=\mathrm{Var}(\Omega^{-1/2}\varepsilon) =\Omega^{-1/2}\,\mathrm{Var}(\varepsilon)\,(\Omega^{-1/2})^\top =\Omega^{-1/2}(\sigma^2\Omega)\Omega^{-1/2}

Ω1/2\Omega^{-1/2} は対称なので転置は自分自身。Ω1/2ΩΩ1/2=Ω1/2Ω1/2Ω1/2Ω1/2=I\Omega^{-1/2}\Omega\,\Omega^{-1/2}=\Omega^{-1/2}\Omega^{1/2}\Omega^{1/2}\Omega^{-1/2}=I より

  Var(ε)=σ2I  \boxed{\;\mathrm{Var}(\varepsilon^\ast)=\sigma^2 I\;}

要するに「変換後の誤差はちょうど古典的仮定 (A3) を満たす(等分散・無相関に戻った)」。期待値も E(ε)=Ω1/2E(ε)=0\mathrm{E}(\varepsilon^\ast)=\Omega^{-1/2}\mathrm{E}(\varepsilon)=0 で (A2) も満たす。つまり変換後のモデル y=Xβ+εy^\ast=X^\ast\beta+\varepsilon^\ast にはガウス・マルコフの定理がそのまま使える

だから変換後モデルに古典的 OLS を当てれば、それが BLUE です。

β^GLS=(XX)1Xy\hat\beta_{\mathrm{GLS}}=(X^{\ast\top}X^\ast)^{-1}X^{\ast\top}y^\ast

これを元の記号に戻します。X=Ω1/2XX^\ast=\Omega^{-1/2}Xy=Ω1/2yy^\ast=\Omega^{-1/2}y なので

XX=(Ω1/2X)(Ω1/2X)=XΩ1/2Ω1/2X=XΩ1XX^{\ast\top}X^\ast=(\Omega^{-1/2}X)^\top(\Omega^{-1/2}X)=X^\top\Omega^{-1/2}\Omega^{-1/2}X=X^\top\Omega^{-1}X Xy=(Ω1/2X)(Ω1/2y)=XΩ1yX^{\ast\top}y^\ast=(\Omega^{-1/2}X)^\top(\Omega^{-1/2}y)=X^\top\Omega^{-1}y

代入して

  β^GLS=(XΩ1X)1XΩ1y  \boxed{\;\hat\beta_{\mathrm{GLS}}=(X^\top\Omega^{-1}X)^{-1}X^\top\Omega^{-1}y\;}

要するに「OLS の式の真ん中に Ω1\Omega^{-1} を挟んだ形Ω=I\Omega=I なら OLS そのものに戻る」。Ω1\Omega^{-1} は「分散が大きい(信頼できない)観測ほど軽く、小さい観測ほど重く」効かせる重み付けの役割を果たします。

5.2 GLS が BLUE である理由と分散

GLS が BLUE であることは、上の導出からただちに従います。変換後モデルは古典的仮定を満たし、β^GLS\hat\beta_{\mathrm{GLS}} はその OLS なので、ガウス・マルコフの定理により変換後モデルにおける BLUE。そして「変換後モデルの線形不偏推定量」と「元モデルの線形不偏推定量」は Ω1/2\Omega^{-1/2} が正則だから1対1に対応する(Ω1/2\Omega^{-1/2} で写しても線形性・不偏性は保たれる)ので、β^GLS\hat\beta_{\mathrm{GLS}}元のモデルにおいても線形不偏推定量の中で BLUE。これが Aitken の定理です。

GLS の分散は、変換後モデルの OLS の分散 σ2(XX)1\sigma^2(X^{\ast\top}X^\ast)^{-1} をそのまま書けば

  Var(β^GLS)=σ2(XΩ1X)1  \boxed{\;\mathrm{Var}(\hat\beta_{\mathrm{GLS}})=\sigma^2(X^\top\Omega^{-1}X)^{-1}\;}

要するに「GLS のばらつきは σ2(XΩ1X)1\sigma^2(X^\top\Omega^{-1}X)^{-1}」。ガウス・マルコフの定理を ΩI\Omega\neq I の世界に持ち上げた結果として、これが(Ω\Omega が崩れている状況での)線形不偏推定量の最小分散です。前節で見た OLS の真の分散 σ2(XX)1XΩX(XX)1\sigma^2(X^\top X)^{-1}X^\top\Omega X(X^\top X)^{-1} との差は半正定値(OLS の方が大きい)であり、これが「OLS は不偏だが非効率、GLS が効率的」の数式的な中身です。

5.3 重み付き最小二乗法(WLS):Ω\Omega が対角の特別な場合

不均一分散だが無相関のときは Ω\Omega対角行列になります。

Ω=diag(ω1,,ωn),Var(εi)=σ2ωi\Omega=\mathrm{diag}(\omega_1,\dots,\omega_n),\qquad \mathrm{Var}(\varepsilon_i)=\sigma^2\omega_i

このとき GLS は特に**重み付き最小二乗法(WLS:Weighted Least Squares)**と呼ばれ、Ω1=diag(1/ω1,,1/ωn)\Omega^{-1}=\mathrm{diag}(1/\omega_1,\dots,1/\omega_n) なので、各観測を wi=1/ωiw_i=1/\omega_i で重みづけた残差平方和

β^WLS=argminβ i=1nwi(yixiβ)2,wi=1ωi\hat\beta_{\mathrm{WLS}}=\arg\min_\beta\ \sum_{i=1}^n w_i\,(y_i-x_i^\top\beta)^2,\qquad w_i=\frac{1}{\omega_i}

を最小化することに等しくなります。要するに「ばらつきが大きい観測(ωi\omega_i 大)ほど軽く、小さい観測ほど重く扱って二乗和を最小化する」。Ω1/2=diag(1/ωi)\Omega^{-1/2}=\mathrm{diag}(1/\sqrt{\omega_i}) による変換は「各行(各観測)をその誤差の標準偏差 ωi\sqrt{\omega_i} で割る」操作になり、割った後はみな等分散になる、という直観そのものです。WLS は GLS の特別ケース(Ω\Omega 対角)に過ぎません。

5.4 実行可能GLS(FGLS):Ω\Omega が未知のとき

ここまでは Ω\Omega既知という前提でした。しかし現実には Ω\Omega(誤差の相関・分散構造)は普通わからない。そこで2段階で進めます。これが**実行可能GLS(FGLS:Feasible GLS)**です。

第1段階:まず OLS で回帰し、残差から Ω の構造を推定して Ω̂ を作る
第2段階:Ω̂ を真の Ω の代わりに使って GLS を実行する

数式では、推定した Ω^\hat\OmegaΩ\Omega に代入して

β^FGLS=(XΩ^1X)1XΩ^1y\hat\beta_{\mathrm{FGLS}}=(X^\top\hat\Omega^{-1}X)^{-1}X^\top\hat\Omega^{-1}y

要するに「Ω\Omega がわからないから、まず OLS の残差で Ω\Omega を当てて(Ω^\hat\Omega)、それを使って GLS する」。Ω^\hat\Omega を作るには、誤差構造にモデルを仮定する必要があります(不均一分散なら分散関数 σi2=h(xi)\sigma_i^2=h(x_i) を推定、系列相関なら AR モデルを当てる、など)。

FGLS の理論的注意(1級で問われうる)Ω^\hat\Omega は推定値で誤差を含むため、FGLS は厳密には BLUE ではないΩ^\hat\Omega が真の Ω\Omega に一致するのは標本が大きいときの漸近的な話で、FGLS の良い性質(一致性・漸近効率)は**漸近的(nn\to\infty)**にしか保証されません。「GLS は BLUE」だが「FGLS は漸近的にしか GLS の効率に届かない」——この区別が頻出の引っかけです。


6. 全体像:OLS → 仮定が崩れる → GLS/WLS の判断フロー

ここまでの流れを1枚にまとめます。

flowchart TD
  S["線形回帰モデル<br/>y = Xβ + ε"] --> A2{"E(ε)=0 か?<br/>(A2 外生性)"}
  A2 -- いいえ --> NG["OLS は不偏ですらない<br/>(内生性。GM定理の対象外)"]
  A2 -- はい --> A3{"Var(ε)=σ²I か?<br/>(A3 等分散・無相関)"}
  A3 -- "はい(成立)" --> OLS["OLS = (XᵀX)⁻¹Xᵀy<br/>ガウス・マルコフ定理 → BLUE"]
  A3 -- "いいえ(崩れる)" --> Het["Var(ε)=σ²Ω, Ω≠I<br/>OLS は不偏だが非効率・標準誤差が誤る"]
  Het --> Diag{"Ω は対角か?<br/>(不均一分散のみ)"}
  Diag -- "はい(対角)" --> WLS["WLS = 重み wᵢ=1/ωᵢ で<br/>重みづけ最小二乗(GLS の特例)"]
  Diag -- "いいえ(非対角)" --> GLS["GLS = (XᵀΩ⁻¹X)⁻¹XᵀΩ⁻¹y<br/>系列相関も含め BLUE を回復"]
  Het --> Known{"Ω は既知か?"}
  Known -- "いいえ(未知)" --> FGLS["FGLS:残差から Ω̂ を推定し<br/>GLS(厳密には漸近的に効率的)"]
  Known -- "いいえ(構造を仮定したくない)" --> Robust["OLS の点推定はそのまま<br/>+ ロバスト標準誤差(検定だけ補正)"]

要するに「まず外生性 (A2) が要。これが崩れたら GM 定理の土俵外。(A2) があって (A3) も成り立てば OLS が BLUE。(A3) が崩れたら GLS(対角なら WLS)で BLUE を回復。Ω\Omega が未知なら FGLS かロバスト標準誤差」。


7. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. ガウス・マルコフの定理に正規分布の仮定は本当に要らないのですか?

要りません。定理の証明(3章)で使ったのは E(ε)=0\mathrm{E}(\varepsilon)=0Var(ε)=σ2I\mathrm{Var}(\varepsilon)=\sigma^2 I という1次・2次のモーメントの仮定だけで、分布の形(正規かどうか)は一切使っていません。だから誤差がどんな分布でも、期待値0・等分散・無相関でさえあれば OLS は BLUE です。正規性が登場するのは、(i)「線形に限らない全不偏推定量の中で最良(UMVUE/有効性)」を言いたいとき、(ii) ttFF 統計量の厳密な標本分布を導きたいとき。ガウス・マルコフはあくまで「線形不偏クラスの中での最良」なので正規性は不要、というのが正確な切り分けです。

Q2. 「最良(Best)」とは具体的に何が最小なのですか? スカラーの分散ではないのですか?

行列の意味での最小です。OLS の分散共分散行列 Var(β^)\mathrm{Var}(\hat\beta) と任意の線形不偏推定量の分散共分散行列 Var(β~)\mathrm{Var}(\tilde\beta) を比べて、Var(β~)Var(β^)\mathrm{Var}(\tilde\beta)-\mathrm{Var}(\hat\beta) が半正定値であることを「OLS が最良」と呼びます。これはスカラーに翻訳でき、任意の線形結合 β\ell^\top\beta の推定について Var(β^)Var(β~)\mathrm{Var}(\ell^\top\hat\beta)\le\mathrm{Var}(\ell^\top\tilde\beta) ということ。\ell を単位ベクトルにとれば各係数 β^j\hat\beta_j の分散が最小、\ell を予測点にとれば予測の分散が最小、と何にでも効きます。だから「ある1つの量の分散」ではなく「係数のあらゆる線形結合の分散が同時に最小」という強い意味です。

Q3. 不均一分散があると、回帰の結果(係数の推定値)は信用できないのですか?

係数の点推定値そのものは信用できます。OLS は不均一分散があっても不偏だからです(的は外していない)。信用できなくなるのは標準誤差・tt 値・pp 値・信頼区間の方です。既定の標準誤差は等分散を仮定した式で計算されるので、不均一分散の下では真の精度とズレ、検定が甘すぎたり厳しすぎたりします。だから「係数の値は使えるが、その有意性の判定は補正が要る」が正しい理解。補正は、構造がわかれば GLS/WLS で効率も回復、構造を仮定したくなければロバスト(ホワイト)標準誤差で検定だけ直す、の2択です。

Q4. GLS と WLS の違いは何ですか? どう使い分けますか?

WLS は GLS の特別ケースです。誤差の共分散行列 Ω\Omega対角(=不均一分散はあるが誤差どうしは無相関)のときの GLS が WLS。このとき重み wi=1/ωiw_i=1/\omega_i で各観測を重みづけるだけで済みます。一方、誤差が互いに相関している(系列相関・クラスタ相関など)と Ω\Omega は非対角になり、対角の重みづけでは足りず、Ω1\Omega^{-1} をフルに使う一般の GLS が要ります。使い分けの目安は「誤差が無相関で分散だけ不均一 → WLS、誤差に相関がある → フルの GLS」。横断面データの不均一分散は WLS、時系列の自己相関は GLS、というのが典型です。

Q5. 実際には Ω\Omega がわからないのに、GLS は使えるのですか?

そのままでは使えません。だから現実には Ω\Omega を残差から推定して代入する実行可能GLS(FGLS)を使います。手順は「①まず OLS で回帰 → ②残差を見て Ω\Omega の構造(不均一分散の分散関数や AR 誤差など)を推定して Ω^\hat\Omega を作る → ③ Ω^\hat\Omega で GLS する」。ただし Ω^\hat\Omega は推定値なので、FGLS は厳密には BLUE ではなく、効率性は標本が大きいときの漸近的な性質としてしか保証されません。Ω\Omega の構造を仮定したくない/標本が大きい場合は、いっそ GLS をやめて OLS + ロバスト標準誤差で済ませる選択肢もあります。


まとめ


関連ノート