← 統計検定テキスト 一覧
📊 対象級:1級 | 重要度:A(頻出)
要点(BLUF)
パネルデータ(個体 i i i ×時間 t t t の二重添字データ)の核心は、観測されない個体固有効果 α i \alpha_i α i (異質性)をどう扱うか です。α i \alpha_i α i が説明変数 x i t x_{it} x i t と相関すると、それを無視したプーリングOLSは欠落変数バイアス を起こします。これを解決する2つのモデルと、どちらを使うかを決める検定を押さえます。
固定効果モデル(FE) :α i \alpha_i α i を個体平均との差をとって除去 する(within変換 y i t − y ˉ i y_{it}-\bar y_i y i t − y ˉ i で α i \alpha_i α i が消える)。α i \alpha_i α i と x i t x_{it} x i t の相関を許すので常に一致推定 。ただし時間不変変数は推定できない (除去で一緒に消える)。
変量効果モデル(RE) :α i \alpha_i α i を平均0のランダムな誤差成分 とみなす。複合誤差 α i + ε i t \alpha_i+\varepsilon_{it} α i + ε i t が個体内で系列相関 を持つのでGLS(実際はFGLS)で推定。α i \alpha_i α i と x i t x_{it} x i t が 無相関 という強い前提が必要だが、成り立てばFEより効率的 で時間不変変数も推定できる。
ハウスマン検定 :H 0 H_0 H 0 「α i \alpha_i α i と x i t x_{it} x i t は無相関(REが一致かつ効率的)」を、β ^ F E − β ^ R E \hat\beta_{FE}-\hat\beta_{RE} β ^ F E − β ^ R E の差の二次形式(χ 2 \chi^2 χ 2 統計量)で検定する。FEは常に一致だが非効率、REは前提が成り立てば効率的——その前提の成否を、両推定量の差が0かどうかで見る 。
1級(統計応用・社会科学)では FE/RE の前提・within変換で何が消えるか・ハウスマン検定の帰無仮説が頻出です(範囲・配点は改訂されうるため要最新確認 )。
graph TD
PANEL["パネルデータ y_it = x_it'β + α_i + ε_it<br/>α_i = 観測されない個体固有効果"] --> Q{"α_i と x_it は<br/>相関するか?"}
Q -->|相関あり| FE["固定効果モデル FE<br/>within変換で α_i を除去<br/>常に一致・時間不変変数は不可"]
Q -->|相関なし| RE["変量効果モデル RE<br/>α_i をランダム誤差とみなし GLS<br/>効率的・時間不変変数も可"]
POOL["プーリングOLS<br/>α_i を無視"] -.->|相関ありなら<br/>欠落変数バイアス| Q
FE --> HAUS["ハウスマン検定で<br/>FE と RE を比較"]
RE --> HAUS
HAUS -->|差が大 → H0棄却| FE
HAUS -->|差が小 → H0採択| RE
1. パネルデータとは — データ構造と基本モデル
1.1 二重添字のデータ
パネルデータ(縦断データ、longitudinal data)は、同じ個体を複数時点で繰り返し観測 したデータです。個体 i = 1 , … , N i=1,\dots,N i = 1 , … , N (人・企業・国など)を時間 t = 1 , … , T t=1,\dots,T t = 1 , … , T にわたって追跡するので、各観測値は2つの添字 ( i , t ) (i,t) ( i , t ) を持ちます。
横断面データ(cross-section) :個体だけ(添字 i i i のみ)。ある一時点のスナップショット。
時系列データ(time-series) :時間だけ(添字 t t t のみ)。1つの対象の時間推移。
パネルデータ :個体×時間(添字 i , t i,t i , t 両方)。横断面を時間方向に積み重ねたもの。
パネルデータの最大の強みは、同じ個体を追うことで「その個体に固有で時間変化しない要因」をコントロールできる 点です。横断面データ1枚では、観測できない個体差(能力・社風・国民性など)を分離できませんが、パネルなら個体内の時間変化に注目してこれを取り除けます。これがFE/REの動機です。
1.2 基本モデルと個体固有効果
パネルデータの標準的な線形モデルは
y i t = x i t ⊤ β + α i + ε i t ( i = 1 , … , N ; t = 1 , … , T ) \boxed{\;y_{it} = x_{it}^\top\beta + \alpha_i + \varepsilon_{it}\;}
\qquad (i=1,\dots,N;\ t=1,\dots,T) y i t = x i t ⊤ β + α i + ε i t ( i = 1 , … , N ; t = 1 , … , T )
です。各項の意味は:
y i t y_{it} y i t :個体 i i i の時点 t t t での応答(賃金・売上など)。
x i t x_{it} x i t :説明変数ベクトル(時間変化しうる。教育投資・資本など)。β \beta β が知りたい係数。
ε i t \varepsilon_{it} ε i t :通常の誤差項(個体・時間ともにランダム、平均0)。**特異誤差(idiosyncratic error)**と呼ぶ。
α i \alpha_i α i :個体固有効果(individual fixed/specific effect) 。個体 i i i に固有で時間 t t t に依存しない (添字に t t t がない)。観測されない異質性(unobserved heterogeneity)を表す。
要するに「α i \alpha_i α i は、その個体にずっと付きまとう、データに無い切片のズレ 」です。例えば賃金関数で α i \alpha_i α i は「個人の生まれ持った能力・やる気」のような、観測できないが賃金に効く時間不変要因をまとめて表します。この α i \alpha_i α i をどう扱うかがパネル分析の全て です。
graph LR
CS["横断面データ<br/>個体 i のみ"] -->|時間方向に積む| P["パネルデータ<br/>個体 i × 時間 t"]
TS["時系列データ<br/>時間 t のみ"] -->|個体方向に積む| P
P --> ADV["強み:観測されない<br/>時間不変な個体差 α_i を<br/>コントロールできる"]
2. プーリングOLSの問題 — 欠落変数バイアス
最も素朴な方法は、α i \alpha_i α i の存在を無視して全データ(N × T N\times T N × T 個)を一つの回帰にまとめる**プーリングOLS(pooled OLS)**です。
y i t = x i t ⊤ β + u i t , u i t = α i + ε i t y_{it} = x_{it}^\top\beta + u_{it},\qquad u_{it}=\alpha_i+\varepsilon_{it} y i t = x i t ⊤ β + u i t , u i t = α i + ε i t
として β \beta β を普通の最小二乗で推定します。これが正当化されるのは α i \alpha_i α i が説明変数 x i t x_{it} x i t と無相関 のときだけです。問題は α i \alpha_i α i が x i t x_{it} x i t と相関する場合です。
2.1 なぜバイアスが出るか
α i \alpha_i α i はモデルから見れば誤差 u i t u_{it} u i t の一部です。もし α i \alpha_i α i と x i t x_{it} x i t が相関していると、説明変数が誤差と相関する ことになり、OLSの直交条件 E [ x i t u i t ] = 0 E[x_{it}u_{it}]=0 E [ x i t u i t ] = 0 が破れます。これは典型的な**欠落変数バイアス(omitted variable bias)**です。α i \alpha_i α i という重要な変数(能力など)をモデルに入れ損ねているのに、それが説明変数と相関しているため、x i t x_{it} x i t の係数 β \beta β にその影響が漏れ込んでしまうのです。
具体例で考えます。賃金 y i t y_{it} y i t を教育投資 x i t x_{it} x i t で説明したいが、観測できない「能力 α i \alpha_i α i 」が(i)賃金を上げ、(ii)教育投資も増やす、とします。すると能力の高い人ほど教育投資も賃金も高くなり、教育の効果と能力の効果がプーリングOLSでは分離できず 、β ^ \hat\beta β ^ は教育の真の効果より大きく出ます(上方バイアス)。要するに「能力という見えない第3の要因が、教育と賃金の両方を押し上げているのに、それを教育の手柄に勘違いする 」。
Cov ( α i , x i t ) ≠ 0 ⟹ β ^ OLS は一致推定量でない(バイアス) \operatorname{Cov}(\alpha_i, x_{it})\ne 0 \ \Longrightarrow\ \hat\beta_{\text{OLS}} \text{ は一致推定量でない(バイアス)} Cov ( α i , x i t ) = 0 ⟹ β ^ OLS は一致推定量でない(バイアス)
FE・REはどちらも、この α i \alpha_i α i を別扱いすることでバイアスに対処します。違いは「α i \alpha_i α i を除去するか(FE)」「α i \alpha_i α i を無相関と仮定してモデル化するか(RE)」です。
3. 固定効果モデル(FE) — within変換で α i \alpha_i α i を除去
3.1 発想:α i \alpha_i α i を「消す」
固定効果モデルは、α i \alpha_i α i を推定すべき未知パラメータ(個体ごとの切片)とみなし、α i \alpha_i α i と x i t x_{it} x i t の相関を許します 。鍵は、α i \alpha_i α i が時間不変 (t t t に依存しない定数)であることを利用して、これを式から消去 することです。α i \alpha_i α i さえ消えれば、それが x i t x_{it} x i t と相関していてもバイアスは生じません。
代表的な消去法が **within変換(個体平均との差をとる、time-demeaning)**です。
3.2 within変換の導出(α i \alpha_i α i が消える)
元のモデルを再掲します。
y i t = x i t ⊤ β + α i + ε i t (1) y_{it} = x_{it}^\top\beta + \alpha_i + \varepsilon_{it} \tag{1} y i t = x i t ⊤ β + α i + ε i t ( 1 )
ステップ1:各個体について時間平均をとる。 個体 i i i の全 T T T 時点で平均すると、α i \alpha_i α i は t t t に依存しないので平均しても α i \alpha_i α i のまま残ります。
y ˉ i = x ˉ i ⊤ β + α i + ε ˉ i (2) \bar y_i = \bar x_i^\top\beta + \alpha_i + \bar\varepsilon_i \tag{2} y ˉ i = x ˉ i ⊤ β + α i + ε ˉ i ( 2 )
ただし y ˉ i = 1 T ∑ t = 1 T y i t \bar y_i=\frac1T\sum_{t=1}^T y_{it} y ˉ i = T 1 ∑ t = 1 T y i t 、x ˉ i = 1 T ∑ t x i t \bar x_i=\frac1T\sum_t x_{it} x ˉ i = T 1 ∑ t x i t 、ε ˉ i = 1 T ∑ t ε i t \bar\varepsilon_i=\frac1T\sum_t\varepsilon_{it} ε ˉ i = T 1 ∑ t ε i t 。要するに「その個体の全期間の平均をとる。α i \alpha_i α i は時間で変わらないから平均しても α i \alpha_i α i のまま 」。
ステップ2:元の式 (1) から平均の式 (2) を引く。 これが within変換の本体です。
( y i t − y ˉ i ) ⏟ y ~ i t = ( x i t − x ˉ i ) ⊤ β + ( α i − α i ) ⏟ = 0 + ( ε i t − ε ˉ i ) \underbrace{(y_{it}-\bar y_i)}_{\tilde y_{it}} = (x_{it}-\bar x_i)^\top\beta + \underbrace{(\alpha_i-\alpha_i)}_{=\,0} + (\varepsilon_{it}-\bar\varepsilon_i) y ~ i t ( y i t − y ˉ i ) = ( x i t − x ˉ i ) ⊤ β + = 0 ( α i − α i ) + ( ε i t − ε ˉ i )
α i − α i = 0 \alpha_i-\alpha_i=0 α i − α i = 0 となり、α i \alpha_i α i が消滅します 。残るのは
y ~ i t = x ~ i t ⊤ β + ε ~ i t , y ~ i t = y i t − y ˉ i , x ~ i t = x i t − x ˉ i , ε ~ i t = ε i t − ε ˉ i \boxed{\;\tilde y_{it} = \tilde x_{it}^\top\beta + \tilde\varepsilon_{it},\qquad \tilde y_{it}=y_{it}-\bar y_i,\ \ \tilde x_{it}=x_{it}-\bar x_i,\ \ \tilde\varepsilon_{it}=\varepsilon_{it}-\bar\varepsilon_i\;} y ~ i t = x ~ i t ⊤ β + ε ~ i t , y ~ i t = y i t − y ˉ i , x ~ i t = x i t − x ˉ i , ε ~ i t = ε i t − ε ˉ i
要するに「個体平均との差(偏差)をとると、時間不変な α i \alpha_i α i は自分自身との差になって消える」 。α i \alpha_i α i が消えたので、それが x i t x_{it} x i t とどれだけ相関していても無関係になりました。この偏差データ y ~ i t , x ~ i t \tilde y_{it},\tilde x_{it} y ~ i t , x ~ i t に普通のOLS をかければ、α i \alpha_i α i と x i t x_{it} x i t の相関があっても一致する推定量
β ^ F E = ( ∑ i ∑ t x ~ i t x ~ i t ⊤ ) − 1 ∑ i ∑ t x ~ i t y ~ i t \hat\beta_{FE} = \Big(\sum_{i}\sum_{t}\tilde x_{it}\tilde x_{it}^\top\Big)^{-1}\sum_i\sum_t \tilde x_{it}\tilde y_{it} β ^ F E = ( i ∑ t ∑ x ~ i t x ~ i t ⊤ ) − 1 i ∑ t ∑ x ~ i t y ~ i t
が得られます。これを**within推定量(個体内推定量)**と呼びます。「within(個体内)」の名は、各個体の中での時間変動だけ を使って β \beta β を推定するからです(個体間の差は平均をとった時点で捨てている)。
3.3 なぜ時間不変変数が推定できないか
within変換の代償が、時間不変な説明変数の係数が推定できない ことです。説明変数の一部 z i z_i z i が時間で変わらない(性別・人種・出身地など、z i z_i z i に t t t の添字がない)とします。これも個体平均をとると z ˉ i = z i \bar z_i=z_i z ˉ i = z i なので、within変換すると
z i − z ˉ i = z i − z i = 0 z_i - \bar z_i = z_i - z_i = 0 z i − z ˉ i = z i − z i = 0
となり、α i \alpha_i α i と全く同じ理由で消えてしまいます 。要するに「時間不変変数は、α i \alpha_i α i と区別がつかず一緒に除去される 」。within変換は「時間で変わらないものをすべて消す」操作なので、α i \alpha_i α i だけでなく時間不変の説明変数も巻き添えになるのです。これがFEの本質的限界で、性別の賃金差のような時間不変要因の効果を知りたいならFEは使えません (後述のREやハイブリッド法が必要)。
3.4 一階差分(別の除去法)
α i \alpha_i α i を消すもう一つの方法が**一階差分(first difference)**です。隣り合う時点の差をとります。
y i t − y i , t − 1 = ( x i t − x i , t − 1 ) ⊤ β + ( α i − α i ) ⏟ = 0 + ( ε i t − ε i , t − 1 ) y_{it}-y_{i,t-1} = (x_{it}-x_{i,t-1})^\top\beta + \underbrace{(\alpha_i-\alpha_i)}_{=\,0} + (\varepsilon_{it}-\varepsilon_{i,t-1}) y i t − y i , t − 1 = ( x i t − x i , t − 1 ) ⊤ β + = 0 ( α i − α i ) + ( ε i t − ε i , t − 1 )
ここでも α i \alpha_i α i は前後で同じ値なので差をとると消えます。要するに「前期との差をとっても、時間不変な α i \alpha_i α i は消える 」。T = 2 T=2 T = 2 (2時点)のときは within変換と一階差分は完全に同じ推定量 になりますが、T ≥ 3 T\ge3 T ≥ 3 では特異誤差 ε i t \varepsilon_{it} ε i t の系列相関の扱いが異なり、結果がずれます。ε i t \varepsilon_{it} ε i t が系列無相関ならwithin推定が効率的、ε i t \varepsilon_{it} ε i t が強い系列相関(ランダムウォーク的)なら一階差分が望ましい、という使い分けがあります。
3.5 ダミー変数モデル(LSDV)との同値性
α i \alpha_i α i を「個体ごとのダミー変数(切片)」として明示的にモデルに入れ、N N N 個の個体ダミーと β \beta β を一括でOLS推定する方法をLSDV(Least Squares Dummy Variable)法 と呼びます。
y i t = x i t ⊤ β + ∑ j = 1 N α j D j i + ε i t ( D j i は個体 j のダミー ) y_{it}=x_{it}^\top\beta + \sum_{j=1}^{N}\alpha_j D_{ji} + \varepsilon_{it}\quad(D_{ji}\text{ は個体 }j\text{ のダミー}) y i t = x i t ⊤ β + j = 1 ∑ N α j D j i + ε i t ( D j i は個体 j のダミー )
驚くべきことに、LSDVで得られる β ^ \hat\beta β ^ は within推定量と完全に一致します (フリッシュ=ウォー=ローヴェルの定理から導かれる)。要するに「個体ダミーを全部入れてOLSするのと、個体平均を引いてOLSするのは、β \beta β については同じ結果 」。within変換が好まれるのは、N N N が大きい(個体が何千もある)ときにダミーを N N N 本作らずに済み計算が軽いためです。
4. 変量効果モデル(RE) — α i \alpha_i α i をランダム成分としGLS
4.1 発想:α i \alpha_i α i を「誤差として組み込む」
変量効果モデル(random effects model、分散成分モデル)は、α i \alpha_i α i を個体ごとの固定パラメータではなく、母集団からランダムに抽出された平均0の確率変数 とみなします。
α i ∼ ( 0 , σ α 2 ) 独立 , ε i t ∼ ( 0 , σ ε 2 ) 独立 , Cov ( α i , x i t ) = 0 \alpha_i \sim (0,\ \sigma_\alpha^2)\ \text{独立},\qquad \varepsilon_{it}\sim(0,\ \sigma_\varepsilon^2)\ \text{独立},\qquad \operatorname{Cov}(\alpha_i, x_{it})=0 α i ∼ ( 0 , σ α 2 ) 独立 , ε i t ∼ ( 0 , σ ε 2 ) 独立 , Cov ( α i , x i t ) = 0
最重要の前提は最後の Cov ( α i , x i t ) = 0 \operatorname{Cov}(\alpha_i, x_{it})=0 Cov ( α i , x i t ) = 0 、すなわち α i \alpha_i α i が説明変数と無相関であることです。この前提が成り立つなら、α i \alpha_i α i を誤差の一部として扱ってよく、β \beta β を一致推定できます(直交条件が破れないため)。FEが「α i \alpha_i α i と x i t x_{it} x i t の相関を許して除去」したのに対し、REは「相関しないと仮定して、α i \alpha_i α i を誤差にまとめる 」立場です。
4.2 複合誤差の分散・共分散構造
α i \alpha_i α i を誤差にまとめると、誤差項は複合誤差(composite error)
u i t = α i + ε i t u_{it} = \alpha_i + \varepsilon_{it} u i t = α i + ε i t
になります。この複合誤差の構造が、REを単純なOLSで推定できなくする原因です。同じ個体 i i i の異なる時点 t , s t,s t , s の誤差は、共通の α i \alpha_i α i を含むため相関します 。各モーメントを計算します。
分散。 α i \alpha_i α i と ε i t \varepsilon_{it} ε i t が独立なので
Var ( u i t ) = Var ( α i ) + Var ( ε i t ) = σ α 2 + σ ε 2 \operatorname{Var}(u_{it}) = \operatorname{Var}(\alpha_i) + \operatorname{Var}(\varepsilon_{it}) = \sigma_\alpha^2 + \sigma_\varepsilon^2 Var ( u i t ) = Var ( α i ) + Var ( ε i t ) = σ α 2 + σ ε 2
同一個体・異時点の共分散(t ≠ s t\ne s t = s )。 α i \alpha_i α i は両時点で共通、ε i t \varepsilon_{it} ε i t と ε i s \varepsilon_{is} ε i s は独立なので
Cov ( u i t , u i s ) = Cov ( α i + ε i t , α i + ε i s ) = Var ( α i ) = σ α 2 ( t ≠ s ) \operatorname{Cov}(u_{it}, u_{is}) = \operatorname{Cov}(\alpha_i+\varepsilon_{it},\ \alpha_i+\varepsilon_{is}) = \operatorname{Var}(\alpha_i) = \sigma_\alpha^2 \quad (t\ne s) Cov ( u i t , u i s ) = Cov ( α i + ε i t , α i + ε i s ) = Var ( α i ) = σ α 2 ( t = s )
要するに「同じ個体の誤差は、共通の α i \alpha_i α i の分だけ必ず相関する(共分散 σ α 2 \sigma_\alpha^2 σ α 2 ) 」。異なる個体間(i ≠ j i\ne j i = j )の誤差は α i , α j \alpha_i,\alpha_j α i , α j が独立なので無相関です。
個体内相関(級内相関係数)。 同一個体内の誤差の相関係数は
ρ = Corr ( u i t , u i s ) = σ α 2 σ α 2 + σ ε 2 ( t ≠ s ) \rho = \operatorname{Corr}(u_{it}, u_{is}) = \frac{\sigma_\alpha^2}{\sigma_\alpha^2 + \sigma_\varepsilon^2}\quad(t\ne s) ρ = Corr ( u i t , u i s ) = σ α 2 + σ ε 2 σ α 2 ( t = s )
これは**級内相関係数(intraclass correlation)**と呼ばれ、全分散のうち個体固有効果 σ α 2 \sigma_\alpha^2 σ α 2 が占める割合です。ρ \rho ρ が大きいほど「個体差が支配的」を意味します。
4.3 なぜGLSが必要か — そしてFGLSの準差分変換
複合誤差 u i t u_{it} u i t は等分散でない上に同一個体内で系列相関する (共分散行列が単位行列の定数倍にならない)ため、ガウス=マルコフの仮定が崩れ、**プーリングOLSは一致するが非効率(BLUEでない)になります。効率的な推定には、誤差の共分散構造 Ω \Omega Ω を使った 一般化最小二乗法(GLS)**が必要です(ガウス・マルコフの定理とGLS の分散不均一・系列相関への一般化)。
GLSは誤差の相関を「白色化」する変換をデータに施してからOLSをかけるのと同値で、REの場合この変換は**準差分変換(quasi-demeaning, partial demeaning)**という形になります。個体平均を θ \theta θ 倍だけ引く操作です。
y i t − θ y ˉ i = ( x i t − θ x ˉ i ) ⊤ β + ( u i t − θ u ˉ i ) \boxed{\;y_{it}-\theta\,\bar y_i = (x_{it}-\theta\,\bar x_i)^\top\beta + (u_{it}-\theta\,\bar u_i)\;} y i t − θ y ˉ i = ( x i t − θ x ˉ i ) ⊤ β + ( u i t − θ u ˉ i )
ここで変換の強さ θ \theta θ は分散成分から決まり
θ = 1 − σ ε 2 σ ε 2 + T σ α 2 \boxed{\;\theta = 1 - \sqrt{\frac{\sigma_\varepsilon^2}{\sigma_\varepsilon^2 + T\sigma_\alpha^2}}\;} θ = 1 − σ ε 2 + T σ α 2 σ ε 2
です。要するに「REのGLSは、個体平均を「丸ごと」ではなく「θ \theta θ の割合だけ」引く中間的な変換 」。この θ \theta θ が、RE推定がプーリングOLSとFEのちょうど間に位置することを示します。
θ = 0 \theta = 0 θ = 0 (σ α 2 = 0 \sigma_\alpha^2=0 σ α 2 = 0 、個体効果なし)→ 何も引かない → プーリングOLS に一致。
θ = 1 \theta = 1 θ = 1 (σ α 2 → ∞ \sigma_\alpha^2\to\infty σ α 2 → ∞ または T → ∞ T\to\infty T → ∞ )→ 個体平均を丸ごと引く → **within変換(FE)**に一致。
0 < θ < 1 0<\theta<1 0 < θ < 1 → 両者の中間。個体内・個体間の情報を分散構造に応じて最適に混ぜる。
要するに「REは、個体効果の大きさ σ α 2 \sigma_\alpha^2 σ α 2 に応じて、プーリングOLS(θ = 0 \theta=0 θ = 0 )からFE(θ = 1 \theta=1 θ = 1 )まで連続的に位置を変える推定量 」。実際には σ α 2 , σ ε 2 \sigma_\alpha^2,\sigma_\varepsilon^2 σ α 2 , σ ε 2 は未知なので、まずこれらを残差から推定して θ ^ \hat\theta θ ^ を作り、それでGLSを実行します。これを**実行可能GLS(FGLS, Feasible GLS)**と呼びます。
4.4 REの利点と前提のリスク
前提 Cov ( α i , x i t ) = 0 \operatorname{Cov}(\alpha_i, x_{it})=0 Cov ( α i , x i t ) = 0 が成り立つなら、REには次の利点があります。
効率的 :個体内変動(within)だけでなく個体間変動(between)の情報も使うため、FEより推定量の分散が小さい(より少ない標準誤差)。
時間不変変数を推定できる :α i \alpha_i α i を除去しないので、性別・人種などの時間不変変数の係数も推定可能(FEでは消えて推定不能だった)。
一方、前提が崩れる(α i \alpha_i α i と x i t x_{it} x i t が相関する)と、REは一致性を失いバイアスを持ちます 。FEはこの前提なしで常に一致するので頑健、REは前提次第で効率的だが脆い、というトレードオフが生じます。この前提の成否を判定するのがハウスマン検定 です。
5. ハウスマン検定 — FEとREのどちらを使うか
5.1 検定の論理(一致性 vs 効率性のトレードオフを利用)
ハウスマン検定(Hausman test)は、RE の鍵となる前提
H 0 : Cov ( α i , x i t ) = 0 ( REが一致かつ効率的 ) H 1 : Cov ( α i , x i t ) ≠ 0 ( REは非一致、FEが正しい ) H_0:\ \operatorname{Cov}(\alpha_i, x_{it}) = 0 \quad(\text{REが一致かつ効率的})
\qquad
H_1:\ \operatorname{Cov}(\alpha_i, x_{it}) \ne 0\quad(\text{REは非一致、FEが正しい}) H 0 : Cov ( α i , x i t ) = 0 ( RE が一致かつ効率的 ) H 1 : Cov ( α i , x i t ) = 0 ( RE は非一致、 FE が正しい )
を検定します。検定の核心は、2つの推定量の一致性が前提に依存する度合いが違う ことを利用する点です。
推定量 H 0 H_0 H 0 が真(相関なし)のときH 1 H_1 H 1 が真(相関あり)のときβ ^ F E \hat\beta_{FE} β ^ F E (固定効果)一致 (だが非効率)一致 (前提不要だから常に頑健)β ^ R E \hat\beta_{RE} β ^ R E (変量効果)一致かつ効率的 非一致 (バイアス)
ポイントは「FEは H 0 H_0 H 0 の真偽に関わらず常に一致、REは H 0 H_0 H 0 が真のときだけ一致 」という非対称性です。ここから検定のアイデアが出ます。
H 0 H_0 H 0 が真 なら、FEもREも同じ真値に収束するので、両者の差 β ^ F E − β ^ R E \hat\beta_{FE}-\hat\beta_{RE} β ^ F E − β ^ R E は0に近い (標本誤差の範囲)。
H 0 H_0 H 0 が偽 なら、FEは真値・REはバイアスのある値に収束するので、両者の差は0から離れる 。
したがって「β ^ F E − β ^ R E \hat\beta_{FE}-\hat\beta_{RE} β ^ F E − β ^ R E が0と有意に異なるか 」を見れば、H 0 H_0 H 0 (REの前提)の成否を検定できます。要するに「頑健だが非効率なFEと、効率的だが脆いREの推定値を比べ、食い違いが大きければ『REの前提が壊れている=FEを使え』と判断する 」。
5.2 検定統計量の導出
差を q = β ^ F E − β ^ R E q = \hat\beta_{FE} - \hat\beta_{RE} q = β ^ F E − β ^ R E とします。検定統計量は、この差をその分散で基準化した二次形式 です。
H = q ⊤ [ Var ( q ) ] − 1 q = ( β ^ F E − β ^ R E ) ⊤ [ Var ( β ^ F E ) − Var ( β ^ R E ) ] − 1 ( β ^ F E − β ^ R E ) \boxed{\;H = q^\top\big[\operatorname{Var}(q)\big]^{-1} q = (\hat\beta_{FE}-\hat\beta_{RE})^\top\big[\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})\big]^{-1}(\hat\beta_{FE}-\hat\beta_{RE})\;} H = q ⊤ [ Var ( q ) ] − 1 q = ( β ^ F E − β ^ R E ) ⊤ [ Var ( β ^ F E ) − Var ( β ^ R E ) ] − 1 ( β ^ F E − β ^ R E )
ここで分散が差し引き Var ( β ^ F E ) − Var ( β ^ R E ) \operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE}) Var ( β ^ F E ) − Var ( β ^ R E ) になるのがハウスマン検定の妙です。なぜ共分散項が消えて単純な引き算になるのかを導出します。
ステップ1:差の分散を展開する。 一般に2つの推定量の差の分散は
Var ( q ) = Var ( β ^ F E ) + Var ( β ^ R E ) − 2 Cov ( β ^ F E , β ^ R E ) \operatorname{Var}(q) = \operatorname{Var}(\hat\beta_{FE}) + \operatorname{Var}(\hat\beta_{RE}) - 2\operatorname{Cov}(\hat\beta_{FE}, \hat\beta_{RE}) Var ( q ) = Var ( β ^ F E ) + Var ( β ^ R E ) − 2 Cov ( β ^ F E , β ^ R E )
です。このままでは共分散項 Cov ( β ^ F E , β ^ R E ) \operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE}) Cov ( β ^ F E , β ^ R E ) が邪魔で計算しにくい。
ステップ2:ハウスマンの補題を使う。 ここで「H 0 H_0 H 0 の下では、効率的な推定量 β ^ R E \hat\beta_{RE} β ^ R E と『その効率的推定量と非効率推定量の差 q q q 』は無相関 」という結果(ハウスマンの補題)を使います。直観は、もし β ^ R E \hat\beta_{RE} β ^ R E (効率的=最小分散)が差 q q q と相関していたら、その相関を利用してさらに分散の小さい推定量が作れてしまい、「β ^ R E \hat\beta_{RE} β ^ R E が効率的(最小分散)」という前提と矛盾するからです。要するに「最小分散の推定量は、他の推定量との差と相関を持てない(持てたらもっと改善できてしまう) 」。
この補題 Cov ( q , β ^ R E ) = 0 \operatorname{Cov}(q,\hat\beta_{RE})=0 Cov ( q , β ^ R E ) = 0 を β ^ F E = β ^ R E + q \hat\beta_{FE}=\hat\beta_{RE}+q β ^ F E = β ^ R E + q に適用すると
Cov ( β ^ F E , β ^ R E ) = Cov ( β ^ R E + q , β ^ R E ) = Var ( β ^ R E ) + Cov ( q , β ^ R E ) ⏟ = 0 = Var ( β ^ R E ) \operatorname{Cov}(\hat\beta_{FE}, \hat\beta_{RE}) = \operatorname{Cov}(\hat\beta_{RE}+q,\ \hat\beta_{RE}) = \operatorname{Var}(\hat\beta_{RE}) + \underbrace{\operatorname{Cov}(q,\hat\beta_{RE})}_{=\,0} = \operatorname{Var}(\hat\beta_{RE}) Cov ( β ^ F E , β ^ R E ) = Cov ( β ^ R E + q , β ^ R E ) = Var ( β ^ R E ) + = 0 Cov ( q , β ^ R E ) = Var ( β ^ R E )
要するに「FEとREの共分散は、REの分散そのものに等しい 」。
ステップ3:代入して整理。 これをステップ1に戻すと共分散項がきれいに片付きます。
Var ( q ) = Var ( β ^ F E ) + Var ( β ^ R E ) − 2 Var ( β ^ R E ) = Var ( β ^ F E ) − Var ( β ^ R E ) \operatorname{Var}(q) = \operatorname{Var}(\hat\beta_{FE}) + \operatorname{Var}(\hat\beta_{RE}) - 2\operatorname{Var}(\hat\beta_{RE}) = \operatorname{Var}(\hat\beta_{FE}) - \operatorname{Var}(\hat\beta_{RE}) Var ( q ) = Var ( β ^ F E ) + Var ( β ^ R E ) − 2 Var ( β ^ R E ) = Var ( β ^ F E ) − Var ( β ^ R E )
要するに「効率的な β ^ R E \hat\beta_{RE} β ^ R E との共分散がちょうど Var ( β ^ R E ) \operatorname{Var}(\hat\beta_{RE}) Var ( β ^ R E ) になるおかげで、差の分散は2つの分散の単純な引き算になる」 。これが統計量の分母 Var ( β ^ F E ) − Var ( β ^ R E ) \operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE}) Var ( β ^ F E ) − Var ( β ^ R E ) の正体です。β ^ R E \hat\beta_{RE} β ^ R E が効率的なので Var ( β ^ F E ) ≥ Var ( β ^ R E ) \operatorname{Var}(\hat\beta_{FE})\ge\operatorname{Var}(\hat\beta_{RE}) Var ( β ^ F E ) ≥ Var ( β ^ R E ) が保証され、この差(行列)は正定値で逆行列が存在します。
5.3 分布と判定
H 0 H_0 H 0 の下で、統計量 H H H は漸近的に自由度 k k k のカイ二乗分布 に従います。
H → d χ k 2 ( k = 時間変化する説明変数の数、すなわち比較する係数の次元 ) H \xrightarrow{d} \chi^2_k \qquad (k = \text{時間変化する説明変数の数、すなわち比較する係数の次元}) H d χ k 2 ( k = 時間変化する説明変数の数、すなわち比較する係数の次元 )
要するに「FEとREで共通に推定できる係数の本数が自由度 」(時間不変変数はFEで推定できないので比較から外れる)。判定は:
H H H が大きい(p値が小さい、H 0 H_0 H 0 を棄却) → FEとREの差が有意に大きい → REの前提が壊れている → 固定効果モデル(FE)を採用 。
H H H が小さい(p値が大きい、H 0 H_0 H 0 を採択) → 差は標本誤差の範囲 → REの前提が支持される → 変量効果モデル(RE)を採用 (効率的だから)。
flowchart TD
START["FE と RE を両方推定<br/>差 q = β_FE − β_RE を計算"] --> STAT["統計量 H = q'[Var β_FE − Var β_RE]⁻¹ q<br/>H0 の下で χ²(k)"]
STAT --> JUDGE{"H は有意か?<br/>(p値と有意水準を比較)"}
JUDGE -->|"H 大・p小<br/>H0 棄却"| USEFE["固定効果モデル FE<br/>α_i と x_it が相関<br/>REはバイアス・FEが頑健"]
JUDGE -->|"H 小・p大<br/>H0 採択"| USERE["変量効果モデル RE<br/>α_i と x_it は無相関<br/>REが効率的・時間不変変数も可"]
6. FE vs RE の選択指針
検定だけでなく、実務的・理論的な判断基準も押さえます。
判断軸 固定効果(FE)が向く 変量効果(RE)が向く α i \alpha_i α i と x i t x_{it} x i t の相関相関あり(または不明で安全策) 無相関と信じられる ハウスマン検定 H 0 H_0 H 0 を棄却H 0 H_0 H 0 を採択時間不変変数の効果を知りたい 不可(除去で消える) 可能 効率性(標準誤差の小ささ) 劣る(個体内変動のみ使用) 優れる(個体間変動も使用) 個体の捉え方 標本に含まれる個体そのものに関心 母集団からの無作為標本とみなす 一致性の頑健さ 常に一致(前提に依存しない) 前提が崩れると非一致
実務の定石は次の通りです。
理論的に α i \alpha_i α i と x i t x_{it} x i t が相関しそうか考える 。能力・経営者の質など、説明変数と関係しそうな個体差が疑われるなら、まずFEを基本線にする。
ハウスマン検定を実行 し、H 0 H_0 H 0 が棄却されればFE、されなければREの効率性を取る。
時間不変変数の効果が主目的なら 、FEでは推定できないので、REか、両者の長所を併せる相関変量効果(Mundlak)アプローチを検討する。
社会科学では「観測されない個体差が説明変数と無相関」という仮定が強すぎると見られることが多く、保守的にFEを選ぶことが多い (バイアスを避けることを効率性より優先)。一方、N N N が大きく T T T が小さい多くのミクロパネルで、時間不変の属性(性別・人種など)の効果を測りたい場合はREやハイブリッド手法が要ります。
7. 試験での問われ方(1級)
1級(統計応用・社会科学)でのパネルデータ分析は、計算問題よりも概念と前提の正確な理解 を問う形が中心です。頻出の角度を整理します。
within変換で何が消えるか :「個体平均との差をとると α i \alpha_i α i が消える」理由(α i \alpha_i α i が時間不変だから α i − α i = 0 \alpha_i-\alpha_i=0 α i − α i = 0 )を式で説明させる。同時に「時間不変な説明変数も同じ理由で消えて推定できない 」ことが頻出の注意点。within推定量=個体内推定量=LSDVの β \beta β という同値関係も問われる。
FEとREの前提の違い :FEは「α i \alpha_i α i と x i t x_{it} x i t の相関を許す(だから常に一致)」、REは「α i \alpha_i α i と x i t x_{it} x i t が無相関 という前提が必要(崩れると非一致)」。この対比を逆に覚えていないか。REの利点(効率的・時間不変変数可)とリスク(前提依存)をセットで。
REがGLSである理由 :複合誤差 u i t = α i + ε i t u_{it}=\alpha_i+\varepsilon_{it} u i t = α i + ε i t が同一個体内で系列相関 (共分散 σ α 2 \sigma_\alpha^2 σ α 2 )を持つため、OLSは非効率でGLS(FGLS)が要る。級内相関係数 ρ = σ α 2 / ( σ α 2 + σ ε 2 ) \rho=\sigma_\alpha^2/(\sigma_\alpha^2+\sigma_\varepsilon^2) ρ = σ α 2 / ( σ α 2 + σ ε 2 ) や準差分の θ \theta θ の意味(θ = 0 \theta=0 θ = 0 でOLS、θ = 1 \theta=1 θ = 1 でFE)も問われうる。
ハウスマン検定の帰無仮説 :H 0 H_0 H 0 「α i \alpha_i α i と x i t x_{it} x i t は無相関(=REが一致・効率的)」。棄却ならFE、採択ならRE 。「FEは常に一致だが非効率、REは前提が成り立てば効率的——その差 β ^ F E − β ^ R E \hat\beta_{FE}-\hat\beta_{RE} β ^ F E − β ^ R E を検定する」という論理と、統計量が χ 2 \chi^2 χ 2 に従い自由度が比較係数の数であることを押さえる。
欠落変数バイアスとの関係 :プーリングOLSが Cov ( α i , x i t ) ≠ 0 \operatorname{Cov}(\alpha_i,x_{it})\ne0 Cov ( α i , x i t ) = 0 でバイアスを持つのは欠落変数バイアスの一種、という位置づけ。FE/REはともにこれへの対処法。
数値計算が出る場合は、小さなパネル(N N N や T T T が2〜3)で within変換後のデータを作り β ^ F E \hat\beta_{FE} β ^ F E を手計算させる、級内相関や分散成分を与えて θ \theta θ を計算させる、といった形が考えられます。
8. 引っかけ・頻出論点
⚠️ FEとREの前提を逆にしない :相関を「許す」のがFE(だから常に一致・頑健)、相関が「ない」と仮定するのがRE(だから前提が崩れると非一致)。「REの方が前提が緩い」と誤解しがちだが逆で、REの方が強い前提(無相関)を置いている 。
⚠️ within変換は時間不変変数も消す :α i \alpha_i α i だけでなく、性別・人種など時間で変わらない説明変数も z i − z ˉ i = 0 z_i-\bar z_i=0 z i − z ˉ i = 0 で消える。「FEなら何でも推定できる」は誤りで、時間不変変数の効果はFEでは原理的に推定不能 。
⚠️ within推定は「個体内変動」だけを使う :個体間の差(between変動)は個体平均をとった時点で捨てている。だからFEは個体間情報を使うREより非効率 (標準誤差が大きい)。「FEの方が常に優れる」わけではない。
⚠️ REはOLSではなくGLS :複合誤差が系列相関するのでプーリングOLSは非効率。「REはただのOLS」は誤り。実際は分散成分を推定してからのFGLS で、準差分 y i t − θ y ˉ i y_{it}-\theta\bar y_i y i t − θ y ˉ i を施す。
⚠️ ハウスマン検定の帰無仮説は「無相関」 :H 0 H_0 H 0 は「α i \alpha_i α i と x i t x_{it} x i t が無相関=REが妥当」。棄却=FE、採択=RE 。「棄却したらRE」と向きを逆に覚えると致命的。H 0 H_0 H 0 を棄却できないことは「REが正しいと積極的に証明した」のではなく「REを否定する証拠がない」だけ、という解釈の注意もある。
⚠️ ハウスマン統計量の分散は引き算 :Var ( β ^ F E ) − Var ( β ^ R E ) \operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE}) Var ( β ^ F E ) − Var ( β ^ R E ) 。共分散項が Cov ( β ^ F E , β ^ R E ) = Var ( β ^ R E ) \operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE})=\operatorname{Var}(\hat\beta_{RE}) Cov ( β ^ F E , β ^ R E ) = Var ( β ^ R E ) となって消えるのは、β ^ R E \hat\beta_{RE} β ^ R E が**効率的(最小分散)**だから。和ではなく差になる理由を効率性と結びつけて理解する。
⚠️ θ = 1 \theta=1 θ = 1 でFE、θ = 0 \theta=0 θ = 0 でOLS :REの準差分はプーリングOLSとFEの中間。個体効果が大きい(σ α 2 \sigma_\alpha^2 σ α 2 大)ほど θ \theta θ は1に近づきFEに寄る。「REとFEは全く別物」ではなく、REは連続スペクトル上でFEを特殊ケースとして含む 。
⚠️ 一階差分とwithinは T ≥ 3 T\ge3 T ≥ 3 で別物 :T = 2 T=2 T = 2 なら一致するが、T ≥ 3 T\ge3 T ≥ 3 では特異誤差の系列相関の扱いが違い結果がずれる。ε i t \varepsilon_{it} ε i t が系列無相関ならwithinが効率的、強い系列相関なら一階差分が望ましい。
よくある疑問(Q&A)
Q1. 「固定効果」なのに α i \alpha_i α i を未知パラメータとして推定しないのはなぜですか? within変換では α i \alpha_i α i を消してしまいますよね。
within変換は α i \alpha_i α i を消去して β \beta β を一致推定する のが目的で、α i \alpha_i α i 自体の値が主目的ではないことが多いからです。LSDV法を使えば α i \alpha_i α i (個体ごとの切片)も明示的に推定できますし、within推定後に各個体の平均残差から α ^ i = y ˉ i − x ˉ i ⊤ β ^ F E \hat\alpha_i=\bar y_i-\bar x_i^\top\hat\beta_{FE} α ^ i = y ˉ i − x ˉ i ⊤ β ^ F E として復元もできます。ただし N N N が大きいと α i \alpha_i α i は N N N 個もあり、各個体あたり T T T 個のデータしかないので α ^ i \hat\alpha_i α ^ i は一致推定できない(付随パラメータ問題 )。だから関心が β \beta β にあるなら、α i \alpha_i α i は推定せず消してしまうwithin変換が効率的・実用的なのです。「固定効果」の名は「α i \alpha_i α i を確率変数とみなさず固定された量として扱う(相関を許す)」立場を指し、必ずしも α i \alpha_i α i の値を推定することは意味しません。
Q2. REの前提(α i \alpha_i α i と x i t x_{it} x i t が無相関)が成り立つか、データだけで分かるのですか?
直接 α i \alpha_i α i は観測できないので、Cov ( α i , x i t ) \operatorname{Cov}(\alpha_i,x_{it}) Cov ( α i , x i t ) を直接測ることはできません。そこで間接的に 判定するのがハウスマン検定です。「もしREの前提が正しければ、FEとREは同じ真値に収束するはず → 両推定値が大きく食い違えば前提が壊れている」という背理法的な論理で、β ^ F E − β ^ R E \hat\beta_{FE}-\hat\beta_{RE} β ^ F E − β ^ R E の大きさから前提の成否を推し量ります。ただし検定は万能ではなく、H 0 H_0 H 0 を棄却できないことは「REが正しいと証明した」のではなく「REを否定する証拠が(この検出力の範囲では)なかった」だけです。最終判断には、理論的に「個体差が説明変数と相関しそうか」という分野知識も併せて使うのが定石です。
Q3. ハウスマン検定の統計量の分散がなぜ「FEの分散 − REの分散」という引き算になるのですか? 普通、差の分散は和に共分散項が付くはずです。
鍵は β ^ R E \hat\beta_{RE} β ^ R E が H 0 H_0 H 0 の下で**効率的(最小分散)**であることです。一般に Var ( β ^ F E − β ^ R E ) = Var ( β ^ F E ) + Var ( β ^ R E ) − 2 Cov ( β ^ F E , β ^ R E ) \operatorname{Var}(\hat\beta_{FE}-\hat\beta_{RE})=\operatorname{Var}(\hat\beta_{FE})+\operatorname{Var}(\hat\beta_{RE})-2\operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE}) Var ( β ^ F E − β ^ R E ) = Var ( β ^ F E ) + Var ( β ^ R E ) − 2 Cov ( β ^ F E , β ^ R E ) ですが、ハウスマンの補題により「効率的推定量 β ^ R E \hat\beta_{RE} β ^ R E と差 q = β ^ F E − β ^ R E q=\hat\beta_{FE}-\hat\beta_{RE} q = β ^ F E − β ^ R E は無相関」が成り立ちます。これを使うと Cov ( β ^ F E , β ^ R E ) = Var ( β ^ R E ) \operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE})=\operatorname{Var}(\hat\beta_{RE}) Cov ( β ^ F E , β ^ R E ) = Var ( β ^ R E ) となり、代入すると Var ( q ) = Var ( β ^ F E ) − Var ( β ^ R E ) \operatorname{Var}(q)=\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE}) Var ( q ) = Var ( β ^ F E ) − Var ( β ^ R E ) と引き算に簡約されます。補題が成り立つ理由は背理法で、もし効率的推定量が差と相関していたら、その相関を使ってさらに分散を下げられてしまい「効率的(最小分散)」の前提に矛盾するからです。要するに「最小分散の推定量は、他との差と相関できない」という効率性の性質が、分散を綺麗な引き算にしているのです。
Q4. T = 2 T=2 T = 2 (2時点)しかないとき、within変換と一階差分はどちらを使うべきですか?
T = 2 T=2 T = 2 のときは within変換と一階差分は完全に同じ推定量 になるので、どちらを使っても結果は一致します。証明は単純で、T = 2 T=2 T = 2 なら個体平均は y ˉ i = ( y i 1 + y i 2 ) / 2 \bar y_i=(y_{i1}+y_{i2})/2 y ˉ i = ( y i 1 + y i 2 ) /2 で、within偏差は y i 2 − y ˉ i = ( y i 2 − y i 1 ) / 2 y_{i2}-\bar y_i=(y_{i2}-y_{i1})/2 y i 2 − y ˉ i = ( y i 2 − y i 1 ) /2 、y i 1 − y ˉ i = − ( y i 2 − y i 1 ) / 2 y_{i1}-\bar y_i=-(y_{i2}-y_{i1})/2 y i 1 − y ˉ i = − ( y i 2 − y i 1 ) /2 となり、いずれも一階差分 y i 2 − y i 1 y_{i2}-y_{i1} y i 2 − y i 1 の定数倍だからです。違いが出るのは T ≥ 3 T\ge3 T ≥ 3 からで、そこでは特異誤差 ε i t \varepsilon_{it} ε i t の系列相関構造によって優劣が分かれます(系列無相関ならwithin、ランダムウォーク的なら一階差分)。
Q5. プーリングOLSは「一致するが非効率」とありますが、α i \alpha_i α i と x i t x_{it} x i t が無相関ならプーリングOLSを使えばよいのでは? なぜREが要るのですか?
無相関なら確かにプーリングOLSも一致 します(バイアスは出ない)。問題は効率 です。複合誤差 u i t = α i + ε i t u_{it}=\alpha_i+\varepsilon_{it} u i t = α i + ε i t は同一個体内で系列相関する(共分散 σ α 2 \sigma_\alpha^2 σ α 2 )ため、OLSの「誤差が等分散・無相関」という前提が崩れ、OLSはBLUE(最良線形不偏推定量)でなくなります。具体的には、OLSの推定量自体は不偏・一致でも、その標準誤差の計算が誤り になり(系列相関を無視するため過小評価しがち)、検定や信頼区間が歪みます。REはこの系列相関を分散成分でモデル化しGLSで適切に処理するので、より小さい分散の推定量と正しい標準誤差 が得られます。要するに「無相関ならOLSでもバイアスはないが、誤差相関を無視すると効率と推測の正確さで損をする。それを直すのがRE」です。
まとめ
パネルデータ y i t = x i t ⊤ β + α i + ε i t y_{it}=x_{it}^\top\beta+\alpha_i+\varepsilon_{it} y i t = x i t ⊤ β + α i + ε i t の核心は、観測されない個体固有効果 α i \alpha_i α i (時間不変の異質性)の扱い。α i \alpha_i α i が x i t x_{it} x i t と相関するとプーリングOLSは 欠落変数バイアス を持つ。
固定効果モデル(FE) :within変換 y i t − y ˉ i = ( x i t − x ˉ i ) ⊤ β + ( ε i t − ε ˉ i ) y_{it}-\bar y_i=(x_{it}-\bar x_i)^\top\beta+(\varepsilon_{it}-\bar\varepsilon_i) y i t − y ˉ i = ( x i t − x ˉ i ) ⊤ β + ( ε i t − ε ˉ i ) で α i − α i = 0 \alpha_i-\alpha_i=0 α i − α i = 0 となり α i \alpha_i α i が消える。α i \alpha_i α i と x i t x_{it} x i t の相関を許すので常に一致 だが、時間不変変数も同時に消えて推定不能 。個体内変動のみ使うため非効率。LSDV(個体ダミー)と β \beta β が一致。
変量効果モデル(RE) :α i \alpha_i α i を平均0のランダム誤差成分 とみなす(前提 Cov ( α i , x i t ) = 0 \operatorname{Cov}(\alpha_i,x_{it})=0 Cov ( α i , x i t ) = 0 )。複合誤差 u i t = α i + ε i t u_{it}=\alpha_i+\varepsilon_{it} u i t = α i + ε i t が同一個体内で系列相関(共分散 σ α 2 \sigma_\alpha^2 σ α 2 、級内相関 ρ = σ α 2 / ( σ α 2 + σ ε 2 ) \rho=\sigma_\alpha^2/(\sigma_\alpha^2+\sigma_\varepsilon^2) ρ = σ α 2 / ( σ α 2 + σ ε 2 ) )するため**GLS(FGLS)**で推定。準差分 y i t − θ y ˉ i y_{it}-\theta\bar y_i y i t − θ y ˉ i (θ = 1 − σ ε 2 / ( σ ε 2 + T σ α 2 ) \theta=1-\sqrt{\sigma_\varepsilon^2/(\sigma_\varepsilon^2+T\sigma_\alpha^2)} θ = 1 − σ ε 2 / ( σ ε 2 + T σ α 2 ) )を施し、θ = 0 \theta=0 θ = 0 でOLS・θ = 1 \theta=1 θ = 1 でFE。効率的で時間不変変数も推定可だが、前提が崩れると非一致。
ハウスマン検定 :H 0 H_0 H 0 「α i \alpha_i α i と x i t x_{it} x i t が無相関(REが一致・効率的)」を、H = ( β ^ F E − β ^ R E ) ⊤ [ Var ( β ^ F E ) − Var ( β ^ R E ) ] − 1 ( β ^ F E − β ^ R E ) ∼ χ k 2 H=(\hat\beta_{FE}-\hat\beta_{RE})^\top[\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})]^{-1}(\hat\beta_{FE}-\hat\beta_{RE})\sim\chi^2_k H = ( β ^ F E − β ^ R E ) ⊤ [ Var ( β ^ F E ) − Var ( β ^ R E ) ] − 1 ( β ^ F E − β ^ R E ) ∼ χ k 2 で検定。FEは常に一致・REは前提下でのみ一致という非対称性から、両者の差が0かを見る。分散が引き算になるのはREが効率的だから。棄却→FE、採択→RE 。
引っかけ:FE/REの前提を逆にしない/withinは時間不変変数も消す/REはOLSでなくGLS/ハウスマンの H 0 H_0 H 0 は無相関で棄却ならFE/統計量の分散は引き算。
関連ノート