← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:A(頻出)

要点(BLUF)

パネルデータ(個体 ii ×時間 tt の二重添字データ)の核心は、観測されない個体固有効果 αi\alpha_i(異質性)をどう扱うかです。αi\alpha_i が説明変数 xitx_{it} と相関すると、それを無視したプーリングOLSは欠落変数バイアスを起こします。これを解決する2つのモデルと、どちらを使うかを決める検定を押さえます。

1級(統計応用・社会科学)では FE/RE の前提・within変換で何が消えるか・ハウスマン検定の帰無仮説が頻出です(範囲・配点は改訂されうるため要最新確認)。

graph TD
  PANEL["パネルデータ y_it = x_it'β + α_i + ε_it<br/>α_i = 観測されない個体固有効果"] --> Q{"α_i と x_it は<br/>相関するか?"}
  Q -->|相関あり| FE["固定効果モデル FE<br/>within変換で α_i を除去<br/>常に一致・時間不変変数は不可"]
  Q -->|相関なし| RE["変量効果モデル RE<br/>α_i をランダム誤差とみなし GLS<br/>効率的・時間不変変数も可"]
  POOL["プーリングOLS<br/>α_i を無視"] -.->|相関ありなら<br/>欠落変数バイアス| Q
  FE --> HAUS["ハウスマン検定で<br/>FE と RE を比較"]
  RE --> HAUS
  HAUS -->|差が大 → H0棄却| FE
  HAUS -->|差が小 → H0採択| RE

1. パネルデータとは — データ構造と基本モデル

1.1 二重添字のデータ

パネルデータ(縦断データ、longitudinal data)は、同じ個体を複数時点で繰り返し観測したデータです。個体 i=1,,Ni=1,\dots,N(人・企業・国など)を時間 t=1,,Tt=1,\dots,T にわたって追跡するので、各観測値は2つの添字 (i,t)(i,t) を持ちます。

パネルデータの最大の強みは、同じ個体を追うことで「その個体に固有で時間変化しない要因」をコントロールできる点です。横断面データ1枚では、観測できない個体差(能力・社風・国民性など)を分離できませんが、パネルなら個体内の時間変化に注目してこれを取り除けます。これがFE/REの動機です。

1.2 基本モデルと個体固有効果

パネルデータの標準的な線形モデルは

  yit=xitβ+αi+εit  (i=1,,N; t=1,,T)\boxed{\;y_{it} = x_{it}^\top\beta + \alpha_i + \varepsilon_{it}\;} \qquad (i=1,\dots,N;\ t=1,\dots,T)

です。各項の意味は:

要するに「αi\alpha_i は、その個体にずっと付きまとう、データに無い切片のズレ」です。例えば賃金関数で αi\alpha_i は「個人の生まれ持った能力・やる気」のような、観測できないが賃金に効く時間不変要因をまとめて表します。この αi\alpha_i をどう扱うかがパネル分析の全てです。

graph LR
  CS["横断面データ<br/>個体 i のみ"] -->|時間方向に積む| P["パネルデータ<br/>個体 i × 時間 t"]
  TS["時系列データ<br/>時間 t のみ"] -->|個体方向に積む| P
  P --> ADV["強み:観測されない<br/>時間不変な個体差 α_i を<br/>コントロールできる"]

2. プーリングOLSの問題 — 欠落変数バイアス

最も素朴な方法は、αi\alpha_i の存在を無視して全データ(N×TN\times T 個)を一つの回帰にまとめる**プーリングOLS(pooled OLS)**です。

yit=xitβ+uit,uit=αi+εity_{it} = x_{it}^\top\beta + u_{it},\qquad u_{it}=\alpha_i+\varepsilon_{it}

として β\beta を普通の最小二乗で推定します。これが正当化されるのは αi\alpha_i が説明変数 xitx_{it}無相関のときだけです。問題は αi\alpha_ixitx_{it} と相関する場合です。

2.1 なぜバイアスが出るか

αi\alpha_i はモデルから見れば誤差 uitu_{it} の一部です。もし αi\alpha_ixitx_{it} が相関していると、説明変数が誤差と相関することになり、OLSの直交条件 E[xituit]=0E[x_{it}u_{it}]=0 が破れます。これは典型的な**欠落変数バイアス(omitted variable bias)**です。αi\alpha_i という重要な変数(能力など)をモデルに入れ損ねているのに、それが説明変数と相関しているため、xitx_{it} の係数 β\beta にその影響が漏れ込んでしまうのです。

具体例で考えます。賃金 yity_{it} を教育投資 xitx_{it} で説明したいが、観測できない「能力 αi\alpha_i」が(i)賃金を上げ、(ii)教育投資も増やす、とします。すると能力の高い人ほど教育投資も賃金も高くなり、教育の効果と能力の効果がプーリングOLSでは分離できずβ^\hat\beta は教育の真の効果より大きく出ます(上方バイアス)。要するに「能力という見えない第3の要因が、教育と賃金の両方を押し上げているのに、それを教育の手柄に勘違いする」。

Cov(αi,xit)0  β^OLS は一致推定量でない(バイアス)\operatorname{Cov}(\alpha_i, x_{it})\ne 0 \ \Longrightarrow\ \hat\beta_{\text{OLS}} \text{ は一致推定量でない(バイアス)}

FE・REはどちらも、この αi\alpha_i を別扱いすることでバイアスに対処します。違いは「αi\alpha_i を除去するか(FE)」「αi\alpha_i を無相関と仮定してモデル化するか(RE)」です。


3. 固定効果モデル(FE) — within変換で αi\alpha_i を除去

3.1 発想:αi\alpha_i を「消す」

固定効果モデルは、αi\alpha_i を推定すべき未知パラメータ(個体ごとの切片)とみなし、αi\alpha_ixitx_{it} の相関を許します。鍵は、αi\alpha_i時間不変tt に依存しない定数)であることを利用して、これを式から消去することです。αi\alpha_i さえ消えれば、それが xitx_{it} と相関していてもバイアスは生じません。

代表的な消去法が **within変換(個体平均との差をとる、time-demeaning)**です。

3.2 within変換の導出(αi\alpha_i が消える)

元のモデルを再掲します。

yit=xitβ+αi+εit(1)y_{it} = x_{it}^\top\beta + \alpha_i + \varepsilon_{it} \tag{1}

ステップ1:各個体について時間平均をとる。 個体 ii の全 TT 時点で平均すると、αi\alpha_itt に依存しないので平均しても αi\alpha_i のまま残ります。

yˉi=xˉiβ+αi+εˉi(2)\bar y_i = \bar x_i^\top\beta + \alpha_i + \bar\varepsilon_i \tag{2}

ただし yˉi=1Tt=1Tyit\bar y_i=\frac1T\sum_{t=1}^T y_{it}xˉi=1Ttxit\bar x_i=\frac1T\sum_t x_{it}εˉi=1Ttεit\bar\varepsilon_i=\frac1T\sum_t\varepsilon_{it}。要するに「その個体の全期間の平均をとる。αi\alpha_i は時間で変わらないから平均しても αi\alpha_i のまま」。

ステップ2:元の式 (1) から平均の式 (2) を引く。 これが within変換の本体です。

(yityˉi)y~it=(xitxˉi)β+(αiαi)=0+(εitεˉi)\underbrace{(y_{it}-\bar y_i)}_{\tilde y_{it}} = (x_{it}-\bar x_i)^\top\beta + \underbrace{(\alpha_i-\alpha_i)}_{=\,0} + (\varepsilon_{it}-\bar\varepsilon_i)

αiαi=0\alpha_i-\alpha_i=0 となり、αi\alpha_i が消滅します。残るのは

  y~it=x~itβ+ε~it,y~it=yityˉi,  x~it=xitxˉi,  ε~it=εitεˉi  \boxed{\;\tilde y_{it} = \tilde x_{it}^\top\beta + \tilde\varepsilon_{it},\qquad \tilde y_{it}=y_{it}-\bar y_i,\ \ \tilde x_{it}=x_{it}-\bar x_i,\ \ \tilde\varepsilon_{it}=\varepsilon_{it}-\bar\varepsilon_i\;}

要するに「個体平均との差(偏差)をとると、時間不変な αi\alpha_i は自分自身との差になって消える」αi\alpha_i が消えたので、それが xitx_{it} とどれだけ相関していても無関係になりました。この偏差データ y~it,x~it\tilde y_{it},\tilde x_{it}普通のOLSをかければ、αi\alpha_ixitx_{it} の相関があっても一致する推定量

β^FE=(itx~itx~it)1itx~ity~it\hat\beta_{FE} = \Big(\sum_{i}\sum_{t}\tilde x_{it}\tilde x_{it}^\top\Big)^{-1}\sum_i\sum_t \tilde x_{it}\tilde y_{it}

が得られます。これを**within推定量(個体内推定量)**と呼びます。「within(個体内)」の名は、各個体の中での時間変動だけを使って β\beta を推定するからです(個体間の差は平均をとった時点で捨てている)。

3.3 なぜ時間不変変数が推定できないか

within変換の代償が、時間不変な説明変数の係数が推定できないことです。説明変数の一部 ziz_i が時間で変わらない(性別・人種・出身地など、ziz_itt の添字がない)とします。これも個体平均をとると zˉi=zi\bar z_i=z_i なので、within変換すると

zizˉi=zizi=0z_i - \bar z_i = z_i - z_i = 0

となり、αi\alpha_i と全く同じ理由で消えてしまいます。要するに「時間不変変数は、αi\alpha_i と区別がつかず一緒に除去される」。within変換は「時間で変わらないものをすべて消す」操作なので、αi\alpha_i だけでなく時間不変の説明変数も巻き添えになるのです。これがFEの本質的限界で、性別の賃金差のような時間不変要因の効果を知りたいならFEは使えません(後述のREやハイブリッド法が必要)。

3.4 一階差分(別の除去法)

αi\alpha_i を消すもう一つの方法が**一階差分(first difference)**です。隣り合う時点の差をとります。

yityi,t1=(xitxi,t1)β+(αiαi)=0+(εitεi,t1)y_{it}-y_{i,t-1} = (x_{it}-x_{i,t-1})^\top\beta + \underbrace{(\alpha_i-\alpha_i)}_{=\,0} + (\varepsilon_{it}-\varepsilon_{i,t-1})

ここでも αi\alpha_i は前後で同じ値なので差をとると消えます。要するに「前期との差をとっても、時間不変な αi\alpha_i は消える」。T=2T=2(2時点)のときは within変換と一階差分は完全に同じ推定量になりますが、T3T\ge3 では特異誤差 εit\varepsilon_{it} の系列相関の扱いが異なり、結果がずれます。εit\varepsilon_{it} が系列無相関ならwithin推定が効率的、εit\varepsilon_{it} が強い系列相関(ランダムウォーク的)なら一階差分が望ましい、という使い分けがあります。

3.5 ダミー変数モデル(LSDV)との同値性

αi\alpha_i を「個体ごとのダミー変数(切片)」として明示的にモデルに入れ、NN 個の個体ダミーと β\beta を一括でOLS推定する方法をLSDV(Least Squares Dummy Variable)法と呼びます。

yit=xitβ+j=1NαjDji+εit(Dji は個体 j のダミー)y_{it}=x_{it}^\top\beta + \sum_{j=1}^{N}\alpha_j D_{ji} + \varepsilon_{it}\quad(D_{ji}\text{ は個体 }j\text{ のダミー})

驚くべきことに、LSDVで得られる β^\hat\beta は within推定量と完全に一致します(フリッシュ=ウォー=ローヴェルの定理から導かれる)。要するに「個体ダミーを全部入れてOLSするのと、個体平均を引いてOLSするのは、β\beta については同じ結果」。within変換が好まれるのは、NN が大きい(個体が何千もある)ときにダミーを NN 本作らずに済み計算が軽いためです。


4. 変量効果モデル(RE) — αi\alpha_i をランダム成分としGLS

4.1 発想:αi\alpha_i を「誤差として組み込む」

変量効果モデル(random effects model、分散成分モデル)は、αi\alpha_i を個体ごとの固定パラメータではなく、母集団からランダムに抽出された平均0の確率変数とみなします。

αi(0, σα2) 独立,εit(0, σε2) 独立,Cov(αi,xit)=0\alpha_i \sim (0,\ \sigma_\alpha^2)\ \text{独立},\qquad \varepsilon_{it}\sim(0,\ \sigma_\varepsilon^2)\ \text{独立},\qquad \operatorname{Cov}(\alpha_i, x_{it})=0

最重要の前提は最後の Cov(αi,xit)=0\operatorname{Cov}(\alpha_i, x_{it})=0、すなわち αi\alpha_i が説明変数と無相関であることです。この前提が成り立つなら、αi\alpha_i を誤差の一部として扱ってよく、β\beta を一致推定できます(直交条件が破れないため)。FEが「αi\alpha_ixitx_{it} の相関を許して除去」したのに対し、REは「相関しないと仮定して、αi\alpha_i を誤差にまとめる」立場です。

4.2 複合誤差の分散・共分散構造

αi\alpha_i を誤差にまとめると、誤差項は複合誤差(composite error)

uit=αi+εitu_{it} = \alpha_i + \varepsilon_{it}

になります。この複合誤差の構造が、REを単純なOLSで推定できなくする原因です。同じ個体 ii の異なる時点 t,st,s の誤差は、共通の αi\alpha_i を含むため相関します。各モーメントを計算します。

分散。 αi\alpha_iεit\varepsilon_{it} が独立なので

Var(uit)=Var(αi)+Var(εit)=σα2+σε2\operatorname{Var}(u_{it}) = \operatorname{Var}(\alpha_i) + \operatorname{Var}(\varepsilon_{it}) = \sigma_\alpha^2 + \sigma_\varepsilon^2

同一個体・異時点の共分散(tst\ne s)。 αi\alpha_i は両時点で共通、εit\varepsilon_{it}εis\varepsilon_{is} は独立なので

Cov(uit,uis)=Cov(αi+εit, αi+εis)=Var(αi)=σα2(ts)\operatorname{Cov}(u_{it}, u_{is}) = \operatorname{Cov}(\alpha_i+\varepsilon_{it},\ \alpha_i+\varepsilon_{is}) = \operatorname{Var}(\alpha_i) = \sigma_\alpha^2 \quad (t\ne s)

要するに「同じ個体の誤差は、共通の αi\alpha_i の分だけ必ず相関する(共分散 σα2\sigma_\alpha^2」。異なる個体間(iji\ne j)の誤差は αi,αj\alpha_i,\alpha_j が独立なので無相関です。

個体内相関(級内相関係数)。 同一個体内の誤差の相関係数は

ρ=Corr(uit,uis)=σα2σα2+σε2(ts)\rho = \operatorname{Corr}(u_{it}, u_{is}) = \frac{\sigma_\alpha^2}{\sigma_\alpha^2 + \sigma_\varepsilon^2}\quad(t\ne s)

これは**級内相関係数(intraclass correlation)**と呼ばれ、全分散のうち個体固有効果 σα2\sigma_\alpha^2 が占める割合です。ρ\rho が大きいほど「個体差が支配的」を意味します。

4.3 なぜGLSが必要か — そしてFGLSの準差分変換

複合誤差 uitu_{it}等分散でない上に同一個体内で系列相関する(共分散行列が単位行列の定数倍にならない)ため、ガウス=マルコフの仮定が崩れ、**プーリングOLSは一致するが非効率(BLUEでない)になります。効率的な推定には、誤差の共分散構造 Ω\Omega を使った一般化最小二乗法(GLS)**が必要です(ガウス・マルコフの定理とGLS の分散不均一・系列相関への一般化)。

GLSは誤差の相関を「白色化」する変換をデータに施してからOLSをかけるのと同値で、REの場合この変換は**準差分変換(quasi-demeaning, partial demeaning)**という形になります。個体平均を θ\theta 倍だけ引く操作です。

  yitθyˉi=(xitθxˉi)β+(uitθuˉi)  \boxed{\;y_{it}-\theta\,\bar y_i = (x_{it}-\theta\,\bar x_i)^\top\beta + (u_{it}-\theta\,\bar u_i)\;}

ここで変換の強さ θ\theta は分散成分から決まり

  θ=1σε2σε2+Tσα2  \boxed{\;\theta = 1 - \sqrt{\frac{\sigma_\varepsilon^2}{\sigma_\varepsilon^2 + T\sigma_\alpha^2}}\;}

です。要するに「REのGLSは、個体平均を「丸ごと」ではなく「θ\theta の割合だけ」引く中間的な変換」。この θ\theta が、RE推定がプーリングOLSとFEのちょうど間に位置することを示します。

要するに「REは、個体効果の大きさ σα2\sigma_\alpha^2 に応じて、プーリングOLS(θ=0\theta=0)からFE(θ=1\theta=1)まで連続的に位置を変える推定量」。実際には σα2,σε2\sigma_\alpha^2,\sigma_\varepsilon^2 は未知なので、まずこれらを残差から推定して θ^\hat\theta を作り、それでGLSを実行します。これを**実行可能GLS(FGLS, Feasible GLS)**と呼びます。

4.4 REの利点と前提のリスク

前提 Cov(αi,xit)=0\operatorname{Cov}(\alpha_i, x_{it})=0 が成り立つなら、REには次の利点があります。

一方、前提が崩れる(αi\alpha_ixitx_{it} が相関する)と、REは一致性を失いバイアスを持ちます。FEはこの前提なしで常に一致するので頑健、REは前提次第で効率的だが脆い、というトレードオフが生じます。この前提の成否を判定するのがハウスマン検定です。


5. ハウスマン検定 — FEとREのどちらを使うか

5.1 検定の論理(一致性 vs 効率性のトレードオフを利用)

ハウスマン検定(Hausman test)は、RE の鍵となる前提

H0: Cov(αi,xit)=0(REが一致かつ効率的)H1: Cov(αi,xit)0(REは非一致、FEが正しい)H_0:\ \operatorname{Cov}(\alpha_i, x_{it}) = 0 \quad(\text{REが一致かつ効率的}) \qquad H_1:\ \operatorname{Cov}(\alpha_i, x_{it}) \ne 0\quad(\text{REは非一致、FEが正しい})

を検定します。検定の核心は、2つの推定量の一致性が前提に依存する度合いが違うことを利用する点です。

推定量H0H_0 が真(相関なし)のときH1H_1 が真(相関あり)のとき
β^FE\hat\beta_{FE}(固定効果)一致(だが非効率)一致(前提不要だから常に頑健)
β^RE\hat\beta_{RE}(変量効果)一致かつ効率的非一致(バイアス)

ポイントは「FEは H0H_0 の真偽に関わらず常に一致、REは H0H_0 が真のときだけ一致」という非対称性です。ここから検定のアイデアが出ます。

したがって「β^FEβ^RE\hat\beta_{FE}-\hat\beta_{RE} が0と有意に異なるか」を見れば、H0H_0(REの前提)の成否を検定できます。要するに「頑健だが非効率なFEと、効率的だが脆いREの推定値を比べ、食い違いが大きければ『REの前提が壊れている=FEを使え』と判断する」。

5.2 検定統計量の導出

差を q=β^FEβ^REq = \hat\beta_{FE} - \hat\beta_{RE} とします。検定統計量は、この差をその分散で基準化した二次形式です。

  H=q[Var(q)]1q=(β^FEβ^RE)[Var(β^FE)Var(β^RE)]1(β^FEβ^RE)  \boxed{\;H = q^\top\big[\operatorname{Var}(q)\big]^{-1} q = (\hat\beta_{FE}-\hat\beta_{RE})^\top\big[\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})\big]^{-1}(\hat\beta_{FE}-\hat\beta_{RE})\;}

ここで分散が差し引き Var(β^FE)Var(β^RE)\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE}) になるのがハウスマン検定の妙です。なぜ共分散項が消えて単純な引き算になるのかを導出します。

ステップ1:差の分散を展開する。 一般に2つの推定量の差の分散は

Var(q)=Var(β^FE)+Var(β^RE)2Cov(β^FE,β^RE)\operatorname{Var}(q) = \operatorname{Var}(\hat\beta_{FE}) + \operatorname{Var}(\hat\beta_{RE}) - 2\operatorname{Cov}(\hat\beta_{FE}, \hat\beta_{RE})

です。このままでは共分散項 Cov(β^FE,β^RE)\operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE}) が邪魔で計算しにくい。

ステップ2:ハウスマンの補題を使う。 ここで「H0H_0 の下では、効率的な推定量 β^RE\hat\beta_{RE} と『その効率的推定量と非効率推定量の差 qq』は無相関」という結果(ハウスマンの補題)を使います。直観は、もし β^RE\hat\beta_{RE}(効率的=最小分散)が差 qq と相関していたら、その相関を利用してさらに分散の小さい推定量が作れてしまい、「β^RE\hat\beta_{RE} が効率的(最小分散)」という前提と矛盾するからです。要するに「最小分散の推定量は、他の推定量との差と相関を持てない(持てたらもっと改善できてしまう)」。

この補題 Cov(q,β^RE)=0\operatorname{Cov}(q,\hat\beta_{RE})=0β^FE=β^RE+q\hat\beta_{FE}=\hat\beta_{RE}+q に適用すると

Cov(β^FE,β^RE)=Cov(β^RE+q, β^RE)=Var(β^RE)+Cov(q,β^RE)=0=Var(β^RE)\operatorname{Cov}(\hat\beta_{FE}, \hat\beta_{RE}) = \operatorname{Cov}(\hat\beta_{RE}+q,\ \hat\beta_{RE}) = \operatorname{Var}(\hat\beta_{RE}) + \underbrace{\operatorname{Cov}(q,\hat\beta_{RE})}_{=\,0} = \operatorname{Var}(\hat\beta_{RE})

要するに「FEとREの共分散は、REの分散そのものに等しい」。

ステップ3:代入して整理。 これをステップ1に戻すと共分散項がきれいに片付きます。

Var(q)=Var(β^FE)+Var(β^RE)2Var(β^RE)=Var(β^FE)Var(β^RE)\operatorname{Var}(q) = \operatorname{Var}(\hat\beta_{FE}) + \operatorname{Var}(\hat\beta_{RE}) - 2\operatorname{Var}(\hat\beta_{RE}) = \operatorname{Var}(\hat\beta_{FE}) - \operatorname{Var}(\hat\beta_{RE})

要するに「効率的な β^RE\hat\beta_{RE} との共分散がちょうど Var(β^RE)\operatorname{Var}(\hat\beta_{RE}) になるおかげで、差の分散は2つの分散の単純な引き算になる」。これが統計量の分母 Var(β^FE)Var(β^RE)\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE}) の正体です。β^RE\hat\beta_{RE} が効率的なので Var(β^FE)Var(β^RE)\operatorname{Var}(\hat\beta_{FE})\ge\operatorname{Var}(\hat\beta_{RE}) が保証され、この差(行列)は正定値で逆行列が存在します。

5.3 分布と判定

H0H_0 の下で、統計量 HH は漸近的に自由度 kk のカイ二乗分布に従います。

Hdχk2(k=時間変化する説明変数の数、すなわち比較する係数の次元)H \xrightarrow{d} \chi^2_k \qquad (k = \text{時間変化する説明変数の数、すなわち比較する係数の次元})

要するに「FEとREで共通に推定できる係数の本数が自由度」(時間不変変数はFEで推定できないので比較から外れる)。判定は:

flowchart TD
  START["FE と RE を両方推定<br/>差 q = β_FE − β_RE を計算"] --> STAT["統計量 H = q'[Var β_FE − Var β_RE]⁻¹ q<br/>H0 の下で χ²(k)"]
  STAT --> JUDGE{"H は有意か?<br/>(p値と有意水準を比較)"}
  JUDGE -->|"H 大・p小<br/>H0 棄却"| USEFE["固定効果モデル FE<br/>α_i と x_it が相関<br/>REはバイアス・FEが頑健"]
  JUDGE -->|"H 小・p大<br/>H0 採択"| USERE["変量効果モデル RE<br/>α_i と x_it は無相関<br/>REが効率的・時間不変変数も可"]

6. FE vs RE の選択指針

検定だけでなく、実務的・理論的な判断基準も押さえます。

判断軸固定効果(FE)が向く変量効果(RE)が向く
αi\alpha_ixitx_{it} の相関相関あり(または不明で安全策)無相関と信じられる
ハウスマン検定H0H_0 を棄却H0H_0 を採択
時間不変変数の効果を知りたい不可(除去で消える)可能
効率性(標準誤差の小ささ)劣る(個体内変動のみ使用)優れる(個体間変動も使用)
個体の捉え方標本に含まれる個体そのものに関心母集団からの無作為標本とみなす
一致性の頑健さ常に一致(前提に依存しない)前提が崩れると非一致

実務の定石は次の通りです。

  1. 理論的に αi\alpha_ixitx_{it} が相関しそうか考える。能力・経営者の質など、説明変数と関係しそうな個体差が疑われるなら、まずFEを基本線にする。
  2. ハウスマン検定を実行し、H0H_0 が棄却されればFE、されなければREの効率性を取る。
  3. 時間不変変数の効果が主目的なら、FEでは推定できないので、REか、両者の長所を併せる相関変量効果(Mundlak)アプローチを検討する。

社会科学では「観測されない個体差が説明変数と無相関」という仮定が強すぎると見られることが多く、保守的にFEを選ぶことが多い(バイアスを避けることを効率性より優先)。一方、NN が大きく TT が小さい多くのミクロパネルで、時間不変の属性(性別・人種など)の効果を測りたい場合はREやハイブリッド手法が要ります。


7. 試験での問われ方(1級)

1級(統計応用・社会科学)でのパネルデータ分析は、計算問題よりも概念と前提の正確な理解を問う形が中心です。頻出の角度を整理します。

数値計算が出る場合は、小さなパネル(NNTT が2〜3)で within変換後のデータを作り β^FE\hat\beta_{FE} を手計算させる、級内相関や分散成分を与えて θ\theta を計算させる、といった形が考えられます。


8. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. 「固定効果」なのに αi\alpha_i を未知パラメータとして推定しないのはなぜですか? within変換では αi\alpha_i を消してしまいますよね。

within変換は αi\alpha_i消去して β\beta を一致推定するのが目的で、αi\alpha_i 自体の値が主目的ではないことが多いからです。LSDV法を使えば αi\alpha_i(個体ごとの切片)も明示的に推定できますし、within推定後に各個体の平均残差から α^i=yˉixˉiβ^FE\hat\alpha_i=\bar y_i-\bar x_i^\top\hat\beta_{FE} として復元もできます。ただし NN が大きいと αi\alpha_iNN 個もあり、各個体あたり TT 個のデータしかないので α^i\hat\alpha_i は一致推定できない(付随パラメータ問題)。だから関心が β\beta にあるなら、αi\alpha_i は推定せず消してしまうwithin変換が効率的・実用的なのです。「固定効果」の名は「αi\alpha_i を確率変数とみなさず固定された量として扱う(相関を許す)」立場を指し、必ずしも αi\alpha_i の値を推定することは意味しません。

Q2. REの前提(αi\alpha_ixitx_{it} が無相関)が成り立つか、データだけで分かるのですか?

直接 αi\alpha_i は観測できないので、Cov(αi,xit)\operatorname{Cov}(\alpha_i,x_{it}) を直接測ることはできません。そこで間接的に判定するのがハウスマン検定です。「もしREの前提が正しければ、FEとREは同じ真値に収束するはず → 両推定値が大きく食い違えば前提が壊れている」という背理法的な論理で、β^FEβ^RE\hat\beta_{FE}-\hat\beta_{RE} の大きさから前提の成否を推し量ります。ただし検定は万能ではなく、H0H_0 を棄却できないことは「REが正しいと証明した」のではなく「REを否定する証拠が(この検出力の範囲では)なかった」だけです。最終判断には、理論的に「個体差が説明変数と相関しそうか」という分野知識も併せて使うのが定石です。

Q3. ハウスマン検定の統計量の分散がなぜ「FEの分散 − REの分散」という引き算になるのですか? 普通、差の分散は和に共分散項が付くはずです。

鍵は β^RE\hat\beta_{RE}H0H_0 の下で**効率的(最小分散)**であることです。一般に Var(β^FEβ^RE)=Var(β^FE)+Var(β^RE)2Cov(β^FE,β^RE)\operatorname{Var}(\hat\beta_{FE}-\hat\beta_{RE})=\operatorname{Var}(\hat\beta_{FE})+\operatorname{Var}(\hat\beta_{RE})-2\operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE}) ですが、ハウスマンの補題により「効率的推定量 β^RE\hat\beta_{RE} と差 q=β^FEβ^REq=\hat\beta_{FE}-\hat\beta_{RE} は無相関」が成り立ちます。これを使うと Cov(β^FE,β^RE)=Var(β^RE)\operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE})=\operatorname{Var}(\hat\beta_{RE}) となり、代入すると Var(q)=Var(β^FE)Var(β^RE)\operatorname{Var}(q)=\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE}) と引き算に簡約されます。補題が成り立つ理由は背理法で、もし効率的推定量が差と相関していたら、その相関を使ってさらに分散を下げられてしまい「効率的(最小分散)」の前提に矛盾するからです。要するに「最小分散の推定量は、他との差と相関できない」という効率性の性質が、分散を綺麗な引き算にしているのです。

Q4. T=2T=2(2時点)しかないとき、within変換と一階差分はどちらを使うべきですか?

T=2T=2 のときは within変換と一階差分は完全に同じ推定量になるので、どちらを使っても結果は一致します。証明は単純で、T=2T=2 なら個体平均は yˉi=(yi1+yi2)/2\bar y_i=(y_{i1}+y_{i2})/2 で、within偏差は yi2yˉi=(yi2yi1)/2y_{i2}-\bar y_i=(y_{i2}-y_{i1})/2yi1yˉi=(yi2yi1)/2y_{i1}-\bar y_i=-(y_{i2}-y_{i1})/2 となり、いずれも一階差分 yi2yi1y_{i2}-y_{i1} の定数倍だからです。違いが出るのは T3T\ge3 からで、そこでは特異誤差 εit\varepsilon_{it} の系列相関構造によって優劣が分かれます(系列無相関ならwithin、ランダムウォーク的なら一階差分)。

Q5. プーリングOLSは「一致するが非効率」とありますが、αi\alpha_ixitx_{it} が無相関ならプーリングOLSを使えばよいのでは? なぜREが要るのですか?

無相関なら確かにプーリングOLSも一致します(バイアスは出ない)。問題は効率です。複合誤差 uit=αi+εitu_{it}=\alpha_i+\varepsilon_{it} は同一個体内で系列相関する(共分散 σα2\sigma_\alpha^2)ため、OLSの「誤差が等分散・無相関」という前提が崩れ、OLSはBLUE(最良線形不偏推定量)でなくなります。具体的には、OLSの推定量自体は不偏・一致でも、その標準誤差の計算が誤りになり(系列相関を無視するため過小評価しがち)、検定や信頼区間が歪みます。REはこの系列相関を分散成分でモデル化しGLSで適切に処理するので、より小さい分散の推定量と正しい標準誤差が得られます。要するに「無相関ならOLSでもバイアスはないが、誤差相関を無視すると効率と推測の正確さで損をする。それを直すのがRE」です。


まとめ


関連ノート