パネルデータ分析｜統計検定テキスト

📊 対象級：1級　|　重要度：A（頻出）

要点（BLUF）

パネルデータ（個体 $i$ ×時間 $t$ の二重添字データ）の核心は、観測されない個体固有効果 $\alpha_i$ （異質性）をどう扱うかです。 $\alpha_i$ が説明変数 $x_{it}$ と相関すると、それを無視したプーリングOLSは欠落変数バイアスを起こします。これを解決する2つのモデルと、どちらを使うかを決める検定を押さえます。

固定効果モデル（FE）： $\alpha_i$ を個体平均との差をとって除去する（within変換 $y_{it}-\bar y_i$ で $\alpha_i$ が消える）。 $\alpha_i$ と $x_{it}$ の相関を許すので常に一致推定。ただし時間不変変数は推定できない（除去で一緒に消える）。
変量効果モデル（RE）： $\alpha_i$ を平均0のランダムな誤差成分とみなす。複合誤差 $\alpha_i+\varepsilon_{it}$ が個体内で系列相関を持つのでGLS（実際はFGLS）で推定。 $\alpha_i$ と $x_{it}$ が無相関という強い前提が必要だが、成り立てばFEより効率的で時間不変変数も推定できる。
ハウスマン検定： $H_0$ 「 $\alpha_i$ と $x_{it}$ は無相関（REが一致かつ効率的）」を、 $\hat\beta_{FE}-\hat\beta_{RE}$ の差の二次形式（ $\chi^2$ 統計量）で検定する。FEは常に一致だが非効率、REは前提が成り立てば効率的——その前提の成否を、両推定量の差が0かどうかで見る。

1級（統計応用・社会科学）では FE/RE の前提・within変換で何が消えるか・ハウスマン検定の帰無仮説が頻出です（範囲・配点は改訂されうるため要最新確認）。

graph TD
  PANEL["パネルデータ y_it = x_it'β + α_i + ε_it<br/>α_i = 観測されない個体固有効果"] --> Q{"α_i と x_it は<br/>相関するか？"}
  Q -->|相関あり| FE["固定効果モデル FE<br/>within変換で α_i を除去<br/>常に一致・時間不変変数は不可"]
  Q -->|相関なし| RE["変量効果モデル RE<br/>α_i をランダム誤差とみなし GLS<br/>効率的・時間不変変数も可"]
  POOL["プーリングOLS<br/>α_i を無視"] -.->|相関ありなら<br/>欠落変数バイアス| Q
  FE --> HAUS["ハウスマン検定で<br/>FE と RE を比較"]
  RE --> HAUS
  HAUS -->|差が大 → H0棄却| FE
  HAUS -->|差が小 → H0採択| RE

1. パネルデータとは — データ構造と基本モデル

1.1 二重添字のデータ

パネルデータ（縦断データ、longitudinal data）は、同じ個体を複数時点で繰り返し観測したデータです。個体 $i=1,\dots,N$ （人・企業・国など）を時間 $t=1,\dots,T$ にわたって追跡するので、各観測値は2つの添字 $(i,t)$ を持ちます。

横断面データ（cross-section）：個体だけ（添字 $i$ のみ）。ある一時点のスナップショット。
時系列データ（time-series）：時間だけ（添字 $t$ のみ）。1つの対象の時間推移。
パネルデータ：個体×時間（添字 $i,t$ 両方）。横断面を時間方向に積み重ねたもの。

パネルデータの最大の強みは、同じ個体を追うことで「その個体に固有で時間変化しない要因」をコントロールできる点です。横断面データ1枚では、観測できない個体差（能力・社風・国民性など）を分離できませんが、パネルなら個体内の時間変化に注目してこれを取り除けます。これがFE/REの動機です。

1.2 基本モデルと個体固有効果

パネルデータの標準的な線形モデルは

\boxed{\;y_{it} = x_{it}^\top\beta + \alpha_i + \varepsilon_{it}\;} \qquad (i=1,\dots,N;\ t=1,\dots,T)

です。各項の意味は：

$y_{it}$ ：個体 $i$ の時点 $t$ での応答（賃金・売上など）。
$x_{it}$ ：説明変数ベクトル（時間変化しうる。教育投資・資本など）。 $\beta$ が知りたい係数。
$\varepsilon_{it}$ ：通常の誤差項（個体・時間ともにランダム、平均0）。**特異誤差（idiosyncratic error）**と呼ぶ。
$\alpha_i$ ：個体固有効果（individual fixed/specific effect）。個体 $i$ に固有で時間 $t$ に依存しない（添字に $t$ がない）。観測されない異質性（unobserved heterogeneity）を表す。

要するに「 $\alpha_i$ は、その個体にずっと付きまとう、データに無い切片のズレ」です。例えば賃金関数で $\alpha_i$ は「個人の生まれ持った能力・やる気」のような、観測できないが賃金に効く時間不変要因をまとめて表します。この $\alpha_i$ をどう扱うかがパネル分析の全てです。

graph LR
  CS["横断面データ<br/>個体 i のみ"] -->|時間方向に積む| P["パネルデータ<br/>個体 i × 時間 t"]
  TS["時系列データ<br/>時間 t のみ"] -->|個体方向に積む| P
  P --> ADV["強み：観測されない<br/>時間不変な個体差 α_i を<br/>コントロールできる"]

2. プーリングOLSの問題 — 欠落変数バイアス

最も素朴な方法は、 $\alpha_i$ の存在を無視して全データ（ $N\times T$ 個）を一つの回帰にまとめる**プーリングOLS（pooled OLS）**です。

y_{it} = x_{it}^\top\beta + u_{it},\qquad u_{it}=\alpha_i+\varepsilon_{it}

として $\beta$ を普通の最小二乗で推定します。これが正当化されるのは $\alpha_i$ が説明変数 $x_{it}$ と無相関のときだけです。問題は $\alpha_i$ が $x_{it}$ と相関する場合です。

2.1 なぜバイアスが出るか

$\alpha_i$ はモデルから見れば誤差 $u_{it}$ の一部です。もし $\alpha_i$ と $x_{it}$ が相関していると、説明変数が誤差と相関することになり、OLSの直交条件 $E[x_{it}u_{it}]=0$ が破れます。これは典型的な**欠落変数バイアス（omitted variable bias）**です。 $\alpha_i$ という重要な変数（能力など）をモデルに入れ損ねているのに、それが説明変数と相関しているため、 $x_{it}$ の係数 $\beta$ にその影響が漏れ込んでしまうのです。

具体例で考えます。賃金 $y_{it}$ を教育投資 $x_{it}$ で説明したいが、観測できない「能力 $\alpha_i$ 」が（i）賃金を上げ、（ii）教育投資も増やす、とします。すると能力の高い人ほど教育投資も賃金も高くなり、教育の効果と能力の効果がプーリングOLSでは分離できず、 $\hat\beta$ は教育の真の効果より大きく出ます（上方バイアス）。要するに「能力という見えない第3の要因が、教育と賃金の両方を押し上げているのに、それを教育の手柄に勘違いする」。

\operatorname{Cov}(\alpha_i, x_{it})\ne 0 \ \Longrightarrow\ \hat\beta_{\text{OLS}} \text{ は一致推定量でない（バイアス）}

FE・REはどちらも、この $\alpha_i$ を別扱いすることでバイアスに対処します。違いは「 $\alpha_i$ を除去するか（FE）」「 $\alpha_i$ を無相関と仮定してモデル化するか（RE）」です。

3. 固定効果モデル（FE） — within変換で $\alpha_i$ を除去

3.1 発想： $\alpha_i$ を「消す」

固定効果モデルは、 $\alpha_i$ を推定すべき未知パラメータ（個体ごとの切片）とみなし、 $\alpha_i$ と $x_{it}$ の相関を許します。鍵は、 $\alpha_i$ が時間不変（ $t$ に依存しない定数）であることを利用して、これを式から消去することです。 $\alpha_i$ さえ消えれば、それが $x_{it}$ と相関していてもバイアスは生じません。

代表的な消去法が **within変換（個体平均との差をとる、time-demeaning）**です。

3.2 within変換の導出（ $\alpha_i$ が消える）

元のモデルを再掲します。

y_{it} = x_{it}^\top\beta + \alpha_i + \varepsilon_{it} \tag{1}

ステップ1：各個体について時間平均をとる。 個体 $i$ の全 $T$ 時点で平均すると、 $\alpha_i$ は $t$ に依存しないので平均しても $\alpha_i$ のまま残ります。

\bar y_i = \bar x_i^\top\beta + \alpha_i + \bar\varepsilon_i \tag{2}

ただし $\bar y_i=\frac1T\sum_{t=1}^T y_{it}$ 、 $\bar x_i=\frac1T\sum_t x_{it}$ 、 $\bar\varepsilon_i=\frac1T\sum_t\varepsilon_{it}$ 。要するに「その個体の全期間の平均をとる。 $\alpha_i$ は時間で変わらないから平均しても $\alpha_i$ のまま」。

ステップ2：元の式 (1) から平均の式 (2) を引く。 これが within変換の本体です。

\underbrace{(y_{it}-\bar y_i)}_{\tilde y_{it}} = (x_{it}-\bar x_i)^\top\beta + \underbrace{(\alpha_i-\alpha_i)}_{=\,0} + (\varepsilon_{it}-\bar\varepsilon_i)

$\alpha_i-\alpha_i=0$ となり、 $\alpha_i$ が消滅します。残るのは

\boxed{\;\tilde y_{it} = \tilde x_{it}^\top\beta + \tilde\varepsilon_{it},\qquad \tilde y_{it}=y_{it}-\bar y_i,\ \ \tilde x_{it}=x_{it}-\bar x_i,\ \ \tilde\varepsilon_{it}=\varepsilon_{it}-\bar\varepsilon_i\;}

要するに「個体平均との差（偏差）をとると、時間不変な $\alpha_i$ は自分自身との差になって消える」。 $\alpha_i$ が消えたので、それが $x_{it}$ とどれだけ相関していても無関係になりました。この偏差データ $\tilde y_{it},\tilde x_{it}$ に普通のOLSをかければ、 $\alpha_i$ と $x_{it}$ の相関があっても一致する推定量

\hat\beta_{FE} = \Big(\sum_{i}\sum_{t}\tilde x_{it}\tilde x_{it}^\top\Big)^{-1}\sum_i\sum_t \tilde x_{it}\tilde y_{it}

が得られます。これを**within推定量（個体内推定量）**と呼びます。「within（個体内）」の名は、各個体の中での時間変動だけを使って $\beta$ を推定するからです（個体間の差は平均をとった時点で捨てている）。

3.3 なぜ時間不変変数が推定できないか

within変換の代償が、時間不変な説明変数の係数が推定できないことです。説明変数の一部 $z_i$ が時間で変わらない（性別・人種・出身地など、 $z_i$ に $t$ の添字がない）とします。これも個体平均をとると $\bar z_i=z_i$ なので、within変換すると

z_i - \bar z_i = z_i - z_i = 0

となり、 $\alpha_i$ と全く同じ理由で消えてしまいます。要するに「時間不変変数は、 $\alpha_i$ と区別がつかず一緒に除去される」。within変換は「時間で変わらないものをすべて消す」操作なので、 $\alpha_i$ だけでなく時間不変の説明変数も巻き添えになるのです。これがFEの本質的限界で、性別の賃金差のような時間不変要因の効果を知りたいならFEは使えません（後述のREやハイブリッド法が必要）。

3.4 一階差分（別の除去法）

$\alpha_i$ を消すもう一つの方法が**一階差分（first difference）**です。隣り合う時点の差をとります。

y_{it}-y_{i,t-1} = (x_{it}-x_{i,t-1})^\top\beta + \underbrace{(\alpha_i-\alpha_i)}_{=\,0} + (\varepsilon_{it}-\varepsilon_{i,t-1})

ここでも $\alpha_i$ は前後で同じ値なので差をとると消えます。要するに「前期との差をとっても、時間不変な $\alpha_i$ は消える」。 $T=2$ （2時点）のときは within変換と一階差分は完全に同じ推定量になりますが、 $T\ge3$ では特異誤差 $\varepsilon_{it}$ の系列相関の扱いが異なり、結果がずれます。 $\varepsilon_{it}$ が系列無相関ならwithin推定が効率的、 $\varepsilon_{it}$ が強い系列相関（ランダムウォーク的）なら一階差分が望ましい、という使い分けがあります。

3.5 ダミー変数モデル（LSDV）との同値性

$\alpha_i$ を「個体ごとのダミー変数（切片）」として明示的にモデルに入れ、 $N$ 個の個体ダミーと $\beta$ を一括でOLS推定する方法をLSDV（Least Squares Dummy Variable）法と呼びます。

y_{it}=x_{it}^\top\beta + \sum_{j=1}^{N}\alpha_j D_{ji} + \varepsilon_{it}\quad(D_{ji}\text{ は個体 }j\text{ のダミー})

驚くべきことに、LSDVで得られる $\hat\beta$ は within推定量と完全に一致します（フリッシュ＝ウォー＝ローヴェルの定理から導かれる）。要するに「個体ダミーを全部入れてOLSするのと、個体平均を引いてOLSするのは、 $\beta$ については同じ結果」。within変換が好まれるのは、 $N$ が大きい（個体が何千もある）ときにダミーを $N$ 本作らずに済み計算が軽いためです。

4. 変量効果モデル（RE） — $\alpha_i$ をランダム成分としGLS

4.1 発想： $\alpha_i$ を「誤差として組み込む」

変量効果モデル（random effects model、分散成分モデル）は、 $\alpha_i$ を個体ごとの固定パラメータではなく、母集団からランダムに抽出された平均0の確率変数とみなします。

\alpha_i \sim (0,\ \sigma_\alpha^2)\ \text{独立},\qquad \varepsilon_{it}\sim(0,\ \sigma_\varepsilon^2)\ \text{独立},\qquad \operatorname{Cov}(\alpha_i, x_{it})=0

最重要の前提は最後の $\operatorname{Cov}(\alpha_i, x_{it})=0$ 、すなわち $\alpha_i$ が説明変数と無相関であることです。この前提が成り立つなら、 $\alpha_i$ を誤差の一部として扱ってよく、 $\beta$ を一致推定できます（直交条件が破れないため）。FEが「 $\alpha_i$ と $x_{it}$ の相関を許して除去」したのに対し、REは「相関しないと仮定して、 $\alpha_i$ を誤差にまとめる」立場です。

4.2 複合誤差の分散・共分散構造

$\alpha_i$ を誤差にまとめると、誤差項は複合誤差（composite error）

u_{it} = \alpha_i + \varepsilon_{it}

になります。この複合誤差の構造が、REを単純なOLSで推定できなくする原因です。同じ個体 $i$ の異なる時点 $t,s$ の誤差は、共通の $\alpha_i$ を含むため相関します。各モーメントを計算します。

分散。 $\alpha_i$ と $\varepsilon_{it}$ が独立なので

\operatorname{Var}(u_{it}) = \operatorname{Var}(\alpha_i) + \operatorname{Var}(\varepsilon_{it}) = \sigma_\alpha^2 + \sigma_\varepsilon^2

同一個体・異時点の共分散（ $t\ne s$ ）。 $\alpha_i$ は両時点で共通、 $\varepsilon_{it}$ と $\varepsilon_{is}$ は独立なので

\operatorname{Cov}(u_{it}, u_{is}) = \operatorname{Cov}(\alpha_i+\varepsilon_{it},\ \alpha_i+\varepsilon_{is}) = \operatorname{Var}(\alpha_i) = \sigma_\alpha^2 \quad (t\ne s)

要するに「同じ個体の誤差は、共通の $\alpha_i$ の分だけ必ず相関する（共分散 $\sigma_\alpha^2$ ）」。異なる個体間（ $i\ne j$ ）の誤差は $\alpha_i,\alpha_j$ が独立なので無相関です。

個体内相関（級内相関係数）。 同一個体内の誤差の相関係数は

\rho = \operatorname{Corr}(u_{it}, u_{is}) = \frac{\sigma_\alpha^2}{\sigma_\alpha^2 + \sigma_\varepsilon^2}\quad(t\ne s)

これは**級内相関係数（intraclass correlation）**と呼ばれ、全分散のうち個体固有効果 $\sigma_\alpha^2$ が占める割合です。 $\rho$ が大きいほど「個体差が支配的」を意味します。

4.3 なぜGLSが必要か — そしてFGLSの準差分変換

複合誤差 $u_{it}$ は等分散でない上に同一個体内で系列相関する（共分散行列が単位行列の定数倍にならない）ため、ガウス＝マルコフの仮定が崩れ、**プーリングOLSは一致するが非効率（BLUEでない）になります。効率的な推定には、誤差の共分散構造 $\Omega$ を使った一般化最小二乗法（GLS）**が必要です（ガウス・マルコフの定理とGLS の分散不均一・系列相関への一般化）。

GLSは誤差の相関を「白色化」する変換をデータに施してからOLSをかけるのと同値で、REの場合この変換は**準差分変換（quasi-demeaning, partial demeaning）**という形になります。個体平均を $\theta$ 倍だけ引く操作です。

\boxed{\;y_{it}-\theta\,\bar y_i = (x_{it}-\theta\,\bar x_i)^\top\beta + (u_{it}-\theta\,\bar u_i)\;}

ここで変換の強さ $\theta$ は分散成分から決まり

\boxed{\;\theta = 1 - \sqrt{\frac{\sigma_\varepsilon^2}{\sigma_\varepsilon^2 + T\sigma_\alpha^2}}\;}

です。要するに「REのGLSは、個体平均を「丸ごと」ではなく「 $\theta$ の割合だけ」引く中間的な変換」。この $\theta$ が、RE推定がプーリングOLSとFEのちょうど間に位置することを示します。

$\theta = 0$ （ $\sigma_\alpha^2=0$ 、個体効果なし）→ 何も引かない → プーリングOLSに一致。
$\theta = 1$ （ $\sigma_\alpha^2\to\infty$ または $T\to\infty$ ）→ 個体平均を丸ごと引く → **within変換（FE）**に一致。
$0<\theta<1$ → 両者の中間。個体内・個体間の情報を分散構造に応じて最適に混ぜる。

要するに「REは、個体効果の大きさ $\sigma_\alpha^2$ に応じて、プーリングOLS（ $\theta=0$ ）からFE（ $\theta=1$ ）まで連続的に位置を変える推定量」。実際には $\sigma_\alpha^2,\sigma_\varepsilon^2$ は未知なので、まずこれらを残差から推定して $\hat\theta$ を作り、それでGLSを実行します。これを**実行可能GLS（FGLS, Feasible GLS）**と呼びます。

4.4 REの利点と前提のリスク

前提 $\operatorname{Cov}(\alpha_i, x_{it})=0$ が成り立つなら、REには次の利点があります。

効率的：個体内変動（within）だけでなく個体間変動（between）の情報も使うため、FEより推定量の分散が小さい（より少ない標準誤差）。
時間不変変数を推定できる： $\alpha_i$ を除去しないので、性別・人種などの時間不変変数の係数も推定可能（FEでは消えて推定不能だった）。

一方、前提が崩れる（ $\alpha_i$ と $x_{it}$ が相関する）と、REは一致性を失いバイアスを持ちます。FEはこの前提なしで常に一致するので頑健、REは前提次第で効率的だが脆い、というトレードオフが生じます。この前提の成否を判定するのがハウスマン検定です。

5. ハウスマン検定 — FEとREのどちらを使うか

5.1 検定の論理（一致性 vs 効率性のトレードオフを利用）

ハウスマン検定（Hausman test）は、RE の鍵となる前提

H_0:\ \operatorname{Cov}(\alpha_i, x_{it}) = 0 \quad(\text{REが一致かつ効率的}) \qquad H_1:\ \operatorname{Cov}(\alpha_i, x_{it}) \ne 0\quad(\text{REは非一致、FEが正しい})

を検定します。検定の核心は、2つの推定量の一致性が前提に依存する度合いが違うことを利用する点です。

推定量	$H_0$ が真（相関なし）のとき	$H_1$ が真（相関あり）のとき
$\hat\beta_{FE}$ （固定効果）	一致（だが非効率）	一致（前提不要だから常に頑健）
$\hat\beta_{RE}$ （変量効果）	一致かつ効率的	非一致（バイアス）

ポイントは「FEは $H_0$ の真偽に関わらず常に一致、REは $H_0$ が真のときだけ一致」という非対称性です。ここから検定のアイデアが出ます。

$H_0$ が真なら、FEもREも同じ真値に収束するので、両者の差 $\hat\beta_{FE}-\hat\beta_{RE}$ は0に近い（標本誤差の範囲）。
$H_0$ が偽なら、FEは真値・REはバイアスのある値に収束するので、両者の差は0から離れる。

したがって「 $\hat\beta_{FE}-\hat\beta_{RE}$ が0と有意に異なるか」を見れば、 $H_0$ （REの前提）の成否を検定できます。要するに「頑健だが非効率なFEと、効率的だが脆いREの推定値を比べ、食い違いが大きければ『REの前提が壊れている＝FEを使え』と判断する」。

5.2 検定統計量の導出

差を $q = \hat\beta_{FE} - \hat\beta_{RE}$ とします。検定統計量は、この差をその分散で基準化した二次形式です。

\boxed{\;H = q^\top\big[\operatorname{Var}(q)\big]^{-1} q = (\hat\beta_{FE}-\hat\beta_{RE})^\top\big[\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})\big]^{-1}(\hat\beta_{FE}-\hat\beta_{RE})\;}

ここで分散が差し引き $\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})$ になるのがハウスマン検定の妙です。なぜ共分散項が消えて単純な引き算になるのかを導出します。

ステップ1：差の分散を展開する。 一般に2つの推定量の差の分散は

\operatorname{Var}(q) = \operatorname{Var}(\hat\beta_{FE}) + \operatorname{Var}(\hat\beta_{RE}) - 2\operatorname{Cov}(\hat\beta_{FE}, \hat\beta_{RE})

です。このままでは共分散項 $\operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE})$ が邪魔で計算しにくい。

ステップ2：ハウスマンの補題を使う。 ここで「 $H_0$ の下では、効率的な推定量 $\hat\beta_{RE}$ と『その効率的推定量と非効率推定量の差 $q$ 』は無相関」という結果（ハウスマンの補題）を使います。直観は、もし $\hat\beta_{RE}$ （効率的＝最小分散）が差 $q$ と相関していたら、その相関を利用してさらに分散の小さい推定量が作れてしまい、「 $\hat\beta_{RE}$ が効率的（最小分散）」という前提と矛盾するからです。要するに「最小分散の推定量は、他の推定量との差と相関を持てない（持てたらもっと改善できてしまう）」。

この補題 $\operatorname{Cov}(q,\hat\beta_{RE})=0$ を $\hat\beta_{FE}=\hat\beta_{RE}+q$ に適用すると

\operatorname{Cov}(\hat\beta_{FE}, \hat\beta_{RE}) = \operatorname{Cov}(\hat\beta_{RE}+q,\ \hat\beta_{RE}) = \operatorname{Var}(\hat\beta_{RE}) + \underbrace{\operatorname{Cov}(q,\hat\beta_{RE})}_{=\,0} = \operatorname{Var}(\hat\beta_{RE})

要するに「FEとREの共分散は、REの分散そのものに等しい」。

ステップ3：代入して整理。 これをステップ1に戻すと共分散項がきれいに片付きます。

\operatorname{Var}(q) = \operatorname{Var}(\hat\beta_{FE}) + \operatorname{Var}(\hat\beta_{RE}) - 2\operatorname{Var}(\hat\beta_{RE}) = \operatorname{Var}(\hat\beta_{FE}) - \operatorname{Var}(\hat\beta_{RE})

要するに「効率的な $\hat\beta_{RE}$ との共分散がちょうど $\operatorname{Var}(\hat\beta_{RE})$ になるおかげで、差の分散は2つの分散の単純な引き算になる」。これが統計量の分母 $\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})$ の正体です。 $\hat\beta_{RE}$ が効率的なので $\operatorname{Var}(\hat\beta_{FE})\ge\operatorname{Var}(\hat\beta_{RE})$ が保証され、この差（行列）は正定値で逆行列が存在します。

5.3 分布と判定

$H_0$ の下で、統計量 $H$ は漸近的に自由度 $k$ のカイ二乗分布に従います。

H \xrightarrow{d} \chi^2_k \qquad (k = \text{時間変化する説明変数の数、すなわち比較する係数の次元})

要するに「FEとREで共通に推定できる係数の本数が自由度」（時間不変変数はFEで推定できないので比較から外れる）。判定は：

$H$ が大きい（p値が小さい、 $H_0$ を棄却） → FEとREの差が有意に大きい → REの前提が壊れている → 固定効果モデル（FE）を採用。
$H$ が小さい（p値が大きい、 $H_0$ を採択） → 差は標本誤差の範囲 → REの前提が支持される → 変量効果モデル（RE）を採用（効率的だから）。

flowchart TD
  START["FE と RE を両方推定<br/>差 q = β_FE − β_RE を計算"] --> STAT["統計量 H = q'[Var β_FE − Var β_RE]⁻¹ q<br/>H0 の下で χ²(k)"]
  STAT --> JUDGE{"H は有意か？<br/>（p値と有意水準を比較）"}
  JUDGE -->|"H 大・p小<br/>H0 棄却"| USEFE["固定効果モデル FE<br/>α_i と x_it が相関<br/>REはバイアス・FEが頑健"]
  JUDGE -->|"H 小・p大<br/>H0 採択"| USERE["変量効果モデル RE<br/>α_i と x_it は無相関<br/>REが効率的・時間不変変数も可"]

6. FE vs RE の選択指針

検定だけでなく、実務的・理論的な判断基準も押さえます。

判断軸	固定効果（FE）が向く	変量効果（RE）が向く
$\alpha_i$ と $x_{it}$ の相関	相関あり（または不明で安全策）	無相関と信じられる
ハウスマン検定	$H_0$ を棄却	$H_0$ を採択
時間不変変数の効果を知りたい	不可（除去で消える）	可能
効率性（標準誤差の小ささ）	劣る（個体内変動のみ使用）	優れる（個体間変動も使用）
個体の捉え方	標本に含まれる個体そのものに関心	母集団からの無作為標本とみなす
一致性の頑健さ	常に一致（前提に依存しない）	前提が崩れると非一致

実務の定石は次の通りです。

理論的に $\alpha_i$ と $x_{it}$ が相関しそうか考える。能力・経営者の質など、説明変数と関係しそうな個体差が疑われるなら、まずFEを基本線にする。
ハウスマン検定を実行し、 $H_0$ が棄却されればFE、されなければREの効率性を取る。
時間不変変数の効果が主目的なら、FEでは推定できないので、REか、両者の長所を併せる相関変量効果（Mundlak）アプローチを検討する。

社会科学では「観測されない個体差が説明変数と無相関」という仮定が強すぎると見られることが多く、保守的にFEを選ぶことが多い（バイアスを避けることを効率性より優先）。一方、 $N$ が大きく $T$ が小さい多くのミクロパネルで、時間不変の属性（性別・人種など）の効果を測りたい場合はREやハイブリッド手法が要ります。

7. 試験での問われ方（1級）

1級（統計応用・社会科学）でのパネルデータ分析は、計算問題よりも概念と前提の正確な理解を問う形が中心です。頻出の角度を整理します。

within変換で何が消えるか：「個体平均との差をとると $\alpha_i$ が消える」理由（ $\alpha_i$ が時間不変だから $\alpha_i-\alpha_i=0$ ）を式で説明させる。同時に「時間不変な説明変数も同じ理由で消えて推定できない」ことが頻出の注意点。within推定量＝個体内推定量＝LSDVの $\beta$ という同値関係も問われる。
FEとREの前提の違い：FEは「 $\alpha_i$ と $x_{it}$ の相関を許す（だから常に一致）」、REは「 $\alpha_i$ と $x_{it}$ が無相関という前提が必要（崩れると非一致）」。この対比を逆に覚えていないか。REの利点（効率的・時間不変変数可）とリスク（前提依存）をセットで。
REがGLSである理由：複合誤差 $u_{it}=\alpha_i+\varepsilon_{it}$ が同一個体内で系列相関（共分散 $\sigma_\alpha^2$ ）を持つため、OLSは非効率でGLS（FGLS）が要る。級内相関係数 $\rho=\sigma_\alpha^2/(\sigma_\alpha^2+\sigma_\varepsilon^2)$ や準差分の $\theta$ の意味（ $\theta=0$ でOLS、 $\theta=1$ でFE）も問われうる。
ハウスマン検定の帰無仮説： $H_0$ 「 $\alpha_i$ と $x_{it}$ は無相関（＝REが一致・効率的）」。棄却ならFE、採択ならRE。「FEは常に一致だが非効率、REは前提が成り立てば効率的——その差 $\hat\beta_{FE}-\hat\beta_{RE}$ を検定する」という論理と、統計量が $\chi^2$ に従い自由度が比較係数の数であることを押さえる。
欠落変数バイアスとの関係：プーリングOLSが $\operatorname{Cov}(\alpha_i,x_{it})\ne0$ でバイアスを持つのは欠落変数バイアスの一種、という位置づけ。FE/REはともにこれへの対処法。

数値計算が出る場合は、小さなパネル（ $N$ や $T$ が2〜3）で within変換後のデータを作り $\hat\beta_{FE}$ を手計算させる、級内相関や分散成分を与えて $\theta$ を計算させる、といった形が考えられます。

8. 引っかけ・頻出論点

⚠️ FEとREの前提を逆にしない：相関を「許す」のがFE（だから常に一致・頑健）、相関が「ない」と仮定するのがRE（だから前提が崩れると非一致）。「REの方が前提が緩い」と誤解しがちだが逆で、REの方が強い前提（無相関）を置いている。
⚠️ within変換は時間不変変数も消す： $\alpha_i$ だけでなく、性別・人種など時間で変わらない説明変数も $z_i-\bar z_i=0$ で消える。「FEなら何でも推定できる」は誤りで、時間不変変数の効果はFEでは原理的に推定不能。
⚠️ within推定は「個体内変動」だけを使う：個体間の差（between変動）は個体平均をとった時点で捨てている。だからFEは個体間情報を使うREより非効率（標準誤差が大きい）。「FEの方が常に優れる」わけではない。
⚠️ REはOLSではなくGLS：複合誤差が系列相関するのでプーリングOLSは非効率。「REはただのOLS」は誤り。実際は分散成分を推定してからのFGLSで、準差分 $y_{it}-\theta\bar y_i$ を施す。
⚠️ ハウスマン検定の帰無仮説は「無相関」： $H_0$ は「 $\alpha_i$ と $x_{it}$ が無相関＝REが妥当」。棄却＝FE、採択＝RE。「棄却したらRE」と向きを逆に覚えると致命的。 $H_0$ を棄却できないことは「REが正しいと積極的に証明した」のではなく「REを否定する証拠がない」だけ、という解釈の注意もある。
⚠️ ハウスマン統計量の分散は引き算： $\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})$ 。共分散項が $\operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE})=\operatorname{Var}(\hat\beta_{RE})$ となって消えるのは、 $\hat\beta_{RE}$ が**効率的（最小分散）**だから。和ではなく差になる理由を効率性と結びつけて理解する。
⚠️ $\theta=1$ でFE、 $\theta=0$ でOLS：REの準差分はプーリングOLSとFEの中間。個体効果が大きい（ $\sigma_\alpha^2$ 大）ほど $\theta$ は1に近づきFEに寄る。「REとFEは全く別物」ではなく、REは連続スペクトル上でFEを特殊ケースとして含む。
⚠️ 一階差分とwithinは $T\ge3$ で別物： $T=2$ なら一致するが、 $T\ge3$ では特異誤差の系列相関の扱いが違い結果がずれる。 $\varepsilon_{it}$ が系列無相関ならwithinが効率的、強い系列相関なら一階差分が望ましい。

よくある疑問（Q&A）

Q1. 「固定効果」なのに $\alpha_i$ を未知パラメータとして推定しないのはなぜですか? within変換では $\alpha_i$ を消してしまいますよね。

within変換は $\alpha_i$ を消去して $\beta$ を一致推定するのが目的で、 $\alpha_i$ 自体の値が主目的ではないことが多いからです。LSDV法を使えば $\alpha_i$ （個体ごとの切片）も明示的に推定できますし、within推定後に各個体の平均残差から $\hat\alpha_i=\bar y_i-\bar x_i^\top\hat\beta_{FE}$ として復元もできます。ただし $N$ が大きいと $\alpha_i$ は $N$ 個もあり、各個体あたり $T$ 個のデータしかないので $\hat\alpha_i$ は一致推定できない（付随パラメータ問題）。だから関心が $\beta$ にあるなら、 $\alpha_i$ は推定せず消してしまうwithin変換が効率的・実用的なのです。「固定効果」の名は「 $\alpha_i$ を確率変数とみなさず固定された量として扱う（相関を許す）」立場を指し、必ずしも $\alpha_i$ の値を推定することは意味しません。

Q2. REの前提（ $\alpha_i$ と $x_{it}$ が無相関）が成り立つか、データだけで分かるのですか?

直接 $\alpha_i$ は観測できないので、 $\operatorname{Cov}(\alpha_i,x_{it})$ を直接測ることはできません。そこで間接的に判定するのがハウスマン検定です。「もしREの前提が正しければ、FEとREは同じ真値に収束するはず → 両推定値が大きく食い違えば前提が壊れている」という背理法的な論理で、 $\hat\beta_{FE}-\hat\beta_{RE}$ の大きさから前提の成否を推し量ります。ただし検定は万能ではなく、 $H_0$ を棄却できないことは「REが正しいと証明した」のではなく「REを否定する証拠が（この検出力の範囲では）なかった」だけです。最終判断には、理論的に「個体差が説明変数と相関しそうか」という分野知識も併せて使うのが定石です。

Q3. ハウスマン検定の統計量の分散がなぜ「FEの分散 − REの分散」という引き算になるのですか? 普通、差の分散は和に共分散項が付くはずです。

鍵は $\hat\beta_{RE}$ が $H_0$ の下で**効率的（最小分散）**であることです。一般に $\operatorname{Var}(\hat\beta_{FE}-\hat\beta_{RE})=\operatorname{Var}(\hat\beta_{FE})+\operatorname{Var}(\hat\beta_{RE})-2\operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE})$ ですが、ハウスマンの補題により「効率的推定量 $\hat\beta_{RE}$ と差 $q=\hat\beta_{FE}-\hat\beta_{RE}$ は無相関」が成り立ちます。これを使うと $\operatorname{Cov}(\hat\beta_{FE},\hat\beta_{RE})=\operatorname{Var}(\hat\beta_{RE})$ となり、代入すると $\operatorname{Var}(q)=\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})$ と引き算に簡約されます。補題が成り立つ理由は背理法で、もし効率的推定量が差と相関していたら、その相関を使ってさらに分散を下げられてしまい「効率的（最小分散）」の前提に矛盾するからです。要するに「最小分散の推定量は、他との差と相関できない」という効率性の性質が、分散を綺麗な引き算にしているのです。

Q4. $T=2$ （2時点）しかないとき、within変換と一階差分はどちらを使うべきですか?

$T=2$ のときは within変換と一階差分は完全に同じ推定量になるので、どちらを使っても結果は一致します。証明は単純で、 $T=2$ なら個体平均は $\bar y_i=(y_{i1}+y_{i2})/2$ で、within偏差は $y_{i2}-\bar y_i=(y_{i2}-y_{i1})/2$ 、 $y_{i1}-\bar y_i=-(y_{i2}-y_{i1})/2$ となり、いずれも一階差分 $y_{i2}-y_{i1}$ の定数倍だからです。違いが出るのは $T\ge3$ からで、そこでは特異誤差 $\varepsilon_{it}$ の系列相関構造によって優劣が分かれます（系列無相関ならwithin、ランダムウォーク的なら一階差分）。

Q5. プーリングOLSは「一致するが非効率」とありますが、 $\alpha_i$ と $x_{it}$ が無相関ならプーリングOLSを使えばよいのでは? なぜREが要るのですか?

無相関なら確かにプーリングOLSも一致します（バイアスは出ない）。問題は効率です。複合誤差 $u_{it}=\alpha_i+\varepsilon_{it}$ は同一個体内で系列相関する（共分散 $\sigma_\alpha^2$ ）ため、OLSの「誤差が等分散・無相関」という前提が崩れ、OLSはBLUE（最良線形不偏推定量）でなくなります。具体的には、OLSの推定量自体は不偏・一致でも、その標準誤差の計算が誤りになり（系列相関を無視するため過小評価しがち）、検定や信頼区間が歪みます。REはこの系列相関を分散成分でモデル化しGLSで適切に処理するので、より小さい分散の推定量と正しい標準誤差が得られます。要するに「無相関ならOLSでもバイアスはないが、誤差相関を無視すると効率と推測の正確さで損をする。それを直すのがRE」です。

まとめ

パネルデータ $y_{it}=x_{it}^\top\beta+\alpha_i+\varepsilon_{it}$ の核心は、観測されない個体固有効果 $\alpha_i$ （時間不変の異質性）の扱い。 $\alpha_i$ が $x_{it}$ と相関するとプーリングOLSは欠落変数バイアスを持つ。
固定効果モデル（FE）：within変換 $y_{it}-\bar y_i=(x_{it}-\bar x_i)^\top\beta+(\varepsilon_{it}-\bar\varepsilon_i)$ で $\alpha_i-\alpha_i=0$ となり $\alpha_i$ が消える。 $\alpha_i$ と $x_{it}$ の相関を許すので常に一致だが、時間不変変数も同時に消えて推定不能。個体内変動のみ使うため非効率。LSDV（個体ダミー）と $\beta$ が一致。
変量効果モデル（RE）： $\alpha_i$ を平均0のランダム誤差成分とみなす（前提 $\operatorname{Cov}(\alpha_i,x_{it})=0$ ）。複合誤差 $u_{it}=\alpha_i+\varepsilon_{it}$ が同一個体内で系列相関（共分散 $\sigma_\alpha^2$ 、級内相関 $\rho=\sigma_\alpha^2/(\sigma_\alpha^2+\sigma_\varepsilon^2)$ ）するため**GLS（FGLS）**で推定。準差分 $y_{it}-\theta\bar y_i$ （ $\theta=1-\sqrt{\sigma_\varepsilon^2/(\sigma_\varepsilon^2+T\sigma_\alpha^2)}$ ）を施し、 $\theta=0$ でOLS・ $\theta=1$ でFE。効率的で時間不変変数も推定可だが、前提が崩れると非一致。
ハウスマン検定： $H_0$ 「 $\alpha_i$ と $x_{it}$ が無相関（REが一致・効率的）」を、 $H=(\hat\beta_{FE}-\hat\beta_{RE})^\top[\operatorname{Var}(\hat\beta_{FE})-\operatorname{Var}(\hat\beta_{RE})]^{-1}(\hat\beta_{FE}-\hat\beta_{RE})\sim\chi^2_k$ で検定。FEは常に一致・REは前提下でのみ一致という非対称性から、両者の差が0かを見る。分散が引き算になるのはREが効率的だから。棄却→FE、採択→RE。
引っかけ：FE/REの前提を逆にしない／withinは時間不変変数も消す／REはOLSでなくGLS／ハウスマンの $H_0$ は無相関で棄却ならFE／統計量の分散は引き算。