操作変数法・同時方程式（2SLS）

📊 対象級：1級　|　重要度：A（頻出）

要点（BLUF）

説明変数が誤差項と相関する（内生性 $\mathrm{Cov}(x,u)\ne 0$ ）と、OLS は標本をいくら増やしても真の値に収束しません（不一致）。これを救うのが**操作変数法（IV）と、その一般形である2段階最小二乗法（2SLS）**です。社会科学分野では最頻出の道具立てなので、不一致の証明から識別条件まで一気に押さえます。

内生性でOLSは不一致： $\hat\beta_{OLS}\xrightarrow{p}\beta+\dfrac{\mathrm{Cov}(x,u)}{V(x)}$ 。第2項のバイアスは標本を増やしても消えない。源泉は同時性・欠落変数・測定誤差の3つ。
操作変数 $z$ の2条件：内生変数とは相関する（関連性 $\mathrm{Cov}(z,x)\ne0$ ）が、誤差とは無相関（外生性・除外制約 $\mathrm{Cov}(z,u)=0$ ）。この2条件を満たす $z$ があれば $\hat\beta_{IV}=\dfrac{\mathrm{Cov}(z,y)}{\mathrm{Cov}(z,x)}$ が一致推定量になる。
2SLS：第1段階で内生変数 $x$ を（操作変数を含む）外生変数に回帰して予測値 $\hat x$ を作り、第2段階で $y$ を $\hat x$ に回帰する。 $\hat x$ は「 $x$ のうち誤差と無相関な外生的変動だけ」を抜き出したもの。操作変数が複数（過剰識別）でも統一的に扱える。

1級（統計応用・社会科学）では内生性の判定・操作変数の2条件・2SLSの手順・識別条件（次数/階数）が問われます（範囲・配点は改訂されうるため要最新確認）。

graph TD
  ROOT["内生性<br/>Cov(x,u) ≠ 0"] --> SRC["3つの源泉"]
  SRC --> SIM["同時性<br/>x と y が相互決定"]
  SRC --> OMIT["欠落変数<br/>交絡因子が u に紛れ x と相関"]
  SRC --> MEAS["測定誤差<br/>x の観測値に雑音"]
  ROOT --> PROB["OLS が不一致<br/>plim β̂ = β + Cov(x,u)/V(x)"]
  PROB --> SOL["解決策"]
  SOL --> IV["操作変数法 IV<br/>関連性 + 外生性を満たす z"]
  IV --> TSLS["2段階最小二乗法 2SLS<br/>x̂ で内生変動を除去<br/>過剰識別にも対応"]
  TSLS --> SEM["同時方程式モデル<br/>構造形→誘導形・識別条件"]

1. 内生性問題 — なぜOLSが壊れるのか

1.1 OLSが一致するための核心条件

単回帰 $y_i = \beta_0 + \beta_1 x_i + u_i$ を考えます。OLS が一致推定量（標本を増やすと真値に収束）であるための核心条件は、説明変数と誤差が無相関であること、すなわち

\mathrm{Cov}(x,u)=0\quad(\text{外生性})

です。要するに「 $x$ は $u$ に含まれる『その他の要因』とは無関係に動いていなければならない」。これが破れる（ $\mathrm{Cov}(x,u)\ne0$ ）状態を内生性、その $x$ を内生変数と呼びます。

1.2 内生性でOLSが不一致になることの証明

OLS 推定量（傾き）の標本表現から出発します。

\hat\beta_1^{OLS}=\frac{\widehat{\mathrm{Cov}}(x,y)}{\widehat{V}(x)}

ここに真のモデル $y_i=\beta_0+\beta_1 x_i+u_i$ を代入します。共分散は定数 $\beta_0$ には反応せず、 $\beta_1 x$ と $u$ に分解できるので

\widehat{\mathrm{Cov}}(x,y)=\widehat{\mathrm{Cov}}(x,\ \beta_0+\beta_1 x+u)=\beta_1\,\widehat{V}(x)+\widehat{\mathrm{Cov}}(x,u)

要するに「 $x$ と $y$ の共分散は、傾き $\beta_1$ ぶんの『 $x$ 自身のばらつき』と、『 $x$ と誤差の共分散』に分かれる」。これを上の式に入れて整理すると

\hat\beta_1^{OLS}=\beta_1+\frac{\widehat{\mathrm{Cov}}(x,u)}{\widehat{V}(x)}

標本を大きくすると標本モーメントは母モーメントに確率収束する（大数の法則）ので、両辺の確率極限（plim）を取って

\boxed{\;\hat\beta_1^{OLS}\xrightarrow{p}\beta_1+\frac{\mathrm{Cov}(x,u)}{V(x)}\;}

要するに「OLS が収束する先は、真値 $\beta_1$ に『 $\mathrm{Cov}(x,u)/V(x)$ 』というズレを足した値」。ここがこの分野で最も重要な一行です。読み取るべきことは2つ：

$\mathrm{Cov}(x,u)=0$ （外生）なら第2項は消え、 $\hat\beta_1^{OLS}\xrightarrow{p}\beta_1$ 。OLS は一致する。
$\mathrm{Cov}(x,u)\ne0$ （内生）なら第2項が残り、標本をいくら増やしてもズレが消えない。これが「不一致（非一致 / inconsistent）」です。不偏でないだけでなく、漸近的にも真値からずれます。

バイアスの向きもこの式が教えてくれます。 $\mathrm{Cov}(x,u)>0$ なら OLS は $\beta_1$ を過大評価、 $\mathrm{Cov}(x,u)<0$ なら過小評価します（ $V(x)>0$ は常に正なので符号は分子で決まる）。

⚠️ 「バイアス（有限標本のズレ）」と「不一致（漸近のズレ）」は概念上は別ですが、内生性は両方を引き起こします。試験では「標本を増やせば直るか?」が問われ、答えは「直らない（不一致だから）」です。これが内生性が深刻な理由です。

1.3 内生性の3つの源泉

$\mathrm{Cov}(x,u)\ne0$ が現実に生じる典型は3つです。

flowchart TD
  A["内生性 Cov(x,u)≠0 の源泉"] --> S["① 同時性<br/>simultaneity"]
  A --> O["② 欠落変数<br/>omitted variable"]
  A --> M["③ 測定誤差<br/>measurement error"]
  S --> S1["y が x を決め返す<br/>例：価格と需要量が市場で同時決定"]
  O --> O1["交絡因子を入れ忘れ u に残る<br/>例：能力を落とすと教育年数と u が相関"]
  M --> M1["x を雑音つきで観測<br/>観測 x* = x + 測定誤差"]

① 同時性（連立性）. $x$ と $y$ が互いに相手を決める関係。例：価格 $p$ と需要量 $q$ 。需要関数 $q=\alpha_0+\alpha_1 p+u$ を推定したいが、市場では需要ショック $u$ （流行など）が価格 $p$ をも押し上げる。すると $\mathrm{Cov}(p,u)\ne0$ で $p$ は内生。これが同時方程式モデル（第3節）の動機です。

② 欠落変数（交絡）. 本来モデルに入れるべき変数を落とすと、それが誤差項 $u$ に紛れ込む。落とした変数が $x$ と相関していれば $\mathrm{Cov}(x,u)\ne0$ 。例：賃金 $=\beta_0+\beta_1(\text{教育年数})+u$ で能力を観測できず落とすと、能力は $u$ に入り、能力の高い人ほど教育年数も長いので $\mathrm{Cov}(\text{教育},u)>0$ 。教育のリターンが過大評価されます。

③ 測定誤差. 真の $x$ ではなく雑音つきの $x^\ast=x+e$ を観測。真のモデル $y=\beta_0+\beta_1 x+u$ を $x^\ast$ で回した式は誤差が $u-\beta_1 e$ になり、これが $x^\ast$ と（ $e$ を通じて）相関する。結果は減衰バイアス（attenuation bias）： $\hat\beta_1$ が0に向かって縮む。古典的測定誤差では係数が必ず縮小方向に偏ります。

要するに「同時性・欠落変数・測定誤差のどれも、説明変数を誤差項と相関させてOLSを不一致にする。そして3つとも、後述の操作変数法で同時に対処できる」。

2. 操作変数法（IV）

2.1 操作変数の2条件

内生変数 $x$ を、誤差と無相関な「外からの押し」で動かしたい。その役を果たすのが操作変数（instrumental variable） $z$ です。 $z$ は次の2条件を満たさねばなりません。

\boxed{\; \text{(1) 関連性（relevance）：}\ \mathrm{Cov}(z,x)\ne0 \qquad \text{(2) 外生性（exogeneity / 除外制約）：}\ \mathrm{Cov}(z,u)=0 \;}

(1) 関連性： $z$ は内生変数 $x$ と相関していること。要するに「 $z$ を動かすと $x$ も動く」。これがないと $z$ は $x$ の代理になれません。検証可能（第1段階回帰で確認できる、第5節）。
(2) 外生性（除外制約）： $z$ は誤差 $u$ と無相関であること。要するに「 $z$ は $x$ を通してのみ $y$ に効き、 $y$ への直接の経路や交絡を持たない」。「除外制約（exclusion restriction）」とも呼ぶのは、 $z$ が結果の方程式から除外されている（ $y$ の式に直接は入らない）ことを意味するからです。これはデータから検証できない仮定で、IV の最大の弱点です。

graph LR
  Z["操作変数 z"] -->|"関連性 Cov(z,x)≠0"| X["内生変数 x"]
  X --> Y["結果 y"]
  U["誤差 u（交絡）"] -->|"内生性 Cov(x,u)≠0"| X
  U --> Y
  Z -. "外生性 Cov(z,u)=0<br/>（この破線の矢印が無いこと）" .-> U
  Z -. "除外制約<br/>（この直接矢印が無いこと）" .-> Y

図の読み方： $z$ から $y$ への影響は** $x$ を経由する1本だけ**。 $z$ から $u$ や $y$ への直接の矢印がないこと（破線が存在しないこと）が外生性・除外制約です。

良い操作変数の例.

教育のリターン（賃金 ← 教育年数、交絡＝能力）：義務教育法の改正・四半期の生年月日（Angrist–Krueger）。生まれ月は学校制度のせいで最終学歴に効く（関連性）が、本人の能力とは無関係（外生性）。
需要関数（需要量 ← 価格、同時性）：供給側のコストショック（天候・原材料費）。コストは価格を動かす（関連性）が、需要ショックとは無関係（外生性）。

2.2 単純IV推定量とその一致性の証明

操作変数が1つで内生変数が1つのちょうど識別の場合、IV 推定量は

\boxed{\;\hat\beta_1^{IV}=\frac{\widehat{\mathrm{Cov}}(z,y)}{\widehat{\mathrm{Cov}}(z,x)}\;}

です。OLS の式 $\widehat{\mathrm{Cov}}(x,y)/\widehat V(x)$ と比べると、分母・分子の片方の $x$ を $z$ に置き換えた形になっています（ $\widehat V(x)=\widehat{\mathrm{Cov}}(x,x)$ なので「 $x$ の代わりに $z$ で測る」と読める）。

一致性の証明. 真のモデル $y_i=\beta_0+\beta_1 x_i+u_i$ を分子に代入します。 $z$ と定数 $\beta_0$ の共分散は0なので

\widehat{\mathrm{Cov}}(z,y)=\widehat{\mathrm{Cov}}(z,\ \beta_0+\beta_1 x+u)=\beta_1\,\widehat{\mathrm{Cov}}(z,x)+\widehat{\mathrm{Cov}}(z,u)

要するに「 $z$ と $y$ の共分散は、傾きぶんの『 $z$ と $x$ の共分散』＋『 $z$ と誤差の共分散』に分かれる」。これを推定量に入れると

\hat\beta_1^{IV}=\beta_1+\frac{\widehat{\mathrm{Cov}}(z,u)}{\widehat{\mathrm{Cov}}(z,x)}

ここで確率極限を取ります。大数の法則で標本共分散は母共分散に収束し、

外生性 (2) より分子 $\mathrm{Cov}(z,u)=0$ 、
関連性 (1) より分母 $\mathrm{Cov}(z,x)\ne0$ （ゼロ割りを回避）。

したがって第2項は0に潰れ、

\boxed{\;\hat\beta_1^{IV}\xrightarrow{p}\beta_1+\frac{\mathrm{Cov}(z,u)}{\mathrm{Cov}(z,x)}=\beta_1+\frac{0}{\mathrm{Cov}(z,x)}=\beta_1\;}

要するに「外生性が分子を消し、関連性が分母を生かすから、IV は真値 $\beta_1$ に収束する（一致）」。OLS の不一致 $\beta_1+\mathrm{Cov}(x,u)/V(x)$ と並べると、 $x$ を $z$ に置き換えた瞬間にバイアス項の分子が $\mathrm{Cov}(z,u)=0$ となって消える——これが IV が効く理屈の全てです。2条件がそれぞれ「分子を消す（外生性）」「分母を生かす（関連性）」役割に対応している点を押さえてください。

⚠️ IV は一致であって不偏ではありません。 $\hat\beta_1^{IV}$ は分母・分子とも確率変数で、有限標本では真値からずれます（しかも分母が小さいと暴れる、第5節）。「IV は不偏」は誤り。一致性が成り立つには十分大きな標本が要ります。

3. 同時方程式モデル — 構造形・誘導形・識別

3.1 構造形と誘導形（需要供給の例）

内生性の源泉①「同時性」を正面から扱うのが同時方程式モデルです。複数の内生変数が複数の方程式で同時に決まります。古典例は需要供給：

\text{需要：}\quad q = \alpha_0 + \alpha_1 p + \alpha_2 y_{\text{inc}} + u_d

\text{供給：}\quad q = \gamma_0 + \gamma_1 p + \gamma_2 w_{\text{cost}} + u_s

ここで $q$ （数量）と $p$ （価格）が内生変数（モデル内で同時決定）、 $y_{\text{inc}}$ （所得）と $w_{\text{cost}}$ （コスト）が外生変数（モデルの外から与えられる）です。この「変数の真の関係をそのまま書いた」連立式を**構造形（structural form）**と呼びます。構造形のパラメータ $\alpha_1,\gamma_1$ （需要・供給の価格感応度）が知りたいものです。

なぜOLSではダメか. 需要式を $p$ について OLS で回しても、 $p$ は供給ショック $u_s$ を通じて需要ショック $u_d$ とは別経路で決まり、 $p$ と $u_d$ が相関する（ $\mathrm{Cov}(p,u_d)\ne0$ ）。つまり $p$ は内生で、OLS は需要曲線の傾きを一致推定できません。観測される価格・数量の散らばりは需要曲線と供給曲線の交点の集まりなので、片方の曲線だけを取り出せないのです。

誘導形（reduced form）. 構造形を内生変数 $(q,p)$ について解き、内生変数を外生変数だけの関数に書き直したものを誘導形と呼びます。上の2式を $p,q$ について連立して解くと

p = \pi_{10} + \pi_{11}\,y_{\text{inc}} + \pi_{12}\,w_{\text{cost}} + v_p

q = \pi_{20} + \pi_{21}\,y_{\text{inc}} + \pi_{22}\,w_{\text{cost}} + v_q

要するに「構造形＝変数同士の生の関係（内生変数が右辺にも出る）／誘導形＝内生変数を外生変数だけで表した『解いた後』の式」。誘導形の右辺は外生変数だけなので、各式は OLS で一致推定できます（ $\mathrm{Cov}(\text{外生変数}, v)=0$ ）。問題は「誘導形の係数 $\pi$ から構造形の係数 $\alpha,\gamma$ を逆算して取り出せるか」——これが**識別問題（identification）**です。

graph LR
  SF["構造形<br/>需要 q=α0+α1 p+α2 y+ud<br/>供給 q=γ0+γ1 p+γ2 w+us"] -->|内生変数 p,q について解く| RF["誘導形<br/>p=π10+π11 y+π12 w+vp<br/>q=π20+π21 y+π22 w+vq"]
  RF -->|OLSで一致推定できる| PI["π̂（誘導形係数）"]
  PI -->|識別条件を満たせば逆算可| ALPHA["構造形係数 α,γ（知りたい量）"]

3.2 識別 — 次数条件と階数条件

「誘導形から構造形を一意に復元できるか」を判定するのが識別条件です。系の方程式数（＝内生変数の数）を $G$ 、系全体の変数の総数を $K$ 、いま注目している1本の方程式に含まれる変数の数を $k$ とします。

次数条件（order condition／必要条件）. ある方程式が識別されるための必要条件は

\boxed{\;K-k \ge G-1\;}

要するに「注目する式から除外されている変数の数（ $K-k$ ）が、系の内生変数の数より1少ない数（ $G-1$ ）以上であること」。等価な言い換えとして「その式から除外された外生変数の数が、その式に含まれる内生変数の数 $-1$ 以上」。直観は「構造係数を逆算するには方程式（情報）が足りていないといけない。除外された外生変数が操作変数の供給源になり、内生変数1つにつき最低1つの操作変数が要る」ということです。結果で3分類します。

次数条件	識別の状態	意味
$K-k < G-1$	過少識別（under-identified）	操作変数が足りず、構造係数を復元できない。推定不能
$K-k = G-1$	ちょうど識別（just-identified）	操作変数の数＝内生変数の数。単純IVで一意に推定可
$K-k > G-1$	過剰識別（over-identified）	操作変数が余る。2SLS（情報を最適に集約）で推定。余りで外生性を検定可（Sargan/J）

階数条件（rank condition／必要十分条件）. 次数条件は数を数えるだけの必要条件にすぎません。実際に識別されるための必要十分条件が階数条件です。

その式から除外された変数が、他の方程式に現れるときの係数で作る行列の階数（rank）が $G-1$ に等しいこと。

要するに「除外した変数たちが他式で『十分に異なる効き方』をしていて、 $(G-1)$ 本ぶんの独立な情報を提供していること」。 $G=2$ （2式）なら、行列は実質スカラーで「除外変数の他式での係数が0でない」ことに帰着します。需要供給の例では、需要式から供給シフト要因 $w_{\text{cost}}$ が除外され、それが供給式で $\gamma_2\ne0$ なら需要曲線が識別される——コストショックが供給曲線を動かしてくれるおかげで、価格・数量の散布が需要曲線をなぞる、という第2.1節の操作変数の話と完全に符合します。

⚠️ 次数条件は必要だが十分でない。次数条件を満たしても階数条件が落ちれば識別不能です。試験では「次数条件OKだから識別される」は誤り、と問われます。順序は「次数で当たりをつけ、階数で確定」。

4. 2段階最小二乗法（2SLS）

4.1 アイデア — 内生変数を「外生的な影」に置き換える

過剰識別（操作変数が複数）でも単純IVと内生変数1つの場合でも統一的に使えるのが**2段階最小二乗法（two-stage least squares, 2SLS / TSLS）**です。名前のとおり最小二乗を2回行います。内生変数 $x$ 、操作変数 $z_1,\dots,z_m$ 、（あれば）他の外生説明変数 $w$ がある状況を考えます。

第1段階（first stage）. 内生変数 $x$ を、すべての外生変数（操作変数 $z$ と外生説明変数 $w$ ）に OLS 回帰し、予測値 $\hat x$ を得ます。

x_i = \pi_0 + \pi_1 z_{1i} + \dots + \pi_m z_{mi} + (\text{外生 }w\text{ の項}) + v_i \quad\Longrightarrow\quad \hat x_i = \hat\pi_0 + \hat\pi_1 z_{1i}+\dots

第2段階（second stage）. 結果 $y$ を、 $x$ の代わりに予測値 $\hat x$ （と外生説明変数 $w$ ）に OLS 回帰する。

y_i = \beta_0 + \beta_1 \hat x_i + (\text{外生 }w\text{ の項}) + \text{誤差}

ここで得た $\hat\beta_1$ が 2SLS 推定量です。

flowchart LR
  subgraph S1["第1段階：内生変動の分離"]
    Z["操作変数 z（＋外生 w）"] --> REG1["x を z,w に OLS 回帰"]
    REG1 --> XHAT["x̂ = x の予測値<br/>（外生変数で説明できる部分）"]
    REG1 --> V["残差 v<br/>（u と相関する内生的部分）→ 捨てる"]
  end
  subgraph S2["第2段階：きれいな x̂ で推定"]
    XHAT --> REG2["y を x̂ に OLS 回帰"]
    REG2 --> BETA["β̂（2SLS 推定量）"]
  end

4.2 なぜ $\hat x$ なら一致するのか（直観と論理）

核心は第1段階の分解です。OLS の性質により、 $x$ は「外生変数で説明できる部分 $\hat x$ 」と「残差 $v$ 」に直交分解されます。

x_i=\underbrace{\hat x_i}_{\text{外生変数の線形結合}}+\underbrace{v_i}_{\text{残差}}

ここで決定的なのは：

$\hat x$ は外生変数 $z,w$ の線形結合だから、外生性より** $\hat x$ は誤差 $u$ と漸近的に無相関**（ $\mathrm{Cov}(z,u)=0$ が効く）。
内生性（ $x$ と $u$ の相関）は、 $x$ のうち残差 $v$ の側に押し込まれている。2SLS はこの $v$ を捨てる。

要するに「 $x$ を『誤差と相関するヤバい部分 $v$ 』と『外生変数由来のきれいな部分 $\hat x$ 』に割り、きれいな $\hat x$ だけで $y$ を説明する」。捨てた $v$ に内生性が閉じ込められているので、第2段階の説明変数 $\hat x$ は外生となり、OLS が一致します。

ちょうど識別なら単純IVと一致. 操作変数が1つ（ $m=1$ 、内生変数1つ）のとき、2SLS 推定量は第2節の単純IV $\hat\beta^{IV}=\widehat{\mathrm{Cov}}(z,y)/\widehat{\mathrm{Cov}}(z,x)$ と完全に一致します。2SLS は単純IVの一般化（操作変数が余るときの最適な集約法）だと理解してください。

過剰識別での意味. 操作変数が複数あると、第1段階は「複数の操作変数を最適に1本の予測値 $\hat x$ に合成」します。これは利用可能な外生情報を最も効率的に使う合成で、過剰な操作変数を1つずつ使うより分散が小さくなります。

4.3 標準誤差の注意（手で2回回すと間違う）

⚠️ 2SLS を「文字どおり OLS を2回」手で実行して第2段階の標準誤差をそのまま使うと誤りになります。第2段階は $x$ ではなく推定値 $\hat x$ を使うため、 $\hat x$ の推定の不確実性（第1段階の誤差）が第2段階の標準誤差に正しく伝播しないからです。正しい 2SLS 標準誤差は、真の構造誤差 $u_i=y_i-\beta_0-\beta_1 x_i$ （ $\hat x$ ではなく元の $x$ で計算した残差）に基づいて補正します。実務では2SLS専用の手続き（ivreg／IV2SLS 等）を使えば自動で正しい標準誤差が出ます。「OLSを2回回せば終わり」と覚えると標準誤差で足をすくわれます。

5. 弱操作変数の問題

操作変数の条件 (1) 関連性は「 $\mathrm{Cov}(z,x)\ne0$ 」でしたが、ゼロでなければ何でもよいわけではありません。 $z$ と $x$ の相関が弱い（first stage が弱い）と、IV/2SLS は深刻に壊れます。これを**弱操作変数（weak instruments）**問題と呼びます。

何が起きるか.

分散の爆発：IV 推定量 $\hat\beta\approx\beta+\dfrac{\mathrm{Cov}(z,u)}{\mathrm{Cov}(z,x)}$ の分母が小さいと、わずかな $\mathrm{Cov}(z,u)$ の標本誤差が大きく増幅され、推定が不安定（分散・信頼区間が巨大）になります。
バイアス：弱操作変数のもとでは 2SLS がOLSの内生性バイアスの方向に偏ることが知られ、しかも標本を増やしてもバイアスが残りうる（漸近近似が効かない）。過剰識別で操作変数が多いほど深刻になりがちです。
一致性（漸近の議論）は「関連性が成り立つ」前提なので、弱いと有限標本の近似が崩れる、という構図です。

診断（要最新確認）. 第1段階回帰における操作変数の同時有意性のF統計量が広く使われ、経験則として first stage の F が 10 未満なら弱操作変数を疑う（Staiger–Stock の目安）。ただし操作変数が多い場合などこの「F>10」基準は万能でなく、より精密な基準（実効F・条件付き手法）が提案されています。この閾値や手法は研究の進展で更新されるため要最新確認です。

過剰識別の検定（Sargan / Hansen の J 検定）. 操作変数が余る（過剰識別）と、「余った操作変数も外生か」を検定できます（Sargan検定／過剰識別制約の検定）。帰無仮説は「すべての操作変数が外生（除外制約を満たす）」。棄却されたらどれかの操作変数が外生性を破っている疑い。ただしちょうど識別だと検定できず（余りがない）、外生性は依然として検証不能なまま残ります。さらに弱操作変数があると Sargan 検定の検出力も落ちます。

要するに「関連性は『ゼロでないこと』では足りず『十分強いこと』が要る。弱いと分散爆発とバイアスで2SLSが信用できなくなる。第1段階のFで関連性の強さを、過剰識別なら Sargan で余り操作変数の外生性を点検する」。

6. 試験での問われ方（1級）

社会科学分野での1級の典型的な問われ方を、論点ごとに整理します（出題範囲・配点は要最新確認）。

内生性の判定：与えられた状況（賃金と教育、需要と価格など）で「なぜ OLS が一致しないか」を、 $\mathrm{Cov}(x,u)\ne0$ の源泉（同時性/欠落変数/測定誤差）に結びつけて説明させる。 $\hat\beta_{OLS}\xrightarrow{p}\beta+\mathrm{Cov}(x,u)/V(x)$ を書かせ、バイアスの符号まで問う場合がある。
操作変数の2条件：候補となる変数が操作変数として妥当かを、(1)関連性・(2)外生性（除外制約）で吟味させる。「外生性は検証不能、関連性は第1段階で検証可能」という非対称性の理解が頻出。
IV/2SLSの手順：第1段階で何を何に回帰し（内生変数を全外生変数へ）、第2段階で何を使うか（ $\hat x$ ）、を順に説明させる。「 $\hat x$ が内生性をどう除くか」（外生的変動だけを取り出す）の直観を言語化させる。
一致性の証明： $\hat\beta_{IV}=\beta+\mathrm{Cov}(z,u)/\mathrm{Cov}(z,x)$ を導き、外生性で分子が消える論理を書かせる。「一致だが不偏でない」点に注意。
識別条件：同時方程式で次数条件 $K-k\ge G-1$ を計算させ、過少/ちょうど/過剰を判定させる。「次数条件は必要条件にすぎず、階数条件が必要十分」という区別、過剰識別なら2SLS・余りで外生性検定、という流れまで。
弱操作変数：関連性が「ゼロでない」だけでは不十分で、弱いと分散・バイアスが悪化すること、第1段階Fで点検すること（閾値は要最新確認）。

7. 引っかけ・頻出論点

⚠️ 内生性は「不一致」を生む（標本を増やしても直らない）： $\hat\beta_{OLS}\xrightarrow{p}\beta+\mathrm{Cov}(x,u)/V(x)$ の第2項は $n\to\infty$ でも消えません。「サンプルを増やせばバイアスは消える」は誤り。一致性が壊れているのが内生性の本質です。
⚠️ IV は一致だが不偏ではない： $\hat\beta_{IV}$ は分母・分子とも確率変数なので有限標本ではずれます。「IV は不偏推定量」は誤り。一致性を活かすには大標本が必要で、小標本だと OLS より標準誤差がむしろ大きいことすらあります。
⚠️ 外生性は検証不能、関連性は検証可能：除外制約 $\mathrm{Cov}(z,u)=0$ はデータで確かめられない（理論・制度知識で正当化する）。一方 $\mathrm{Cov}(z,x)\ne0$ は第1段階回帰で確認できる。この非対称性を逆に覚えない。
⚠️ 次数条件は必要条件にすぎない： $K-k\ge G-1$ を満たしても、階数条件（除外変数の他式係数で作る行列の階数 $=G-1$ ）が落ちれば識別不能。「次数条件OK＝識別される」は誤り。必要十分は階数条件。
⚠️ 第1段階は内生変数を『すべての外生変数』に回帰する：操作変数 $z$ だけでなく、モデルに含まれる他の外生説明変数 $w$ も第1段階に入れる。 $w$ を入れ忘れると 2SLS が一致しなくなる。「操作変数だけで第1段階を回す」は誤り。
⚠️ 2SLS を手で2回回すと標準誤差が間違う：第2段階の誤差は元の $x$ から作る（ $\hat x$ からではない）。OLSを素朴に2回適用した標準誤差は過小評価になる。専用ルーチンを使う。
⚠️ 弱操作変数では「相関がゼロでない」では不十分：関連性が弱いと分母が小さく、分散爆発とバイアス（OLS方向）を招く。過剰識別＆多数の弱操作変数で特に深刻。第1段階Fで関連性の強さを点検（閾値は要最新確認）。
⚠️ 過剰識別でしか外生性は（部分的にも）検定できない：Sargan/J 検定は操作変数が余るときだけ可能。ちょうど識別では検定できず、外生性は仮定のまま。「IVなら外生性を検定で保証できる」は誤り。

よくある疑問（Q&A）

Q1. 「バイアス」と「不一致」はどう違うのですか? 内生性はどちらを起こすのですか?

バイアスは有限標本で推定量の期待値が真値からずれること（ $E[\hat\beta]\ne\beta$ ）、不一致は標本を無限に増やしても真値に収束しないこと（ $\hat\beta\not\xrightarrow{p}\beta$ ）です。内生性は両方を起こします。式 $\hat\beta_{OLS}\xrightarrow{p}\beta+\mathrm{Cov}(x,u)/V(x)$ が示すのは「収束先そのものがズレている」ことで、これは不一致。実務的に深刻なのは不一致の方です——バイアスだけなら大標本で軽減を期待できますが、不一致だとどれだけデータを集めても直らないからです。だから内生性には IV のような構造的な対処が要ります。

Q2. なぜ操作変数を1つ通すだけで内生性が消えるのですか? 魔法のようで腑に落ちません。

魔法ではなく「情報の出どころを変える」操作です。OLS は $x$ の全変動を使いますが、その中には「誤差 $u$ と一緒に動いてしまう汚れた変動」が混じっています。IV/2SLS は $x$ の変動のうち「操作変数 $z$ に駆動された部分（ $\hat x$ ）だけ」を使います。 $z$ は外生（ $\mathrm{Cov}(z,u)=0$ ）なので、その部分は $u$ と無関係——汚れていません。教育の例なら、「本人の意思（能力と絡む）で選んだ教育年数の変動」は使わず、「生まれ月という制度由来の、能力と無関係な教育年数の変動」だけを使って賃金との関係を測る、ということです。汚れた変動を捨てるから内生性が消えます。

Q3. ちょうど識別の単純IVと2SLSは、結局同じものですか?

操作変数が1つ・内生変数が1つのちょうど識別なら、2SLS 推定量は単純IV $\widehat{\mathrm{Cov}}(z,y)/\widehat{\mathrm{Cov}}(z,x)$ と数値的に完全一致します。2SLS は単純IVの一般化で、操作変数が**余る（過剰識別）**ときに真価を発揮します。そのとき第1段階は複数の操作変数を1本の予測値 $\hat x$ に最適合成し、利用可能な外生情報を最も効率よく使います。だから「2SLS＝操作変数が複数あっても使える IV」と理解すれば、両者の関係はすっきりします。

Q4. 構造形と誘導形、どちらを推定すればいいのですか?

知りたいのはたいてい構造形の係数（需要の価格弾力性 $\alpha_1$ など、変数間の因果的な関係）です。しかし構造形は右辺に内生変数を含むため、そのまま OLS で推定できません。一方誘導形は右辺が外生変数だけなので OLS で一致推定できますが、得られるのは混ざった係数 $\pi$ で、それ自体は解釈しにくい。そこで「誘導形を推定し、識別条件を満たすなら構造係数を逆算する」か、同じことを直接やる2SLSを使います。要するに、推定の足場は誘導形（OLSが効く）、欲しいのは構造形（解釈できる）、橋渡しが識別条件と2SLS、という関係です。

Q5. 操作変数が見つかれば内生性は完全に解決ですか?

いいえ、2つの落とし穴が残ります。第一に外生性は検証不能で、 $\mathrm{Cov}(z,u)=0$ が成り立つかはデータからは確かめられません（理論・制度的論拠で守るしかなく、これが破れていれば IV も不一致）。過剰識別なら Sargan 検定で部分的に点検できますが、ちょうど識別では不可能です。第二に弱操作変数の問題で、関連性が弱い（第1段階が弱い）と分散爆発とバイアスで 2SLS が信用できなくなります。だから IV は「妥当でかつ十分強い操作変数」が手に入って初めて機能する道具で、見つけること自体が研究の核心になります。

Q6. 測定誤差まで操作変数で直せるのですか? 同時性や欠落変数と原因が違う気がします。

直せます。原因（同時性・欠落変数・測定誤差）は違っても、症状はすべて同じ「 $\mathrm{Cov}(x,u)\ne0$ （説明変数が誤差と相関）」だからです。IV の一致性の証明は原因を問わず「 $z$ が誤差と無相関・内生変数と相関」しさえすれば成り立ちます。測定誤差の場合、真の $x$ と相関するが測定誤差とは独立な別の観測（例：同じ量の2回目の独立な測定）を操作変数に使えば、減衰バイアスを除いて一致推定できます。「3つの源泉を1つの道具（IV）で同時に扱える」ことが、操作変数法が計量経済学の中心に居座る理由です。

まとめ

内生性 $\mathrm{Cov}(x,u)\ne0$ でOLSは不一致： $\hat\beta_{OLS}\xrightarrow{p}\beta+\dfrac{\mathrm{Cov}(x,u)}{V(x)}$ 。第2項は標本を増やしても消えない。源泉は同時性・欠落変数・測定誤差の3つで、いずれも IV で対処できる。バイアスの符号は $\mathrm{Cov}(x,u)$ の符号で決まる。
操作変数 $z$ の2条件：関連性 $\mathrm{Cov}(z,x)\ne0$ （検証可能・分母を生かす）と外生性／除外制約 $\mathrm{Cov}(z,u)=0$ （検証不能・分子を消す）。
単純IVの一致性： $\hat\beta_{IV}=\dfrac{\mathrm{Cov}(z,y)}{\mathrm{Cov}(z,x)}\xrightarrow{p}\beta$ 。外生性が分子 $\mathrm{Cov}(z,u)$ を消し、関連性が分母を生かす。一致だが不偏ではない。
2SLS：第1段階で内生変数を全外生変数に回帰し $\hat x$ 、第2段階で $y$ を $\hat x$ に回帰。 $\hat x$ は「 $x$ の外生的変動だけ」を取り出し、内生性は捨てた残差 $v$ に閉じ込める。ちょうど識別なら単純IVと一致、過剰識別にも対応。標準誤差は専用補正が必要。
同時方程式：構造形（変数の生の関係・内生変数が右辺）→誘導形（外生変数だけで内生変数を表す・OLS可能）。構造係数を復元できるかが識別。次数条件 $K-k\ge G-1$ （必要条件・過少/ちょうど/過剰を判定）と階数条件（必要十分・除外変数の他式係数の行列の階数 $=G-1$ ）。
弱操作変数：関連性は「ゼロでない」では不十分。弱いと分散爆発とバイアス（OLS方向）。第1段階Fで点検（閾値は要最新確認）、過剰識別なら Sargan 検定で余り操作変数の外生性を点検。