トービット・打ち切り回帰

🎓 レベル：発展　|　重要度：B（推奨） 📎 土台：質的選択・切断回帰モデル（統計・切断回帰）・ロジット・プロビット（潜在変数モデル）

要点（BLUF）

トービットモデル ＝被説明変数がある値（典型的には0）で打ち切られるとき使う回帰。耐久財支出・労働時間・寄付額のように「0に大量に積み上がり、正なら連続」というデータが対象。
そのままOLSすると、0に張り付いた観測の扱いを誤り係数が0方向に偏る。トービットは打ち切りの構造を尤度に組み込んで一致推定します。
区別が重要：打ち切り（censoring）＝値は0だが個体は標本に居る、切断（truncation）＝そもそも標本から欠落。次節の選択（標本選択とヘックマン補正）とも近縁です。

1. 問題：0に積み上がるデータとOLSの偏り

潜在変数 $y_i^*=x_i\beta+\varepsilon_i$ があり、観測されるのは

y_i=\max(0,\,y_i^*)\quad(\text{負の潜在値はすべて 0 として観測})

という形（下側打ち切り）。例えば「買いたい量」がマイナスの人は「購入額0」と記録されます。このデータにOLSを当てると、0の観測群を「本当に $y=0$ の連続値」と誤認し、回帰直線が寝てしまって係数が0方向へ縮みます。0だけ捨てて正の観測だけで回帰しても、今度は切断バイアスで偏ります。

2. トービット：打ち切りを尤度に書く

flowchart LR
    A["潜在変数 y* = xβ + ε"] --> B{"y* > 0 か？"}
    B -->|"Yes"| C["y = y*（連続値を観測）"]
    B -->|"No"| D["y = 0（打ち切り・束になる）"]
    C --> E["尤度: 連続部分は密度 f(y)"]
    D --> F["尤度: 0の部分は確率 P(y*≤0)"]

トービットは尤度を2部構成にします——正の観測には連続分布の密度を、0の観測には「潜在変数が閾値以下になる確率」を割り当て、最尤推定します。プロビット（ロジット・プロビット）の潜在変数モデルを「閾値以下は0、以上は連続値」に拡張したものと見ると分かりやすい。これで打ち切りの構造を正しく扱い、 $\beta$ を一致推定できます。

なお、トービットは「選択するか（0か正か）」と「いくらか（正の額）」を同じ $\beta$ で説明する強い仮定を置きます。両者が別メカニズムなら、選択と量を分ける**二段階モデル（ハードル/クラッグ・モデル）**の方が柔軟です。

3. 打ち切りと切断の違い

打ち切り（censored）：潜在値は閾値外でも、個体は標本に存在し $y=0$ と記録される（買わなかった人も調査に居る）。→ トービット。
切断（truncated）：閾値外の個体がそもそも標本に入らない（一定所得以上の人しか調査しない）。→ 切断回帰（質的選択・切断回帰モデル）。
選択（selection）：観測されるかどうかが別の方程式で決まる（働く人だけ賃金が見える）。→ ヘックマン（標本選択とヘックマン補正）。

3つとも「観測の制限が偏りを生む」点は共通ですが、制限の入り方が違うので使うモデルが変わります。データのどこがどう欠けているかを見極めるのが先決です。

⚠️ よくある誤解・落とし穴

「0が多いからログを取る」では解決しない： $\log 0$ は定義できず、打ち切りの構造も無視。トービットや二段階モデルで構造を扱う。
「0を捨てて正の観測だけ回帰」は偏る：切断バイアスが入る。0も情報として尤度に使う。
トービットの係数＝期待値への効果ではない：係数は潜在変数への効果。観測される $y$ の期待値への限界効果は別途計算（打ち切り確率で割り引かれる）。
選択と打ち切りの混同：観測の有無が別方程式で決まるならトービットでなくヘックマン（標本選択とヘックマン補正）。

要点（BLUF）

1. 問題：0に積み上がるデータとOLSの偏り

2. トービット：打ち切りを尤度に書く

3. 打ち切りと切断の違い

⚠️ よくある誤解・落とし穴

関連ノート