🎓 レベル:発展 | 重要度:B(推奨) 📎 土台:質的選択・切断回帰モデル(統計・切断回帰)・ロジット・プロビット(潜在変数モデル)
要点(BLUF)
- トービットモデル = 被説明変数がある値(典型的には0)で打ち切られるとき使う回帰。耐久財支出・労働時間・寄付額のように「0に大量に積み上がり、正なら連続」というデータが対象。
- そのままOLSすると、0に張り付いた観測の扱いを誤り係数が0方向に偏る。トービットは打ち切りの構造を尤度に組み込んで一致推定します。
- 区別が重要:打ち切り(censoring)=値は0だが個体は標本に居る、切断(truncation)=そもそも標本から欠落。次節の選択(標本選択とヘックマン補正)とも近縁です。
1. 問題:0に積み上がるデータとOLSの偏り
潜在変数 があり、観測されるのは
という形(下側打ち切り)。例えば「買いたい量」がマイナスの人は「購入額0」と記録されます。このデータにOLSを当てると、0の観測群を「本当に の連続値」と誤認し、回帰直線が寝てしまって係数が0方向へ縮みます。0だけ捨てて正の観測だけで回帰しても、今度は切断バイアスで偏ります。
2. トービット:打ち切りを尤度に書く
flowchart LR
A["潜在変数 y* = xβ + ε"] --> B{"y* > 0 か?"}
B -->|"Yes"| C["y = y*(連続値を観測)"]
B -->|"No"| D["y = 0(打ち切り・束になる)"]
C --> E["尤度: 連続部分は密度 f(y)"]
D --> F["尤度: 0の部分は確率 P(y*≤0)"]
トービットは尤度を2部構成にします——正の観測には連続分布の密度を、0の観測には「潜在変数が閾値以下になる確率」を割り当て、最尤推定します。プロビット(ロジット・プロビット)の潜在変数モデルを「閾値以下は0、以上は連続値」に拡張したものと見ると分かりやすい。これで打ち切りの構造を正しく扱い、 を一致推定できます。
なお、トービットは「選択するか(0か正か)」と「いくらか(正の額)」を同じ で説明する強い仮定を置きます。両者が別メカニズムなら、選択と量を分ける**二段階モデル(ハードル/クラッグ・モデル)**の方が柔軟です。
3. 打ち切りと切断の違い
- 打ち切り(censored):潜在値は閾値外でも、個体は標本に存在し と記録される(買わなかった人も調査に居る)。→ トービット。
- 切断(truncated):閾値外の個体がそもそも標本に入らない(一定所得以上の人しか調査しない)。→ 切断回帰(質的選択・切断回帰モデル)。
- 選択(selection):観測されるかどうかが別の方程式で決まる(働く人だけ賃金が見える)。→ ヘックマン(標本選択とヘックマン補正)。
3つとも「観測の制限が偏りを生む」点は共通ですが、制限の入り方が違うので使うモデルが変わります。データのどこがどう欠けているかを見極めるのが先決です。
⚠️ よくある誤解・落とし穴
- 「0が多いからログを取る」では解決しない: は定義できず、打ち切りの構造も無視。トービットや二段階モデルで構造を扱う。
- 「0を捨てて正の観測だけ回帰」は偏る:切断バイアスが入る。0も情報として尤度に使う。
- トービットの係数=期待値への効果ではない:係数は潜在変数への効果。観測されるの期待値への限界効果は別途計算(打ち切り確率で割り引かれる)。
- 選択と打ち切りの混同:観測の有無が別方程式で決まるならトービットでなくヘックマン(標本選択とヘックマン補正)。
関連ノート
- ロジット・プロビット(潜在変数モデルの離散版)
- 標本選択とヘックマン補正(観測の有無が別方程式で決まる場合)
- 線形確率モデルの限界(制限従属変数のもう一つの型)
- 質的選択・切断回帰モデル(統計・切断回帰の土台)
- 離散選択と制限従属変数 目次
- 計量経済学 全体目次