学習問題の定式化（仮説・損失・経験リスク）

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：機械学習とは・3類型　|　数理：期待値の基礎（統計検定サイト）

要点（BLUF）

教師あり学習は「仮説集合 $\mathcal{H}$ の中から、期待損失（リスク） $R(f)$ を最小にする関数 $f$ を選ぶ」問題として定式化できます。
真の分布は未知なので、実際には手元データでの平均損失＝経験リスク $\hat{R}(f)$ を最小化します（経験リスク最小化, ERM）。
$\hat{R}$ を下げすぎると $R$ が下がらない＝過学習。ここに汎化の問題の起源があります。

1. 登場人物

入力空間 $\mathcal{X}$ 、出力空間 $\mathcal{Y}$ 。データは未知の同時分布 $P(x, y)$ から独立に得られると仮定します。
仮説（モデル） $f: \mathcal{X} \to \mathcal{Y}$ 。候補となる関数の集合を 仮説集合 $\mathcal{H}$ と呼びます（例：すべての直線、深さ5の決定木全体）。
損失関数 $L(y, f(x))$ ：予測 $f(x)$ が正解 $y$ からどれだけ外れたかを測る非負の値。

代表的な損失：

問題	損失関数	式
回帰	二乗損失	$L(y, \hat{y}) = (y - \hat{y})^2$
分類	0-1損失	$L(y, \hat{y}) = \mathbb{1}[y \neq \hat{y}]$
分類（確率）	交差エントロピー	$L(y, \hat{p}) = -\log \hat{p}_y$

2. 期待リスクと経験リスク

本当に最小化したいのは、未知データ全体での平均損失＝期待リスク（汎化誤差）：

$R(f) = \mathbb{E}_{(x,y)\sim P}\big[\, L(y, f(x)) \,\big]$

これは「要するに、これから出会うすべてのデータでの平均的な間違いの大きさ」です。しかし $P$ は未知なので $R(f)$ は直接計算できません。

そこで、手元の訓練データ $\{(x_i, y_i)\}_{i=1}^{n}$ での平均損失＝経験リスク で代用します：

$\hat{R}(f) = \frac{1}{n}\sum_{i=1}^{n} L\big(y_i, f(x_i)\big)$

そして仮説集合の中で経験リスクが最小の $f$ を選ぶ。これが 経験リスク最小化（Empirical Risk Minimization, ERM） です：

$\hat{f} = \arg\min_{f \in \mathcal{H}} \hat{R}(f)$

flowchart LR
  D["訓練データ<br/>(xi, yi)"] --> ER["経験リスク R̂(f) を計算"]
  H["仮説集合 H"] --> ER
  ER --> OPT["最小化（学習）"]
  OPT --> FH["選ばれた f̂"]
  FH -. "本当に評価したいのは未知データでの R(f)" .-> R["期待リスク R(f̂)"]

3. なぜ過学習が起きるのか

ERM は $\hat{R}$ （訓練データでの誤差）を下げますが、本当に下げたいのは $R$ （未知データでの誤差）です。両者の差

$R(f) - \hat{R}(f) \quad(\text{汎化ギャップ})$

は、仮説集合 $\mathcal{H}$ が複雑（表現力が高い）ほど大きくなりがちです。表現力が高いモデルは訓練データの偶然のノイズまで「暗記」でき、 $\hat{R}$ をほぼ 0 にできてしまう一方、 $R$ は下がらない——これが 過学習 です。

逆に $\mathcal{H}$ が単純すぎると、訓練データすら十分に説明できず $\hat{R}$ も $R$ も高い——未学習（underfitting）。

この綱引きを定量化するのが次のノートの バイアスバリアンス分解 です。

補足：「あらゆる問題で万能に最良な学習器は存在しない」という ノーフリーランチ定理 は、仮説集合や前提（帰納バイアス）を問題に合わせて選ぶ必要があることを示しています。

⚠️ よくある誤解

訓練誤差が低い＝良いモデル、ではない。評価すべきは未知データでの誤差（→ 汎化と過学習・バイアスバリアンス分解、訓練/検証/テスト分割）。
損失関数と評価指標は別物。学習では微分しやすい損失（交差エントロピー等）を最小化し、報告は別の指標（正解率・AUC）で行うことが多い。
ERM は最尤推定と地続き。二乗損失の最小化はガウス誤差での最尤、交差エントロピー最小化はベルヌーイ/カテゴリ分布での最尤に対応します（→ 統計の最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論））。

要点（BLUF）

1. 登場人物

2. 期待リスクと経験リスク

3. なぜ過学習が起きるのか

⚠️ よくある誤解

関連ノート