判別分析（LDA・QDA）｜機械学習テキスト

🎓 レベル：標準　|　重要度：B（標準）

📎 前提：ロジスティック回帰　|　数理：判別分析（統計）・ベイズの定理（統計）

要点（BLUF）

判別分析は「各クラスのデータが多変量正規分布から出ている」と仮定し、ベイズの定理で事後確率が最大のクラスに割り当てる分類手法です。
各クラスの共分散行列が共通だと判別関数の二次項が打ち消し合い、決定境界は直線（超平面）になります＝LDA。共分散がクラスごとに違うと二次項が残り、境界は曲線（二次曲面）になります＝QDA。
判別の中身は「点 $x$ が各クラスの中心からどれだけ離れているか」を測るマハラノビス距離＋クラスの出やすさ（事前確率）の比較です。

1. ベイズ判別の考え方

分類のゴールは、入力 $x$ を見て最も「ありそうな」クラスを選ぶことです。ありそうさを確率で表したものが事後確率 $P(y=k \mid x)$ で、これが最大のクラスを選べば誤分類確率が最小になります。これをベイズ判別（ベイズ最適分類器） と呼びます。

事後確率はベイズの定理で次のように分解できます（→ 統計ベイズの定理）：

$P(y=k \mid x) = \frac{\overbrace{P(x \mid y=k)}^{\text{クラス内の分布}}\ \overbrace{\pi_k}^{\text{事前確率}}}{\displaystyle\sum_{l} P(x \mid y=l)\,\pi_l}$

ここで $\pi_k = P(y=k)$ はクラス $k$ の事前確率（全体に占める割合）、 $P(x \mid y=k)$ は「クラス $k$ の中で $x$ がどのくらい出やすいか」を表すクラス条件付き分布です。

要するに：分母はどのクラスでも共通なので、比較に効くのは分子 $P(x \mid y=k)\,\pi_k$ だけ。「そのクラスらしさ（条件付き分布）×そのクラスの出やすさ（事前確率）」が最大のクラスを選ぶ、というのがベイズ判別です。

問題は $P(x \mid y=k)$ をどうモデル化するか。ここで多変量正規分布を仮定するのが判別分析です。

2. 各クラスを多変量正規と仮定する

クラス $k$ のデータが、平均 $\mu_k$ ・共分散行列 $\Sigma_k$ の $d$ 次元多変量正規分布に従うと仮定します：

$P(x \mid y=k) = \frac{1}{(2\pi)^{d/2}\,|\Sigma_k|^{1/2}}\exp\!\left(-\frac{1}{2}(x-\mu_k)^\top \Sigma_k^{-1}(x-\mu_k)\right)$

要するに：各クラスは「中心 $\mu_k$ のまわりに、 $\Sigma_k$ という形（広がり・傾き）の楕円状に散らばっている」と見なす、ということです。指数の中の $(x-\mu_k)^\top \Sigma_k^{-1}(x-\mu_k)$ は、後で出てくるマハラノビス距離の二乗そのものです。

flowchart LR
    A["入力 x"] --> B["各クラスの正規分布で<br/>P(x | y=k) を評価"]
    B --> C["事前確率 πk を掛ける"]
    C --> D["判別関数 δk(x) を比較"]
    D --> E["最大の k に割り当て"]

3. 判別関数の導出：なぜ log を取るか

事後確率を直接比べてもよいのですが、指数関数が邪魔なので対数を取ります。対数は単調増加なので、 $\log\big(P(x \mid y=k)\,\pi_k\big)$ を最大化することは元の量を最大化することと同じです。分母（共通項）と $x$ だけの定数項を捨てて、クラス $k$ に依存する部分だけ残したものを判別関数（discriminant function） $\delta_k(x)$ と呼びます：

$\delta_k(x) = -\frac{1}{2}\log|\Sigma_k| - \frac{1}{2}(x-\mu_k)^\top \Sigma_k^{-1}(x-\mu_k) + \log \pi_k$

そして $\delta_k(x)$ が最大のクラスに $x$ を割り当てます。

要するに：判別関数は「マハラノビス距離が近いほど大きく（第2項）、分布が広すぎないほど大きく（第1項のペナルティ）、もともと出やすいクラスほど大きい（第3項）」というスコアです。これを各クラスで計算して一番大きいものを選ぶだけ。

4. 共分散が共通 → 線形になる（LDA）

ここからが核心です。まず $\Sigma_k$ がすべてのクラスで等しい（ $\Sigma_k = \Sigma$ ）と仮定します。マハラノビス距離の二乗を展開すると：

$(x-\mu_k)^\top \Sigma^{-1}(x-\mu_k) = \underbrace{x^\top \Sigma^{-1} x}_{\text{① } k \text{ に無関係}} - 2\,\mu_k^\top \Sigma^{-1} x + \mu_k^\top \Sigma^{-1}\mu_k$

このうち①の $x^\top \Sigma^{-1} x$ はクラス $k$ に依存しません。 $\Sigma$ が共通なので $\log|\Sigma|$ も共通。クラス比較では共通項は無視できるので、判別関数は

$\delta_k(x) = \underbrace{\mu_k^\top \Sigma^{-1}}_{\text{重み } w_k^\top}\, x \;\underbrace{-\,\tfrac{1}{2}\mu_k^\top \Sigma^{-1}\mu_k + \log\pi_k}_{\text{切片 } b_k}$

となり、 $x$ について一次式（線形） になります。これが LDA（Linear Discriminant Analysis） です。

要するに：二次の項 $x^\top \Sigma^{-1} x$ が全クラスで同じだから打ち消し合い、 $x$ の一次項だけが残る。だから境界が直線になるのです。

決定境界（クラス $k$ と $l$ の引き分けライン）は $\delta_k(x) = \delta_l(x)$ で、これは

$(\mu_k - \mu_l)^\top \Sigma^{-1} x = \text{定数}$

という $x$ の一次方程式＝超平面（直線） になります。

graph LR
    LDA["LDA：Σk = Σ（共通）"] -->|"x²項が消える"| LIN["決定境界：直線（超平面）"]
    QDA["QDA：Σk がクラスごと"] -->|"x²項が残る"| QUAD["決定境界：曲線（二次曲面）"]

5. 共分散が異なる → 二次になる（QDA）

次に $\Sigma_k$ がクラスごとに違う一般の場合に戻ります。すると判別関数の中の二次項 $x^\top \Sigma_k^{-1} x$ がクラスごとに違うため、もう打ち消し合いません。また $\log|\Sigma_k|$ も残ります。判別関数は

$\delta_k(x) = -\frac{1}{2}\,x^\top \Sigma_k^{-1} x + \mu_k^\top \Sigma_k^{-1} x -\frac{1}{2}\mu_k^\top \Sigma_k^{-1}\mu_k -\frac{1}{2}\log|\Sigma_k| + \log\pi_k$

と $x$ について二次式になります。これが QDA（Quadratic Discriminant Analysis） です。決定境界 $\delta_k(x)=\delta_l(x)$ も二次方程式になり、曲線（放物線・楕円・双曲線などの二次曲面） を描けます。

要するに：LDA は「全クラスの楕円の形と向きが同じ」という強い制約で境界を直線に固定したもの。QDA はその制約を外して各クラスに自前の楕円を許した結果、境界が曲がれるようになったものです。

💡 LDA は QDA の特殊ケース（ $\Sigma_k$ を全部同じに縛ったもの）です。QDA はクラスごとに $\Sigma_k$ （ $d \times d$ 行列）を推定するためパラメータが多く、次元 $d$ が大きい・データが少ないと共分散の推定が不安定になり過学習しやすくなります。LDA は共分散を1つに共有する分パラメータが少なく頑健です（バイアス-バリアンスのトレードオフ、→ 評価指標（分類）とROC・AUC の文脈）。

6. マハラノビス距離との関係

判別関数の主役 $(x-\mu_k)^\top \Sigma_k^{-1}(x-\mu_k)$ は、 $x$ と中心 $\mu_k$ のマハラノビス距離の二乗 $D_M^2(x,\mu_k)$ です。これは「分布の広がりで割り引いたユークリッド距離」と読めます：

$D_M^2(x,\mu_k) = (x-\mu_k)^\top \Sigma_k^{-1}(x-\mu_k)$

ふつうのユークリッド距離は全方向を平等に測りますが、マハラノビス距離は $\Sigma_k^{-1}$ を挟むことで「データがよく散らばる方向は近め、あまり散らばらない方向は遠め」に補正します。

要するに：判別分析は「マハラノビス距離が最も近いクラスに割り当てる（＋事前確率で微調整）」分類器です。事前確率が全クラス等しく（ $\pi_k$ 共通）共分散も共通（LDA）なら、判別は純粋に「マハラノビス距離が最も近いクラスを選ぶ」だけに帰着します。これは「データを白色化（球状化）してから、最も近い中心をユークリッド距離で選ぶ」のと等価です。

⚙️ 白色化（whitening）：変換 $z = \Sigma^{-1/2} x$ をかけると共分散が単位行列になり、マハラノビス距離はその空間での普通のユークリッド距離に一致します。LDA は「空間を球状に直してから最近傍中心を選ぶ」と理解できます。

7. ロジスティック回帰との違い（生成 vs 識別）

LDA とロジスティック回帰は、決定境界がどちらも線形で見かけはそっくりです。2クラス LDA の事後確率を整理すると

$P(y=1 \mid x) = \frac{1}{1 + \exp(-(w^\top x + b))}$

となり、ロジスティック回帰とまったく同じシグモイド形になります。違いはパラメータの決め方です。

	LDA / QDA（生成モデル）	ロジスティック回帰（識別モデル）
モデル化する対象	同時分布 $P(x, y)$ （ $P(x\mid y)$ を正規と仮定）	条件付き分布 $P(y \mid x)$ を直接
学習で最大化するもの	同時尤度（ $\mu_k, \Sigma_k, \pi_k$ を推定）	条件付き尤度（ $w, b$ を直接最尤）
仮定	クラスが多変量正規という強い仮定	仮定が少なく頑健
当たれば	仮定が正しければ効率よく少データでも安定	仮定が崩れても比較的ロバスト

要するに：LDA は「データの生成過程（各クラスの正規分布）を丸ごとモデル化してから、ベイズで境界を逆算する」生成的アプローチ。ロジスティック回帰は「境界そのものを直接学ぶ」識別的アプローチです。正規仮定が妥当ならLDAが効率的、そうでなければロジスティック回帰が無難、というのが実務の目安です（→ ロジスティック回帰）。

graph TB
    G["生成モデル：P(x, y) を丸ごとモデル化"] --> GA["LDA / QDA<br/>（各クラスを正規分布で仮定）"]
    GA --> GB["ベイズの定理で<br/>P(y | x) を逆算"]
    D["識別モデル：P(y | x) を直接モデル化"] --> DA["ロジスティック回帰<br/>（境界を直接学習）"]
    GB --> R["どちらも線形境界に到達<br/>（推定法が違う）"]
    DA --> R

⚠️ よくある誤解

「LDA は次元削減の手法」だけだと思うのは半分だけ正解。同じ名前で「クラス間分散／クラス内分散を最大化する軸へ射影する」フィッシャーの線形判別（次元削減）も LDA と呼ばれます。実は両者は等価で、本ノートの「正規仮定＋共通共分散のベイズ判別」と同じ軸に行き着きます（→ 統計判別分析、関連して主成分分析（PCA）とは目的が違う点に注意：PCAは分散最大、LDAはクラス分離最大）。
「QDA は LDA の上位互換」ではない。QDA は表現力が高い分パラメータ（クラスごとの共分散）が多く、データが少ない・次元が高いと共分散推定が不安定で過学習します。データが潤沢で境界が明らかに曲がっているときだけ QDA が有利です。
「線形境界＝特徴も線形でしか効かない」ではない。 $x^2$ などの特徴を足せば LDA でも曲がった境界を作れます。LDA/QDA の「線形/二次」は元の特徴空間での境界の形の話です。
正規仮定は必須に見えて、外れても意外と動く。境界が線形でうまく分かれるデータなら、正規分布から多少ズレても LDA は実用的に機能します。ただし強く非正規・外れ値が多いと崩れます。
クラスの事前確率 $\pi_k$ を無視しない。不均衡データでは $\log\pi_k$ の項が境界を多数派クラス側へずらします。これは正しい挙動ですが、少数派を重視したいなら $\pi_k$ を調整する必要があります。

対応するシミュレーション

simulations/lda_qda.py：クラスごとに広がり方（共分散）が違う2クラスデータで LDA と QDA の決定境界を並べて描きます。共通共分散を仮定する LDA は境界が直線になるのに対し、クラス別共分散の QDA は境界が曲線になり、細長いクラスの形に沿ってより自然に分けられること（訓練正解率も QDA が高い）を可視化します。

LDA（線形境界）と QDA（二次境界）の比較