SVM・非線形回帰・プロビット分析

📊 対象級：1級　|　重要度：B（標準）

要点（BLUF）

範囲表「各種多変量解析法」の残り3手法を、すでに学んだ判別分析（判別分析）・一般化線形モデル（一般化線形モデル（ロジスティック・ポアソン回帰））との差分で押さえます。共通する見方は「何を損失（基準）にして、どんな決定境界・曲線を引くか」です。

SVM：確率分布を仮定せず、2クラスを分ける超平面のうちマージン（両クラスの最近接点との余白）を最大にするものを選ぶ。これは $\min \frac12\lVert w\rVert^2$ という凸2次計画に帰着し、解は境界に最も近い少数点（サポートベクター）だけで決まる。非線形分離はカーネルで内積を置換するだけで実現。
非線形回帰：応答とパラメータの関係が非線形な回帰。多項式回帰・スプラインは「基底関数を増やして線形回帰の枠で曲線を当てる」、ガウス-ニュートン法は「パラメータについて真に非線形な最小二乗を、線形近似の反復で解く」。
プロビット分析：2値回帰のリンクに正規分布のCDF $\Phi$ を使い $P(y=1)=\Phi(x^\top\beta)$ 。潜在変数（正規誤差をもつ連続な裏変数が閾値を超えたら1）から自然に導かれ、GLM（一般化線形モデル（ロジスティック・ポアソン回帰））のプロビットリンクに対応。ロジットとは誤差分布の裾の重さだけが違い、係数は概ね定数倍の関係。

1級（統計応用）では各手法の定式化・前提・他手法との違いが問われます（範囲・配点は改訂されうるため要最新確認）。

graph TD
  ROOT["各種多変量解析法<br/>（範囲表）"] --> SUP["教師あり：境界 or 曲線を引く"]
  SUP --> CLS["2クラス分類"]
  SUP --> REG["回帰（連続応答）"]
  CLS --> DA["判別分析<br/>分布を仮定・尤度比/距離で境界"]
  CLS --> SVM["SVM<br/>分布を仮定せず<br/>マージン最大の超平面"]
  CLS --> GLM2["プロビット/ロジット<br/>P(y=1) を確率でモデル化"]
  REG --> LIN["線形回帰"]
  REG --> POLY["多項式・スプライン<br/>基底を増やして曲線"]
  REG --> NLS["非線形最小二乗<br/>ガウス-ニュートン法で反復"]
  SVM -.->|分布仮定なし vs あり| DA
  GLM2 -.->|リンク関数の選択| POLY

1. サポートベクターマシン（SVM）

1.1 何が新しいか — 判別分析との対比

判別分析（判別分析）は各クラスに確率分布（多くは多変量正規）を仮定し、尤度比や（線形判別なら）マハラノビス距離で境界を引きました。SVMは発想が違います。

SVMの基準：確率分布を一切仮定せず、「2クラスをきれいに分ける超平面」のうち、両クラスの最も近いデータ点との余白（マージン）が最大になるものを選ぶ。

要するに「境界をどちらのクラスからもなるべく遠ざける」。なぜ余白を最大化するのが良いかというと、境界が両クラスからギリギリだと新しいデータがわずかにズレただけで誤分類されるが、余白が広ければ多少のズレに頑健で汎化しやすいからです。これは「分布のあてはめ」ではなく「幾何学的なマージン」という基準で、判別分析との最大の違いです。

観点	判別分析（LDA/QDA）	SVM
前提	各クラスの確率分布（正規）を仮定	分布を仮定しない
基準	尤度比・事後確率（距離）	マージン（幾何学的余白）の最大化
解の決定要因	全データの平均・共分散	境界近傍の少数点（サポートベクター）のみ
非線形化	QDA（2次境界）・混合分布	カーネルで内積を置換
出力	事後確率も得られる	既定では符号のみ（確率は後付け）

1.2 マージンが $2/\lVert w\rVert$ になる導出

分離超平面を $w^\top x + b = 0$ とします（ $w$ は法線ベクトル、 $b$ は切片）。クラスラベルを $y_i \in \{+1,-1\}$ とします。

点と超平面の距離。 任意の点 $x_i$ から超平面 $w^\top x + b = 0$ までの符号付き距離は、線形代数の公式により

\frac{w^\top x_i + b}{\lVert w\rVert}

です。要するに「超平面の式に点を代入した値を、法線の長さで割れば距離になる」（ $w/\lVert w\rVert$ が単位法線だから）。

スケーリングの自由度を使う。 ここで $(w,b)$ を $c$ 倍しても超平面 $w^\top x+b=0$ は同じものを表します（ $cw^\top x + cb = 0$ も同じ平面）。このスケールの自由度を使い、両クラスの最近接点（＝サポートベクター）でちょうど

w^\top x_i + b = +1 \quad(y_i=+1\text{ の最近接点}),\qquad w^\top x_i + b = -1 \quad(y_i=-1\text{ の最近接点})

となるように $(w,b)$ を正規化します。要するに「境界から最も近い点が値 $\pm1$ ちょうどになるよう物差しの目盛りを決める」。

マージンを計算する。 すると正例側の最近接点から超平面までの距離は $\dfrac{w^\top x_i + b}{\lVert w\rVert}=\dfrac{1}{\lVert w\rVert}$ 、負例側も対称に $\dfrac{1}{\lVert w\rVert}$ 。両側を合わせたマージン全幅は

\boxed{\;\text{マージン} = \frac{2}{\lVert w\rVert}\;}

要するに「2つの最近接点の間の余白は $2/\lVert w\rVert$ 」。これを別の見方で確認すると、正例最近接点 $x_+$ と負例最近接点 $x_-$ の差を単位法線に射影して

\frac{(x_+ - x_-)^\top w}{\lVert w\rVert} = \frac{(w^\top x_+ + b) - (w^\top x_- + b)}{\lVert w\rVert} = \frac{(+1)-(-1)}{\lVert w\rVert} = \frac{2}{\lVert w\rVert}

となり、同じ $2/\lVert w\rVert$ が出ます。

1.3 なぜ $\min \frac12\lVert w\rVert^2$ になるのか

マージン $2/\lVert w\rVert$ を最大化することは、分母の $\lVert w\rVert$ を最小化することと同じです。さらに $\lVert w\rVert$ の最小化は $\lVert w\rVert^2$ の最小化と同値（ $\lVert w\rVert\ge0$ なので単調）。微分を扱いやすくするため係数 $\frac12$ を付けて、目的関数を

\min_{w,b}\ \frac12\lVert w\rVert^2

とします。要するに「余白を最大化＝法線を短くする＝ $\frac12\lVert w\rVert^2$ を最小化」（ $\frac12$ は微分で $\lVert w\rVert^2$ の係数2を打ち消すための便宜）。

制約は「すべての点が正しく、かつマージンの外側にある」こと。正例（ $y_i=+1$ ）は $w^\top x_i+b\ge+1$ 、負例（ $y_i=-1$ ）は $w^\top x_i+b\le-1$ 。これは $y_i$ を掛けると一本にまとまり、

\boxed{\;\min_{w,b}\ \frac12\lVert w\rVert^2 \quad \text{s.t.}\quad y_i(w^\top x_i + b)\ge 1\ \ (i=1,\dots,n)\;}

要するに「余白最大化を、目的＝法線の短さ・制約＝全点を正しく $\pm1$ の外に置く、という凸2次計画に書き直した」。目的関数は2乗ノルムで凸、制約は線形なので、これは凸2次計画問題であり、大域最適が一意に求まります（ここが多峰になりうる尤度最大化と対照的）。

1.4 双対問題とサポートベクター

制約付き最適化なのでラグランジュ未定乗数法で解きます。各制約に乗数 $\alpha_i\ge0$ を当て、ラグランジュ関数は

L(w,b,\alpha)=\frac12\lVert w\rVert^2 - \sum_{i=1}^{n}\alpha_i\big[y_i(w^\top x_i+b)-1\big]

$w,b$ で偏微分して0とおくと（停留条件）

\frac{\partial L}{\partial w}=0 \ \Rightarrow\ w=\sum_i \alpha_i y_i x_i, \qquad \frac{\partial L}{\partial b}=0 \ \Rightarrow\ \sum_i \alpha_i y_i = 0

要するに「最適な法線 $w$ は、データ点 $x_i$ を $\alpha_i y_i$ で重みづけた和」。これを $L$ に戻すと、 $w,b$ が消えて $\alpha$ だけの双対問題になります。

\max_{\alpha}\ \sum_i \alpha_i - \frac12\sum_i\sum_j \alpha_i\alpha_j\,y_i y_j\,x_i^\top x_j \quad \text{s.t.}\quad \alpha_i\ge0,\ \ \sum_i\alpha_i y_i=0

要するに「主問題（ $w,b$ を探す）を、乗数 $\alpha$ を探す問題に置き換えた」。この双対形が後でカーネルを使う鍵になります（ $x_i^\top x_j$ という内積の形でしかデータが現れない点に注目）。

KKT条件とサポートベクター。 最適解では相補性条件（KKT条件の一つ）

\alpha_i\big[y_i(w^\top x_i+b)-1\big]=0

が成り立ちます。要するに「 $\alpha_i$ と『制約の余り』の積はゼロ＝どちらかが必ず0」。ここから3種類に分かれます：

マージンの外側の点（ $y_i(w^\top x_i+b)>1$ ）：括弧が正なので $\alpha_i=0$ 。 $w=\sum\alpha_i y_i x_i$ に寄与しない。
マージン境界ちょうどの点（ $y_i(w^\top x_i+b)=1$ ）： $\alpha_i>0$ になりうる。これがサポートベクター。
（ソフトマージンでは）マージン内側・誤分類の点：境界条件で $\alpha_i=C$ （後述）。

したがって、

w=\sum_{i:\ \alpha_i>0} \alpha_i y_i x_i \quad(\text{和は実質サポートベクターのみ})

要するに「境界を決めるのは、境界ギリギリにいる少数のサポートベクターだけ。遠くの点は一切効かない」。これがSVMの際立った特徴で、判別分析が全データの平均・分散で境界を動かすのと根本的に違います。

1.5 ソフトマージン（スラック変数 $C$ ）

現実のデータは完全には分離できない（少し混じる）ことが普通です。その場合、制約 $y_i(w^\top x_i+b)\ge1$ を満たせない点が出ます。そこでスラック変数 $\xi_i\ge0$ で「制約をどれだけ破ったか」を許し、破った量にペナルティを課します。

\boxed{\;\min_{w,b,\xi}\ \frac12\lVert w\rVert^2 + C\sum_{i=1}^{n}\xi_i \quad \text{s.t.}\quad y_i(w^\top x_i+b)\ge 1-\xi_i,\ \ \xi_i\ge0\;}

要するに「マージンの内側へ $\xi_i$ だけ食い込むのを許すが、その総量に料金 $C$ を払わせる」。 $\xi_i=0$ なら正しくマージン外、 $0<\xi_i<1$ ならマージン内だが正しい側、 $\xi_i>1$ なら誤分類です。

$C$ の役割（トレードオフ）。

$C$ が大きい：制約違反に重いペナルティ。違反を許さずマージンを狭めても全点を正しく分けようとする → ハードマージンに近づき、過学習しやすい。
$C$ が小さい：違反に寛容。多少の誤分類を許してでもマージンを広く・境界を滑らかに → 汎化重視だが学習誤差は増える。

要するに「 $C$ はマージンの広さ（正則化）と学習誤差のトレードオフを決めるつまみ」。

ヒンジ損失との等価性。 $\xi_i = \max\{0,\ 1-y_i(w^\top x_i+b)\}$ （制約の最良の埋め方）を代入すると、ソフトマージンSVMは

\min_{w,b}\ \underbrace{\sum_i \max\{0,\ 1-y_i(w^\top x_i+b)\}}_{\text{ヒンジ損失}} + \underbrace{\frac{1}{2C}\lVert w\rVert^2}_{L_2\text{正則化}}

の形に書けます。要するに「SVMは『ヒンジ損失＋ $L_2$ 正則化』の最小化と等価」。この見方は正則化（正則化（リッジ・Lasso））の枠組みそのもので、 $\frac{1}{2C}\lVert w\rVert^2$ がリッジと同じ罰則項、 $C$ が罰則の強さの逆数に当たります。

1.6 カーネルトリック（非線形分離）

線形では分けられないデータも、高次元の特徴空間に写像 $\phi(x)$ すれば線形分離できることがあります。だが $\phi(x)$ を陽に計算するのは高次元で重い。ここで双対問題を見直すと、データは内積 $x_i^\top x_j$ の形でしか現れません。写像後も同じく内積 $\phi(x_i)^\top\phi(x_j)$ しか要りません。そこで内積をカーネル関数

K(x_i,x_j)=\phi(x_i)^\top\phi(x_j)

で置き換えます。要するに「高次元へ飛ばした後の内積を、元の空間の関数 $K$ 一発で計算する。写像 $\phi$ 自体は計算しない」。これがカーネルトリックです。双対問題と判別式は

\max_\alpha \sum_i\alpha_i - \frac12\sum_{i,j}\alpha_i\alpha_j y_iy_j K(x_i,x_j), \qquad f(x)=\operatorname{sign}\!\Big(\sum_i \alpha_i y_i K(x_i,x) + b\Big)

代表的なカーネル：

多項式カーネル $K(x,x')=(x^\top x'+c)^d$ ： $d$ 次の多項式特徴に対応。
ガウス（RBF）カーネル $K(x,x')=\exp(-\gamma\lVert x-x'\rVert^2)$ ：無限次元の特徴空間に対応し、複雑な境界を表現できる。 $\gamma$ が大きいほど局所的（過学習しやすい）。

要するに「カーネルは『内積の差し替え』であって、特徴ベクトルを実際に作るわけではない」。これが計算量を抑えつつ非線形分離を可能にするSVMの強みです（カーネルは正定値性＝Mercer条件を満たす必要がある点だけ理論的注意）。

2. 非線形回帰

回帰の応答とパラメータ・説明変数の関係が線形でない場合の当てはめです。「線形回帰の枠で曲線を表す」タイプ（多項式・スプライン）と、「パラメータについて本質的に非線形」なタイプ（非線形最小二乗）を分けて理解します。

2.1 多項式回帰

説明変数のべき乗を項として加える回帰です。

y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \dots + \beta_p x_i^p + \varepsilon_i

要するに「 $x$ の曲線を、 $x,x^2,\dots,x^p$ という基底の重ね合わせで近似する」。重要なのは、これは** $x$ について非線形だが、係数 $\beta$ について線形**だということ。だから $x^2,x^3,\dots$ を新しい説明変数とみなせば、普通の最小二乗（線形回帰）でそのまま解ける。曲線の当てはめなのに線形回帰の理論がそっくり使えます。

⚠️ ただし次数 $p$ を上げすぎると過学習し、端点で激しく振動します（高次多項式の悪名高い欠点）。

2.2 スプライン（概念）

多項式の振動を抑えつつ柔軟に曲線を当てる方法がスプラインです。考え方は「定義域をいくつかの区間（ノットで区切る）に分け、各区間で低次の多項式（通常3次）を当て、ノットで滑らかに（値・1階・2階微分が連続に）つなぐ」。

要するに「全域を1本の高次多項式で無理に当てず、低次の多項式を区分けして滑らかに継ぎ合わせる」。これにより高次多項式の端点振動を避けつつ柔軟性を確保できます。スプラインも基底関数（Bスプライン基底など）の線形結合で書けるため、結局は線形回帰（または罰則付き最小二乗）の枠で推定できます。平滑化スプラインは当てはめの良さと曲線の滑らかさ（2階微分の積分）のバランスを罰則で取るもので、正則化（正則化（リッジ・Lasso））と同じ発想です。

2.3 非線形最小二乗とガウス-ニュートン法

パラメータについて本質的に非線形なモデル、例えば

y_i = f(x_i;\beta) + \varepsilon_i,\qquad f(x;\beta)=\beta_1 e^{-\beta_2 x}\ \text{など}

では、 $x^2$ を変数に置き換えるような線形化はできません。最小化すべきは残差平方和

S(\beta)=\sum_{i=1}^{n}\big[y_i - f(x_i;\beta)\big]^2

ですが、 $f$ が $\beta$ について非線形なので $\partial S/\partial\beta=0$ が閉形式で解けません。そこで反復で解きます。

ガウス-ニュートン法の導出。 現在の推定値 $\beta^{(t)}$ のまわりで $f$ を1次のテイラー展開（線形近似）します。残差を $r_i(\beta)=y_i-f(x_i;\beta)$ 、ヤコビ行列を $J_{ij}=\dfrac{\partial f(x_i;\beta)}{\partial \beta_j}$ とすると

f(x_i;\beta)\approx f(x_i;\beta^{(t)}) + \sum_j J_{ij}\,\Delta\beta_j,\qquad \Delta\beta=\beta-\beta^{(t)}

要するに「非線形な $f$ を、今の点の接平面（線形）で代用する」。すると残差平方和は $\Delta\beta$ について線形最小二乗になり、その正規方程式は

\boxed{\;(J^\top J)\,\Delta\beta = J^\top r^{(t)}\quad\Longrightarrow\quad \beta^{(t+1)}=\beta^{(t)}+(J^\top J)^{-1}J^\top r^{(t)}\;}

要するに「毎ステップ、線形回帰の最小二乗解（正規方程式 $J^\top J\,\Delta\beta=J^\top r$ ）を解いて、その分だけパラメータを更新する。これを収束まで繰り返す」。

ニュートン法との違い：本来のニュートン法は2階微分（ヘッセ行列）が要りますが、ガウス-ニュートン法はヘッセ行列を $J^\top J$ で近似します。これは残差が小さいとき正当化される近似で、2階微分の計算が不要になる利点があります（その代わり残差が大きい・初期値が悪いと収束しないことがあり、 $\lambda$ で安定化するレーベンバーグ-マルカート法が実用的な改良）。最小二乗の正規方程式そのものは線形回帰（一般化線形モデル（ロジスティック・ポアソン回帰）の土台）と同型です。

3. プロビット分析

3.1 何が新しいか — GLMのリンク関数の選択

プロビット分析は2値の応答 $y\in\{0,1\}$ を確率でモデル化する回帰です。GLM（一般化線形モデル（ロジスティック・ポアソン回帰））の枠組みでは、確率を線形予測子 $x^\top\beta$ に結びつけるリンク関数を選びます。ロジスティック回帰がロジット（ロジスティックCDFの逆）を使うのに対し、プロビットは正規分布のCDF $\Phi$ を使います。

\boxed{\;P(y=1\mid x)=\Phi(x^\top\beta)\;} \qquad \Phi(z)=\int_{-\infty}^{z}\frac{1}{\sqrt{2\pi}}e^{-t^2/2}\,dt

要するに「線形予測子 $x^\top\beta$ を、標準正規のCDFに通して0〜1の確率に変換する」。 $\Phi$ はS字（シグモイド）なので、 $x^\top\beta$ が大きいほど確率が1に近づきます。リンク関数で言えばプロビットリンク $\Phi^{-1}(p)=x^\top\beta$ です。

3.2 潜在変数による定式化

プロビットが自然に出てくる発想が潜在変数モデルです。観測できない連続な裏変数（効用・反応強度など） $y_i^*$ を考えます。

y_i^* = x_i^\top\beta + \varepsilon_i,\qquad \varepsilon_i\sim N(0,1)

そして、この潜在変数が閾値（基準化して0）を超えたら $y_i=1$ 、超えなければ $y_i=0$ とします。

y_i = \begin{cases}1 & (y_i^* > 0)\\ 0 & (y_i^*\le 0)\end{cases}

要するに「裏で連続的な強さ $y^*$ が動いていて、それが基準を超えたら『1』として観測される」。ここから観測確率を導出します。

P(y_i=1\mid x_i)=P(y_i^*>0)=P(x_i^\top\beta+\varepsilon_i>0)=P(\varepsilon_i>-x_i^\top\beta)

$\varepsilon_i\sim N(0,1)$ は対称なので $P(\varepsilon_i>-x_i^\top\beta)=P(\varepsilon_i< x_i^\top\beta)=\Phi(x_i^\top\beta)$ 。よって

P(y_i=1\mid x_i)=\Phi(x_i^\top\beta)

要するに「潜在変数の誤差を標準正規と仮定すれば、 $P(y=1)=\Phi(x^\top\beta)$ が自動的に出てくる」。これが3.1で天下り的に置いた式の正体です。誤差をロジスティック分布に取り替えれば、同じ導出でロジット（ $P(y=1)=\Lambda(x^\top\beta)$ 、 $\Lambda$ はロジスティックCDF）になります。プロビットとロジットの違いは潜在変数の誤差分布の違いだけなのです。

3.3 ロジットとの違い（裾の重さと係数の関係）

ロジスティックCDF $\Lambda(z)=\dfrac{1}{1+e^{-z}}$ と正規CDF $\Phi(z)$ はどちらもS字で、中央付近では非常によく似ています。違いは裾の重さ：

ロジスティック分布は正規分布より裾が重い（excess kurtosis = 1.2 > 0）。極端な $x^\top\beta$ で、ロジットの方が確率が0や1に近づくのがやや緩やか。
実データへの当てはまりは両者でほとんど差が出ないことが多い（中央付近が似ているため）。選択は解釈や分野の慣習で決まることが多く、ロジットは係数がオッズ比として解釈でき医学・疫学で、プロビットは潜在変数解釈が自然で計量経済学・毒性学で好まれます。

係数の換算（重要論点）。 同じデータにプロビットとロジットを当てると、推定係数のスケールが違います。理由は誤差分布の分散の違いです。

プロビットは誤差を $N(0,1)$ （標準偏差 $1$ ）に基準化。
標準ロジスティック分布（スケール $s=1$ ）の分散は $\dfrac{\pi^2}{3}$ 、つまり標準偏差は $\dfrac{\pi}{\sqrt3}\approx 1.81$ 。

潜在変数モデルでは係数は誤差の標準偏差に反比例してスケールするので、ロジットの係数はプロビットの係数の約 $\dfrac{\pi}{\sqrt3}\approx 1.81$ 倍になる（理論値）。一方、実務でよく使われる経験則はロジット係数 ≈ 1.6 × プロビット係数で、これは分布の中央付近の傾きを合わせる近似（Amemiya の換算）に基づきます。

\beta_{\text{logit}} \approx 1.6 \times \beta_{\text{probit}}\quad(\text{経験則・中央の傾き基準})

\beta_{\text{logit}} \approx \frac{\pi}{\sqrt3}\,\beta_{\text{probit}}\approx 1.81 \times \beta_{\text{probit}}\quad(\text{誤差分散の比による理論換算})

要するに「ロジットの係数はプロビットより大きく出る（約1.6〜1.8倍）。これは当てはまりの差ではなく、誤差分布のものさし（標準偏差）が違うだけ」。試験では「係数を直接比べてはいけない、スケールが違う」「概ね定数倍の関係」という理解が問われます。1.6か1.81かは基準の取り方で変わるので、**どちらも『同じ現象（誤差スケールの違い）の表現』**と捉えるのが正確です。

flowchart LR
  XB["線形予測子<br/>x'β"] --> LINK{"リンク関数<br/>（誤差分布の選択）"}
  LINK -->|"正規CDF Φ<br/>誤差 ~ N(0,1)"| PROBIT["プロビット<br/>P(y=1)=Φ(x'β)"]
  LINK -->|"ロジスティックCDF Λ<br/>誤差 ~ ロジスティック"| LOGIT["ロジット<br/>P(y=1)=Λ(x'β)"]
  PROBIT -.->|係数 ×約1.6〜1.8| LOGIT
  PROBIT --> P["0〜1 の確率"]
  LOGIT --> P

3.4 推定とGLMでの位置づけ

プロビットの係数 $\beta$ は最尤法で推定します。各観測のベルヌーイ尤度を掛け合わせ、対数尤度

\ell(\beta)=\sum_{i=1}^{n}\Big[y_i\log\Phi(x_i^\top\beta)+(1-y_i)\log\big(1-\Phi(x_i^\top\beta)\big)\Big]

を最大化します。要するに「観測された0/1のパターンが最も起こりやすくなる $\beta$ を選ぶ」。閉形式では解けず、ニュートン-ラフソン法（GLMの反復重み付き最小二乗、IRLS）で数値的に解きます。GLM（一般化線形モデル（ロジスティック・ポアソン回帰））としては「分布族＝ベルヌーイ（二項）、リンク＝プロビット $\Phi^{-1}$ 」に当たり、ロジスティック回帰の兄弟分です。プロビットを含む2値・打ち切りの応答モデルの体系は質的選択・切断回帰（質的選択・切断回帰モデル）でさらに展開されます。

4. 引っかけ・頻出論点

⚠️ SVMの境界はサポートベクターだけで決まる：マージン境界上の少数点（ $\alpha_i>0$ ）が解 $w=\sum\alpha_i y_i x_i$ を決め、遠くの点（ $\alpha_i=0$ ）は一切寄与しません。「全データの重心で境界が動く」は判別分析の話で、SVMには当てはまりません。サポートベクター以外を1点消しても境界は不変です。
⚠️ カーネルは『内積の置換』であって特徴ベクトルを作るのではない： $K(x_i,x_j)=\phi(x_i)^\top\phi(x_j)$ を計算するだけで、 $\phi(x)$ 自体は陽に作りません。RBFカーネルは無限次元の $\phi$ に対応しますが、計算は元空間の関数1発です。
⚠️ マージン最大化＝ $\lVert w\rVert$ の最小化：マージンは $2/\lVert w\rVert$ 。分子が定数なので、最大化したいのに目的関数は $\min\frac12\lVert w\rVert^2$ （最小化）になります。符号・分母の向きを混同しないこと。
⚠️ $C$ の向き： $C$ 大 → 違反に厳しい → ハードマージン寄り → 過学習しやすい。 $C$ 小 → 違反に寛容 → マージン広く滑らか。 $C$ を「正則化の強さ」と混同すると向きを逆に覚えがち（ $C$ は罰則の強さの逆数に近い役割）。
⚠️ プロビットとロジットの係数を直接比較しない：誤差分布の標準偏差が違う（正規は1、ロジスティックは $\pi/\sqrt3\approx1.81$ ）ため、ロジット係数はプロビット係数の約1.6〜1.8倍に出ます。当てはまりの優劣ではなくスケールの違いです。
⚠️ プロビットの潜在変数の閾値は基準化で0： $y^*>0$ で $y=1$ 。閾値と切片 $\beta_0$ は同時に識別できないため、閾値を0・誤差分散を1に固定して識別します。「閾値が自由に推定できる」は誤り。
⚠️ 多項式回帰は係数について線形： $x,x^2,\dots$ について非線形でも、 $\beta$ について線形なので普通の最小二乗で解けます。これを「非線形最小二乗（ガウス-ニュートン法が必要）」と混同しないこと。真に非線形なのはパラメータが指数や比に入る場合です。
⚠️ ガウス-ニュートン法はヘッセを $J^\top J$ で近似：ニュートン法の2階微分を使わず、ヤコビ行列の積で近似します。残差が大きいと収束しないことがあり、その安定化がレーベンバーグ-マルカート法です。

よくある疑問（Q&A）

Q1. SVMはなぜ「マージン最大化」が良いのですか? 単にきれいに分ける超平面ではダメ?

データを分ける超平面は（分離可能なら）無数にあります。そのうち境界が片方のクラスにギリギリ寄っていると、新しいデータがわずかにズレただけで誤分類されます。境界を両クラスからなるべく遠ざける＝マージンを最大化すれば、多少のノイズやズレに頑健になり、未知データへの汎化性能が上がると期待できます。これは構造的リスク最小化の考え方とも整合し、「分けられる中で最も安全な境界を選ぶ」のがマージン最大化の意義です。

Q2. サポートベクター以外のデータは本当に無意味なのですか?

境界を決める計算には無意味です。最適解で $w=\sum_i\alpha_i y_i x_i$ となり、マージン外の点は $\alpha_i=0$ なのでこの和に寄与しません。実際、サポートベクター以外の点を削除して再学習しても、得られる境界はまったく同じです。逆に言えば、SVMは「境界近傍の難しい点」だけに注目するモデルで、ここが「全データの分布で境界を決める判別分析」との決定的な違いです（ただしソフトマージンでは誤分類点 $\alpha_i=C$ も解に効きます）。

Q3. カーネルを使うと何次元の特徴空間で計算しているのですか? そんな高次元を扱えるのですか?

扱っていません、というのがトリックの核心です。例えばRBFカーネルは理論上無限次元の特徴空間 $\phi(x)$ に対応しますが、実際に無限次元のベクトルを作るわけではありません。双対問題と判別式にはデータが内積の形でしか現れないため、その内積 $\phi(x_i)^\top\phi(x_j)$ を元空間の関数 $K(x_i,x_j)=\exp(-\gamma\lVert x_i-x_j\rVert^2)$ で直接計算するだけ。高次元の計算を「内積1個の計算」に置き換えているので、次元の高さは計算量に響きません。

Q4. 多項式回帰は「非線形回帰」なのに、なぜ普通の最小二乗で解けるのですか?

「非線形」が何について非線形かを区別すると分かります。多項式回帰 $y=\beta_0+\beta_1 x+\beta_2 x^2+\dots$ は** $x$ について非線形**（曲線）ですが、係数 $\beta$ については線形です。最小二乗が解けるかどうかは「パラメータについて線形か」で決まるので、 $x^2,x^3$ を新しい説明変数とみなせば普通の線形回帰の正規方程式で解けます。一方、 $y=\beta_1 e^{-\beta_2 x}$ のようにパラメータ $\beta_2$ が指数の中にあると、パラメータについて非線形なので閉形式で解けず、ガウス-ニュートン法などの反復が必要になります。

Q5. プロビットとロジット、結局どちらを使えばいいのですか?

実用上はどちらでも結果（予測確率・限界効果）はほとんど変わりません。中央付近のS字がよく似ているからです。選択は解釈と分野の慣習で決めるのが普通です。係数をオッズ比として解釈したい（医学・疫学）ならロジット、**潜在変数（効用・反応強度）**の解釈が自然な状況（計量経済学・毒性学）ならプロビット、が目安です。極端な裾の挙動を重視する場合だけ、裾の重いロジットと裾の軽いプロビットの差が効いてきます。

Q6. ロジットとプロビットの係数が1.6倍違うのに「結果は同じ」とはどういうことですか?

係数そのものはものさしの目盛りが違うだけで、表している中身は同じだからです。プロビットは誤差の標準偏差を1に、ロジットは約1.81に取っているので、同じ確率の動きを表すのにロジットの係数は約1.6〜1.8倍大きい数字になります。これは身長をcmで測るかinchで測るかの違いに近く、予測確率や限界効果に直せば両者はほぼ一致します。だから「係数の絶対値を直接比べる」のは誤りで、比べるなら予測確率や限界効果に直す必要があります。

まとめ

SVM：分布を仮定せずマージン最大化で2クラスの超平面を選ぶ。マージン $=2/\lVert w\rVert$ なので $\min\frac12\lVert w\rVert^2$ s.t. $y_i(w^\top x_i+b)\ge1$ という凸2次計画。双対問題でデータは内積でしか現れず、解は $w=\sum\alpha_i y_i x_i$ 。KKT条件からサポートベクター（ $\alpha_i>0$ ）だけが境界を決める。ソフトマージンはスラック $\xi_i$ と料金 $C$ で違反を許し、「ヒンジ損失＋ $L_2$ 正則化」と等価。カーネルは内積 $x_i^\top x_j$ を $K(x_i,x_j)$ に置換して非線形分離。
非線形回帰：多項式・スプラインは基底を増やして線形回帰の枠で曲線を当てる（係数について線形）。パラメータについて真に非線形な最小二乗はガウス-ニュートン法で解く（ $f$ を1次近似し $\Delta\beta=(J^\top J)^{-1}J^\top r$ を反復、ヘッセを $J^\top J$ で近似）。
プロビット分析： $P(y=1)=\Phi(x^\top\beta)$ 。潜在変数 $y^*=x^\top\beta+\varepsilon$ （ $\varepsilon\sim N(0,1)$ ）が0を超えたら1、から導かれる。GLMのプロビットリンク。ロジットとは誤差分布の裾の重さだけが違い、係数は約1.6〜1.8倍の定数倍関係（誤差の標準偏差：正規1 vs ロジスティック $\pi/\sqrt3$ ）。直接比較は不可。
引っかけ：SVMはサポートベクターだけで決まる／カーネルは内積置換／ $C$ 大はハードマージン寄り／プロビット・ロジット係数は直接比較不可／多項式回帰は係数について線形。