← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:B(標準)

要点(BLUF)

範囲表「各種多変量解析法」の残り3手法を、すでに学んだ判別分析(判別分析)・一般化線形モデル(一般化線形モデル(ロジスティック・ポアソン回帰))との差分で押さえます。共通する見方は「何を損失(基準)にして、どんな決定境界・曲線を引くか」です。

1級(統計応用)では各手法の定式化・前提・他手法との違いが問われます(範囲・配点は改訂されうるため要最新確認)。

graph TD
  ROOT["各種多変量解析法<br/>(範囲表)"] --> SUP["教師あり:境界 or 曲線を引く"]
  SUP --> CLS["2クラス分類"]
  SUP --> REG["回帰(連続応答)"]
  CLS --> DA["判別分析<br/>分布を仮定・尤度比/距離で境界"]
  CLS --> SVM["SVM<br/>分布を仮定せず<br/>マージン最大の超平面"]
  CLS --> GLM2["プロビット/ロジット<br/>P(y=1) を確率でモデル化"]
  REG --> LIN["線形回帰"]
  REG --> POLY["多項式・スプライン<br/>基底を増やして曲線"]
  REG --> NLS["非線形最小二乗<br/>ガウス-ニュートン法で反復"]
  SVM -.->|分布仮定なし vs あり| DA
  GLM2 -.->|リンク関数の選択| POLY

1. サポートベクターマシン(SVM)

1.1 何が新しいか — 判別分析との対比

判別分析(判別分析)は各クラスに確率分布(多くは多変量正規)を仮定し、尤度比や(線形判別なら)マハラノビス距離で境界を引きました。SVMは発想が違います。

SVMの基準:確率分布を一切仮定せず、「2クラスをきれいに分ける超平面」のうち、両クラスの最も近いデータ点との余白(マージン)が最大になるものを選ぶ。

要するに「境界をどちらのクラスからもなるべく遠ざける」。なぜ余白を最大化するのが良いかというと、境界が両クラスからギリギリだと新しいデータがわずかにズレただけで誤分類されるが、余白が広ければ多少のズレに頑健で汎化しやすいからです。これは「分布のあてはめ」ではなく「幾何学的なマージン」という基準で、判別分析との最大の違いです。

観点判別分析(LDA/QDA)SVM
前提各クラスの確率分布(正規)を仮定分布を仮定しない
基準尤度比・事後確率(距離)マージン(幾何学的余白)の最大化
解の決定要因全データの平均・共分散境界近傍の少数点(サポートベクター)のみ
非線形化QDA(2次境界)・混合分布カーネルで内積を置換
出力事後確率も得られる既定では符号のみ(確率は後付け)

1.2 マージンが 2/w2/\lVert w\rVert になる導出

分離超平面を wx+b=0w^\top x + b = 0 とします(ww は法線ベクトル、bb は切片)。クラスラベルを yi{+1,1}y_i \in \{+1,-1\} とします。

点と超平面の距離。 任意の点 xix_i から超平面 wx+b=0w^\top x + b = 0 までの符号付き距離は、線形代数の公式により

wxi+bw\frac{w^\top x_i + b}{\lVert w\rVert}

です。要するに「超平面の式に点を代入した値を、法線の長さで割れば距離になる」(w/ww/\lVert w\rVert が単位法線だから)。

スケーリングの自由度を使う。 ここで (w,b)(w,b)cc 倍しても超平面 wx+b=0w^\top x+b=0 は同じものを表します(cwx+cb=0cw^\top x + cb = 0 も同じ平面)。このスケールの自由度を使い、両クラスの最近接点(=サポートベクター)でちょうど

wxi+b=+1(yi=+1 の最近接点),wxi+b=1(yi=1 の最近接点)w^\top x_i + b = +1 \quad(y_i=+1\text{ の最近接点}),\qquad w^\top x_i + b = -1 \quad(y_i=-1\text{ の最近接点})

となるように (w,b)(w,b) を正規化します。要するに「境界から最も近い点が値 ±1\pm1 ちょうどになるよう物差しの目盛りを決める」。

マージンを計算する。 すると正例側の最近接点から超平面までの距離は wxi+bw=1w\dfrac{w^\top x_i + b}{\lVert w\rVert}=\dfrac{1}{\lVert w\rVert}、負例側も対称に 1w\dfrac{1}{\lVert w\rVert}。両側を合わせたマージン全幅

  マージン=2w  \boxed{\;\text{マージン} = \frac{2}{\lVert w\rVert}\;}

要するに「2つの最近接点の間の余白は 2/w2/\lVert w\rVert」。これを別の見方で確認すると、正例最近接点 x+x_+ と負例最近接点 xx_- の差を単位法線に射影して

(x+x)ww=(wx++b)(wx+b)w=(+1)(1)w=2w\frac{(x_+ - x_-)^\top w}{\lVert w\rVert} = \frac{(w^\top x_+ + b) - (w^\top x_- + b)}{\lVert w\rVert} = \frac{(+1)-(-1)}{\lVert w\rVert} = \frac{2}{\lVert w\rVert}

となり、同じ 2/w2/\lVert w\rVert が出ます。

1.3 なぜ min12w2\min \frac12\lVert w\rVert^2 になるのか

マージン 2/w2/\lVert w\rVert最大化することは、分母の w\lVert w\rVert最小化することと同じです。さらに w\lVert w\rVert の最小化は w2\lVert w\rVert^2 の最小化と同値(w0\lVert w\rVert\ge0 なので単調)。微分を扱いやすくするため係数 12\frac12 を付けて、目的関数を

minw,b 12w2\min_{w,b}\ \frac12\lVert w\rVert^2

とします。要するに「余白を最大化=法線を短くする= 12w2\frac12\lVert w\rVert^2 を最小化」(12\frac12 は微分で w2\lVert w\rVert^2 の係数2を打ち消すための便宜)。

制約は「すべての点が正しく、かつマージンの外側にある」こと。正例(yi=+1y_i=+1)は wxi+b+1w^\top x_i+b\ge+1、負例(yi=1y_i=-1)は wxi+b1w^\top x_i+b\le-1。これは yiy_i を掛けると一本にまとまり、

  minw,b 12w2s.t.yi(wxi+b)1  (i=1,,n)  \boxed{\;\min_{w,b}\ \frac12\lVert w\rVert^2 \quad \text{s.t.}\quad y_i(w^\top x_i + b)\ge 1\ \ (i=1,\dots,n)\;}

要するに「余白最大化を、目的=法線の短さ・制約=全点を正しく ±1\pm1 の外に置く、という凸2次計画に書き直した」。目的関数は2乗ノルムで凸、制約は線形なので、これは凸2次計画問題であり、大域最適が一意に求まります(ここが多峰になりうる尤度最大化と対照的)。

1.4 双対問題とサポートベクター

制約付き最適化なのでラグランジュ未定乗数法で解きます。各制約に乗数 αi0\alpha_i\ge0 を当て、ラグランジュ関数は

L(w,b,α)=12w2i=1nαi[yi(wxi+b)1]L(w,b,\alpha)=\frac12\lVert w\rVert^2 - \sum_{i=1}^{n}\alpha_i\big[y_i(w^\top x_i+b)-1\big]

w,bw,b で偏微分して0とおくと(停留条件)

Lw=0  w=iαiyixi,Lb=0  iαiyi=0\frac{\partial L}{\partial w}=0 \ \Rightarrow\ w=\sum_i \alpha_i y_i x_i, \qquad \frac{\partial L}{\partial b}=0 \ \Rightarrow\ \sum_i \alpha_i y_i = 0

要するに「最適な法線 ww は、データ点 xix_iαiyi\alpha_i y_i で重みづけた和」。これを LL に戻すと、w,bw,b が消えて α\alpha だけの双対問題になります。

maxα iαi12ijαiαjyiyjxixjs.t.αi0,  iαiyi=0\max_{\alpha}\ \sum_i \alpha_i - \frac12\sum_i\sum_j \alpha_i\alpha_j\,y_i y_j\,x_i^\top x_j \quad \text{s.t.}\quad \alpha_i\ge0,\ \ \sum_i\alpha_i y_i=0

要するに「主問題(w,bw,b を探す)を、乗数 α\alpha を探す問題に置き換えた」。この双対形が後でカーネルを使う鍵になります(xixjx_i^\top x_j という内積の形でしかデータが現れない点に注目)。

KKT条件とサポートベクター。 最適解では相補性条件(KKT条件の一つ)

αi[yi(wxi+b)1]=0\alpha_i\big[y_i(w^\top x_i+b)-1\big]=0

が成り立ちます。要するに「αi\alpha_i と『制約の余り』の積はゼロ=どちらかが必ず0」。ここから3種類に分かれます:

したがって、

w=i: αi>0αiyixi(和は実質サポートベクターのみ)w=\sum_{i:\ \alpha_i>0} \alpha_i y_i x_i \quad(\text{和は実質サポートベクターのみ})

要するに「境界を決めるのは、境界ギリギリにいる少数のサポートベクターだけ。遠くの点は一切効かない」。これがSVMの際立った特徴で、判別分析が全データの平均・分散で境界を動かすのと根本的に違います。

1.5 ソフトマージン(スラック変数 CC

現実のデータは完全には分離できない(少し混じる)ことが普通です。その場合、制約 yi(wxi+b)1y_i(w^\top x_i+b)\ge1 を満たせない点が出ます。そこでスラック変数 ξi0\xi_i\ge0 で「制約をどれだけ破ったか」を許し、破った量にペナルティを課します。

  minw,b,ξ 12w2+Ci=1nξis.t.yi(wxi+b)1ξi,  ξi0  \boxed{\;\min_{w,b,\xi}\ \frac12\lVert w\rVert^2 + C\sum_{i=1}^{n}\xi_i \quad \text{s.t.}\quad y_i(w^\top x_i+b)\ge 1-\xi_i,\ \ \xi_i\ge0\;}

要するに「マージンの内側へ ξi\xi_i だけ食い込むのを許すが、その総量に料金 CC を払わせる」。ξi=0\xi_i=0 なら正しくマージン外、0<ξi<10<\xi_i<1 ならマージン内だが正しい側、ξi>1\xi_i>1 なら誤分類です。

CC の役割(トレードオフ)。

要するに「CC はマージンの広さ(正則化)と学習誤差のトレードオフを決めるつまみ」。

ヒンジ損失との等価性。 ξi=max{0, 1yi(wxi+b)}\xi_i = \max\{0,\ 1-y_i(w^\top x_i+b)\}(制約の最良の埋め方)を代入すると、ソフトマージンSVMは

minw,b imax{0, 1yi(wxi+b)}ヒンジ損失+12Cw2L2正則化\min_{w,b}\ \underbrace{\sum_i \max\{0,\ 1-y_i(w^\top x_i+b)\}}_{\text{ヒンジ損失}} + \underbrace{\frac{1}{2C}\lVert w\rVert^2}_{L_2\text{正則化}}

の形に書けます。要するに「SVMは『ヒンジ損失+L2L_2正則化』の最小化と等価」。この見方は正則化(正則化(リッジ・Lasso))の枠組みそのもので、12Cw2\frac{1}{2C}\lVert w\rVert^2 がリッジと同じ罰則項、CC が罰則の強さの逆数に当たります。

1.6 カーネルトリック(非線形分離)

線形では分けられないデータも、高次元の特徴空間に写像 ϕ(x)\phi(x) すれば線形分離できることがあります。だが ϕ(x)\phi(x) を陽に計算するのは高次元で重い。ここで双対問題を見直すと、データは内積 xixjx_i^\top x_j の形でしか現れません。写像後も同じく内積 ϕ(xi)ϕ(xj)\phi(x_i)^\top\phi(x_j) しか要りません。そこで内積をカーネル関数

K(xi,xj)=ϕ(xi)ϕ(xj)K(x_i,x_j)=\phi(x_i)^\top\phi(x_j)

で置き換えます。要するに「高次元へ飛ばした後の内積を、元の空間の関数 KK 一発で計算する。写像 ϕ\phi 自体は計算しない」。これがカーネルトリックです。双対問題と判別式は

maxαiαi12i,jαiαjyiyjK(xi,xj),f(x)=sign ⁣(iαiyiK(xi,x)+b)\max_\alpha \sum_i\alpha_i - \frac12\sum_{i,j}\alpha_i\alpha_j y_iy_j K(x_i,x_j), \qquad f(x)=\operatorname{sign}\!\Big(\sum_i \alpha_i y_i K(x_i,x) + b\Big)

代表的なカーネル:

要するに「カーネルは『内積の差し替え』であって、特徴ベクトルを実際に作るわけではない」。これが計算量を抑えつつ非線形分離を可能にするSVMの強みです(カーネルは正定値性=Mercer条件を満たす必要がある点だけ理論的注意)。


2. 非線形回帰

回帰の応答とパラメータ・説明変数の関係が線形でない場合の当てはめです。「線形回帰の枠で曲線を表す」タイプ(多項式・スプライン)と、「パラメータについて本質的に非線形」なタイプ(非線形最小二乗)を分けて理解します。

2.1 多項式回帰

説明変数のべき乗を項として加える回帰です。

yi=β0+β1xi+β2xi2++βpxip+εiy_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \dots + \beta_p x_i^p + \varepsilon_i

要するに「xx の曲線を、x,x2,,xpx,x^2,\dots,x^p という基底の重ね合わせで近似する」。重要なのは、これは**xx について非線形だが、係数 β\beta について線形**だということ。だから x2,x3,x^2,x^3,\dots を新しい説明変数とみなせば、普通の最小二乗(線形回帰)でそのまま解ける。曲線の当てはめなのに線形回帰の理論がそっくり使えます。

⚠️ ただし次数 pp を上げすぎると過学習し、端点で激しく振動します(高次多項式の悪名高い欠点)。

2.2 スプライン(概念)

多項式の振動を抑えつつ柔軟に曲線を当てる方法がスプラインです。考え方は「定義域をいくつかの区間(ノットで区切る)に分け、各区間で低次の多項式(通常3次)を当て、ノットで滑らかに(値・1階・2階微分が連続に)つなぐ」。

要するに「全域を1本の高次多項式で無理に当てず、低次の多項式を区分けして滑らかに継ぎ合わせる」。これにより高次多項式の端点振動を避けつつ柔軟性を確保できます。スプラインも基底関数(Bスプライン基底など)の線形結合で書けるため、結局は線形回帰(または罰則付き最小二乗)の枠で推定できます。平滑化スプラインは当てはめの良さと曲線の滑らかさ(2階微分の積分)のバランスを罰則で取るもので、正則化(正則化(リッジ・Lasso))と同じ発想です。

2.3 非線形最小二乗とガウス-ニュートン法

パラメータについて本質的に非線形なモデル、例えば

yi=f(xi;β)+εi,f(x;β)=β1eβ2x などy_i = f(x_i;\beta) + \varepsilon_i,\qquad f(x;\beta)=\beta_1 e^{-\beta_2 x}\ \text{など}

では、x2x^2 を変数に置き換えるような線形化はできません。最小化すべきは残差平方和

S(β)=i=1n[yif(xi;β)]2S(\beta)=\sum_{i=1}^{n}\big[y_i - f(x_i;\beta)\big]^2

ですが、ffβ\beta について非線形なので S/β=0\partial S/\partial\beta=0 が閉形式で解けません。そこで反復で解きます。

ガウス-ニュートン法の導出。 現在の推定値 β(t)\beta^{(t)} のまわりで ff1次のテイラー展開(線形近似)します。残差を ri(β)=yif(xi;β)r_i(\beta)=y_i-f(x_i;\beta)、ヤコビ行列を Jij=f(xi;β)βjJ_{ij}=\dfrac{\partial f(x_i;\beta)}{\partial \beta_j} とすると

f(xi;β)f(xi;β(t))+jJijΔβj,Δβ=ββ(t)f(x_i;\beta)\approx f(x_i;\beta^{(t)}) + \sum_j J_{ij}\,\Delta\beta_j,\qquad \Delta\beta=\beta-\beta^{(t)}

要するに「非線形な ff を、今の点の接平面(線形)で代用する」。すると残差平方和は Δβ\Delta\beta について線形最小二乗になり、その正規方程式は

  (JJ)Δβ=Jr(t)β(t+1)=β(t)+(JJ)1Jr(t)  \boxed{\;(J^\top J)\,\Delta\beta = J^\top r^{(t)}\quad\Longrightarrow\quad \beta^{(t+1)}=\beta^{(t)}+(J^\top J)^{-1}J^\top r^{(t)}\;}

要するに「毎ステップ、線形回帰の最小二乗解(正規方程式 JJΔβ=JrJ^\top J\,\Delta\beta=J^\top r)を解いて、その分だけパラメータを更新する。これを収束まで繰り返す」。

ニュートン法との違い:本来のニュートン法は2階微分(ヘッセ行列)が要りますが、ガウス-ニュートン法はヘッセ行列を JJJ^\top J で近似します。これは残差が小さいとき正当化される近似で、2階微分の計算が不要になる利点があります(その代わり残差が大きい・初期値が悪いと収束しないことがあり、λ\lambda で安定化するレーベンバーグ-マルカート法が実用的な改良)。最小二乗の正規方程式そのものは線形回帰(一般化線形モデル(ロジスティック・ポアソン回帰) の土台)と同型です。


3. プロビット分析

3.1 何が新しいか — GLMのリンク関数の選択

プロビット分析は2値の応答 y{0,1}y\in\{0,1\} を確率でモデル化する回帰です。GLM(一般化線形モデル(ロジスティック・ポアソン回帰))の枠組みでは、確率を線形予測子 xβx^\top\beta に結びつけるリンク関数を選びます。ロジスティック回帰がロジット(ロジスティックCDFの逆)を使うのに対し、プロビットは正規分布のCDF Φ\Phi を使います。

  P(y=1x)=Φ(xβ)  Φ(z)=z12πet2/2dt\boxed{\;P(y=1\mid x)=\Phi(x^\top\beta)\;} \qquad \Phi(z)=\int_{-\infty}^{z}\frac{1}{\sqrt{2\pi}}e^{-t^2/2}\,dt

要するに「線形予測子 xβx^\top\beta を、標準正規のCDFに通して0〜1の確率に変換する」。Φ\Phi はS字(シグモイド)なので、xβx^\top\beta が大きいほど確率が1に近づきます。リンク関数で言えばプロビットリンク Φ1(p)=xβ\Phi^{-1}(p)=x^\top\beta です。

3.2 潜在変数による定式化

プロビットが自然に出てくる発想が潜在変数モデルです。観測できない連続な裏変数(効用・反応強度など)yiy_i^* を考えます。

yi=xiβ+εi,εiN(0,1)y_i^* = x_i^\top\beta + \varepsilon_i,\qquad \varepsilon_i\sim N(0,1)

そして、この潜在変数が閾値(基準化して0)を超えたら yi=1y_i=1、超えなければ yi=0y_i=0 とします。

yi={1(yi>0)0(yi0)y_i = \begin{cases}1 & (y_i^* > 0)\\ 0 & (y_i^*\le 0)\end{cases}

要するに「裏で連続的な強さ yy^* が動いていて、それが基準を超えたら『1』として観測される」。ここから観測確率を導出します。

P(yi=1xi)=P(yi>0)=P(xiβ+εi>0)=P(εi>xiβ)P(y_i=1\mid x_i)=P(y_i^*>0)=P(x_i^\top\beta+\varepsilon_i>0)=P(\varepsilon_i>-x_i^\top\beta)

εiN(0,1)\varepsilon_i\sim N(0,1) は対称なので P(εi>xiβ)=P(εi<xiβ)=Φ(xiβ)P(\varepsilon_i>-x_i^\top\beta)=P(\varepsilon_i< x_i^\top\beta)=\Phi(x_i^\top\beta)。よって

P(yi=1xi)=Φ(xiβ)P(y_i=1\mid x_i)=\Phi(x_i^\top\beta)

要するに「潜在変数の誤差を標準正規と仮定すれば、P(y=1)=Φ(xβ)P(y=1)=\Phi(x^\top\beta) が自動的に出てくる」。これが3.1で天下り的に置いた式の正体です。誤差をロジスティック分布に取り替えれば、同じ導出でロジットP(y=1)=Λ(xβ)P(y=1)=\Lambda(x^\top\beta)Λ\Lambda はロジスティックCDF)になります。プロビットとロジットの違いは潜在変数の誤差分布の違いだけなのです。

3.3 ロジットとの違い(裾の重さと係数の関係)

ロジスティックCDF Λ(z)=11+ez\Lambda(z)=\dfrac{1}{1+e^{-z}} と正規CDF Φ(z)\Phi(z) はどちらもS字で、中央付近では非常によく似ています。違いは裾の重さ

係数の換算(重要論点)。 同じデータにプロビットとロジットを当てると、推定係数のスケールが違います。理由は誤差分布の分散の違いです。

潜在変数モデルでは係数は誤差の標準偏差に反比例してスケールするので、ロジットの係数はプロビットの係数の約 π31.81\dfrac{\pi}{\sqrt3}\approx 1.81になる(理論値)。一方、実務でよく使われる経験則はロジット係数 ≈ 1.6 × プロビット係数で、これは分布の中央付近の傾きを合わせる近似(Amemiya の換算)に基づきます。

βlogit1.6×βprobit(経験則・中央の傾き基準)\beta_{\text{logit}} \approx 1.6 \times \beta_{\text{probit}}\quad(\text{経験則・中央の傾き基準}) βlogitπ3βprobit1.81×βprobit(誤差分散の比による理論換算)\beta_{\text{logit}} \approx \frac{\pi}{\sqrt3}\,\beta_{\text{probit}}\approx 1.81 \times \beta_{\text{probit}}\quad(\text{誤差分散の比による理論換算})

要するに「ロジットの係数はプロビットより大きく出る(約1.6〜1.8倍)。これは当てはまりの差ではなく、誤差分布のものさし(標準偏差)が違うだけ」。試験では「係数を直接比べてはいけない、スケールが違う」「概ね定数倍の関係」という理解が問われます。1.6か1.81かは基準の取り方で変わるので、**どちらも『同じ現象(誤差スケールの違い)の表現』**と捉えるのが正確です。

flowchart LR
  XB["線形予測子<br/>x'β"] --> LINK{"リンク関数<br/>(誤差分布の選択)"}
  LINK -->|"正規CDF Φ<br/>誤差 ~ N(0,1)"| PROBIT["プロビット<br/>P(y=1)=Φ(x'β)"]
  LINK -->|"ロジスティックCDF Λ<br/>誤差 ~ ロジスティック"| LOGIT["ロジット<br/>P(y=1)=Λ(x'β)"]
  PROBIT -.->|係数 ×約1.6〜1.8| LOGIT
  PROBIT --> P["0〜1 の確率"]
  LOGIT --> P

3.4 推定とGLMでの位置づけ

プロビットの係数 β\beta最尤法で推定します。各観測のベルヌーイ尤度を掛け合わせ、対数尤度

(β)=i=1n[yilogΦ(xiβ)+(1yi)log(1Φ(xiβ))]\ell(\beta)=\sum_{i=1}^{n}\Big[y_i\log\Phi(x_i^\top\beta)+(1-y_i)\log\big(1-\Phi(x_i^\top\beta)\big)\Big]

を最大化します。要するに「観測された0/1のパターンが最も起こりやすくなる β\beta を選ぶ」。閉形式では解けず、ニュートン-ラフソン法(GLMの反復重み付き最小二乗、IRLS)で数値的に解きます。GLM(一般化線形モデル(ロジスティック・ポアソン回帰))としては「分布族=ベルヌーイ(二項)、リンク=プロビット Φ1\Phi^{-1}」に当たり、ロジスティック回帰の兄弟分です。プロビットを含む2値・打ち切りの応答モデルの体系は質的選択・切断回帰(質的選択・切断回帰モデル)でさらに展開されます。


4. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. SVMはなぜ「マージン最大化」が良いのですか? 単にきれいに分ける超平面ではダメ?

データを分ける超平面は(分離可能なら)無数にあります。そのうち境界が片方のクラスにギリギリ寄っていると、新しいデータがわずかにズレただけで誤分類されます。境界を両クラスからなるべく遠ざける=マージンを最大化すれば、多少のノイズやズレに頑健になり、未知データへの汎化性能が上がると期待できます。これは構造的リスク最小化の考え方とも整合し、「分けられる中で最も安全な境界を選ぶ」のがマージン最大化の意義です。

Q2. サポートベクター以外のデータは本当に無意味なのですか?

境界を決める計算には無意味です。最適解で w=iαiyixiw=\sum_i\alpha_i y_i x_i となり、マージン外の点は αi=0\alpha_i=0 なのでこの和に寄与しません。実際、サポートベクター以外の点を削除して再学習しても、得られる境界はまったく同じです。逆に言えば、SVMは「境界近傍の難しい点」だけに注目するモデルで、ここが「全データの分布で境界を決める判別分析」との決定的な違いです(ただしソフトマージンでは誤分類点 αi=C\alpha_i=C も解に効きます)。

Q3. カーネルを使うと何次元の特徴空間で計算しているのですか? そんな高次元を扱えるのですか?

扱っていません、というのがトリックの核心です。例えばRBFカーネルは理論上無限次元の特徴空間 ϕ(x)\phi(x) に対応しますが、実際に無限次元のベクトルを作るわけではありません。双対問題と判別式にはデータが内積の形でしか現れないため、その内積 ϕ(xi)ϕ(xj)\phi(x_i)^\top\phi(x_j) を元空間の関数 K(xi,xj)=exp(γxixj2)K(x_i,x_j)=\exp(-\gamma\lVert x_i-x_j\rVert^2) で直接計算するだけ。高次元の計算を「内積1個の計算」に置き換えているので、次元の高さは計算量に響きません。

Q4. 多項式回帰は「非線形回帰」なのに、なぜ普通の最小二乗で解けるのですか?

「非線形」が何について非線形かを区別すると分かります。多項式回帰 y=β0+β1x+β2x2+y=\beta_0+\beta_1 x+\beta_2 x^2+\dots は**xx について非線形**(曲線)ですが、係数 β\beta については線形です。最小二乗が解けるかどうかは「パラメータについて線形か」で決まるので、x2,x3x^2,x^3 を新しい説明変数とみなせば普通の線形回帰の正規方程式で解けます。一方、y=β1eβ2xy=\beta_1 e^{-\beta_2 x} のようにパラメータ β2\beta_2 が指数の中にあると、パラメータについて非線形なので閉形式で解けず、ガウス-ニュートン法などの反復が必要になります。

Q5. プロビットとロジット、結局どちらを使えばいいのですか?

実用上はどちらでも結果(予測確率・限界効果)はほとんど変わりません。中央付近のS字がよく似ているからです。選択は解釈と分野の慣習で決めるのが普通です。係数をオッズ比として解釈したい(医学・疫学)ならロジット、**潜在変数(効用・反応強度)**の解釈が自然な状況(計量経済学・毒性学)ならプロビット、が目安です。極端な裾の挙動を重視する場合だけ、裾の重いロジットと裾の軽いプロビットの差が効いてきます。

Q6. ロジットとプロビットの係数が1.6倍違うのに「結果は同じ」とはどういうことですか?

係数そのものはものさしの目盛りが違うだけで、表している中身は同じだからです。プロビットは誤差の標準偏差を1に、ロジットは約1.81に取っているので、同じ確率の動きを表すのにロジットの係数は約1.6〜1.8倍大きい数字になります。これは身長をcmで測るかinchで測るかの違いに近く、予測確率や限界効果に直せば両者はほぼ一致します。だから「係数の絶対値を直接比べる」のは誤りで、比べるなら予測確率や限界効果に直す必要があります。


まとめ


関連ノート