モーメンタムとAdam系最適化｜機械学習テキスト

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：勾配降下法

要点（BLUF）

素のSGDは「谷（細長い損失曲面）」で振動して遅くなります。モーメンタムは過去の勾配を指数移動平均した速度で慣性を持たせ、振動を打ち消して加速します。
適応的学習率（AdaGrad → RMSProp）は座標ごとに学習率を自動調整します。勾配が大きい方向は控えめに、小さい方向は大胆に動きます。
Adam はモーメンタム（1次モーメント $m_t$ ）と RMSProp（2次モーメント $v_t$ ）を合体し、初期の0バイアスを補正したもの。実務のデファルト。重み減衰を切り離した AdamW が現在の標準です（要最新確認）。

1. なぜ素のSGDでは不十分か

勾配降下法の更新 $\theta \leftarrow \theta - \eta\,\nabla L(\theta)$ は、損失曲面が「等方的（どの方向も同じ曲率）」なら素直に底へ向かいます。問題は病的な曲率（ill-conditioning）、つまり方向によって曲率が極端に違う細長い谷です。

イメージは、左右の壁が急で前後がゆるやかな峡谷です。勾配は最も急な「壁を登る／降りる方向（左右）」を強く指すので、SGDは谷底に沿って進みたいのに壁を左右にジグザグ反射してしまい、本当に進みたい谷の方向（前後）にはなかなか進みません。

これを定量化するのが 条件数 $\kappa = \lambda_{\max}/\lambda_{\min}$ です（損失をヘッセ行列 $H$ で2次近似したときの固有値の最大／最小比）。

L(\theta) \approx L(\theta^*) + \tfrac{1}{2}(\theta-\theta^*)^\top H (\theta-\theta^*)

固有値が大きい方向（曲率が急＝壁）：少し動くだけで損失が大きく変わる
固有値が小さい方向（曲率がゆるい＝谷底）：動いても損失があまり減らない

要するに：学習率 $\eta$ は「最も急な方向で発散しない」上限に縛られるのに、進みたいのは「最もゆるい方向」。 $\kappa$ が大きい（曲率の差が激しい）ほど、両者の板挟みで収束が遅くなります。素のSGDの最大の弱点はこれです。

graph LR
  SGD["素のSGD（θ ← θ − η∇L）"]
  MOM["モーメンタム（速度で慣性）"]
  NAG["Nesterov（先読み勾配）"]
  ADAG["AdaGrad（座標ごと適応）"]
  RMS["RMSProp（指数移動平均で枯れ回避）"]
  ADAM["Adam（モーメンタム＋RMSProp＋バイアス補正）"]
  ADAMW["AdamW（重み減衰を切り離し）"]

  SGD --> MOM
  MOM --> NAG
  SGD --> ADAG
  ADAG --> RMS
  MOM --> ADAM
  RMS --> ADAM
  ADAM --> ADAMW

ここから「振動を抑える方向（モーメンタム系）」と「座標ごとに学習率を変える方向（適応系）」の2系統に分かれ、最終的に Adam で合流します。

2. モーメンタム（Momentum）

過去の勾配を蓄えた速度 $v_t$ を導入し、それで更新します：

v_t = \beta\, v_{t-1} + \nabla L(\theta_{t-1}), \qquad \theta_t = \theta_{t-1} - \eta\, v_t

$\beta \in [0,1)$ はモーメンタム係数（典型的に $0.9$ ）。 $v_0 = 0$ から始めます。

漸化式を展開すると、速度は**過去の勾配の指数移動平均（EMA）**だとわかります：

v_t = \sum_{k=0}^{t-1} \beta^{k}\, \nabla L(\theta_{t-1-k})

古い勾配ほど $\beta^k$ で軽く重み付けされます。要するに：「これまで進んできた方向」をボールの慣性のように引き継ぎます。

なぜ振動が消えるのかが本質です。谷の壁方向では、勾配が一歩ごとに符号反転（右→左→右…）するので、和を取ると正負が打ち消し合って速度が小さくなります。逆に谷底方向では勾配が毎回同じ符号なので足し合わさって速度が育ちます。結果、ジグザグは抑制され、進みたい方向は加速されます。

実効ステップの上限も直観的です。同符号の勾配 $g$ が続くと速度は等比級数で

v_\infty = \frac{g}{1-\beta}

に収束します。 $\beta=0.9$ なら $\tfrac{1}{1-0.9}=10$ 、つまり実質10倍の歩幅でゆるい方向を進めるイメージです。

$\beta$ が大きいほど加速は強いが慣性で行き過ぎ（オーバーシュート）やすい。 $\beta=0$ で素のSGDに戻ります。

3. Nesterov加速勾配（NAG）

モーメンタムの改良で、勾配を「先読み位置」で評価します。

通常のモーメンタムは「今いる場所 $\theta_{t-1}$ 」で勾配を測ってから速度を足します。Nesterov は「速度の分だけ先に進んだ場所 $\theta_{t-1} - \eta\beta\, v_{t-1}$ 」で勾配を測ります：

v_t = \beta\, v_{t-1} + \nabla L\big(\theta_{t-1} - \eta\,\beta\, v_{t-1}\big), \qquad \theta_t = \theta_{t-1} - \eta\, v_t

要するに：「どうせ慣性でそこまで進むのだから、進んだ先で勾配を測ろう」という先読み（lookahead）です。

利点はブレーキの早さです。谷底に近づいて行き過ぎそうなとき、通常モーメンタムは現在地で勾配を測るので反応が一歩遅れますが、Nesterov は「進んだ先」で坂の登り返しを先に感じ取り、早めに減速します。理論的にも、滑らかな凸関数で素の勾配法の収束レート $O(1/t)$ を $O(1/t^2)$ に改善する加速法として知られます（ただし確率的・非凸な深層学習で常に効くとは限らない）。

4. AdaGrad

ここから「座標ごとに学習率を変える」適応系です。AdaGrad は各パラメータごとに、過去の勾配の二乗を累積し、その平方根で学習率を割ります。

座標 $i$ について、勾配を $g_{t,i} = [\nabla L(\theta_{t-1})]_i$ とすると：

G_{t,i} = G_{t-1,i} + g_{t,i}^2, \qquad \theta_{t,i} = \theta_{t-1,i} - \frac{\eta}{\sqrt{G_{t,i}} + \epsilon}\, g_{t,i}

$\epsilon$ （ $10^{-8}$ 程度）はゼロ割防止。 $G_{t,i}$ は座標ごとに別々に貯まります。

要するに：「これまでよく動いた（勾配が大きかった）方向は学習率を下げ、あまり動いていない方向は学習率を保つ」。これにより座標ごとに歩幅を自動調整し、ill-conditioning にも素のSGDより強くなります。

最大の長所は疎な特徴に強いこと。NLP のように、ほとんどゼロでたまにしか出ない特徴（レア単語）は $G_{t,i}$ がなかなか増えないので学習率が高く保たれ、出現したときにしっかり学習できます。頻出特徴は逆に抑えられます。

⚠️ ただし致命的な弱点があります。 $G_{t,i}$ は二乗和なので単調増加し、決して減りません。学習が進むほど分母 $\sqrt{G_{t,i}}$ が膨らみ続け、実効学習率がゼロへ向かって枯れる（学習が止まる）。深層学習のように長く回す問題では、底に着く前に動けなくなります。

5. RMSProp

AdaGrad の「枯れ」を、累積を指数移動平均（EMA）に変えるだけで解決します。和ではなく「直近の勾配二乗の平均」にします：

v_{t,i} = \rho\, v_{t-1,i} + (1-\rho)\, g_{t,i}^2, \qquad \theta_{t,i} = \theta_{t-1,i} - \frac{\eta}{\sqrt{v_{t,i}} + \epsilon}\, g_{t,i}

$\rho$ （典型的に $0.9$ や $0.99$ ）は減衰率。

要するに：AdaGrad が「学習開始からの全履歴」を貯めるのに対し、RMSProp は「最近どれくらい勾配が大きいか」だけを見ます。古い情報を $\rho$ で忘れていくので $v_{t,i}$ は青天井に増えず、実効学習率が枯れません。曲率が変化する非定常な損失曲面（深層学習はまさにこれ）に適応し続けられます。

6. Adam（Adaptive Moment Estimation）

モーメンタム（1次モーメント）と RMSProp（2次モーメント）の合体に、後述のバイアス補正を加えたものです。現在の深層学習で最も使われるデフォルト。

2つのEMAを座標ごとに持ちます。 $m_t$ は勾配そのものの平均（向き＝モーメンタム）、 $v_t$ は勾配二乗の平均（スケール＝RMSProp）：

m_t = \beta_1\, m_{t-1} + (1-\beta_1)\, g_t, \qquad v_t = \beta_2\, v_{t-1} + (1-\beta_2)\, g_t^2

ここで $g_t^2$ は要素ごとの二乗。デフォルトは $\beta_1=0.9,\ \beta_2=0.999,\ \epsilon=10^{-8}$ 、学習率 $\eta=0.001$ 前後です。

バイアス補正

$m_0=v_0=0$ から始めるため、学習初期の $m_t, v_t$ はゼロ側に偏ります（まだ履歴が貯まっていないので過小評価）。これを補正します：

\hat m_t = \frac{m_t}{1-\beta_1^{\,t}}, \qquad \hat v_t = \frac{v_t}{1-\beta_2^{\,t}}

なぜ $(1-\beta^t)$ で割るのかを導出で示します。勾配が定常（期待値 $\mathbb{E}[g]$ が一定）と仮定し、 $v_t$ を展開すると：

v_t = (1-\beta_2)\sum_{k=1}^{t} \beta_2^{\,t-k}\, g_k^2

両辺の期待値を取り、 $\mathbb{E}[g_k^2]\approx\mathbb{E}[g_t^2]$ を係数の外に出すと、等比和 $\sum_{k=1}^{t}\beta_2^{t-k}=\dfrac{1-\beta_2^{t}}{1-\beta_2}$ より：

\mathbb{E}[v_t] \approx \mathbb{E}[g_t^2]\,(1-\beta_2^{\,t})

つまり $v_t$ は真の2次モーメントを $(1-\beta_2^t)$ 倍に過小評価しています。だから $(1-\beta_2^t)$ で割れば不偏に戻ります。 $\hat m_t$ も同様です。

要するに：「履歴がまだ薄い初期だけ、薄まった分を割り戻して水増しする」補正です。 $t$ が大きくなると $\beta^t\to 0$ なので $(1-\beta^t)\to 1$ 、補正は自然に消えます。これが無いと初手の更新が極端に小さくなり、立ち上がりが遅れます。

Adam の更新式

補正済みモーメントで更新します：

\boxed{\ \theta_t = \theta_{t-1} - \eta\,\frac{\hat m_t}{\sqrt{\hat v_t} + \epsilon}\ }

分子 $\hat m_t$ が「どっちへ進むか（モーメンタムで均された向き）」、分母 $\sqrt{\hat v_t}$ が「どれくらいの歩幅か（座標ごとのスケール調整）」。向きと歩幅を別々に、座標ごとに自動制御するのが Adam の正体です。 $\hat m_t/\sqrt{\hat v_t}$ は次元的に無次元に近く、初期の実効ステップが概ね $\eta$ のオーダーに収まる設計です。

7. 使い分けと AdamW（要最新確認）

手法	強み	弱み・注意
SGD + Momentum	谷の振動を抑え加速、汎化が良いことが多い	学習率の手調整が要る
AdaGrad	疎な特徴に強い	学習率が枯れる（長期学習に不向き）
RMSProp	枯れない適応学習率、RNN等で安定	モーメンタム成分が無い
Adam	立ち上がりが速くチューニングが楽、デフォルト	画像分類などで汎化がSGDに劣る報告
AdamW	Adam の汎化問題を緩和、Transformer系の標準	weight decay の値は別途調整

実務の目安：迷ったら Adam(W) で素早く立ち上げ、最終的な汎化を詰めたい画像分類などでは SGD + Momentum をよくチューニングする、という使い分けが定石です。実際、Adam で得た解はSGDより平坦でない（sharpな）極小に落ちやすく、これが汎化差の一因と説明されます（局所幾何の議論で、結論は問題依存・要最新確認）。

L2正則化と AdamW の違い

これが Adam で特に間違えやすい点です。SGD では「損失にL2ペナルティを足す」ことと「更新時に係数を一定割合で縮める（weight decay）」は数学的に等価ですが、Adam では等価になりません。

理由は Adam が勾配を $\sqrt{\hat v_t}$ で割るからです。L2ペナルティ由来の項 $\lambda\theta$ を勾配に混ぜ込むと、それも一緒に $\sqrt{\hat v_t}$ で割られてしまい、正則化の強さが座標ごとにバラバラになります。具体的には、勾配が小さい（=あまり更新されない）座標ほど分母が小さく $\to$ 本来は強く効かせたいのに正則化が弱まる、という逆効果が起きます。weight decay は本来「全パラメータに一律に効く縮小」のはずなのに、その一律性が壊れます。

AdamW（Loshchilov & Hutter, 2017）はこれを解決します。weight decay を勾配から切り離し、適応スケールを通さずパラメータへ直接かけます：

\theta_t = \theta_{t-1} - \eta\left(\frac{\hat m_t}{\sqrt{\hat v_t}+\epsilon}\;+\;\lambda\,\theta_{t-1}\right)

第2項 $\lambda\theta_{t-1}$ が $\sqrt{\hat v_t}$ を通っていないのがポイントです。これで縮小が全パラメータに一律にかかり、学習率と weight decay のチューニングも分離しやすくなります。要するに：「Adam で正則化したいなら、ペナルティを勾配に混ぜず、別ルートで一律に縮める」。Transformer・大規模モデルでは AdamW が事実上の標準です（実装・既定値はフレームワークで差があるため要最新確認）。

⚠️ よくある誤解・落とし穴

「モーメンタムの $\beta=0.9$ は学習率」ではない： $\beta$ は過去の勾配をどれだけ引き継ぐかの慣性係数。歩幅は $\eta$ が決めます。両者は別物です。
「Adam は常にSGDより良い」ではない：収束（訓練損失の下がり方）は速いことが多いが、最終的な汎化は SGD + Momentum に劣る場面があります（特に画像分類）。「速い＝良い汎化」ではありません。
AdaGrad を長時間回すと止まる：分母が単調増加して学習率が枯れるのは仕様。長期学習には RMSProp / Adam を使います。
バイアス補正を省くと初手が極端に小さい： $1-\beta_2^1 = 0.001$ なので初回は約1000倍に割り戻されます。補正を外すと立ち上がりが大きく鈍ります。
Adam の weight_decay 引数 ≠ L2正則化：フレームワークによっては Adam の weight decay が「L2をgradに足す実装（旧来）」のことがあり、AdamW とは挙動が違います。正則化を効かせたいなら AdamW を明示的に選ぶのが安全です（要最新確認）。
$\epsilon$ は単なるゼロ割防止ではない： $\epsilon$ を大きめにすると適応性が弱まり挙動がSGD寄りになります。極端な値はチューニング対象になり得ます。

対応するシミュレーション

simulations/optimizer_comparison.py：細長い谷（悪条件）の二次関数で SGD・Momentum・RMSProp・Adam を手実装して比較します。素の SGD が急な方向にジグザグして遅いのに対し、Momentum は慣性で加速し、RMSProp は方向ごとに歩幅を調整し、Adam は両者の良いとこ取りで最も速く安定して収束することを、更新の軌跡と損失曲線（対数軸）で確認できます。

SGD・Momentum・RMSProp・Adam の収束比較