再帰型ニューラルネットワーク

← 機械学習テキスト一覧

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：誤差逆伝播法・活性化関数（勾配消失）　|　関連：最適化の実務（勾配クリッピング）

要点（BLUF）

再帰型ニューラルネット（RNN） は、隠れ状態 $h_t$ を時間方向に持ち回ることで可変長の系列を処理するモデルです。鍵は 時間方向の重み共有（毎ステップ同じ $W$ を使う）です。
学習は系列を時間方向に展開して誤差逆伝播する BPTT で行いますが、同じ重みを系列長ぶん掛けるため 勾配消失／爆発 が起き、長期依存が学べません。
これを構造で緩和したのが LSTM（セル状態＋3ゲート）と GRU（更新・リセットの2ゲート）。セル状態の 加法的更新 が「勾配の高速道路」を作ります。

1. 系列データはなぜ特別か

系列データとは、順序に意味があり、長さが一定でない データのことです。例：

時系列：株価・気温・センサー値（過去が未来に効く）
言語：単語の並び（「犬が猫を追う」と「猫が犬を追う」は語が同じでも意味が逆）

これらが誤差逆伝播法で扱った普通の MLP や、画像の CNN で扱いにくいのは次の3点です。

性質	MLP / CNN の困りごと
可変長	入力次元を固定する MLP は、長さ5の文と長さ50の文を同じ層で扱えない
順序	全結合は入力をベクトルとして一括投入するので、並び順の情報が混ざって消える
長距離の文脈	文頭の主語が文末の動詞の活用に効く、といった離れた依存を全結合で表すのは非効率

要するに：「同じ処理を、過去の要約を引き継ぎながら、1ステップずつ繰り返す」 仕組みが欲しい。それが RNN です。

2. RNN の構造：隠れ状態と重み共有

RNN は1ステップごとに 隠れ状態 $h_t$ を更新します。

h_t = \phi\!\left(W_{hh}\,h_{t-1} + W_{xh}\,x_t + b_h\right)

y_t = W_{hy}\,h_t + b_y

$x_t$ ：時刻 $t$ の入力（例： $t$ 番目の単語ベクトル）
$h_t$ ：時刻 $t$ の隠れ状態。それまでの系列の要約（記憶）
$W_{xh}$ ：入力→隠れ、 $W_{hh}$ ：隠れ→隠れ（再帰）、 $W_{hy}$ ：隠れ→出力
$\phi$ ：活性化関数（古典的には $\tanh$ ）

要するに： $h_t$ は「今の入力 $x_t$ と 直前までの要約 $h_{t-1}$ 」を混ぜて作る現在の記憶。 $y_t$ はそこからの出力。

時間方向の重み共有

最重要の性質は、どの時刻でも同じ $W_{hh}, W_{xh}$ を使う ことです。これにより、

系列が何ステップ長くても パラメータ数は一定（可変長に対応できる）
「1ステップ進める」という同じ規則を学べばよく、CNN の空間方向の重み共有に対応する 時間方向の重み共有 になっている

時間展開（unfold）

再帰をほどいて並べると、深さ＝系列長のフィードフォワード網に見えます。これが学習（BPTT）の出発点です。

flowchart LR
    x1["x_t-1"] --> h1(("h_t-1"))
    x2["x_t"] --> h2(("h_t"))
    x3["x_t+1"] --> h3(("h_t+1"))
    h0(("h_t-2")) -->|"W_hh"| h1
    h1 -->|"W_hh （同じ重み）"| h2
    h2 -->|"W_hh （同じ重み）"| h3
    h1 --> y1["y_t-1"]
    h2 --> y2["y_t"]
    h3 --> y3["y_t+1"]

同じ $W_{hh}$ （同じ重み）が時刻をまたいで何度も登場する点に注目してください。これが次の勾配問題の原因になります。

3. BPTT（通時的誤差逆伝播）

学習は、展開した網に誤差逆伝播法をそのまま適用するだけです。これを BPTT（Backpropagation Through Time） と呼びます。

各時刻の損失の合計 $L = \sum_t L_t$ について、再帰重み $W_{hh}$ の勾配は次の二重和になります。

\frac{\partial L}{\partial W_{hh}} = \sum_{t}\sum_{k=1}^{t} \frac{\partial L_t}{\partial \hat y_t}\, \frac{\partial \hat y_t}{\partial h_t}\, \underbrace{\frac{\partial h_t}{\partial h_k}}_{\text{時刻 } k\to t \text{ の伝播}}\, \frac{\partial h_k}{\partial W_{hh}}

ポイントは、時刻 $k$ から時刻 $t$ へ勾配を運ぶ部分 $\dfrac{\partial h_t}{\partial h_k}$ が、1ステップぶんのヤコビアンの積で書けることです。

\frac{\partial h_t}{\partial h_k} = \prod_{j=k+1}^{t} \frac{\partial h_j}{\partial h_{j-1}}, \qquad \frac{\partial h_j}{\partial h_{j-1}} = \operatorname{diag}\!\big(\phi'(\cdot)\big)\,W_{hh}

要するに：「 $t-k$ ステップ離れた過去まで勾配を届ける」には、 $\operatorname{diag}(\phi')W_{hh}$ を $t-k$ 回掛ける 必要がある。同じ行列の累乗が現れるのがRNN特有です。

4. 勾配消失／爆発：長期依存が学べない

上のヤコビアン積のノルムを評価すると、なぜ長期依存が学べないかが見えます。1ステップぶんのノルムは

\left\|\frac{\partial h_j}{\partial h_{j-1}}\right\| \le \gamma_\phi\,\gamma_W

で抑えられます。ここで $\gamma_W$ は $W_{hh}$ の最大特異値（スペクトルノルム）、 $\gamma_\phi$ は活性化の微分の上界（ $\tanh$ なら $1$ 、 $\mathrm{sigmoid}$ なら $0.25$ ）。したがって $t-k$ ステップでは

\left\|\frac{\partial h_t}{\partial h_k}\right\| \le (\gamma_\phi\,\gamma_W)^{\,t-k}

$\gamma_\phi\gamma_W < 1$ → 指数的に縮む＝勾配消失。遠い過去ほど学習信号が届かない
$\gamma_\phi\gamma_W > 1$ → 指数的に膨らむ＝勾配爆発。更新が発散する

xychart-beta
    title "ステップ数に対する勾配の大きさ（係数の累乗）"
    x-axis "さかのぼるステップ数" [10, 20, 30, 40, 50]
    y-axis "勾配の相対的な大きさ" 0 --> 2.5
    line [0.35, 0.12, 0.04, 0.015, 0.005]
    line [1.2, 1.5, 1.8, 2.1, 2.4]

下の線（係数 $>1$ ）は爆発、上から落ちていく線（係数 $<1$ ）は消失を表します。 $0.9^{50}\approx 0.005$ 、 $1.1^{50}\approx 117$ のように、わずかな係数差が深刻な差になります。

補足： $\tanh$ や $\mathrm{sigmoid}$ は入力が大きいと微分がほぼ0（飽和）になり、 $\gamma_\phi$ が小さくなりがちです。これは活性化関数で扱った飽和の問題と同根です。

二つの問題への対処は別物

爆発：勾配のノルムが閾値を超えたら縮める 勾配クリッピング が有効。これは最適化の実務で扱った汎用テクニックで、RNNでは特に重要です。
消失：クリッピングでは直らない（小さい勾配をさらに小さくしても意味がない）。ネットワーク構造そのものを変える のが解で、それが次のLSTM／GRUです。

5. LSTM：セル状態という「勾配の高速道路」

LSTM（Long Short-Term Memory） は、隠れ状態とは別に セル状態 $c_t$ という記憶専用の経路を持ち、情報の出入りを3つの ゲート で制御します。ゲートはすべて $\mathrm{sigmoid}$ で $[0,1]$ を出力する「弁」です（ $\odot$ は要素ごとの積）。

\begin{aligned} f_t &= \sigma\!\left(W_{xf}x_t + W_{hf}h_{t-1} + b_f\right) &&\text{忘却ゲート（古い記憶をどれだけ残すか）}\\ i_t &= \sigma\!\left(W_{xi}x_t + W_{hi}h_{t-1} + b_i\right) &&\text{入力ゲート（新情報をどれだけ書き込むか）}\\ o_t &= \sigma\!\left(W_{xo}x_t + W_{ho}h_{t-1} + b_o\right) &&\text{出力ゲート（記憶をどれだけ外に出すか）}\\ \tilde c_t &= \tanh\!\left(W_{xc}x_t + W_{hc}h_{t-1} + b_c\right) &&\text{書き込み候補} \end{aligned}

c_t = f_t \odot c_{t-1} + i_t \odot \tilde c_t \qquad(\text{セル状態の更新})

h_t = o_t \odot \tanh(c_t) \qquad(\text{隠れ状態＝外に見せる記憶})

要するに：セル状態 $c_t$ が長期記憶の本体で、忘却ゲート $f_t$ で「前を残す量」、入力ゲート $i_t$ で「今を足す量」を決め、出力ゲート $o_t$ で「外に出す量」を決める。

flowchart LR
    cprev(("c_t-1")) -->|"× f_t （忘却）"| add(("＋"))
    cand["c~_t （候補）"] -->|"× i_t （入力）"| add
    add --> cnow(("c_t"))
    cnow -->|"tanh して × o_t （出力）"| hnow(("h_t"))
    xh["x_t と h_t-1"] -.->|"ゲート f_t, i_t, o_t を計算"| add

なぜ勾配が流れるのか（加法的更新がカギ）

通常のRNNでは $h_{t-1}\to h_t$ の伝播が $\operatorname{diag}(\phi')W_{hh}$ という 乗法的 なものでした。LSTMのセル状態を見ると、更新が 足し算 なので、セル状態どうしのヤコビアンは

\frac{\partial c_t}{\partial c_{t-1}} = \operatorname{diag}(f_t)

になります（他の項は $c_{t-1}$ を直接含まないため、この経路が主役）。したがって $k$ から $t$ への勾配は

\frac{\partial c_t}{\partial c_k} \approx \prod_{j=k+1}^{t} \operatorname{diag}(f_j)

で、重み行列 $W$ も活性化の微分も掛からず、忘却ゲート $f_j$ だけが掛かります。 $f_j\approx 1$ （＝記憶を保つ）に学習されれば、積はほぼ1のまま遠くまで伝わります。これが「定数誤差カルーセル（constant error carousel）」＝自己ループの重みが実質1の経路で、いわば 勾配の高速道路 です。

直観：忘却ゲートを開けっ放し（ $f\approx1$ ）・入力ゲートを閉じる（ $i\approx0$ ）なら、セル状態は何ステップでもほぼ不変で運ばれる。だから長期依存が学べる。

6. GRU：ゲートを2つに簡略化

GRU（Gated Recurrent Unit） は、LSTMから セル状態と出力ゲートを廃し、ゲートを2つ に減らした軽量版です。隠れ状態 $h_t$ 一本で長期記憶も担います。

\begin{aligned} z_t &= \sigma\!\left(W_{xz}x_t + W_{hz}h_{t-1} + b_z\right) &&\text{更新ゲート（前をどれだけ残すか）}\\ r_t &= \sigma\!\left(W_{xr}x_t + W_{hr}h_{t-1} + b_r\right) &&\text{リセットゲート（前をどれだけ参照するか）}\\ \tilde h_t &= \tanh\!\left(W_{xh}x_t + W_{hh}(r_t \odot h_{t-1}) + b_h\right) &&\text{書き込み候補} \end{aligned}

h_t = (1 - z_t)\odot h_{t-1} + z_t \odot \tilde h_t \qquad(\text{隠れ状態の更新})

要するに：更新ゲート $z_t$ が「前の記憶 $h_{t-1}$ 」と「新候補 $\tilde h_t$ 」の配分を1つの弁で決める（ $z_t\approx0$ なら前をそのまま保つ＝長期記憶）。リセットゲート $r_t$ は候補を作るとき過去をどれだけ見るか。

LSTMとの違い

	LSTM	GRU
記憶の経路	隠れ状態 $h_t$ ＋セル状態 $c_t$ （別経路）	隠れ状態 $h_t$ のみ
ゲート数	3（忘却・入力・出力）	2（更新・リセット）
パラメータ	多い	少ない（約3/4）。学習が速い傾向
性能	データ・タスク次第	多くのタスクで同等。明確な優劣はタスク依存

GRUは「 $1-z_t$ と $z_t$ 」で残す／書き込むを連動させており、LSTMの忘却・入力ゲートを1つにまとめたものと見なせます。勾配が流れる原理（残す配分を1に近づけられる加法的経路）はLSTMと同じです。

7. 発展：双方向・多層・そしてTransformerへ

双方向RNN（Bi-RNN）：系列を前向き・後ろ向きの2方向に走らせ、各時刻で両方の隠れ状態を結合します。文脈が前後両方にある言語タスク（品詞付与など）で有効。ただし系列全体が必要なので、逐次生成（リアルタイム）には使えません。
多層（スタック）RNN：RNN層を縦に積み、下層の出力 $h_t$ を上層の入力にします。抽象度の高い系列特徴を学べます。
Transformerへの置き換え：RNNの本質的な弱点は、 $h_t$ が $h_{t-1}$ に依存するため 時間方向に並列化できない（長系列で遅い）ことと、ゲートで緩和してもなお超長距離依存が苦手なことです。これを、再帰を捨てて全時刻を一度に相互参照する 注意機構 で解いたのが注意機構（Transformer）で、現在の系列モデルの主流になりました。RNN→LSTM/GRU→Transformer という流れで理解しておくと位置づけが明確です。

⚠️ よくある誤解・落とし穴

「LSTM/GRUなら勾配消失は完全に消える」：消えません。緩和するだけです。忘却ゲートが小さく学習されれば $\prod f_j$ は依然として縮みますし、超長系列では実務上の限界があります。
「勾配クリッピングで消失も直る」：直りません。クリッピングは爆発専用（大きすぎる勾配を縮める）。消失は構造（ゲート）で対処します。
「RNNは並列化できる」：時間方向には できません。 $h_t$ が $h_{t-1}$ を待つため逐次計算です。バッチ方向の並列だけが可能で、これがTransformer台頭の一因です。
「ゲートはオン/オフのスイッチ」：違います。 $\mathrm{sigmoid}$ 出力の 連続値 $[0,1]$ （弁の開度）で、要素ごとに別の開度を取ります。
BPTTは全系列を保持する：展開した全時刻の活性を逆伝播まで保持するためメモリを食います。実務では一定長で打ち切る 打ち切りBPTT（truncated BPTT） を使います。

対応するシミュレーション

simulations/rnn_gradient.py：単純な線形RNNで、時間をさかのぼる勾配が再帰重みの累乗 $w^T$ になることを示します。 $w<1$ なら勾配が指数的に消え（勾配消失）、 $w>1$ なら爆発することを系列長に対する対数軸で可視化します。tanh の微分が1以下なので実際は消失が起きやすいこと、LSTM/GRU がセル状態の加法的経路で勾配の“高速道路”を作りこれを緩和することにも触れます。

BPTTの勾配消失・爆発（重みの累乗）