LSTM Animation

LSTM (Long Short-Term Memory) とは

LSTMは、長期的な依存関係を学習できるRNN（再帰型ニューラルネットワーク）の一種です。通常のRNNが抱える勾配消失問題を、ゲート機構とセル状態によって解決しています。

4つのゲート

Forget Gate (忘却ゲート)

過去の情報をどれだけ「忘れる」かを決定。0〜1の値で、0なら完全に忘れ、1なら完全に保持。

Input Gate (入力ゲート)

新しい情報をどれだけ「取り込む」かを決定。セル候補と掛け合わせて使用。

Cell Candidate (セル候補)

セル状態に追加する可能性のある新しい情報。tanh で -1〜1 の範囲。

Output Gate (出力ゲート)

セル状態のどの部分を出力（隠れ状態）として使うかを決定。

数式

f_t = σ(W_f · [h_{t-1}, x_t] + b_f)   ← 忘却ゲート
i_t = σ(W_i · [h_{t-1}, x_t] + b_i)   ← 入力ゲート
c̃_t = tanh(W_c · [h_{t-1}, x_t] + b_c)   ← セル候補
c_t = f_t ⊙ c_{t-1} + i_t ⊙ c̃_t   ← セル状態の更新
o_t = σ(W_o · [h_{t-1}, x_t] + b_o)   ← 出力ゲート
h_t = o_t ⊙ tanh(c_t)   ← 隠れ状態

なぜLSTMが有効か

長期記憶: セル状態が「高速道路」のように情報を長距離伝播
選択的記憶: ゲートにより、必要な情報だけを保持・更新
勾配の安定: 加算による更新で、勾配消失を軽減

LSTM (Long Short-Term Memory) Animation