Multi-Head Self-Attention Animation

Multi-Head Self-Attentionとは

Multi-Head Attention は、複数の Attention Head を並列に実行し、それぞれが異なる部分空間で情報を抽出します。これにより、モデルは入力の様々な側面に同時に注目できます。

入力Xを各ヘッド専用のWq, Wk, Wvで変換。

各ヘッドの次元: d_k = d_model / num_heads

各ヘッドで独立にSelf-Attentionを計算。

Score = Q·K^T / √d_k → Softmax → ×V

全ヘッドの出力を連結。

サイズ: seq × d_model

連結した結果にWoを掛けて最終出力。

Output = Concat × Wo

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) · Wo
where head_i = Attention(X·Wq_i, X·Wk_i, X·Wv_i)