Self-Attention Animation

Self-Attentionとは

Self-Attention（自己注意機構）は、Transformerモデルの中核をなす仕組みです。シーケンス内の各要素が、他のすべての要素との関連性を計算し、文脈を理解します。

入力 X に対して、3つの重み行列を掛けて Query, Key, Value を生成します。

Query と Key の内積を計算し、類似度スコアを求めます。

Score = Q · K^T / √d_k

√d_k で割るのは、次元が大きくなると内積が大きくなりすぎるのを防ぐためです（スケーリング）。

スコアを確率分布に変換します。各行の合計が1になります。

Attention = softmax(Score)

これにより、各位置が他の位置にどれだけ「注目」するかの重みが決まります。

Attention重みで Value を加重平均し、最終出力を得ます。

Output = Attention · V

各位置の出力は、すべての位置の Value の重み付き和になります。

Attention(Q, K, V) = softmax(Q · K^T / √d_k) · V