기본기 다지기

[기본이론] Attention 종류

syveany 2026. 2. 7. 16:51

Attention is all you need 읽다가 어텐션 종류가 여러 개라는 소식(?)을 접하게 되어서 한번 정리해본다.

 

~ 목차 ~

1. 계산 방식

1.1 Dot-Product Attention

1.2 Scaled Dot-Product Attention

1.3 Additive Attention (Bahdanau attention)

 

2. 참고 대상

2.1 Self Attention

2.2 Cross-Attention

2.2.1 Encoder-Decoder Attention

 

3. Head 개수

3.1 Single-Head Attention

3.2 Multi-Head Attention

 

4. 한계 해결 방법

4.1 Masked Attention

4.2 Sparse Attention

4.3 Linear / Efficient Attention

 

 

1. 계산 방식

계산 방식에 따라서 3가지로 나눌 수 있다.

1.1 Dot-Product Attention

말그대로 dot product 사용하는 attention임

$q$랑 $k$랑 내적해서 '얼마나 비슷한지'를 계산함

어텐션 논문에서는 아래와 같은 꼴로 나옴

$Attention(Q,K,V) = softmax(QK^{\top})V$

 

1.2 Scaled Dot-Product Attention

 

1.3 Additive Attention (Bahdanau attention)

 

2. 참고 대상

 

2.1 Self Attention

 

2.2 Cross-Attention

 

2.2.1 Encoder-Decoder Attention

 

3. Head 개수

 

3.1 Single-Head Attention

 

3.2 Multi-Head Attention

 

4. 한계 해결 방법

 

4.1 Masked Attention

 

4.2 Sparse Attention

 

4.3 Linear / Efficient Attention