Attention is all you need 읽다가 어텐션 종류가 여러 개라는 소식(?)을 접하게 되어서 한번 정리해본다.
~ 목차 ~
1. 계산 방식
1.1 Dot-Product Attention
1.2 Scaled Dot-Product Attention
1.3 Additive Attention (Bahdanau attention)
2. 참고 대상
2.1 Self Attention
2.2 Cross-Attention
2.2.1 Encoder-Decoder Attention
3. Head 개수
3.1 Single-Head Attention
3.2 Multi-Head Attention
4. 한계 해결 방법
4.1 Masked Attention
4.2 Sparse Attention
4.3 Linear / Efficient Attention
1. 계산 방식
계산 방식에 따라서 3가지로 나눌 수 있다.
1.1 Dot-Product Attention
말그대로 dot product 사용하는 attention임
$q$랑 $k$랑 내적해서 '얼마나 비슷한지'를 계산함
어텐션 논문에서는 아래와 같은 꼴로 나옴
$Attention(Q,K,V) = softmax(QK^{\top})V$
1.2 Scaled Dot-Product Attention
1.3 Additive Attention (Bahdanau attention)
2. 참고 대상
2.1 Self Attention
2.2 Cross-Attention
2.2.1 Encoder-Decoder Attention
3. Head 개수
3.1 Single-Head Attention
3.2 Multi-Head Attention
4. 한계 해결 방법
4.1 Masked Attention
4.2 Sparse Attention
4.3 Linear / Efficient Attention
'기본기 다지기' 카테고리의 다른 글
| [기본이론] Transformer가 단어 하나를 생성할 때 거치는 계산과정 (0) | 2026.02.05 |
|---|---|
| [대회 하면서 하는 공부] LightGBM (0) | 2025.02.06 |
| [평가지표] ROC-AUC score란? (0) | 2025.02.04 |
| [논문 속 수학] Adam과 관련된 최적화 방법들(RMSProp, AdaGrad) (0) | 2024.11.09 |