[기본이론] Attention 종류

기본기 다지기

[기본이론] Attention 종류

syveany 2026. 2. 7. 16:51

Attention is all you need 읽다가 어텐션 종류가 여러 개라는 소식(?)을 접하게 되어서 한번 정리해본다.

~ 목차 ~

1. 계산 방식

1.1 Dot-Product Attention

1.2 Scaled Dot-Product Attention

1.3 Additive Attention (Bahdanau attention)

2. 참고 대상

2.1 Self Attention

2.2 Cross-Attention

2.2.1 Encoder-Decoder Attention

3. Head 개수

3.1 Single-Head Attention

3.2 Multi-Head Attention

4. 한계 해결 방법

4.1 Masked Attention

4.2 Sparse Attention

4.3 Linear / Efficient Attention

1. 계산 방식

계산 방식에 따라서 3가지로 나눌 수 있다.

1.1 Dot-Product Attention

말그대로 dot product 사용하는 attention임

$q$랑 $k$랑 내적해서 '얼마나 비슷한지'를 계산함

어텐션 논문에서는 아래와 같은 꼴로 나옴

$Attention(Q,K,V) = softmax(QK^{\top})V$

1.2 Scaled Dot-Product Attention

1.3 Additive Attention (Bahdanau attention)

2. 참고 대상

2.1 Self Attention

2.2 Cross-Attention

2.2.1 Encoder-Decoder Attention

3. Head 개수

3.1 Single-Head Attention

3.2 Multi-Head Attention

4. 한계 해결 방법

4.1 Masked Attention

4.2 Sparse Attention

4.3 Linear / Efficient Attention

'기본기 다지기' 카테고리의 다른 글

[기본이론] Transformer가 단어 하나를 생성할 때 거치는 계산과정 (0)	2026.02.05
[대회 하면서 하는 공부] LightGBM (0)	2025.02.06
[평가지표] ROC-AUC score란? (0)	2025.02.04
[논문 속 수학] Adam과 관련된 최적화 방법들(RMSProp, AdaGrad) (0)	2024.11.09

현재글[기본이론] Attention 종류

잡식성 학습블로그 #AI #CV #GIS #CS #대학원 #논문 #취준

Today :
Yesterday :

AI, mml, 티스토리챌린지, 논문리뷰, 토이프로젝트, 선형대수, 프로그래머스, 코테, 오블완, 최적화, Linear Algebra, optimization, paperreview, 파이썬, cs231n,

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

.