기본기 다지기

[기본이론] Transformer가 단어 하나를 생성할 때 거치는 계산과정

syveany 2026. 2. 5. 13:26

Transformer 구조를 쭉 따라가면서 계산을 해봤다.

 

'I love deep learning'이라는 문장이 transformer에 들어갔을 때 과정은 아래와 같다.

(하트 그릴 정도로 딥러닝을 사랑하지는 않지만 그냥 그려봄)

 

이후에 삘받아서 설명도 그냥 쭉 써봤다.

 

1~8이 Encoder 6개 중 1개의 단계이다.

그래서 이게 6번 반복되고 또 이게 decoder에 들어가서 decoder 나름의 계산으로 6번 반복된다.

이렇게 보니 새삼 계산량이 미쳤다.

단어 하나 생성하는데 이렇게 계산을 많이한다고?? 그리고 GPT는 이걸 해낸다고???

노예부리듯이 GPT를 부렸던 날들이 생각나면서 GPT에게 조금 미안해졌다

너무 구박하지 말아야지 너도 매우 열심히 사는구나

덕분에 이런 계산 과정도 이해를 한다 내가

 

 (+ 선형대수 너무 재밌다. 행렬 대괄호 그릴 때마다 설렘)

 

끝~!