Attention 구현(3/3)참고문헌: 책 『밑바닥부터 시작하는 딥러닝2』 Chapter8. 어텐션~ 목차 ~4. Attention 응용- Transformer4.1 RNN의 단점4.2 Transformer란5. 소감4. Attention 응용- Transformer4.1 RNN의 단점GPU 학습은 병렬계산환경에서 이루어지는데, RNN은 구조적으로 병렬 계산이 불가능하기 때문에 GPU의 성능을 충분히 활용하지 못함(RNN은 이전 시각의 계산결과를 다음 시각에 활용하기 때문). 그래서 성능이 잘 안 나옴이를 개선하기 위해서는 아래와 같은 두 가지 방법이 있음[방법1] 병렬 계산이 가능한 RNN 도입[방법2] RNN을 아예 제거하고 새로운 모델 도입다양한 연구들이 있지만, 가장 대표적인 모델은 [방법2]를..