이번에 대학원을 가게 되어서 논문과 친해져야 하므로내 지식을 논문적인 느낌으로 파인튜닝 시키기 위해서 논문을 읽어보기로 했다. 하지만 전체를 다 읽을 자신은 없기에일단 되는대로 주요 섹션(초록, 모델 설명, 피규어 등)들만 쏙쏙 뽑아서 읽어봤다. (+ 읽으면서 의식의 흐름대로 쓸 것이기 때문에 중간중간 혼잣말을 할 수 있으니 양해 바람) 논문은 ViT논문!https://openreview.net/pdf?id=YicbFdNTTy내가 대충 알고 있던 ViT는.. 단어 그대로 Vision Transformer.Transformer의 아이디어(순서 상관없이 어텐션 시키고 순서는 포지셔널 인코딩 시킴)를 비전에 적용한 모델이다.기본 CNN은 그 네모격자를 사용해서 이미지를 순서대로 팡팡팡 치면서 읽어서 굉장히 ..