분류 전체보기 132

[논문리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

이번 논문은 Swin Transformer 논문!ICCV 2021 논문이다.https://openaccess.thecvf.com/content/ICCV2021/papers/Liu_Swin_Transformer_Hierarchical_Vision_Transformer_Using_Shifted_Windows_ICCV_2021_paper.pdf 얘도 초록하고 모델구조 정도만 읽어봤다.스윈 트랜스포머 말만 들어봤지 솔직히 뭔지도 몰랐다. 일단 Swin은 Shifted window의 약자라고 한다.Window가 무엇이고 이게 왜 어떻게 shift 된다는 것인가? 잘 모르겟다. 한번 알아보겠다. (공부하는 단계에서 정리한 내용입니다.잘못된 부분이 있다면 알려주시면 정말 감사하겠습니다.) 0. Abstract언어랑 ..

논문리뷰 2026.02.11

[논문리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

이번에 대학원을 가게 되어서 논문과 친해져야 하므로내 지식을 논문적인 느낌으로 파인튜닝 시키기 위해서 논문을 읽어보기로 했다. 하지만 전체를 다 읽을 자신은 없기에일단 되는대로 주요 섹션(초록, 모델 설명, 피규어 등)들만 쏙쏙 뽑아서 읽어봤다. (+ 읽으면서 의식의 흐름대로 쓸 것이기 때문에 중간중간 혼잣말을 할 수 있으니 양해 바람) 논문은 ViT논문!https://openreview.net/pdf?id=YicbFdNTTy내가 대충 알고 있던 ViT는.. 단어 그대로 Vision Transformer.Transformer의 아이디어(순서 상관없이 어텐션 시키고 순서는 포지셔널 인코딩 시킴)를 비전에 적용한 모델이다.기본 CNN은 그 네모격자를 사용해서 이미지를 순서대로 팡팡팡 치면서 읽어서 굉장히 ..

논문리뷰 2026.02.09

[기본이론] Attention 종류

Attention is all you need 읽다가 어텐션 종류가 여러 개라는 소식(?)을 접하게 되어서 한번 정리해본다. ~ 목차 ~1. 계산 방식1.1 Dot-Product Attention1.2 Scaled Dot-Product Attention1.3 Additive Attention (Bahdanau attention) 2. 참고 대상2.1 Self Attention2.2 Cross-Attention2.2.1 Encoder-Decoder Attention 3. Head 개수3.1 Single-Head Attention3.2 Multi-Head Attention 4. 한계 해결 방법4.1 Masked Attention4.2 Sparse Attention4.3 Linear / Efficient At..

기본기 다지기 2026.02.07

[기본이론] Transformer가 단어 하나를 생성할 때 거치는 계산과정

Transformer 구조를 쭉 따라가면서 계산을 해봤다. 'I love deep learning'이라는 문장이 transformer에 들어갔을 때 과정은 아래와 같다.(하트 그릴 정도로 딥러닝을 사랑하지는 않지만 그냥 그려봄) 이후에 삘받아서 설명도 그냥 쭉 써봤다. 1~8이 Encoder 6개 중 1개의 단계이다.그래서 이게 6번 반복되고 또 이게 decoder에 들어가서 decoder 나름의 계산으로 6번 반복된다.이렇게 보니 새삼 계산량이 미쳤다.단어 하나 생성하는데 이렇게 계산을 많이한다고?? 그리고 GPT는 이걸 해낸다고???노예부리듯이 GPT를 부렸던 날들이 생각나면서 GPT에게 조금 미안해졌다너무 구박하지 말아야지 너도 매우 열심히 사는구나덕분에 이런 계산 과정도 이해를 한다 내가 (+ ..

기본기 다지기 2026.02.05

[논문리뷰] Attention is all you need

기본기 쌓기의 일환으로 'Attention is all you need' 논문, 일명 transformer 논문을 리뷰해보려고 한다.https://papers.nips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf 내가 가장 처음으로 읽은 AI 논문이다. 1회독 할 때는 약 일주일동안 머리싸매고 읽어가면서 겨우 감만 잡았던 기억이 있다.읽고 나서 너무 뿌듯했지만 정리할만큼의 이해를 하지는 못했던 것 같다.이번이 약 3회독짼데, 그동안 개념이 숙성되었기를 바라면서 한번 정리를 시작해보겠다.주요 부분인 Section 3,4,7 (모델 구조, 모델 사용이유, 결론)만 정리해보았다. 3. Model Architecture성능..

논문리뷰 2026.02.03

[기본이론] 도커 컨테이너 만들기

Docker 기초 내용을 정리해보려고 한다.예전에 플젝할 때 버전관리 때문에 애를 먹었던 적이 있었는데, 이때 도커를 쓰면 좋다고 들었었다.그뒤로 한동안 도커를 꼭 사용해야하는 상황도 없고 심적 여유도 없었어서 따로 공부하지는 않고 있다가이제는 정말 마음껏 공부할 수 있는 환경에 놓여지게 되어 그동안 미뤄뒀던 것들을 하나하나 차근차근 공부해보고자 한다.(블로그 글도 이틀에 하나씩은 올려보려고 한다.) 명령어들은 맥 기준으로 썼다. ~ 목차 ~1. 도커 기본 용어2. 도커 컨테이너 만들기 2.1 디렉토리 만들기 2.2 이미지 생성 (docker build) 2.3 컨테이너 생성 (docker run)3. 간단 소감 1. 도커 기본 용어도커 주요 용어로는 이미지(Image), 컨테이너(Container..

[논문리뷰] LoFiT: Localized Fine-tuning onLLM Representations

이번 논문은 LoFiT !https://proceedings.neurips.cc/paper_files/paper/2024/file/122ea6470232ee5e79a2649243348005-Paper-Conference.pdf NeurIPs 2024 논문이다.얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.(으아 일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ) ~ 초록 ~ 최근의 interpretability 연구에서는 LLM 성능을 높일 때 모델을 다시 학습시키지 않고 다른 요소들(내부의 representation)만 바꿔도 된다고 함e.g. 특정 attention 헤드에 편향 벡터를 추가해서 모델의 truthfulness을 높일 수 있음아예 쌩으로 다시 공부시키지 않아도 ..

논문리뷰 2026.02.01

[논문리뷰] Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation

이번 논문은 Focus-N-Fix 논문https://openaccess.thecvf.com/content/CVPR2025/papers/Xing_Focus-N-Fix_Region-Aware_Fine-Tuning_for_Text-to-Image_Generation_CVPR_2025_paper.pdf CVPR 2025 논문이다.얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.(일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ) ~ 초록 ~T2I 생성기술이 최근 많이 발전하긴 했지만 아래 부분은 아직도 개선이 필요하다.1. Perceptual artifacts (사람이 봤을 때 부자연스럽게 보이는 현상)2. Misalignment with complex prompts (프롬프트 복잡하면..

논문리뷰 2026.01.31

[논문리뷰] VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation

이번 논문은 VinTAGe 논문https://openaccess.thecvf.com/content/CVPR2025/papers/Kushwaha_VinTAGe_Joint_Video_and_Text_Conditioning_for_Holistic_Audio_Generation_CVPR_2025_paper.pdf CVPR 2025 논문이다.얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.(으아 일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ) ~ 초록 ~최근 오디오 생성 연구는 T2A랑 V2A 태스크를 중심으로 진행되었음. 근데 이러한 방식들은 onscreen과 offscreen을 모두 포함하는 holistic 한 소리를 생성하는 데에 한계가 있음 Holistic한 소리= 화면에 보..

논문리뷰 2026.01.29