논문리뷰

[논문리뷰] LoFiT: Localized Fine-tuning onLLM Representations

syveany 2026. 2. 1. 10:20

이번 논문은 LoFiT !

https://proceedings.neurips.cc/paper_files/paper/2024/file/122ea6470232ee5e79a2649243348005-Paper-Conference.pdf

 

NeurIPs 2024 논문이다.

얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.

(으아 일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ)

 

~ 초록 ~

 

최근의 interpretability 연구에서는 LLM 성능을 높일 때 모델을 다시 학습시키지 않고 다른 요소들(내부의 representation)만 바꿔도 된다고 함

e.g. 특정 attention 헤드에 편향 벡터를 추가해서 모델의 truthfulness을 높일 수 있음

아예 쌩으로 다시 공부시키지 않아도 생각하는 중간중간에 살짝씩 개입해주면 성능이 오른다는 뜻

(최상위권 학생 살짝살짝 터치해주는 과외쌤같은 느낌인 듯)