이번 논문은 LoFiT !
NeurIPs 2024 논문이다.
얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.
(으아 일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ)
~ 초록 ~

최근의 interpretability 연구에서는 LLM 성능을 높일 때 모델을 다시 학습시키지 않고 다른 요소들(내부의 representation)만 바꿔도 된다고 함
e.g. 특정 attention 헤드에 편향 벡터를 추가해서 모델의 truthfulness을 높일 수 있음
아예 쌩으로 다시 공부시키지 않아도 생각하는 중간중간에 살짝씩 개입해주면 성능이 오른다는 뜻
(최상위권 학생 살짝살짝 터치해주는 과외쌤같은 느낌인 듯)