이번 논문은 Focus-N-Fix 논문
CVPR 2025 논문이다.
얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.
(일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ)
~ 초록 ~

T2I 생성기술이 최근 많이 발전하긴 했지만 아래 부분은 아직도 개선이 필요하다.
1. Perceptual artifacts (사람이 봤을 때 부자연스럽게 보이는 현상)
2. Misalignment with complex prompts (프롬프트 복잡하면 이상해지는 현상)
3. Safety (과도하게 성적이거나 폭력적인 부분)
지금까지의 연구에서는 아래의 방법으로 진행해왔음
생성된 이미지에 대해서 사람에게 피드백받기 -> '사람이라면 이렇게 했을 것 같아'라는 판단을 하는 AI모델 학습시키기 -> 이렇게 학습시킨 모델을 가지고 T2I 모델 파인튜닝하기
(우와 신기하다 사람처럼 평가하는 모델을 만들어서 이 모델을 가지고 T2I 모델을 파인튜닝시킨다니)
근데 이런 방법으로 진행하면 더 좋은 reward를 가진 이미지를 만들어낼 수는 있지만, 모델이 이상한 방향으로 튈 수 있음
ex1) Safety 성능을 높여놨더니 prompt alignment 성능이 떨어지는 현상
ex2) 이상한 방법으로 보상만 높이는 현상
('위험한 그림 그리지 마!' -> '아 그럼 아무것도 안그리면 되겠네?'와 같이 반골기질 느낌)
그래서 Focus-N-Fix라는 방법을 제안함
얘는 수정하고 싶은 부분만 딱 골라내서 수정시킴. 즉, 'region-aware'한 방법임!
이렇게 해봤더니 원래 모델하고 같은 구조를 유지하면서도 safety, plausibility 등 부족했던 부분들이 개선되었음
주의: 논문에 불쾌한 이미지가 포함되어 있을 수 있음 (이렇게 써놓으니 무슨 그림이 들어갔을까 좀 궁금해져서 뒤를 봤음)