논문리뷰

[논문리뷰] Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation

syveany 2026. 1. 31. 09:40

이번 논문은 Focus-N-Fix 논문

https://openaccess.thecvf.com/content/CVPR2025/papers/Xing_Focus-N-Fix_Region-Aware_Fine-Tuning_for_Text-to-Image_Generation_CVPR_2025_paper.pdf

 

CVPR 2025 논문이다.

얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.

(일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ)

 

~ 초록 ~

T2I 생성기술이 최근 많이 발전하긴 했지만 아래 부분은 아직도 개선이 필요하다.

1. Perceptual artifacts (사람이 봤을 때 부자연스럽게 보이는 현상)

2. Misalignment with complex prompts (프롬프트 복잡하면 이상해지는 현상)

3. Safety (과도하게 성적이거나 폭력적인 부분)

 

지금까지의 연구에서는 아래의 방법으로 진행해왔음

생성된 이미지에 대해서 사람에게 피드백받기 -> '사람이라면 이렇게 했을 것 같아'라는 판단을 하는 AI모델 학습시키기 -> 이렇게 학습시킨 모델을 가지고 T2I 모델 파인튜닝하기

 

(우와 신기하다 사람처럼 평가하는 모델을 만들어서 이 모델을 가지고 T2I 모델을 파인튜닝시킨다니)

 

근데 이런 방법으로 진행하면 더 좋은 reward를 가진 이미지를 만들어낼 수는 있지만, 모델이 이상한 방향으로 튈 수 있음

ex1) Safety 성능을 높여놨더니 prompt alignment 성능이 떨어지는 현상

ex2) 이상한 방법으로 보상만 높이는 현상

    ('위험한 그림 그리지 마!' -> '아 그럼 아무것도 안그리면 되겠네?'와 같이 반골기질 느낌)

 

그래서 Focus-N-Fix라는 방법을 제안함

얘는 수정하고 싶은 부분만 딱 골라내서 수정시킴. 즉, 'region-aware'한 방법임!

 

이렇게 해봤더니 원래 모델하고 같은 구조를 유지하면서도 safety, plausibility 등 부족했던 부분들이 개선되었음

 

주의: 논문에 불쾌한 이미지가 포함되어 있을 수 있음 (이렇게 써놓으니 무슨 그림이 들어갔을까 좀 궁금해져서 뒤를 봤음)