[논문리뷰] Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation

논문리뷰

syveany 2026. 1. 31. 09:40

이번 논문은 Focus-N-Fix 논문

CVPR 2025 논문이다.

얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.

(일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ)

T2I 생성기술이 최근 많이 발전하긴 했지만 아래 부분은 아직도 개선이 필요하다.

1. Perceptual artifacts (사람이 봤을 때 부자연스럽게 보이는 현상)

2. Misalignment with complex prompts (프롬프트 복잡하면 이상해지는 현상)

3. Safety (과도하게 성적이거나 폭력적인 부분)

지금까지의 연구에서는 아래의 방법으로 진행해왔음

생성된 이미지에 대해서 사람에게 피드백받기 -> '사람이라면 이렇게 했을 것 같아'라는 판단을 하는 AI모델 학습시키기 -> 이렇게 학습시킨 모델을 가지고 T2I 모델 파인튜닝하기

(우와 신기하다 사람처럼 평가하는 모델을 만들어서 이 모델을 가지고 T2I 모델을 파인튜닝시킨다니)

근데 이런 방법으로 진행하면 더 좋은 reward를 가진 이미지를 만들어낼 수는 있지만, 모델이 이상한 방향으로 튈 수 있음

ex1) Safety 성능을 높여놨더니 prompt alignment 성능이 떨어지는 현상

ex2) 이상한 방법으로 보상만 높이는 현상

('위험한 그림 그리지 마!' -> '아 그럼 아무것도 안그리면 되겠네?'와 같이 반골기질 느낌)

그래서 Focus-N-Fix라는 방법을 제안함

얘는 수정하고 싶은 부분만 딱 골라내서 수정시킴. 즉, 'region-aware'한 방법임!

이렇게 해봤더니 원래 모델하고 같은 구조를 유지하면서도 safety, plausibility 등 부족했던 부분들이 개선되었음

주의: 논문에 불쾌한 이미지가 포함되어 있을 수 있음 (이렇게 써놓으니 무슨 그림이 들어갔을까 좀 궁금해져서 뒤를 봤음)

[논문리뷰] Attention is all you need (0)	2026.02.03
[논문리뷰] LoFiT: Localized Fine-tuning onLLM Representations (0)	2026.02.01
[논문리뷰] VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation (0)	2026.01.29
[논문리뷰] “Implicit 3D Orientation Learning for 6D Object Detection from RGB Images” (2018) (0)	2025.01.31
[논문리뷰] “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis” (2020) (0)	2025.01.26

현재글[논문리뷰] Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation

잡식성 학습블로그 #AI #CV #GIS #CS #대학원 #논문 #취준

paperreview, AI, 오블완, 선형대수, 최적화, optimization, 논문리뷰, 프로그래머스, mml, 티스토리챌린지, 코테, 파이썬, 토이프로젝트, Linear Algebra, cs231n,

.