이번 논문은 VinTAGe 논문
CVPR 2025 논문이다.
얘도 일단 초록부터 읽으면서 뒤에 뭐 읽을지는 취사선택 해보려고 한다.
(으아 일단 마음이 급하니 초록만 보고 나중에 돌아오겠다ㅠㅠ)
~ 초록 ~

최근 오디오 생성 연구는 T2A랑 V2A 태스크를 중심으로 진행되었음. 근데 이러한 방식들은 onscreen과 offscreen을 모두 포함하는 holistic 한 소리를 생성하는 데에 한계가 있음
Holistic한 소리
= 화면에 보이는 것에서 나는 소리 (onscreen)
+ 화면에는 안 보이지만 상황상 있어야 하는 소리 (offscreen)
근데,
1) T2A는 텍스트만 보고 소리를 만들기 때문에 onscreen 소리를 제대로 생성하지 못함
2) V2A는 보이는 것만 보고 소리를 만들기 때문에 offscreen 소리를 생성하지 못함
-> 텍스트랑 비디오를 같이 봐야 holistic 한 소리를 만들 수 있음!
근데 기존의 T2A랑 V2A 태스크들은 modality bias를 자주 겪음
* 여기서 modality bias란 V랑 T 중에 한쪽에만 과하게 의존하는 경우를 뜻함
e.g. 주로 비디오만 보고 텍스트는 무시, 주로 텍스트만 보고 비디오는 무시
(∵ 기존 방식은 보통 V와 T 피처를 각각 추출해서 합치는데, 이러면 모델이 판단하기 쉬운 명확한 쪽을 골라버리는 현상 발생)
그래서 이 논문은 아래 조건을 충족하는 모델을 만들고자 함
1. Holistic(onscreen + offscreen)한 소리
2. 비디오랑 싱크 맞는
3. 텍스트와 비디오의 의미와 맞는
=> 그래서 V랑 T를 같이 고려해서 오디오를 생성하는 flow-based(소리 생성에 적합한) 트랜스포머 기반 모델 VinTAGe를 제안함
- V2A랑 T2A 모델들을 보조 가이드로 사용
- VinTAGe-Bench 데이터셋(화면 내외 소리를 모두 포함한 V-T-A 쌍 636개) 제작
모델은 크게 2가지 요소로 구성되어 있음
1. VT Encoder
2. Joint VT-SiT 모델
~ 모델 구조 ~
모델 구조 부분이 서술된 섹션3.2를 뽑아서 읽었다.

1. VT Encoder (A)
Text Encoder
Video Encoder
Visual-Text Cross-Attention
2. Joint VT SiT 모델 (B)