자문자답하면서 공부했던 것들을 기록해보았다.
Q1: Semantic correctness를 완성시키려면 먼저 temporal을 맞추고 들어가야 하는가?
대체로 그렇다. 왜냐면 Semantic이 맞아도 temporal이 틀리는 경우는 많이 어색하게 들리는 데에 비해서
semantic이 틀리고 temporal이 맞은 경우는 생각보다 자연스럽게 들리기 때문이다.
Q2: Temporal time만 예측하는 onset 연구에서는 영상만 보고 타이밍을 어케 맞추는 것인가? 이걸 AI로 하는게 맞는가? 그냥 장면에서 모션 크게 잡히는 곳을 onset 타임이라고 하면 되는거 아닌가?
단순한 경우에는 룰베이스로도 가능하다. 하지만 현실 문제는 복잡한 경우가 많다. 접촉만 보고는 판단이 어려운 경우가 있다.
칼로 채소를 써는 영상을 예시로 들어보자면, 과정 자체게 큰 모션 변화가 있지는 않지만
칼이 오이에 닿을 때, 칼이 오이를 썰을 때, 칼이 도마에 닿을 때 등 소리가 나야하는 포인트들이 많다.
이러한 포인트를 잡기 위해서는 모델이 scene context, object type, interaction pattern 등을 같이 학습해야 하기 때문에 AI를 사용하는 것이다.
Q3: 소리를 AI에 넣을 때 시각화해서 넣는다고 들었는데, 소리를 시각화해서 어떻게 표현하는 것인가? 어떤 방법이 있는가?
다양하다. Waveform, spectrogram, mel spectrogram, chromagram, MFCC, scalogram 등등..
간단하기 설명하자면, waveform은 그냥 파장 형태이고
Spectrogram은 x축 시간 y축 주파수 강도는 색깔로 표현한 형태이고
Mel spectrogram은 사람 귀에 맞춰진 spectrogram
Chromagram은 음표 12개로 블럭화 시킨 spectrogram
MFCC는 mel-frequency cepstral coefficients 즉 사람 귀에 맞춰서 소리를 표현한 벡터
Scalogram은 spectrogram하고 비슷한데 좀 다르다. (Q4 에서 볼 예정)
Q4: Spectrogram하고 scalogram의 차이는?
Q5: Spectrogram에서 onset을 어디를 보고 알 수 있는가?
수직선으로 나타난다. MMAudio 논문에 나온 아래 figure의 spectrogram을 예시로 들어보자.

저 수직선들이 onset 타임들이다. 전체 주파수 범위에서 비슷하게 다 검출이 되기 때문이다.
수평선으로 이어지면 onset의 여운음이 쭈욱 이어진다고 해석할 수 있다.
+ Q6: Video foley가 무엇인가?
영상을 보고 그 장면에 맞는 소리를 생성하는 기술
------------------------------------------------------------------------------------------------------------------
[그냥 든 생각들]
여기서 제일 중요한 포인트는
AI가 scene context, object type, interaction pattern 등을 종합적으로 학습해서 onscreen onset time을 예측한다는 것 같다.
그러면 정답을 특정 소리 segment로 두지 말고, 평가기준을 '얼마나 자연스러운가'로 설정하는 것 어떨까?
근데 그러면 자연스러움의 기준은 누가 어떻게 평가할 것인가?
사람은 어떨 때 소리가 자연스럽다고 느끼는가?
고민해볼 포인트가 많은 것 같다. 재밌을 것 같다.
이후에 피아노와도 onset 연구를 엮어보고 싶다.
'기본기 다지기' 카테고리의 다른 글
| [기본이론] MIR 자문자답 공부 (1) (0) | 2026.03.27 |
|---|---|
| [기본이론] CME295 자문자답 공부 (0) | 2026.03.24 |
| [기본이론] Attention 종류 (0) | 2026.02.07 |
| [기본이론] Transformer가 단어 하나를 생성할 때 거치는 계산과정 (0) | 2026.02.05 |
| [대회 하면서 하는 공부] LightGBM (0) | 2025.02.06 |