FRIEREN: Efficient Video-to-Audio Generation Network with Rectified Flow Matching
Flow Matching 이란?
Rectified Flow Matching(RFM)의 기본 원리
노이즈 분포에서 데이터 분포로의 전송 경로를 학습하는 모델
• 노이즈 분포: 무작위 샘플(p_0(x)), 예를 들어 랜덤 숫자.
• 데이터 분포: 우리가 원하는 결과(p_1(x)), 예를 들어 오디오의 멜스펙트로그램.
Probability path를 정의하고 이를 기반으로 샘플을 변환함
- Probability path: 노이즈 샘플( $x_0$)에서 데이터 분포( $x_0$)으로 이동하는 경로
- RFM은 이 경로를 직선에 가깝게 설계합니다.
경로 학습
• x_0: 노이즈 분포에서 샘플링된 초기 값. • x_1: 데이터 분포에서 샘플링된 목표 값. • x(t): 시간 t에 따라 x_0에서 x_1로 이동하는 중간 지점. • RFM은 이 이동 경로를 학습하여, 노이즈가 데이터를 향해 효율적으로 변환되도록 합니다.
Objective
$$
L_{\text{CFM}}(\theta) = \mathbb{E}_{t, p_1(x_1), p_t(x|x_1)} |v(x, t|c; \theta) - u(x, t|x_1, c)|^2. $$
- t: 시간 위치
- z: 시간 t에서 한 점
- u: 벡터 필드
- c: contition(visual feature)
- x_1: 오디오 멜스펙트로그램 latent representation
Model Architecture
- Pretrained visual encoder(frozen)
- extract feature
- Length regulator
- 보통 비디오 프레임의 시간 단위가 오디오 멜스펙토그램의 시간 단위보다 작기에, length regulator로 visual feature sequence 길이를 확장함.
- visual feature vector를 반복적으로 복제해서 오디오와 정렬되도록함
- vector field estimator
- 길이가 조정된 feature sequence는 vector field estimator에 condition으로 x, t와 함께 입력되어 vector field prediction prediction v를 출력
Representation
- video
- CAVP
- MAViL (masking reconstruction + contrastive learning, self-supervised visual-audio representation learner)
- audio
- mel-spectrogram → VAE → latent representation
Vector field estimator
- input
- 비디오 피쳐c와 transport path에 있는 point x를 각각 얇은 층을 통과시킨 후에 concatination 해서 cross-modal feature fusion의 채널 차원을 맞춤
- 이 과정은 내재된 정렬을 이용해서 learning-based mechanisms 없이도 정렬을 잘 맞추도록함.
- learnable positional embedding을 더해서 feed-forward transformer에 입력됨
- feed forward transformer 는 latent diffusion에서 고안된 구조이며, 2D conv를 1D conv로 교체해서 사용했다. → transformer output이 vector field prediction(샘플링 과정에서 사용)
- 비디오 피쳐c와 transport path에 있는 point x를 각각 얇은 층을 통과시킨 후에 concatination 해서 cross-modal feature fusion의 채널 차원을 맞춤
Re-weighting RFM objective with logit-normal coeffieciont
$$
w(t) = \frac{1}{\sqrt{2\pi} , t(1-t)} \exp\left(-\frac{(\ln t - \ln(1-t))^2}{2\sigma^2}\right), $$
- 원래 RFM의 objective는 [0, 1]에서 유니폼하게 샘플하는데, 중간이 가장 어려운 문제다
- 중간 시간 단계에 더 많은 가중치를 부여했다.
- 0이나 1에 가까울수록 감소함.
Classifier-free guidance
- 오디오와 비디오의 semantic한 정렬을 위함
Reflow, One-Step Distillation
- 샘플링 단계를 줄이고, 효율성을 높이기 위함
- Reflow 는 모델이 학습된 후 기존 학습 데이터를 이용해서 샘플링 경로를 직선화
One-Step Distillation
다단계 샘플링 결과 x_{1:T}와 단일 샘플링 결과 x_1 간의 오차를 최소화하는 손실 함수를 도입합
$$ L_{\text{distill}}(\theta{\prime}{\prime}) = \mathbb{E} |x_0 + v_{\text{CFG}}(x_0, t|c; \theta{\prime}{\prime}) - x_1|^2. $$
Experiment
- VGGSound dataset 사용
Metric
Inception Score (IS): 생성된 오디오의 품질과 다양성을 측정합니다.
Fréchet Audio Distance (FAD): 생성된 오디오와 참조 오디오 간의 통계적 차이를 측정합니다.
Temporal Alignment Score (TAS): 생성된 오디오가 비디오와 시간적으로 얼마나 잘 정렬되었는지를 측정합니다.
• TAS는 비디오의 특정 이벤트와 생성된 오디오의 대응 이벤트 간의 상대적 위치를 비교하여 계산됩니다.
- sub지표: MOS-Q(크라우드 소싱 오디오 퀄리티), MOS-A(크라우드 소싱 alignment)
Baseline
SpecVQGAN[15]: VQ-VAE를 사용하여 멜-스펙트로그램을 생성하는 트랜스포머 기반 모델.
Im2Wav[31]: CLIP 특징을 조건으로 사용하는 트랜스포머 기반의 오디오 생성 모델.
Diff-Foley[25]: 디퓨전 모델을 기반으로 스펙트로그램 잠재 변수를 생성하는 최근 방법.