About SyncDPO

SyncDPO is a post-training framework for video-audio joint generation, designed to improve temporal synchronization between visual events and generated audio.

Instead of relying only on reconstruction losses, SyncDPO introduces preference optimization with explicitly constructed temporally misaligned negatives, and uses curriculum learning to gradually increase alignment difficulty.

This project page provides qualitative comparisons and key visuals from our experiments.