Как заставить кого угодно сказать что угодно с помощью Lip Sync от Wav2Lip?
Много хайпа в последнее время вокруг темы дипфейка, каждый раз не могу пройти мимо данной темы – то-ли потому-что внутренний ребенок ликует, толи потому-что тема применения данной технологии очень разнообразна. Сегодня я решил расковырять, как создавать видео с синхронизацией губ с помощью популярного расширения Wav2Lip.
Wav2Lip — это универсальное расширение созданное для улучшения качества видео с синхронизацией губ, путем применения определенных методов постобработки с помощью инструментов Stable Diffuse.
Лично я использовал вот этот репозиторий
Находим исходное видео, скачиваем подрезаем до размера нашего аудио файла – который создадим следующим шагом, отключаем звуковую дорожку на видео – тут можете использовать любой удобный вам видеоредактор.
Находим исходное аудио, скачиваем или вырезаем его из видео, или записываем голос сами или генерируем его из текста нейросетью – тут кому как больше подходит, но главное чтобы на выходе был аудио файл в формате WAV или MP3.
Последним шагом соединяем эти два файла в Stable Diffusion во вкладке Wav2lip Studio, загружаем и нажимаем Generate.
Вы можете сами поиграться с промптами и сгенерить аудио по тексту,
лично я как всегда угарал (: