Meta делает ещё один шаг к более реалистичному, или, "киношному" анимированию разговора на видео, разработав MoCha (MOvie-grade talking CHAracters).
Статья представляет новую модель генерации видео, способную создавать реалистичные анимации говорящих персонажей, основываясь только на текстовых и речевых данных. В отличие от существующих подходов, которые часто ограничиваются генерацией "говорящих голов" или требуют дополнительных управляющих сигналов, MoCha способна создавать полноценные видеоролики с участием одного или нескольких персонажей, выражающих эмоции, выполняющих действия и участвующих в контекстно-зависимых диалогах.
Ключевые особенности и достижения, представленные в статье:
* Задача Talking Characters: Авторы вводят новую задачу генерации реалистичных говорящих персонажей, выходящую за рамки традиционной генерации "говорящих голов" и охватывающую полнотелые движения, эмоции и взаимодействия между персонажами.
* MoCha: Предлагается первая end-to-end модель, основанная на diffusion transformer (DiT), для решения задачи Talking Characters.
* Без дополнительных условий: MoCha обучается непосредственно на текстовых и речевых данных, не требуя дополнительных управляющих сигналов, таких как опорные изображения или скелеты.
* Внимание "речь-видео" с использованием окна: Предлагается новый механизм внимания, который эффективно выравнивает речевые и видео токены, улучшая синхронизацию губ и речи.
* Совместная стратегия обучения речь-текст: Чтобы преодолеть нехватку больших наборов данных видео с речевыми метками, авторы используют стратегию совместного обучения, использующую как данные с речевыми метками, так и данные только с текстом.
* Генерация диалогов с несколькими персонажами: MoCha позволяет генерировать согласованные диалоги с несколькими персонажами в динамичных turn-based сценах.
* MoCha-Bench: Авторы создали новый бенчмарк MoCha-Bench, специально разработанный для задачи Talking Characters. Результаты показывают, что MoCha превосходит существующие методы по реалистичности, выразительности, управляемости и обобщению.