Jakýkoli obrázek/audio se nyní může proměnit v mluvící animaci, a dokonce nám zazpívá.
Metoda nejprve zkoumá fotografii a identifikuje veškeré pohyby obličeje (frames encoding). Následně zpracuje zvuk a určí vhodné pohyby obličeje pro dané video (diffusion process). Takto budou výrazy obličeje vždy odpovídat hlasu a „náladě“ audio nahrávky (expression mapping).
Model nyní dokáže vytvářet videa, která drží krok s rychlými písněmi, takže nebude problém rozezpívat portréty v rytmu rock and rollu. Dokonce dokáže animovat staré portréty tak, že vypadají jako by mluvily nebo zpívaly.
Jistě víte, co to znamená. Opět jsme o krok blíže mluvícím portrétům z Harryho Pottera.