Microsoft deepfake: Zadostujeta ena fotografija in zvočni posnetek
Microsoft Research Asia je predstavil generativni model VASA-1, ki je izurjen za ustvarjanje video posnetkov ljudi in njihovega glasu. Pokazali so, da je za uporabo dovolj imeti eno dobro fotografijo, pa lahko na zvočni posnetek pripnemo karkoli. Rezultat je videoposnetek, na katerem oseba govori sinhronizirano z zvočnim posnetkom.
Novi model so predstavili tudi v znanstvenem članku VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time, njegovo ime VASA pa pomeni Visual Affective Skills Animator. Uporablja strojno učenje, s katerim analizira sliko in zvočni posnetek. Rezultat ni poljubno besedilo ali sinteza zvoka, temveč izdelani videoposnetek, na katerem oseba govori (z ustrezno obrazno mimiko), kar je zabeleženo v zvočnem posnetku. Gre torej za orodje, ki obstoječemu zvoku doda video.
Rezultat je še vedno impresiven – in konec koncev ga lahko kombiniramo z drugimi sintetizatorji zvoka, če bi to želeli. Microsoft trdi, da je VASA-1 najboljši doslej in pri realističnosti, ekspresivnosti in učinkovitosti boljši od obstoječih metod za animacijo. To kažejo tudi testi, kjer premaga EMO: Emote Portrait Alive iz Alibabe. Rezultat so videposnetki z ločljivostjo 512 x 512 in 40 sličicami na sekundo.
Prvi praktični preizkusi so sicer uporabili umetno generirane osebe, ki ne obstajajo (slike so naredili z DALL-E 3 ali StyleGAN2), a ni prav nobene ovire, da VASA-1 ne bi deloval na resničnih ljudeh.