EMO (Emotive Portrait Alive) to nowa generatywna sztuczna inteligencja, opracowana przez Instytut Inteligentnych Komputerów (IIC) Alibaby, która potrafi „magicznie” przekształcić dowolny obraz w realistyczną mowę i śpiew.
Innymi słowy, sztuczna inteligencja Alibaby potrafi zamienić statyczny obraz i ścieżkę dźwiękową w wideo, które może mówić i śpiewać z naturalną ekspresją.
Poprzednie AI przekształcały jedynie usta i część twarzy, podczas gdy EMO potrafi tworzyć mimikę twarzy, naturalną ekspresję ust, precyzyjną synchronizację ust, poruszać brwiami, marszczyć oczy, a nawet kołysać się w rytm muzyki.
Alibaba opublikowała kilka filmów pokazujących, jak obrazy mogą być zamieniane w filmy, a użytkownicy mogą na bieżąco śpiewać zaimportowane piosenki. EMO obsługuje język angielski, chiński i wiele innych języków.
Alibaba ujawniła, że aby EMO mogło tworzyć realistyczne mimiki twarzy, zostało przeszkolone z wykorzystaniem dużej ilości danych obrazowych, dźwiękowych i wideo za pomocą własnego modelu dyfuzji o nazwie Audio2Video.
Aby sprostać poważnemu obecnie wyzwaniu, jakim jest realizm i ekspresja w generowaniu wideo z obrazów i dźwięków, zespół badawczy skupił się na relacji i niuansach między sygnałami audio a ruchami twarzy, omijając pośrednie powiązania z modelami 3D lub punktami orientacyjnymi twarzy, płynnie zmieniając klatki i zachowując spójność wideo.
Alibaba nie ujawniła, kiedy udostępni tę sztuczną inteligencję opinii publicznej, ale opublikowała dane EMO w serwisie Github i prace badawcze zamieszczone w serwisie ArXiv.