Alibaba prezentuje EMO – nowy generator wideo

Alibaba prezentuje EMO - nowy generator wideo
Alibaba prezentuje EMO - nowy generator wideo


Alibaba przedstawia nowy generator wideo AI nazwany „EMO”, który wprawia w osłupienie swoimi możliwościami. Firma chce, byśmy porównywali EMO do Sory od OpenAI, szczególnie po tym, jak użyto go do zaprezentowania słynnej postaci z Sory śpiewającej piosenkę Duy Lipy.

W ramach swojego „Instytutu Inteligentnego Obliczania”, Alibaba opublikowała artykuł na temat EMO, nowatorskiego generatora wideo AI, który zaskakująco dobrze przekształca statyczne obrazy twarzy w przekonujących aktorów i charyzmatycznych śpiewaków. Choć nazwa „EMO” wydaje się pochodzić od słów „Emotive Portrait Alive”, pozostaje pytanie, dlaczego nie nazywa się „EPO”.

EMO daje nam wgląd w przyszłość, w której systemy typu Sora tworzą wirtualne światy pełne mówiących i śpiewających postaci, a nie tylko atrakcyjnych, niemych osób. Alibaba zaprezentowała na GitHubie demonstracje swojego nowego narzędzia, w tym wideo z postacią z Sory śpiewającą „Don’t Start Now” Duy Lipy.

Pokazano również, jak EMO może na przykład ożywić Audrey Hepburn, aby mówiła dialogi z viralowego klipu Lili Reinhart z „Riverdale” o tym, jak bardzo lubi płakać. W przeciwieństwie do oryginalnego klipu z Reinhart, Hepburn utrzymuje głowę w pozycji bardziej sztywnej, ale jej twarz wyraźnie oddaje emocje słów.

W przeciwieństwie do technik zamiany twarzy AI, które zyskały popularność w połowie lat 2010 i przyczyniły się do powstania deepfake’ów w 2017 roku, EMO wydaje się nie być kolejną odsłoną tych technologii.

W ostatnich latach pojawiły się aplikacje generujące animację twarzy z audio, ale nie były one zbyt inspirujące. Na przykład, pakiet oprogramowania NVIDIA Omniverse promuje aplikację „Audio2Face”, która opiera się na animacji 3D, a nie na generowaniu fotorealistycznego wideo, jak EMO.

Mimo że Audio2Face ma zaledwie dwa lata, demonstracja EMO sprawia, że wygląda on jak relikt przeszłości. W porównaniu, postacie EMO zdają się wyrażać złożone emocje, które pojawiają się w każdym klipie audio.

Należy zaznaczyć, że nasza ocena EMO opiera się na demonstracji stworzonej przez jego twórców, a nie na własnym doświadczeniu z używaniem oprogramowania. Trudno jest wyobrazić sobie, że oprogramowanie to od razu jest w stanie tworzyć tak przekonujące ludzkie ekspresje twarzy na podstawie audio bez znacznego eksperymentowania lub specjalistycznego dostrojenia.

Postacie w demonstracjach głównie nie wyrażają ekstremalnych emocji, takich jak wściekłość czy łzy, więc pozostaje pytanie, jak EMO poradziłoby sobie z silnymi emocjami, opierając się tylko na audio. Co więcej, pomimo że zostało stworzone w Chinach, pokazuje zdolność do radzenia sobie z foniką angielskiego i koreańskiego, formując odpowiednie fonemy z dość dobrą, choć nie doskonałą, wiernością.

Szczególnie fascynujące są małe niuanse między frazami, takie jak ściśnięte usta czy spuszczony wzrok, które wnoszą emocje nie tylko podczas ruchu ust, ale również w przerwach. Są to przykłady, jak prawdziwa ludzka twarz wyraża emocje, i jest intrygujące, że EMO radzi sobie z tym tak dobrze, nawet w tak ograniczonej demonstracji.

Według artykułu, model EMO opiera się na dużym zbiorze danych audio i wideo, co pozwala mu tak realistycznie oddawać emocje. Jego podejście oparte na dyfuzji nie wymaga pośredniego kroku z użyciem modeli 3D. Mechanizm uwagi odnoszącej się do referencji oraz oddzielny mechanizm uwagi audio są połączone w modelu EMO, aby zapewnić animowane postacie, których animacje twarzy pasują do treści audio, pozostając wiernymi charakterystykom twarzy bazowego obrazu.

To imponująca kolekcja demonstracji, która skłania do zastanowienia, co będzie dalej. Jednak dla aktorów może to być niepokojące, biorąc pod uwagę potencjał tej technologii.