Sora: Niesamowite wideo, ale za jaką cenę?

OpenAI znowu zaskoczyło świat sztucznej inteligencji, tym razem modelem generowania wideo o nazwie Sora. Prezentacje pokazały fotorealistyczne obrazy o niesamowitych szczegółach i złożoności, tworzone na podstawie prostych tekstowych poleceń. Film oparty na wskazówce “Odbicia w oknie pociągu jadącego przez przedmieścia Tokio” wyglądał jak nakręcony telefonem, z chwiejną kamerą i odbiciami pasażerów. Ani śladu dziwacznie zdeformowanych dłoni.

Kolejny film z polecenia “Trailer filmu o przygodach 30-letniego kosmonauty w czerwonym wełnianym kasku motocyklowym, błękitne niebo, pustynia solna, styl filmowy, nakręcony na 35mm, żywe kolory” wyglądał jak hybryda Christophera Nolana i Wesa Andersona.

Jeszcze inny przedstawiający golden retrievery bawiące się na śnie oddawał tak realistycznie miękkie futro i puszysty śnieg, że można było prawie wyciągnąć rękę i dotknąć.

Kluczowe pytanie brzmi: jak OpenAI osiągnęło ten rezultat? Nie wiemy, ponieważ OpenAI prawie nie udostępniło informacji o swoich danych treningowych. Aby stworzyć tak zaawansowany model, Sora potrzebowała ogromnej ilości danych wideo, więc możemy założyć, że była trenowana na danych zgromadzonych z różnych zakątków Internetu. Niektórzy spekulują, że te dane obejmowały utwory chronione prawami autorskimi. OpenAI nie odpowiedziało od razu na prośbę o komentarz na temat danych treningowych Sory.

W swoim artykule technicznym OpenAI skupia się głównie na metodzie osiągnięcia tych rezultatów: Sora jest modelem dyfuzyjnym, który przekształca dane wizualne w “patchworki” lub fragmenty danych, które model może zrozumieć. Niewiele wspomina się jednak o źródle tych danych.

OpenAI twierdzi, że “inspiruje się dużymi modelami językowymi, które zyskują ogólne możliwości dzięki treningowi na danych o skali internetowej”. Ta niewiarygodnie niejasna część o “inspiracji” jest jedynym wymijającym odniesieniem do źródła danych treningowych Sory. Dalej w artykule OpenAI mówi, że “trening systemów generujących wideo z tekstu wymaga dużej ilości filmów z odpowiednimi podpisami tekstowymi”. Jedynym źródłem tak dużej ilości danych wizualnych może być Internet, co stanowi kolejną wskazówkę na pochodzenie Sory.

Kwestia prawna i etyczna dotycząca sposobu pozyskiwania danych treningowych dla modeli AI istnieje od czasu wprowadzenia przez OpenAI modelu ChatGPT. Zarówno OpenAI, jak i Google oskarżano o “kradzież” danych do trenowania swoich modeli językowych, innymi słowy o korzystanie z danych zgromadzonych z mediów społecznościowych, forów internetowych takich jak Reddit i Quora, Wikipedii, baz danych prywatnych książek i serwisów informacyjnych.

Do tej pory argument za przeszukiwaniem całego Internetu w poszukiwaniu danych treningowych opierał się na tym, że są one publicznie dostępne. Publicznie dostępne nie zawsze oznacza jednak domenę publiczną. Przykładem może być The New York Times, który pozwał OpenAI i Microsoft o naruszenie praw autorskich, twierdząc, że modele OpenAI wykorzystywały dzieła Timesa słowo w słowo lub nieprawidłowo cytowały ich historie.

Teraz wygląda na to, że OpenAI robi to samo, ale z filmami. Jeśli tak jest, można się spodziewać, że prominentni przedstawiciele branży rozrywkowej będą mieli coś do powiedzenia na ten temat.