OpenAI znowu zaskoczyło świat sztucznej inteligencji, tym razem modelem generowania wideo o nazwie Sora. Prezentacje pokazały fotorealistyczne obrazy o niesamowitych szczegółach i złożoności, tworzone na podstawie prostych tekstowych poleceń. Film oparty na wskazówce „Odbicia w oknie pociągu jadącego przez przedmieścia Tokio” wyglądał jak nakręcony telefonem, z chwiejną kamerą i odbiciami pasażerów. Ani śladu dziwacznie zdeformowanych dłoni.
Kolejny film z polecenia „Trailer filmu o przygodach 30-letniego kosmonauty w czerwonym wełnianym kasku motocyklowym, błękitne niebo, pustynia solna, styl filmowy, nakręcony na 35mm, żywe kolory” wyglądał jak hybryda Christophera Nolana i Wesa Andersona.
Jeszcze inny przedstawiający golden retrievery bawiące się na śnie oddawał tak realistycznie miękkie futro i puszysty śnieg, że można było prawie wyciągnąć rękę i dotknąć.
Kluczowe pytanie brzmi: jak OpenAI osiągnęło ten rezultat? Nie wiemy, ponieważ OpenAI prawie nie udostępniło informacji o swoich danych treningowych. Aby stworzyć tak zaawansowany model, Sora potrzebowała ogromnej ilości danych wideo, więc możemy założyć, że była trenowana na danych zgromadzonych z różnych zakątków Internetu. Niektórzy spekulują, że te dane obejmowały utwory chronione prawami autorskimi. OpenAI nie odpowiedziało od razu na prośbę o komentarz na temat danych treningowych Sory.
W swoim artykule technicznym OpenAI skupia się głównie na metodzie osiągnięcia tych rezultatów: Sora jest modelem dyfuzyjnym, który przekształca dane wizualne w „patchworki” lub fragmenty danych, które model może zrozumieć. Niewiele wspomina się jednak o źródle tych danych.
OpenAI twierdzi, że „inspiruje się dużymi modelami językowymi, które zyskują ogólne możliwości dzięki treningowi na danych o skali internetowej”. Ta niewiarygodnie niejasna część o „inspiracji” jest jedynym wymijającym odniesieniem do źródła danych treningowych Sory. Dalej w artykule OpenAI mówi, że „trening systemów generujących wideo z tekstu wymaga dużej ilości filmów z odpowiednimi podpisami tekstowymi”. Jedynym źródłem tak dużej ilości danych wizualnych może być Internet, co stanowi kolejną wskazówkę na pochodzenie Sory.
Kwestia prawna i etyczna dotycząca sposobu pozyskiwania danych treningowych dla modeli AI istnieje od czasu wprowadzenia przez OpenAI modelu ChatGPT. Zarówno OpenAI, jak i Google oskarżano o „kradzież” danych do trenowania swoich modeli językowych, innymi słowy o korzystanie z danych zgromadzonych z mediów społecznościowych, forów internetowych takich jak Reddit i Quora, Wikipedii, baz danych prywatnych książek i serwisów informacyjnych.
Do tej pory argument za przeszukiwaniem całego Internetu w poszukiwaniu danych treningowych opierał się na tym, że są one publicznie dostępne. Publicznie dostępne nie zawsze oznacza jednak domenę publiczną. Przykładem może być The New York Times, który pozwał OpenAI i Microsoft o naruszenie praw autorskich, twierdząc, że modele OpenAI wykorzystywały dzieła Timesa słowo w słowo lub nieprawidłowo cytowały ich historie.
Teraz wygląda na to, że OpenAI robi to samo, ale z filmami. Jeśli tak jest, można się spodziewać, że prominentni przedstawiciele branży rozrywkowej będą mieli coś do powiedzenia na ten temat.