GPT-4o: Nowy model AI od OpenAI, integrujący tekst, dźwięk i obraz

OpenAI wprowadziło na rynek swój najnowszy flagowy model, GPT-4o, który płynnie łączy wejścia i wyjścia tekstowe, dźwiękowe i wizualne, obiecując tym samym zwiększenie naturalności interakcji z maszynami.

GPT-4o, gdzie „o” oznacza „omni”, jest zaprojektowany do obsługi szerokiego spektrum modalności wejściowych i wyjściowych. „Przyjmuje jako wejście dowolną kombinację tekstu, dźwięku i obrazu, i generuje dowolną kombinację tekstu, dźwięku i obrazu,” ogłosiło OpenAI.

Użytkownicy mogą spodziewać się czasu odpowiedzi zbliżonego do ludzkiej konwersacji, wynoszącego 232 milisekundy, z imponującą średnią odpowiedzią wynoszącą 320 milisekund.

Nowatorskie możliwości

Wprowadzenie GPT-4o oznacza skok w porównaniu do jego poprzedników, przetwarzając wszystkie wejścia i wyjścia za pomocą jednej sieci neuronowej. To podejście pozwala modelowi zachować istotne informacje i kontekst, które wcześniej były tracone w oddzielnych modelach używanych w poprzednich wersjach.

Przed GPT-4o, „Tryb Głosowy” mógł obsługiwać interakcje audio z opóźnieniami wynoszącymi 2,8 sekundy dla GPT-3.5 i 5,4 sekundy dla GPT-4. Poprzednia konfiguracja obejmowała trzy odrębne modele: jeden do transkrypcji dźwięku na tekst, drugi do odpowiedzi tekstowych, i trzeci do konwersji tekstu z powrotem na dźwięk. Takie rozdzielenie prowadziło do utraty niuansów, takich jak ton głosu, wielość mówców czy hałas w tle.

Jako zintegrowane rozwiązanie, GPT-4o wykazuje znaczące poprawy w zrozumieniu wizji i dźwięku. Może wykonywać bardziej złożone zadania, takie jak harmonizowanie piosenek, zapewnianie tłumaczeń w czasie rzeczywistym, a nawet generowanie wyjść z elementami ekspresyjnymi, takimi jak śmiech czy śpiew. Przykłady jego szerokich możliwości obejmują przygotowywanie do wywiadów, tłumaczenie języków na bieżąco i generowanie odpowiedzi w obsłudze klienta.

Nathaniel Whittemore, założyciel i CEO Superintelligent, skomentował: „Ogłoszenia produktowe będą z natury bardziej kontrowersyjne niż ogłoszenia technologiczne, ponieważ trudno jest stwierdzić, czy produkt będzie naprawdę inny, dopóki nie wejdzie się z nim w interakcję. Zwłaszcza w przypadku nowego sposobu interakcji człowiek-komputer, jest jeszcze więcej miejsca na różnorodne opinie o jego użyteczności.

„Niemniej jednak, fakt, że nie ogłoszono GPT-4.5 ani GPT-5, rozprasza uwagę od technologicznego postępu, jakim jest ten natywnie multimodalny model. To nie jest model tekstowy z dodatkiem głosu czy obrazu; jest to model multimodalny od wejścia do wyjścia. Otwiera to ogromny wachlarz zastosowań, które będą potrzebowały czasu, aby przebić się do świadomości.”

Wydajność i bezpieczeństwo

GPT-4o dorównuje wydajności GPT-4 Turbo w zadaniach tekstowych i programistycznych w języku angielskim, ale znacząco przewyższa go w językach innych niż angielski, co czyni go bardziej wszechstronnym i inkluzyjnym modelem. Ustanawia nowy standard w rozumowaniu, osiągając wysokie wyniki 88,7% w teście 0-shot COT MMLU (pytania ogólne) i 87,2% w teście 5-shot no-CoT MMLU.

Model również przewyższa wcześniejsze modele w benchmarkach audio i tłumaczeniowych, przewyższając dotychczasowe modele, takie jak Whisper-v3. W ocenach wielojęzycznych i wizualnych, wykazuje lepszą wydajność, wzmacniając możliwości OpenAI w dziedzinie wielojęzyczności, dźwięku i wizji.

OpenAI wdrożyło solidne środki bezpieczeństwa w GPT-4o, w tym techniki filtracji danych treningowych i doskonalenia zachowań poprzez zabezpieczenia po treningu. Model został oceniony zgodnie z ramami przygotowania (Preparedness Framework) i spełnia dobrowolne zobowiązania OpenAI. Oceny w takich obszarach jak cyberbezpieczeństwo, perswazja i autonomia modelu wskazują, że GPT-4o nie przekracza poziomu ryzyka „Średniego” w żadnej kategorii.

Screenshot

Dalsze oceny bezpieczeństwa obejmowały szeroko zakrojone zewnętrzne testy red teaming z udziałem ponad 70 ekspertów z różnych dziedzin, w tym psychologii społecznej, stronniczości, sprawiedliwości i dezinformacji. Ta wszechstronna analiza ma na celu ograniczenie ryzyka wprowadzanego przez nowe modalności GPT-4o.

Dostępność i przyszła integracja

Od dzisiaj, możliwości tekstowe i obrazowe GPT-4o są dostępne w ChatGPT, w tym w darmowej wersji i rozszerzonych funkcjach dla użytkowników Plus. Nowy Tryb Głosowy zasilany przez GPT-4o wejdzie w fazę testów alfa w ChatGPT Plus w nadchodzących tygodniach.

Deweloperzy mogą uzyskać dostęp do GPT-4o przez API do zadań tekstowych i wizualnych, korzystając z jego podwójnej prędkości, obniżonej o połowę ceny i zwiększonych limitów w porównaniu do GPT-4 Turbo.

OpenAI planuje rozszerzyć funkcjonalności audio i wideo GPT-4o do wybranej grupy zaufanych partnerów poprzez API, z szerszym wdrożeniem planowanym na najbliższą przyszłość. Ta etapowa strategia wydania ma na celu zapewnienie dokładnych testów bezpieczeństwa i użyteczności przed udostępnieniem pełnego zakresu możliwości publicznie.

„To ogromnie znaczące, że udostępnili ten model za darmo dla wszystkich, jak również obniżyli cenę API o 50%. To ogromny wzrost dostępności,” wyjaśnił Whittemore.

OpenAI zaprasza społeczność do dzielenia się opiniami w celu ciągłego udoskonalania GPT-4o, podkreślając znaczenie opinii użytkowników w identyfikowaniu i eliminowaniu luk, gdzie GPT-4 Turbo może jeszcze przewyższać.

Udostępnij ten artykuł
Poprzedni

Nowe obrazy na bazie najładniejszych polskich okładek

Czytaj również