GPT-4o: Nowy model AI od OpenAI, integrujący tekst, dźwięk i obraz
GPT-4o: Nowy model AI od OpenAI, integrujący tekst, dźwięk i obraz

GPT-4o: Nowy model AI od OpenAI, integrujący tekst, dźwięk i obraz

OpenAI wprowadziło na rynek swój najnowszy flagowy model, GPT-4o, który płynnie łączy wejścia i wyjścia tekstowe, dźwiękowe i wizualne, obiecując tym samym zwiększenie naturalności interakcji z maszynami.

GPT-4o, gdzie „o” oznacza „omni”, jest zaprojektowany do obsługi szerokiego spektrum modalności wejściowych i wyjściowych. „Przyjmuje jako wejście dowolną kombinację tekstu, dźwięku i obrazu, i generuje dowolną kombinację tekstu, dźwięku i obrazu,” ogłosiło OpenAI.

Użytkownicy mogą spodziewać się czasu odpowiedzi zbliżonego do ludzkiej konwersacji, wynoszącego 232 milisekundy, z imponującą średnią odpowiedzią wynoszącą 320 milisekund.

Nowatorskie możliwości

Wprowadzenie GPT-4o oznacza skok w porównaniu do jego poprzedników, przetwarzając wszystkie wejścia i wyjścia za pomocą jednej sieci neuronowej. To podejście pozwala modelowi zachować istotne informacje i kontekst, które wcześniej były tracone w oddzielnych modelach używanych w poprzednich wersjach.

Przed GPT-4o, „Tryb Głosowy” mógł obsługiwać interakcje audio z opóźnieniami wynoszącymi 2,8 sekundy dla GPT-3.5 i 5,4 sekundy dla GPT-4. Poprzednia konfiguracja obejmowała trzy odrębne modele: jeden do transkrypcji dźwięku na tekst, drugi do odpowiedzi tekstowych, i trzeci do konwersji tekstu z powrotem na dźwięk. Takie rozdzielenie prowadziło do utraty niuansów, takich jak ton głosu, wielość mówców czy hałas w tle.

Jako zintegrowane rozwiązanie, GPT-4o wykazuje znaczące poprawy w zrozumieniu wizji i dźwięku. Może wykonywać bardziej złożone zadania, takie jak harmonizowanie piosenek, zapewnianie tłumaczeń w czasie rzeczywistym, a nawet generowanie wyjść z elementami ekspresyjnymi, takimi jak śmiech czy śpiew. Przykłady jego szerokich możliwości obejmują przygotowywanie do wywiadów, tłumaczenie języków na bieżąco i generowanie odpowiedzi w obsłudze klienta.

Nathaniel Whittemore, założyciel i CEO Superintelligent, skomentował: „Ogłoszenia produktowe będą z natury bardziej kontrowersyjne niż ogłoszenia technologiczne, ponieważ trudno jest stwierdzić, czy produkt będzie naprawdę inny, dopóki nie wejdzie się z nim w interakcję. Zwłaszcza w przypadku nowego sposobu interakcji człowiek-komputer, jest jeszcze więcej miejsca na różnorodne opinie o jego użyteczności.

„Niemniej jednak, fakt, że nie ogłoszono GPT-4.5 ani GPT-5, rozprasza uwagę od technologicznego postępu, jakim jest ten natywnie multimodalny model. To nie jest model tekstowy z dodatkiem głosu czy obrazu; jest to model multimodalny od wejścia do wyjścia. Otwiera to ogromny wachlarz zastosowań, które będą potrzebowały czasu, aby przebić się do świadomości.”

Wydajność i bezpieczeństwo

GPT-4o dorównuje wydajności GPT-4 Turbo w zadaniach tekstowych i programistycznych w języku angielskim, ale znacząco przewyższa go w językach innych niż angielski, co czyni go bardziej wszechstronnym i inkluzyjnym modelem. Ustanawia nowy standard w rozumowaniu, osiągając wysokie wyniki 88,7% w teście 0-shot COT MMLU (pytania ogólne) i 87,2% w teście 5-shot no-CoT MMLU.

Model również przewyższa wcześniejsze modele w benchmarkach audio i tłumaczeniowych, przewyższając dotychczasowe modele, takie jak Whisper-v3. W ocenach wielojęzycznych i wizualnych, wykazuje lepszą wydajność, wzmacniając możliwości OpenAI w dziedzinie wielojęzyczności, dźwięku i wizji.

OpenAI wdrożyło solidne środki bezpieczeństwa w GPT-4o, w tym techniki filtracji danych treningowych i doskonalenia zachowań poprzez zabezpieczenia po treningu. Model został oceniony zgodnie z ramami przygotowania (Preparedness Framework) i spełnia dobrowolne zobowiązania OpenAI. Oceny w takich obszarach jak cyberbezpieczeństwo, perswazja i autonomia modelu wskazują, że GPT-4o nie przekracza poziomu ryzyka „Średniego” w żadnej kategorii.

GPT-4o: Nowy model AI od OpenAI, integrujący tekst, dźwięk i obraz
Screenshot

Dalsze oceny bezpieczeństwa obejmowały szeroko zakrojone zewnętrzne testy red teaming z udziałem ponad 70 ekspertów z różnych dziedzin, w tym psychologii społecznej, stronniczości, sprawiedliwości i dezinformacji. Ta wszechstronna analiza ma na celu ograniczenie ryzyka wprowadzanego przez nowe modalności GPT-4o.

Dostępność i przyszła integracja

Od dzisiaj, możliwości tekstowe i obrazowe GPT-4o są dostępne w ChatGPT, w tym w darmowej wersji i rozszerzonych funkcjach dla użytkowników Plus. Nowy Tryb Głosowy zasilany przez GPT-4o wejdzie w fazę testów alfa w ChatGPT Plus w nadchodzących tygodniach.

Deweloperzy mogą uzyskać dostęp do GPT-4o przez API do zadań tekstowych i wizualnych, korzystając z jego podwójnej prędkości, obniżonej o połowę ceny i zwiększonych limitów w porównaniu do GPT-4 Turbo.

OpenAI planuje rozszerzyć funkcjonalności audio i wideo GPT-4o do wybranej grupy zaufanych partnerów poprzez API, z szerszym wdrożeniem planowanym na najbliższą przyszłość. Ta etapowa strategia wydania ma na celu zapewnienie dokładnych testów bezpieczeństwa i użyteczności przed udostępnieniem pełnego zakresu możliwości publicznie.

„To ogromnie znaczące, że udostępnili ten model za darmo dla wszystkich, jak również obniżyli cenę API o 50%. To ogromny wzrost dostępności,” wyjaśnił Whittemore.

OpenAI zaprasza społeczność do dzielenia się opiniami w celu ciągłego udoskonalania GPT-4o, podkreślając znaczenie opinii użytkowników w identyfikowaniu i eliminowaniu luk, gdzie GPT-4 Turbo może jeszcze przewyższać.

awatar autora
Piotr Olszewski Prompt Engineer
Ekspert AI i twórca serwisu Promptowy.com. Codziennie śledzi i komentuje najważniejsze wydarzenia ze świata sztucznej inteligencji, od aktualizacji OpenAI po rewolucje w generowaniu wideo. Jego misją jest tłumaczenie zawiłości technologii na język zrozumiały dla każdego użytkownika.
Previous Post
Nowe obrazy na bazie najładniejszych polskich okładek

Nowe obrazy na bazie najładniejszych polskich okładek

Next Post

Czym jest ChatGPT?

NOWE RZECZY W SKLEPIE 🦋
This is default text for notification bar