#image_title

GPT-5.2: OpenAI odpowiada na “stan alarmowy” najinteligentniejszym modelem w historii

OpenAI udostępniło model GPT-5.2 niespełna miesiąc po premierze poprzedniej wersji.

To bezprecedensowe przyspieszenie prac rozwojowych jest efektem “stanu wyższej konieczności” (ang. code red), ogłoszonego przez CEO Sama Altmana w odpowiedzi na sukcesy modelu Gemini 3 od Google.

Nowy model wyznacza standardy w testach wydajności AI – szczególnie w obszarach profesjonalnej pracy intelektualnej, programowania i rozumowania naukowego.

Zimna wojna AI staje się gorąca

11 grudnia 2025 roku zapisze się w historii branży sztucznej inteligencji jako moment, w którym rywalizacja między gigantami technologicznymi przekształciła się z dyplomatycznego współzawodnictwa w otwartą walkę o dominację.

OpenAI wypuściło GPT-5.2 zaledwie 29 dni po premierze GPT-5.1. To najszybsze tempo wydawnicze w historii flagowych modeli tej firmy (dla porównania: między GPT-5 a GPT-5.1 minęły trzy miesiące). To przyspieszenie nie było dziełem przypadku.

Pod koniec listopada Google zaprezentowało Gemini 3 Pro – model, który błyskawicznie zdobył szczyt niezależnych rankingów LMArena i uzyskał przewagę w kluczowych testach wydajności. Niedługo później Anthropic udostępniło Claude Opus 4.5, który zdominował testy programistyczne. OpenAI po raz pierwszy od miesięcy znalazło się w defensywie.

1 grudnia Sam Altman ogłosił wewnętrzny “stan alarmowy” – pełną mobilizację organizacji wokół jednego celu: odzyskania pozycji lidera. Projekty marketingowe ChatGPT zostały zamrożone. Zasoby inżynieryjne przekierowano z eksperymentalnych funkcji konsumenckich na fundamenty: inteligencję, niezawodność i kodowanie.

GPT-5.2 jest rezultatem tej mobilizacji. Wbrew niektórym doniesieniom medialnym, nie jest to jednak produkt stworzony w panice. Fidji Simo, dyrektor ds. aplikacji w OpenAI, zaznaczyła jednoznacznie: “Model znajdował się w fazie prac rozwojowych przez wiele miesięcy. Nie tworzymy takich systemów w tydzień”. Wewnętrzna nazwa kodowa projektu brzmiała “Garlic” (Czosnek). Altman potwierdził to dzień przed premierą, publikując wideo, w którym przygotowuje potrawę z ogromną ilością tego składnika.

Trzy warianty, jeden cel: dominacja w pracy profesjonalnej

GPT-5.2 trafia do użytkowników w trzech konfiguracjach, zoptymalizowanych pod kątem różnych scenariuszy użycia:

  • GPT-5.2 Instant: Wariant nastawiony na szybkość odpowiedzi. Przeznaczony do zadań rutynowych: wyszukiwania informacji, redagowania tekstów, tłumaczeń. To następca bardziej przyjaznego, konwersacyjnego stylu wprowadzonego w GPT-5.1 Instant.
  • GPT-5.2 Thinking: Standardowy model “rozumujący”. Wykorzystuje wewnętrzny łańcuch myślowy (chain-of-thought) do rozwiązywania złożonych problemów wymagających wieloetapowej logiki: programowania, analizy obszernych dokumentów, matematyki czy planowania strategicznego.
  • GPT-5.2 Pro: Najpotężniejsza wersja o maksymalnym zużyciu mocy obliczeniowej, przeznaczona do zadań krytycznych, gdzie nie ma miejsca na błędy. Oferuje najwyższą precyzję i głębię wnioskowania, ale wiąże się z najwyższym kosztem i najdłuższym czasem oczekiwania.

Kluczowa zmiana względem poprzedników: GPT-5.2 nie posiada stałego “poziomu inteligencji”. Moc obliczeniowa przydzielana jest dynamicznie w zależności od stopnia trudności zadania. To ewolucja koncepcji z GPT-5, gdzie model automatycznie decyduje, czy użyć trybu szybkiego, czy pogłębionego “namysłu”.

Benchmarki: Przewaga w profesjonalnej pracy intelektualnej

Wraz z premierą opublikowano wyniki serii testów, które mają udowodnić jedno: to pierwszy model AI osiągający poziom ekspercki w rzeczywistej pracy zawodowej.

GDPval: Pokonywanie ludzi w ich własnej grze Najważniejszym sprawdzianem jest GDPval – test mierzący zdolność AI do wykonywania zadań z 44 zawodów w 9 kluczowych sektorach gospodarki USA. Zadania obejmują m.in. tworzenie prezentacji, modelowanie arkuszy kalkulacyjnych, analizę dokumentów prawnych czy planowanie finansowe.

GPT-5.2 Thinking osiągnął 70,9% zgodności z ocenami ludzkich ekspertów. Oznacza to, że w niemal 71% przypadków jego rozwiązania były równe lub lepsze od pracy profesjonalistów z danej branży. Dla porównania:

  • GPT-5: 38,8%
  • Claude Opus 4.5: 59,6%
  • Gemini 3 Pro: 53,3%

Nie są to zadania teoretyczne. Jeden z testów polegał na stworzeniu trzypoziomowego modelu finansowego dla spółki z listy Fortune 500, z zachowaniem odpowiedniego formatowania i cytowań. Inny wymagał opracowania modelu wykupu lewarowanego (LBO) dla transakcji wycofania spółki z giełdy (take-private). GPT-5.2 Thinking podniósł średni wynik z 59,1% (GPT-5.1) do 68,4%. Co więcej, wykonuje te zadania 11 razy szybciej niż człowiek, generując mniej niż 1% kosztów.

Matematyka: 100% skuteczności na poziomie olimpijskim W konkursie matematycznym AIME 2025 GPT-5.2 osiągnął wynik perfekcyjny: 100% poprawnie rozwiązanych zadań bez użycia narzędzi zewnętrznych. Gemini 3 Pro osiąga 95%, ale wymaga włączonego modułu wykonywania kodu. GPT-5.2 nie potrzebuje takiej pomocy.

W teście FrontierMath – zbiorze problemów na poziomie badań naukowych, trudnych nawet dla specjalistów – GPT-5.2 rozwiązuje 40,3% najtrudniejszych zadań (wzrost z 31% w GPT-5.1 Thinking). Ten skok to różnica między modelem, który “czasem pomaga”, a takim, który “faktycznie zastępuje pracę doktoranta”.

ARC-AGI: Przełamanie bariery 90% W benchmarku mierzącym “płynną inteligencję” (zdolność rozwiązywania nowych, abstrakcyjnych problemów bez polegania na zapamiętanych schematach), GPT-5.2 Pro jako pierwszy przekroczył próg 90% w teście ARC-AGI-1 (Verified), redukując jednocześnie koszty obliczeniowe 390-krotnie w porównaniu do zeszłorocznego modelu o3-preview.

Programowanie: Walka o deweloperów

Programowanie to główny front walki o klientów korporacyjnych. Claude dominował w tym segmencie przez ostatnie miesiące, ale GPT-5.2 odpowiada agresywnie:

  • SWE-Bench Pro: 55,6% (wzrost z 50,7% przy GPT-5.1; Gemini 3 Pro: 43,2%).
  • SWE-Bench Verified: 80,0% (Claude Opus 4.5 wciąż prowadzi z wynikiem 80,9%, ale różnica jest minimalna).

Max Schwarzer, lider zespołu ds. treningu końcowego w OpenAI, potwierdził, że firmy takie jak Windsurf, JetBrains i Augment Code raportują “najwyższą w klasie wydajność agentów kodujących” oraz mierzalną poprawę w interaktywnym programowaniu, przeglądzie kodu (code review) i wykrywaniu błędów. GPT-5.2 Thinking generuje 38% mniej błędów niż jego poprzednik.

Analiza obrazu i długi kontekst

Wizja komputerowa: GPT-5.2 Thinking zmniejsza o połowę współczynnik błędów w interpretacji wykresów i interfejsów oprogramowania. Model precyzyjniej analizuje panele nawigacyjne (dashboardy), zrzuty ekranu produktów i diagramy techniczne, co jest kluczowe dla inżynierii i wsparcia klienta.

Kontekst: Okno kontekstowe pozostaje na poziomie 400 000 tokenów wejściowych i 128 000 wyjściowych. Nowością jest utrzymanie wysokiej precyzji przy maksymalnym obciążeniu. Testy pokazują “niemal płaską krzywą wydajności” – model bezbłędnie odnajduje informacje (“igłę w stogu siana”) nawet przy 250 tysiącach tokenów danych wejściowych.

Cennik: Wyższa jakość kosztuje

OpenAI zdecydowało się na rzadki w branży ruch – podniesienie cen API w porównaniu do GPT-5.1. Ceny za 1 milion tokenów:

  • GPT-5.2 Thinking: $1,75 (wejście) / $14,00 (wyjście). To wzrost względem stawek $1,25 / $10,00.
  • GPT-5.2 Pro: $21,00 (wejście) / $168,00 (wyjście).

OpenAI argumentuje, że właściwą metryką nie jest “koszt za token”, lecz “koszt za ukończone zadanie”. Jeśli GPT-5.2 dostarcza poprawny rezultat za pierwszym razem, jest finalnie tańszy niż model wymagający pięciu poprawek. Ceny subskrypcji ChatGPT (Plus, Team, Enterprise) pozostają bez zmian.

Data graniczna wiedzy i braki

Oba warianty GPT-5.2 posiadają wiedzę aktualną na dzień 31 sierpnia 2025 roku. To znaczący skok względem września 2024 (dla GPT-5).

Czego brakuje?

  • Generowanie obrazów: Brak nowości. Model korzysta z integracji DALL-E 3.
  • Wersja Mini: Nie zaprezentowano ekonomicznego wariantu “Mini”.
  • Audio/Wideo: Brak natywnego generowania wideo, w przeciwieństwie do zapowiedzi konkurencji.

Bezpieczeństwo i agenty długoterminowe

OpenAI kładzie nacisk na redukcję halucynacji i oszustw (deception). Wzrost niezawodności jest kluczowy dla tzw. “długoterminowych agentów” – systemów wykonujących wieloetapowe zadania bez nadzoru człowieka (np. kompleksowa obsługa zmiany rezerwacji lotniczej wraz z odszkodowaniem).

  • GPT-5.2 popełnia 45% mniej błędów faktycznych niż GPT-4o.
  • Współczynnik wprowadzania w błąd w sytuacjach niemożliwych do rozwiązania spadł z 4,8% (model o3) do 2,1%.

Werdykt: Krok naprzód, nie rewolucja

GPT-5.2 to nie rewolucja na miarę GPT-4, lecz istotna ewolucja iteracyjna.

  • Dla programistów i data scientists: Lepsze wywoływanie narzędzi i analiza długich kontekstów to realna wartość.
  • Dla profesjonalistów: Poziom ekspercki w zadaniach biurowych (GDPval) czyni go potężnym asystentem.
  • Dla przeciętnego użytkownika: W prostych konwersacjach różnica może być niezauważalna.

Najważniejsze pytanie brzmi: czy GPT-5.2 wystarczy, by powstrzymać migrację użytkowników do Gemini 3 i Claude’a? Zimna wojna AI weszła w fazę gorącą, a każdy kolejny miesiąc przyniesie nowe ruchy na tej szachownicy.

awatar autora
Piotr Olszewski Prompt Engineer
Ekspert AI i twórca serwisu Promptowy.com. Codziennie śledzi i komentuje najważniejsze wydarzenia ze świata sztucznej inteligencji, od aktualizacji OpenAI po rewolucje w generowaniu wideo. Jego misją jest tłumaczenie zawiłości technologii na język zrozumiały dla każdego użytkownika.
Previous Post

NFT umarło. Generatywna sztuka AI też umiera. Co zostaje?

Next Post

Czy AI uczy się kłamać, żeby przetrwać?

NOWE RZECZY W SKLEPIE 🦋
This is default text for notification bar