To bezprecedensowe przyspieszenie prac rozwojowych jest efektem “stanu wyższej konieczności” (ang. code red), ogłoszonego przez CEO Sama Altmana w odpowiedzi na sukcesy modelu Gemini 3 od Google.
Nowy model wyznacza standardy w testach wydajności AI – szczególnie w obszarach profesjonalnej pracy intelektualnej, programowania i rozumowania naukowego.
Zimna wojna AI staje się gorąca
11 grudnia 2025 roku zapisze się w historii branży sztucznej inteligencji jako moment, w którym rywalizacja między gigantami technologicznymi przekształciła się z dyplomatycznego współzawodnictwa w otwartą walkę o dominację.
OpenAI wypuściło GPT-5.2 zaledwie 29 dni po premierze GPT-5.1. To najszybsze tempo wydawnicze w historii flagowych modeli tej firmy (dla porównania: między GPT-5 a GPT-5.1 minęły trzy miesiące). To przyspieszenie nie było dziełem przypadku.
Pod koniec listopada Google zaprezentowało Gemini 3 Pro – model, który błyskawicznie zdobył szczyt niezależnych rankingów LMArena i uzyskał przewagę w kluczowych testach wydajności. Niedługo później Anthropic udostępniło Claude Opus 4.5, który zdominował testy programistyczne. OpenAI po raz pierwszy od miesięcy znalazło się w defensywie.
1 grudnia Sam Altman ogłosił wewnętrzny “stan alarmowy” – pełną mobilizację organizacji wokół jednego celu: odzyskania pozycji lidera. Projekty marketingowe ChatGPT zostały zamrożone. Zasoby inżynieryjne przekierowano z eksperymentalnych funkcji konsumenckich na fundamenty: inteligencję, niezawodność i kodowanie.
GPT-5.2 jest rezultatem tej mobilizacji. Wbrew niektórym doniesieniom medialnym, nie jest to jednak produkt stworzony w panice. Fidji Simo, dyrektor ds. aplikacji w OpenAI, zaznaczyła jednoznacznie: “Model znajdował się w fazie prac rozwojowych przez wiele miesięcy. Nie tworzymy takich systemów w tydzień”. Wewnętrzna nazwa kodowa projektu brzmiała “Garlic” (Czosnek). Altman potwierdził to dzień przed premierą, publikując wideo, w którym przygotowuje potrawę z ogromną ilością tego składnika.
Trzy warianty, jeden cel: dominacja w pracy profesjonalnej
GPT-5.2 trafia do użytkowników w trzech konfiguracjach, zoptymalizowanych pod kątem różnych scenariuszy użycia:
- GPT-5.2 Instant: Wariant nastawiony na szybkość odpowiedzi. Przeznaczony do zadań rutynowych: wyszukiwania informacji, redagowania tekstów, tłumaczeń. To następca bardziej przyjaznego, konwersacyjnego stylu wprowadzonego w GPT-5.1 Instant.
- GPT-5.2 Thinking: Standardowy model “rozumujący”. Wykorzystuje wewnętrzny łańcuch myślowy (chain-of-thought) do rozwiązywania złożonych problemów wymagających wieloetapowej logiki: programowania, analizy obszernych dokumentów, matematyki czy planowania strategicznego.
- GPT-5.2 Pro: Najpotężniejsza wersja o maksymalnym zużyciu mocy obliczeniowej, przeznaczona do zadań krytycznych, gdzie nie ma miejsca na błędy. Oferuje najwyższą precyzję i głębię wnioskowania, ale wiąże się z najwyższym kosztem i najdłuższym czasem oczekiwania.
Kluczowa zmiana względem poprzedników: GPT-5.2 nie posiada stałego “poziomu inteligencji”. Moc obliczeniowa przydzielana jest dynamicznie w zależności od stopnia trudności zadania. To ewolucja koncepcji z GPT-5, gdzie model automatycznie decyduje, czy użyć trybu szybkiego, czy pogłębionego “namysłu”.
Benchmarki: Przewaga w profesjonalnej pracy intelektualnej
Wraz z premierą opublikowano wyniki serii testów, które mają udowodnić jedno: to pierwszy model AI osiągający poziom ekspercki w rzeczywistej pracy zawodowej.
GDPval: Pokonywanie ludzi w ich własnej grze Najważniejszym sprawdzianem jest GDPval – test mierzący zdolność AI do wykonywania zadań z 44 zawodów w 9 kluczowych sektorach gospodarki USA. Zadania obejmują m.in. tworzenie prezentacji, modelowanie arkuszy kalkulacyjnych, analizę dokumentów prawnych czy planowanie finansowe.
GPT-5.2 Thinking osiągnął 70,9% zgodności z ocenami ludzkich ekspertów. Oznacza to, że w niemal 71% przypadków jego rozwiązania były równe lub lepsze od pracy profesjonalistów z danej branży. Dla porównania:
- GPT-5: 38,8%
- Claude Opus 4.5: 59,6%
- Gemini 3 Pro: 53,3%
Nie są to zadania teoretyczne. Jeden z testów polegał na stworzeniu trzypoziomowego modelu finansowego dla spółki z listy Fortune 500, z zachowaniem odpowiedniego formatowania i cytowań. Inny wymagał opracowania modelu wykupu lewarowanego (LBO) dla transakcji wycofania spółki z giełdy (take-private). GPT-5.2 Thinking podniósł średni wynik z 59,1% (GPT-5.1) do 68,4%. Co więcej, wykonuje te zadania 11 razy szybciej niż człowiek, generując mniej niż 1% kosztów.
Matematyka: 100% skuteczności na poziomie olimpijskim W konkursie matematycznym AIME 2025 GPT-5.2 osiągnął wynik perfekcyjny: 100% poprawnie rozwiązanych zadań bez użycia narzędzi zewnętrznych. Gemini 3 Pro osiąga 95%, ale wymaga włączonego modułu wykonywania kodu. GPT-5.2 nie potrzebuje takiej pomocy.
W teście FrontierMath – zbiorze problemów na poziomie badań naukowych, trudnych nawet dla specjalistów – GPT-5.2 rozwiązuje 40,3% najtrudniejszych zadań (wzrost z 31% w GPT-5.1 Thinking). Ten skok to różnica między modelem, który “czasem pomaga”, a takim, który “faktycznie zastępuje pracę doktoranta”.
ARC-AGI: Przełamanie bariery 90% W benchmarku mierzącym “płynną inteligencję” (zdolność rozwiązywania nowych, abstrakcyjnych problemów bez polegania na zapamiętanych schematach), GPT-5.2 Pro jako pierwszy przekroczył próg 90% w teście ARC-AGI-1 (Verified), redukując jednocześnie koszty obliczeniowe 390-krotnie w porównaniu do zeszłorocznego modelu o3-preview.
Programowanie: Walka o deweloperów
Programowanie to główny front walki o klientów korporacyjnych. Claude dominował w tym segmencie przez ostatnie miesiące, ale GPT-5.2 odpowiada agresywnie:
- SWE-Bench Pro: 55,6% (wzrost z 50,7% przy GPT-5.1; Gemini 3 Pro: 43,2%).
- SWE-Bench Verified: 80,0% (Claude Opus 4.5 wciąż prowadzi z wynikiem 80,9%, ale różnica jest minimalna).
Max Schwarzer, lider zespołu ds. treningu końcowego w OpenAI, potwierdził, że firmy takie jak Windsurf, JetBrains i Augment Code raportują “najwyższą w klasie wydajność agentów kodujących” oraz mierzalną poprawę w interaktywnym programowaniu, przeglądzie kodu (code review) i wykrywaniu błędów. GPT-5.2 Thinking generuje 38% mniej błędów niż jego poprzednik.
Analiza obrazu i długi kontekst
Wizja komputerowa: GPT-5.2 Thinking zmniejsza o połowę współczynnik błędów w interpretacji wykresów i interfejsów oprogramowania. Model precyzyjniej analizuje panele nawigacyjne (dashboardy), zrzuty ekranu produktów i diagramy techniczne, co jest kluczowe dla inżynierii i wsparcia klienta.
Kontekst: Okno kontekstowe pozostaje na poziomie 400 000 tokenów wejściowych i 128 000 wyjściowych. Nowością jest utrzymanie wysokiej precyzji przy maksymalnym obciążeniu. Testy pokazują “niemal płaską krzywą wydajności” – model bezbłędnie odnajduje informacje (“igłę w stogu siana”) nawet przy 250 tysiącach tokenów danych wejściowych.
Cennik: Wyższa jakość kosztuje
OpenAI zdecydowało się na rzadki w branży ruch – podniesienie cen API w porównaniu do GPT-5.1. Ceny za 1 milion tokenów:
- GPT-5.2 Thinking: $1,75 (wejście) / $14,00 (wyjście). To wzrost względem stawek $1,25 / $10,00.
- GPT-5.2 Pro: $21,00 (wejście) / $168,00 (wyjście).
OpenAI argumentuje, że właściwą metryką nie jest “koszt za token”, lecz “koszt za ukończone zadanie”. Jeśli GPT-5.2 dostarcza poprawny rezultat za pierwszym razem, jest finalnie tańszy niż model wymagający pięciu poprawek. Ceny subskrypcji ChatGPT (Plus, Team, Enterprise) pozostają bez zmian.
Data graniczna wiedzy i braki
Oba warianty GPT-5.2 posiadają wiedzę aktualną na dzień 31 sierpnia 2025 roku. To znaczący skok względem września 2024 (dla GPT-5).
Czego brakuje?
- Generowanie obrazów: Brak nowości. Model korzysta z integracji DALL-E 3.
- Wersja Mini: Nie zaprezentowano ekonomicznego wariantu “Mini”.
- Audio/Wideo: Brak natywnego generowania wideo, w przeciwieństwie do zapowiedzi konkurencji.
Bezpieczeństwo i agenty długoterminowe
OpenAI kładzie nacisk na redukcję halucynacji i oszustw (deception). Wzrost niezawodności jest kluczowy dla tzw. “długoterminowych agentów” – systemów wykonujących wieloetapowe zadania bez nadzoru człowieka (np. kompleksowa obsługa zmiany rezerwacji lotniczej wraz z odszkodowaniem).
- GPT-5.2 popełnia 45% mniej błędów faktycznych niż GPT-4o.
- Współczynnik wprowadzania w błąd w sytuacjach niemożliwych do rozwiązania spadł z 4,8% (model o3) do 2,1%.
Werdykt: Krok naprzód, nie rewolucja
GPT-5.2 to nie rewolucja na miarę GPT-4, lecz istotna ewolucja iteracyjna.
- Dla programistów i data scientists: Lepsze wywoływanie narzędzi i analiza długich kontekstów to realna wartość.
- Dla profesjonalistów: Poziom ekspercki w zadaniach biurowych (GDPval) czyni go potężnym asystentem.
- Dla przeciętnego użytkownika: W prostych konwersacjach różnica może być niezauważalna.
Najważniejsze pytanie brzmi: czy GPT-5.2 wystarczy, by powstrzymać migrację użytkowników do Gemini 3 i Claude’a? Zimna wojna AI weszła w fazę gorącą, a każdy kolejny miesiąc przyniesie nowe ruchy na tej szachownicy.


