29 września Anthropic udostępniło Claude Sonnet 4.5, okrzyknięte „najlepszym modelem do generowania kodu na świecie”. 28 marca Google przedstawiło Gemini 2.5 Pro jako „model rozumujący”, zaprojektowany do rozwiązywania coraz bardziej złożonych problemów, a 7 sierpnia OpenAI uruchomiło GPT-5, łącząc możliwości logicznego rozumowania z funkcjonalnością nierozumującą pod wspólnym interfejsem.
Trzy tygodnie po premierze Claude’a nadszedł czas na pierwsze podsumowanie: który model faktycznie dominuje w tworzeniu kodu, logicznym myśleniu i codziennej pracy informatycznej?
- Claude Sonnet 4.5 – autonomiczny asystent, który koduje przez 30 godzin
- Gemini 2.5 Pro – długi kontekst i rozumowanie na granicy ludzkiej wiedzy
- GPT-5 – uniwersalny, szybki, z niższym wskaźnikiem halucynacji
- Wskaźniki osiągnięć – kto faktycznie wygrywa?
- Ceny – bitwa na dolary
- Dla Kogo Który Model – wnioski praktyczne
- Głosy z Terenu – co mówią praktycy?
- Przyszłość – dokąd zmierza rynek?
- Werdykt – nie ma jednego zwycięzcy
Claude Sonnet 4.5 – autonomiczny asystent, który koduje przez 30 godzin
29 września 2025 roku Anthropic oficjalnie ogłosiło Claude Sonnet 4.5 jako „najlepszy model do generowania kodu na świecie” z wydajnością najnowszego stanu wiedzy (ang. state-of-the-art) we wskaźnikach osiągnięć w kodowaniu. Liczby rzeczywiście robią wrażenie: na wskaźniku SWE-bench Verified Claude Sonnet 4.5 osiągnął 77,2% w standardowych testach. Dla porównania, GPT-5 uzyskał 74,9% na tym samym wskaźniku, a Gemini 2.5 Pro zatrzymał się na 63,8% we własnej konfiguracji asystenta.
Ale to nie koniec historii. David Hershey, badacz sztucznej inteligencji w Anthropic, powiedział TechCrunch, że podczas wczesnych testów z klientami korporacyjnymi zaobserwował, jak Claude Sonnet 4.5 kodował autonomicznie przez 30 godzin. W tym czasie system sztucznej inteligencji nie tylko stworzył aplikację, ale także uruchomił usługi bazodanowe, zakupił nazwy domen i przeprowadził audyt SOC 2, aby upewnić się, że produkt jest bezpieczny.
Michael Truell, dyrektor generalny firmy Cursor, stwierdził w oświadczeniu, że Claude Sonnet 4.5 reprezentuje najnowocześniejszą wydajność w kodowaniu, zwłaszcza w zadaniach o dłuższym horyzoncie czasowym. To właśnie ta zdolność do wielogodzinnej, autonomicznej pracy – bez utraty kontekstu, bez błędów – wyróżnia Claude’a w praktycznych zastosowaniach.
Na OSWorld, wskaźniku sprawdzającym interakcje sztucznej inteligencji z prawdziwymi zadaniami komputerowymi, Sonnet 4.5 osiągnął 61,4%. Claude 4 osiągnął w porównaniu 42,2% – wzrost o ponad 45% w zaledwie cztery miesiące.
Gemini 2.5 Pro – długi kontekst i rozumowanie na granicy ludzkiej wiedzy
Google wprowadziło Gemini 2.5 Pro 28 marca 2025 roku, debiutując na pozycji numer jeden w LMArena ze znaczącą przewagą. Model wyróżnia się przede wszystkim gigantycznym oknem kontekstowym: Gemini 2.5 Pro startuje z oknem kontekstowym 1 miliona tokenów (z planem rozszerzenia do 2 milionów).
W dziedzinie rozumowania matematycznego i naukowego Gemini ustanowiło nowe standardy. Na wskaźniku AIME 2025 model osiągnął 86,7%, na GPQA Diamond – 84%. Ale najbardziej imponujący jest wynik na Humanity’s Last Exam – wskaźniku zaprojektowanym przez setki ekspertów, który testuje granice ludzkiej wiedzy i rozumowania. Gemini 2.5 Pro osiągnęło 18,8% bez dostępu do narzędzi – wynik ustanawiający nowy standard wśród modeli.
Gemini 2.5 Pro zachowuje natywną multimodalność i długie okno kontekstowe – może rozumieć ogromne zbiory danych i obsługiwać złożone problemy z różnych źródeł informacji, włączając tekst, dźwięk, obrazy, wideo, a nawet całe repozytoria kodu. Ta przewaga w praktyce oznacza możliwość analizy setek plików naraz bez utraty zrozumienia kontekstu.
GPT-5 – uniwersalny, szybki, z niższym wskaźnikiem halucynacji
OpenAI udostępniło GPT-5 7 sierpnia 2025 roku, łącząc możliwości rozumowania z funkcjonalnością nierozumującą pod wspólnym interfejsem. Sam Altman nazwał GPT-5 „znaczącym krokiem na drodze do AGI” (Ogólnej Sztucznej Inteligencji).
W kodowaniu GPT-5 osiąga solidne wyniki, choć nie dominuje kategorii. Na SWE-bench Verified GPT-5 uzyskał 74,9%, na Aider Polyglot – 88%. W matematyce model osiągnął 94,6% na AIME 2025 bez narzędzi.
Największą przewagą GPT-5 jest jednak redukcja halucynacji (błędnych, niepopartych faktami odpowiedzi). Z włączonym wyszukiwaniem internetowym, odpowiedzi GPT-5 są o ~45% mniej podatne na błędy faktograficzne niż GPT-4o, a w trybie logicznego myślenia – o ~80% mniej podatne na błędy faktograficzne niż OpenAI o3.
GPT-5 jest również mniej nadmiernie ugodowy, używa mniej niepotrzebnych emotikonów i jest bardziej subtelny i przemyślany w odpowiedziach w porównaniu do GPT-4o – powinien sprawiać wrażenie mniej „rozmowy z AI”, a bardziej rozmowy z pomocnym przyjacielem o inteligencji na poziomie doktoratu.
Wskaźniki osiągnięć – kto faktycznie wygrywa?
| Kategoria Wskaźnika | Claude Sonnet 4.5 | GPT-5 | Gemini 2.5 Pro |
| Kodowanie (SWE-bench Verified) | 77,2% | 74,9% | 63,8% |
| Matematyka (AIME 2025) | 100% (z narzędziami) | 94,6% (bez narzędzi) | 86,7% |
| Rozumowanie Naukowe (GPQA Diamond) | 83,4% | 88,4% (bez narzędzi) | 84% |
| Interakcja z Komputerem (OSWorld) | 61,4% | b.d. | b.d. |
| Granice Ludzkiej Wiedzy (Humanity’s Last Exam) | 8,9% (Claude 3.7) | 14% (GPT-5 o3-mini) | 18,8% (bez narzędzi) |
Ceny – bitwa na dolary
OpenAI wycenił GPT-5 agresywnie nisko, aby podciąć konkurencję – to strategia, która wywołała wojnę cenową pod koniec 2025 roku, wywierając presję na Anthropic, by uzasadnił swoją cenę premium.
| Model (Cena za 1 mln tokenów) | Wprowadzanie (Input) | Wyprowadzanie (Output) |
| Claude Sonnet 4.5 | $3 | $15 |
| Gemini 2.5 Pro | $1.25 do $2.50 | $10 do $15 |
| GPT-5 | $1.25 | $10 |
Claude oferuje jednak buforowanie podpowiedzi (ang. prompt caching – 90% oszczędności) i przetwarzanie wsadowe (ang. batch processing – 50% oszczędności), co w praktyce wyrównuje różnice dla użytkowników intensywnie korzystających z interfejsu programowania aplikacji (API).
Dla Kogo Który Model – wnioski praktyczne
Dla programistów:
- Wybierz Claude Sonnet 4.5, jeśli pracujesz nad złożonymi projektami wymagającymi wielogodzinnych sesji kodowania, refaktoryzacji dużych repozytoriów lub budowania systemów asystentów. Firmy takie jak Cursor, Windsurf i Replit używają Claude’a jako swojego głównego modelu.
- Wybierz Gemini 2.5 Pro, jeśli musisz przeanalizować ogromne bazy kodu, pracujesz z długą dokumentacją techniczną lub budujesz systemy wymagające głębokiego zrozumienia kontekstu. Milionowe okno kontekstowe to przełom (ang. game-changer) przy analizie odziedziczonych systemów (ang. legacy systems).
- Wybierz GPT-5, jeśli potrzebujesz szybkiego, uniwersalnego narzędzia z najniższym wskaźnikiem halucynacji do codziennych zadań – od pisania testów po generowanie interfejsu użytkownika (ang. frontendu).
Dla twórców treści:
- Claude Sonnet 4.5 najlepiej rozumie niuanse i ton, generując bardziej przekonujące treści.
- Gemini 2.5 Pro sprawdzi się przy pracy z materiałami multimedialnymi – wideo, obrazy, dźwięk.
- GPT-5 ma najniższy wskaźnik halucynacji (45% redukcja względem GPT-4o) – to najlepszy wybór dla rzetelnych treści faktograficznych.
Głosy z Terenu – co mówią praktycy?
Simon Willison, uznany twórca oprogramowania i eksperymentator AI, po testach z Claude Sonnet 4.5 napisał: „Moje początkowe wrażenie było takie, że czuję lepszy model do kodu niż GPT-5-Codex”. Mike Krieger, dyrektor produktu w Anthropic, powiedział, że Claude Sonnet 4.5 będzie domyślnym modelem dla użytkowników i że Anthropic zaleca ten model „w zasadzie do każdego przypadku użycia”.
Z drugiej strony, MIT Technology Review było bardziej sceptyczne wobec GPT-5. Recenzent stwierdził, że GPT-5 nie spełnił obietnic „znaczącego kroku w kierunku AGI”, nazywając go bardziej „przyjemniejszym w użyciu” niż rewolucyjnym.
Przyszłość – dokąd zmierza rynek?
Październik 2025 pokazuje wyraźne trendy:
- Specjalizacja – modele są optymalizowane pod konkretne zadania (kodowanie, analiza, treści).
- Długi kontekst – milionowe okna kontekstowe stają się standardem.
- Asystenci – modele przestają być czatbotami, stają się autonomicznymi asystentami.
- Efektywność – mniejsze modele osiągają 90% wydajności flagowych przy ułamku kosztów.
- Wojna cenowa – OpenAI agresywnie obniża ceny, wywierając presję na konkurencję.
Clémentine Fourrier, badaczka AI z HuggingFace, podsumowała obecny stan: „Wskaźniki osiągnięć takie jak SWE-bench są bliskie nasycenia, co oznacza, że obecne modele osiągnęły niemal maksymalną wydajność. Dopiero wynik 80–85% na SWE-bench byłby prawdziwie imponujący”.
Werdykt – nie ma jednego zwycięzcy
W październiku 2025 roku wybór LLM to nie kwestia „który jest najlepszy”, ale „który najlepiej pasuje do Twojego scenariusza użycia”.
- Claude Sonnet 4.5 to niekwestionowany król kodowania autonomicznych asystentów i wielogodzinnych zadań.
- Gemini 2.5 Pro dominuje w rozumowaniu naukowym, długim kontekście i zdolności analizy różnorodnych mediów.
- GPT-5 to najbardziej uniwersalne narzędzie z najniższym wskaźnikiem halucynacji i najlepszym doświadczeniem użytkownika (ang. user experience).
Jak trafnie ujął to Michael Krieger z Anthropic: „Znajdowaliśmy to, i nasi klienci również to znajdują, bardzo przydatne do prawdziwej, faktycznej pracy”.
I właśnie o to chodzi – o prawdziwą pracę, nie liczby we wskaźnikach osiągnięć.
Źródła:
- Anthropic: “Introducing Claude Sonnet 4.5” (29.09.2025)
- Google DeepMind: “Gemini 2.5: Our newest Gemini model with thinking” (28.03.2025)
- OpenAI: “Introducing GPT-5” (07.08.2025)
- TechCrunch: “Anthropic launches Claude Sonnet 4.5” (29.09.2025)
- Wikipedia: “GPT-5” (październik 2025)
- Simon Willison: “Putting Gemini 2.5 Pro through its paces” (25.03.2025)
- Vellum LLM Leaderboard (październik 2025)

