OpenAI ogłosiło premierę nowego modelu AI o nazwie o1, który jest pierwszym w serii modeli zdolnych do bardziej zaawansowanego „rozumowania”. Model ten potrafi rozwiązywać bardziej złożone problemy szybciej niż człowiek. Wraz z o1, firma wprowadza również jego mniejszą i tańszą wersję o nazwie o1-mini. Nowy model był wcześniej znany pod kryptonimem „Strawberry”.

Dla OpenAI o1 to ważny krok w kierunku stworzenia sztucznej inteligencji o ludzkich zdolnościach. Praktycznie rzecz biorąc, nowy model jest lepszy w pisaniu kodu i rozwiązywaniu wieloetapowych problemów w porównaniu do swoich poprzedników. Jednak jego użycie jest droższe i wolniejsze niż GPT-4o. OpenAI określa premierę o1 jako „preview”, co oznacza, że to wczesna wersja.
Użytkownicy planów ChatGPT Plus i Team mogą już od dzisiaj korzystać z wersji o1-preview i o1-mini. Użytkownicy wersji Enterprise i Edu dostaną dostęp w przyszłym tygodniu. Wersja o1-mini ma być udostępniona bezpłatnym użytkownikom ChatGPT, ale nie ma jeszcze ustalonej daty. Cena korzystania z o1 dla deweloperów jest wysoka – $15 za milion tokenów wejściowych i $60 za milion tokenów wyjściowych. Dla porównania, GPT-4o kosztuje $5 i $15 za te same ilości tokenów.
Proces szkolenia o1 różni się od poprzednich modeli. Jerry Tworek, lider badań w OpenAI, wyjaśnia, że o1 został przeszkolony przy użyciu nowego algorytmu optymalizacji oraz specjalnie dobranego zestawu danych. Model ten uczy się rozwiązywać problemy samodzielnie, stosując technikę zwaną uczeniem przez wzmocnienie (reinforcement learning), która wykorzystuje nagrody i kary.
Dzięki nowej metodologii treningowej model jest bardziej precyzyjny. Tworek zauważa, że o1 rzadziej „halucynuje” (czyli generuje błędne odpowiedzi), ale problem ten wciąż nie został całkowicie rozwiązany. Wyróżnikiem modelu o1 w porównaniu z GPT-4o jest jego zdolność do rozwiązywania bardziej złożonych problemów, jak matematyka i programowanie, oraz lepsze wyjaśnianie swojego rozumowania.
Bob McGrew, dyrektor ds. badań w OpenAI, podkreśla, że o1 znacznie lepiej radzi sobie z testami matematycznymi, osiągając 83% poprawnych odpowiedzi na egzaminie kwalifikacyjnym do Międzynarodowej Olimpiady Matematycznej. Dla porównania, GPT-4o osiągnął jedynie 13%. W zawodach programistycznych Codeforces, o1 osiągnął 89. percentyl, a przyszłe aktualizacje mają sprawić, że model będzie dorównywał studentom doktoranckim w takich dziedzinach jak fizyka, chemia i biologia.
Pomimo swoich zalet, o1 nie jest tak wszechstronny jak GPT-4o w niektórych obszarach. Ma mniejsze możliwości w zakresie wiedzy faktograficznej o świecie i nie potrafi przeglądać internetu ani przetwarzać plików i obrazów. OpenAI jednak uważa, że o1 otwiera nową klasę możliwości, dlatego model nazwano o1, co symbolizuje „powrót do początku”.
McGrew przyznaje, że OpenAI nie jest najlepsze w nadawaniu nazw modelom, ale liczy, że o1 będzie początkiem bardziej sensownych nazw w przyszłości. Podczas demonstracji modelu, o1 rozwiązał skomplikowaną zagadkę matematyczną, pokazując krok po kroku swoje rozumowanie, co zdaniem obserwatorów przypominało sposób myślenia człowieka.
OpenAI stawia na rozwój zdolności rozumowania w swoich modelach, dążąc do stworzenia autonomicznych systemów, które będą mogły podejmować decyzje i działać w imieniu użytkowników. Według McGrew, prace nad rozumowaniem są kluczowe dla osiągnięcia przełomu w kierunku sztucznej inteligencji na poziomie ludzkim.