OpenAI pokazuje regulatorom pracę domową. Bez testów AI nikt już nie uwierzy w same benchmarki
OpenAI opublikowało Frontier Governance Framework i tekst o niezależnych ewaluacjach modeli. To znak, że w AI kończy się epoka prostych rankingów, a zaczyna epoka testów, audytów i opisanych ryzyk.
OpenAI opublikowało Frontier Governance Framework oraz szczegółowe wskazówki dotyczące niezależnych ewaluacji modeli frontier. To nie jest efektowna premiera produktu, ale może być ważniejsza niż niejeden nowy chatbot. Branża AI wchodzi w moment, w którym same benchmarki przestają wystarczać.
Przez ostatnie lata wyścig AI karmiono prostymi tabelkami. Model A ma lepszy wynik w teście kodowania, model B wygrywa w matematyce, model C jest tańszy w API, model D ma dłuższy kontekst. Taki język dobrze działa w prezentacjach, ale coraz gorzej opisuje rzeczywistość. Dzisiejsze systemy AI nie są już tylko generatorami tekstu. Korzystają z narzędzi, planują, wykonują wieloetapowe zadania, przeszukują sieć, piszą kod i mogą działać przez dłuższy czas. Dlatego pytanie „jaki ma wynik?” jest coraz mniej wystarczające. Trzeba pytać: w jakim środowisku, z jakimi narzędziami, przy jakim budżecie, z jakimi zabezpieczeniami i czego dokładnie test dowodzi.
OpenAI opublikowało Frontier Governance Framework, dokument opisujący, jak praktyki bezpieczeństwa i zarządzania ryzykiem firmy mają odpowiadać na wymogi takich regulacji jak kalifornijski Transparency in Frontier AI Act oraz unijny kodeks praktyk dla modeli ogólnego przeznaczenia. Framework obejmuje między innymi ryzyka cyberofensywne, CBRN, szkodliwą manipulację, utratę kontroli, raportowanie modeli, zarządzanie bezpieczeństwem, reakcję na incydenty i udział zewnętrznych ekspertów.
Regulatorzy chcą zobaczyć nie obietnicę, tylko proces
To ważne, bo AI przechodzi z fazy „zaufajcie nam” do fazy „pokażcie, jak to sprawdzacie”. Firmy rozwijające modele frontier muszą coraz częściej tłumaczyć, jakie mają progi ryzyka, jak testują modele przed wdrożeniem, kto może je audytować i jak reagują na incydenty. Dla użytkowników może to brzmieć nudno. Dla rynku jest kluczowe. Jeśli AI ma wejść do finansów, obronności, administracji, medycyny i infrastruktury krytycznej, nie może opierać się wyłącznie na deklaracjach dostawcy.
Kalifornia i Unia Europejska idą różnymi ścieżkami, ale kierunek jest podobny: najpotężniejsze modele mają być opisywane, testowane i kontrolowane w sposób bardziej formalny. OpenAI, publikując framework, pokazuje regulatorom pracę domową. Jednocześnie robi coś strategicznego: próbuje zdefiniować język, w którym będzie oceniana branża. Kto pierwszy opisze standard, ten ma większą szansę, że standard będzie pasował do jego praktyk.
Ewaluacje agentów są trudniejsze niż testy chatbotów
Dzień później OpenAI opublikowało tekst o wiarygodnych ewaluacjach zewnętrznych. Najciekawszy jest tam nacisk na „harness”, czyli całe środowisko, w którym model wykonuje zadanie: narzędzia, pętle działania, kontekst, budżet tokenów, limity czasu, mechanizmy ponawiania prób i sposób oceny wyniku. To bardzo ważne, bo ten sam model może wyglądać słabo w prostym teście i bardzo mocno w środowisku, które pozwala mu korzystać z narzędzi i utrzymywać stan przez wiele kroków.
Innymi słowy: wynik modelu nie jest jedną liczbą oderwaną od warunków. Jest efektem całego systemu. Agent z przeglądarką, terminalem i pamięcią może zrobić rzeczy, których „goły” chatbot nie zrobi. Z kolei źle zaprojektowany test może zawyżyć wynik, jeśli model znajdzie skrót, wykorzysta błąd w ocenie albo trafi na zadanie obecne w danych treningowych. OpenAI wymienia tu znane problemy: reward hacking, odmowy zaburzające pomiar, kontaminację testów, zepsute zadania i sandbagging, czyli strategiczne zaniżanie możliwości przez model świadomy oceny.
Koniec prostych rankingów
Dla blogów technologicznych, firm i decydentów to moment otrzeźwienia. Rankingi modeli nadal będą popularne, bo są łatwe do udostępnienia. Ale w poważnych zastosowaniach będą coraz mniej użyteczne bez kontekstu. Model może być najlepszy w benchmarku, a gorszy w realnym procesie. Może być tańszy w pojedynczym zadaniu, ale droższy w skutecznym rozwiązaniu, jeśli wymaga wielu prób. Może mieć dobre zabezpieczenia przy prostym promptowaniu, ale słabe przy ataku prowadzonym przez agenta z narzędziami.
To zmienia też rolę niezależnych instytucji. AI Safety Institute, laboratoria akademickie, firmy audytowe i organizacje testujące modele będą coraz ważniejsze. Nie wystarczy opublikować wyników. Trzeba opisać, co dokładnie testowano, czego test nie mierzył i jaką tezę można na jego podstawie uczciwie postawić.
Najważniejszy produkt AI może być niewidoczny
Framework OpenAI nie rozwiązuje wszystkich problemów. To dokument firmy, która ma własny interes, własną narrację i własne ryzyka. Ale pokazuje, że branża AI dojrzewa do etapu, w którym governance, audyty i procedury staną się częścią produktu. Użytkownik końcowy może ich nigdy nie zobaczyć, tak jak nie widzi procedur bezpieczeństwa w lotnictwie. Ale bez nich zaufanie do AI będzie kruche.
Największe modele świata nie będą oceniane tylko za to, jak błyskotliwie odpowiadają. Będą oceniane za to, czy ich twórcy potrafią udowodnić, że wiedzą, co wypuszczają. W AI to może być różnica między innowacją a hazardem.


