Francuzi z Mistral AI postanowili w końcu potraktować polski poważnie. Na oficjalnym forum Mistral pojawiło się ogłoszenie o dedykowanym dostrojeniu modelu Large dla języka polskiego — pierwszym takim ruchu w historii tej firmy. Dostęp przez API ma być możliwy od marca. Dla polskich deweloperów i firm korzystających z modeli językowych to całkiem konkretna wiadomość.
Przez lata największym problemem przy używaniu modeli AI w pracy z polskim tekstem były znaki diakrytyczne. Ą, ę, ó, ś, ź, ż — te niepozorne literki potrafiły zamienić generowany tekst w coś, co wyglądało jak wynik awarii na produkcji. Mistral deklaruje, że nowy model nie ma tego problemu. Zero artefaktów. Jeśli to prawda, a nie tylko marketingowy optymizm — to już jest powód, żeby zwrócić uwagę.
200 milionów dokumentów to nie przelewki
Skala treningu robi wrażenie. Mistral podało, że model przeszedł przez 200 milionów polskich dokumentów. Dla porównania — polska Wikipedia liczy około 1,7 miliona artykułów. To oznacza, że do treningu trafiły źródła daleko poza encyklopedią: prasa, literatura, dokumenty urzędowe, fora, może e-booki. Taki zakres daje modelowi szansę na faktyczne rozumienie polskiego kontekstu — nie tylko poprawną gramatykę, ale też idiomy, realia i specyfikę języka, który morfologicznie należy do najtrudniejszych w Europie.
Polski to nie jest język, który wystarczy nakarmić kilkoma tysiącami przykładów i liczyć na cud. Mamy siedem przypadków, czasowniki zmieniają końcówki zależnie od rodzaju, liczby i osoby, a zdanie „Ala ma kota” można zapisać na kilkanaście sposobów z identycznym znaczeniem. Modele trenowane głównie na angielszczyźnie zawsze sobie z tym radziły… przeciętnie. Dedykowane dostrojenie to inna filozofia.
Mistral gra w Europie, nie tylko w Dolinie
Mistral AI od początku buduje tożsamość jako europejska alternatywa dla OpenAI i Anthropic. Siedziba w Paryżu, finansowanie częściowo z europejskich źródeł, retoryka o suwerenności cyfrowej — wszystko to układa się w spójną narrację. Dodanie polskiego do listy dobrze wspieranych języków to kolejny krok w tym kierunku. Polska to rynek z ponad 38 milionami użytkowników internetu i firmami, które coraz chętniej sięgają po modele językowe w codziennej pracy.
Dla Mistrala to też gra o deweloperów. Jeśli model faktycznie dobrze radzi sobie z polskim — a nie tylko deklaruje, że radzi — firmy budujące na nim produkty dla polskich klientów mają realny argument, żeby nie iść po domyślne GPT-5 czy Claudea. To nie jest rynek do zignorowania, a Mistral najwyraźniej rozumie to wcześniej niż część konkurencji.
Co z tym zrobić od marca?
Dostęp przez API od marca oznacza, że polskie firmy i deweloperzy będą mogli integrować model bezpośrednio w swoich aplikacjach. Chatboty obsługi klienta, generatory dokumentów, narzędzia do analizy polskich tekstów, systemy podsumowujące raporty po polsku — to wszystko nagle staje się łatwiejsze do zbudowania bez ręcznego łatania problemów z diakrytykami.
Na razie szczegółów technicznych jest mało — ogłoszenie pochodzi z forum Mistral, a nie z rozbudowanego komunikatu prasowego. Nie znamy testów porównawczych z innymi modelami obsługującymi polski, nie wiemy też nic o cenniku w odniesieniu do standardowego Large. To rzeczy, które powinny wyjść na jaw wraz z marcową premierą. Do tego czasu pozostaje zdrowy sceptycyzm połączony z umiarkowanym optymizmem — bo kierunek jest zdecydowanie właściwy, a skala treningu sugeruje, że Mistral podszedł do tematu poważnie, a nie na odczepnego.
Jeśli model faktycznie dowiezie to, co obiecuje, polskie AI przestaje być niszą obsługiwaną przez zewnętrzne modele z angielskim mózgiem i polskim słownictwem doklejonym na siłę. A to już jest zmiana, którą będzie można poczuć w praktyce.