Microsoft Maia 200 – chip, który zmienia ekonomikę wnioskowania AI

Microsoft wdrożył Maia 200, chip wnioskowania AI z trzykrotnie wyższą wydajnością FP4 niż Amazon Trainium i lepszy FP8 od Google TPU. Już pracuje w produkcji, obsługując GPT-5.2 i Copilota.
Microsoft Maia 200 – chip, który zmienia ekonomikę wnioskowania AI
Microsoft Maia 200 – chip, który zmienia ekonomikę wnioskowania AI

Maia 200 to akcelerator zbudowany na procesie 3 nm TSMC z natywnymi rdzeniami tensor FP8/FP4, przeprojektowanym systemem pamięci z 216 GB HBM3e przy 7 TB/s oraz 272 MB pamięci SRAM na chipie. To nie jest kolejny zwykły przyspieszacz — to odpowiedź Microsoftu na wysypanie się kosztów wnioskowania AI, które pochłania obecnie ok. 80 proc. budżetu operacyjnego każdej dużej firmy zajmującej się sztuczną inteligencją.

Maia 200 osiąga trzykrotnie wyższą wydajność FP4 niż trzecia generacja Amazon Trainium i wydajność FP8 powyżej siódmej generacji Google TPU. Cyfry są imponujące — chip dostarcza ponad 10 petaFLOPS w precyzji 4-bitowej (FP4) i ponad 5 petaFLOPS w precyzji 8-bitowej (FP8), wszystko w obwiedni 750W TDP. Dla porównania, to odpowiada wydajności kilku GPU Nvidii H100 w jednym chipie, z wyraźnie lepszą efektywnością energetyczną.

Ekonomika wnioskowania zmienia się z dnia na dzień

Maia 200 to najbardziej wydajny system wnioskowania, jaki Microsoft kiedykolwiek wdrożył, z 30 proc. lepszą wydajnością na dolara niż najnowsza generacja sprzętu w jego flocie. Brzmieć może jak typowy slogan marketingowy, ale czekaj — modele AI były uruchomione na chipie Maia 200 w ciągu dni od dostarczenia pierwszych sztuk, a czas od pierwszego krzemu do pierwszego wdrożenia w raku serwerów zmniejszył się do poniżej połowy czasu porównywalnych projektów infrastruktury AI. To oznacza, że Microsoft nie czekał lata na debugowanie — system jest gotowy do pracy natychmiast.

Gdzie to się wdrażało? Maia 200 jest wdrażany w regionie Azure US Central blisko Des Moines w Iowa, a region US West 3 blisko Phoenix w Arizona będzie następny. Chip obsługuje najnowsze modele GPT-5.2 od OpenAI, przynosząc lepszą wydajność na dolara do Microsoft Foundry i Microsoft 365 Copilot. To nie jest papierowa architektura — to już pracuje na produkcji.

Jak Microsoft obchodził problem przepustowości pamięci

Każdy inżynier, który pracował z dużymi modelami językowymi, wie, że problem nie jest obliczeniami — to przepływ danych. Można mieć miliony FLOPS, ale jeśli dane nie trafiają do procesora wystarczająco szybko, GPU siedzi i czeka. Microsoft rozwiązał to inaczej niż konkurenci.

System pamięci Maia 200 jest skoncentrowany na wąskoprzemiennych typach danych, specjalistycznym silniku DMA, SRAM na chipie i specjalistycznej tkaninie NoC do przesyłania danych o wysokiej przepustowości, zwiększając wydajność tokenów. W praktyce oznacza to, że dane poruszają się szybciej niż mogłyby w standardowych systemach, bo każdy element — od pamięci aż do jednostek obliczeniowych — jest zoptymalizowany do współpracy ze sobą, a nie „dołączony” do siebie jak przysłowiowy komputer z komponentów ze sklepu elektronicznego.

Na poziomie systemowym Maia 200 wprowadza nowy projekt sieci skalującej na dwa poziomy zbudowany na standardowym Ethernecie. To jest genialny ruch — zamiast wierzyć w zastrzeżone fabryki Infoband (którymi zajmuje się Nvidia), Microsoft użył zwykłych kabli Ethernet. Każdy może kupić takie kable, każdy może je naprawiać, każdy nie musi czekać na Nvidię.

A co z dostępem dla normalnych ludzi?

Tutaj robi się interesująco. Scott Guthrie stwierdził, że dla nowego chipa będzie „szersza dostępność dla klientów w przyszłości”. Co to oznacza? Nie teraz. Do tej pory chipy Maia były używane jedynie w infrastrukturze Azure do uruchamiania dużych obciążeń dla własnych usług AI Microsoftu, zwłaszcza Copilota. To się zmienia, ale powoli.

Deweloperzy, naukowcy, laboratoria AI i osoby przyczyniające się do modeli AI o otwartym kodzie mogą aplikować na podgląd zestawu narzędzi programistycznych. SDK zawiera kompilator Triton, wsparcie dla PyTorch, programowanie niskiego poziomu w NPL oraz symulator Maia i kalkulator kosztów do optymalizacji efektywności wcześnie w cyklu życia kodu. To jest solidny zestaw narzędzi — to nie jest „oto mamy SDK”, to „oto możesz rzeczywiście tworzyć na tym”.

Gdzie to idzie? Wielkie rzeczy

Zespół Microsoft Superintelligence planuje używać Maia 200 do generowania danych syntetycznych i nauki wzmacniającej podczas opracowywania modeli. To jest zagrywka strategiczna — jeśli możesz generować syntetyczne dane treningowe na własnym chipie szybciej i taniej niż konkurencja, zdobywasz przewagę na następnych przebiegach modelu.

Maia 200 przychodzi dwa lata po tym, jak Microsoft ogłosił Maia 100, który nigdy nie był dostępny dla klientów chmury do wynajęcia. Tym razem inaczej — Microsoft planuje szerszą dostępność dla klientów dla nowego chipa, w przeciwieństwie do jego poprzednika, który nie był dostępny dla klientów chmury do wynajęcia, mimo że wykazał, że GitHub Copilot może działać na sprzęcie.

Zamiast gonić gorący rynek treningu, Microsoft gra dłuższą grę z Maią, skupiając się na wnioskowaniu — fazie AI, która będzie przesycać obciążenia dla firm. To zdanie najlepiej podsumowuje strategię — nie konkurencja z Nvidią w treningu (za drogo, za mało kontroli), ale przejęcie całego rynku wnioskowania, gdzie każdy token kosztuje, i każdy procent efektywności to miliony dolarów na skalę hyperscalera.

Czy to koniec dominacji Nvidii?

Nie. Ale to początek końca jej monopolu. Nvidia sprzedaje przełączniki InfiniBand po przejęciu Mellanox w 2020 roku. Nvidią jest zatem zintegrowana w każdej infrastrukturze — AI, sieć, kontrola. Microsoft właśnie powiedział: „nie dzięki”. Czy wszyscy podzielą decyzję Microsoftu? Czas pokaże. Ale jeśli jeden z trzech hyperscalerów zmienia architekturę, pozostali muszą się pytać, czy mogą sobie pozwolić na czekanie.

NVIDIA Rubin — superkomputery AI za 1/10 ceny tokenów. H2 2026 zmienia gospodarkę centrów danych

NVIDIA Rubin — superkomputery AI za 1/10 ceny tokenów. H2 2026 zmienia gospodarkę centrów danych

Prev
Cursor rozpracowuje GitHub Copilot – ponad 200 milionów użytkowników przesiada się na najszybszy edytor AI

Cursor rozpracowuje GitHub Copilot – ponad 200 milionów użytkowników przesiada się na najszybszy edytor AI

Next