Generowanie obrazów i grafik to jeden z najbardziej sztandarowych przykładów zastosowania sztucznej inteligencji we współczesnym świecie. Wbrew pozorom nie jest to też takie łatwe zajęcie, bo do naszej dyspozycji jest wiele modeli, które się tym zajmują, a sam proces nie opiera się jedynie na „wklepywaniu promptów” do edytora (jeśli chcecie robić to dobrze, to koniecznie sprawdźcie nasze poradniki).
Aktualnie na rynku wyróżnić można całkiem sporo modeli (jak na ten konkretny segment), które promowane są ze względu na swoją różnorodność, ale także bardzo szeroki zakres dostępnych opcji. Często wybór jednego z tych modeli to kwestia preferencji i potrzeb, jakie mamy.
Stability AI ogłosiło właśnie wydanie kolejnej wersji swojego narzędzia, czyli Stable Diffusion. Prezentowane przez firmę nowości i zmiany faktycznie mogą być przyjęte bardzo ciepło, bo widać, że inżynierowie wyciągnęli bardzo konkretne wnioski z poprzednich rewizji. Czym więc wyróżniać się będzie Stable Diffusion 3.5?
Stable Diffusion 3.5, czyli kolejny etap rozwoju cenionego narzędzia
Dotychczas dostępna wersja Stable Diffusion 3 w oczach wielu użytkowników nie była tym, czego oczekiwali. Niezadowolenie z wersji udostępnionej w czerwcu 2024 roku było na tyle duże, że samo Stability AI przyznało to w jednym z lipcowych komunikatów. Problematyczne okazały się nie tylko kwestie licencji, ale też samego działania modelu, co skutecznie zniechęciło lub zraziło spore grono stałych i potencjalnych odbiorców.
Od tamtego czasu firma pracowała nie tylko nad wprowadzeniem kolejnych zmian i poprawek, ale też zupełnie nową wersją swojego narzędzia. W efekcie tego obserwatorzy poczynań firmy doczekali się wczoraj prawdziwej zmiany, która postrzegana może być jak krok naprzód w rozwoju tego modelu.
We wpisie opublikowanym na stronie Stability AI możemy przeczytać, że Stable Diffusion 3.5 to swoiste „odzwierciedlenie” zaangażowania w tworzenie narzędzi dla twórców. Brzmi to oczywiście bardzo pompatycznie, jednak nie zabrakło konkretów, na które wiele osób po prostu czekało. O czym więc dokładnie mowa?
Stable Diffusion 3.5 – najważniejsze informacje o nowej wersji
Najważniejszą nowiną jest na pewno fakt wprowadzenia różnych modeli, które opracowane zostały na podstawie potrzeb użytkowników. Dzięki temu każdy, kto skorzysta z narzędzia (naukowiec, artysta, inżynier lub hobbysta) będzie mógł dobrać odpowiednią dla siebie wersję Stable Diffusion 3.5. Mowa o następujących opcjach:
- Stable Diffusion 3.5 Large — dzięki 8 miliardom parametrów, najwyższej jakości i szybkiej przyczepności, ten podstawowy model jest najpotężniejszym w rodzinie Stable Diffusion. Ten model jest idealny do zastosowań profesjonalnych przy rozdzielczości 1 megapiksela.
- Stable Diffusion 3.5 Large Turbo — ekstraktowana wersja Stable Diffusion 3.5 Large generuje wysokiej jakości obrazy z wyjątkową szybkością przylegania w zaledwie 4 krokach, co czyni go znacznie szybszym niż Stable Diffusion 3.5 Large.
- Stable Diffusion 3.5 Medium — model wyposażony w 2,5 miliarda parametrów, z ulepszoną architekturą MMDiT-X i metodami uczenia, został zaprojektowany do pracy „od razu po wyjęciu z pudełka” na sprzęcie konsumenckim, zapewniając równowagę pomiędzy jakością i łatwość dostosowywania. Jest w stanie generować obrazy o rozdzielczości od 0,25 do 2 megapikseli. Jego premiera zaplanowana jest na 29 października 2024 roku.
Jest więc w czym wybierać i faktycznie widać tutaj, że inżynierowie postawili na pewną elastyczność i dostosowanie narzędzia do potrzeb odbiorców. Nie jest to jednak opcja idealna.
Wszystkie opisane modele wyposażono w normalizację Query-Key w blokach transformatorów. Z jednej strony zwiększa to stabilność treningu i upraszcza procesy dostrajania. Odbywa się to jednak kosztem większego zróżnicowania wyników przy identycznych komendach czy seedach.
Wartym uwzględnienia jest także fakt, że model „Medium” doczekał się dodatkowych zmian w architekturze i procedurach szkoleniowych. Dzięki temu poprawiono jakość i spójność obrazu. Dodatkowo daje to możliwość generowania obrazów w wielu rozdzielczościach.
Co wyróżnia Stable Diffusion 3.5 od konkurencji?
Przedstawiciele Stability AI we wpisie poświęcili specjalny segment na opisanie najbardziej charakterystycznych elementów, które wyróżniają to narzędzie od innych. Można to traktować, jak bardzo marketingowe podejście, jednak ostatecznie daje nam to pewien ogląd na to, czego się po tym modelu spodziewać.
Firma twierdzi, że Stable Diffusion 3.5 cechuje się większą możliwością dostosowania do potrzeb, większą różnorodnością wyników i wszechstronnością styli. To właśnie ma stanowić o silne tego narzędzia na tle konkurencji. Dodatkowo ma o tym świadczyć jego lepsza wydajność.
Producenci pochwalili się, że model Large Turbo jest jednym z najszybszych modeli na rynku (grafika powyżej), który oferuje bardzo dobrą jakość generowanego obrazu. Pod tym względem ulega on jedynie FLUX.1, ale ten może pochwalić się aż 12 miliardami parametrów, co rzeczywiście deklasuje jakąkolwiek konkurencję.
Wszystko to pokazuje faktyczny rozwój narzędzia i nawet jeśli ma ono swoje wady, to nadal jest to całkiem ciekawa propozycja dla wielu grup odbiorców. Pozostaje więc pytanie o dalsze możliwości progresu i tego, jakie jeszcze funkcje będzie w stanie nam dostarczać. Tego być może dowiemy się już w pierwszej połowie przyszłego roku.