Internet zjada własny ogon. Czy AI wykończy dane, na których się uczy?
Najpierw sztuczna inteligencja połknęła internet. Teraz internet zaczyna przypominać sztuczną inteligencję: gładki, poprawny, szybki, tani i dziwnie bezbarwny. Dla użytkowników to irytacja. Dla wydawców — problem biznesowy. Dla firm tworzących modele AI — być może początek kryzysu surowcowego. Bo jeśli przyszłe algorytmy będą uczyć się głównie na treściach produkowanych przez wcześniejsze algorytmy, sieć może zacząć zatruwać samą siebie.
Wpisujesz pytanie w wyszukiwarkę: jak wyczyścić pralkę, jaki rower kupić, co oznacza dziwny objaw, gdzie pojechać z dzieckiem na weekend. Dostajesz odpowiedź. Długa, uprzejma, uporządkowana. Ma śródtytuły, listę punktów, akapity „na wynos”, może nawet sekcję FAQ. Wygląda jak tekst napisany przez kogoś, kto wie. Ale im dłużej czytasz, tym bardziej masz wrażenie, że to nie człowiek, lecz echo człowieka. Żadnego doświadczenia, żadnego ryzyka, żadnej obserwacji z pierwszej ręki. Treść poprawna jak hotelowy korytarz: czysta, oświetlona, pusta.
Anglojęzyczny internet ma już na to słowo: slop. Coś pomiędzy śmieciem, papką i wypełniaczem. Chodzi o niskiej jakości cyfrową treść produkowaną zwykle masowo za pomocą sztucznej inteligencji. To ważne nie dlatego, że słowniki rozstrzygają historię technologii, ale dlatego, że język często szybciej niż prawo i nauka wyłapuje społeczne zmęczenie. Skoro potrzebujemy nowego słowa na internetową papkę, to znaczy, że papka stała się zjawiskiem codziennym.
Przez dwie dekady internet był dla firm technologicznych czymś w rodzaju darmowego złoża. Chaotycznego, nierównego, często toksycznego, ale niesłychanie bogatego. Blogi, fora, komentarze, recenzje, artykuły, instrukcje, prace naukowe, transkrypcje, rozmowy, kod, zdjęcia, memy — wszystko to tworzyło wielką, nieformalną bibliotekę ludzkich zachowań. Modele językowe nie nauczyły się mówić dlatego, że ktoś zaprogramował im reguły rozmowy. Nauczyły się, bo dostały ogromne ilości ludzkiego tekstu.
Problem polega na tym, że teraz same zaczęły ten tekst masowo produkować.
Badania nad skalą treści generowanych przez AI pokazują, że coraz większa część nowych stron internetowych jest klasyfikowana jako wygenerowana lub wspomagana przez sztuczną inteligencję. Szczególnie ciekawe są dwa efekty: treści AI bywają do siebie bardziej podobne znaczeniowo oraz mają wyraźnie bardziej pozytywny, uładzony ton. Nie oznacza to automatycznie, że każda taka treść jest fałszywa. Problem jest subtelniejszy: AI może sprawiać, że internet staje się bardziej podobny do samego siebie.
Inne pomiary sugerują, że większość nowych stron nie jest już ani w pełni ludzka, ani w pełni maszynowa. To raczej internet hybryd, w którym człowiek naciska „wygeneruj”, poprawia dwa zdania, dodaje zdjęcie i publikuje. Nie tyle sieć robotów, ile sieć półautomatów.
Kiedy kopia uczy się z kopii
Dla zwykłego użytkownika to kłopot estetyczny i praktyczny. Trzeba przekopywać się przez strony stworzone nie po to, by coś wyjaśnić, ale by zająć miejsce w wynikach wyszukiwania. Dla twórców modeli AI to jednak znacznie poważniejsze pytanie: co się stanie, jeśli kolejne generacje systemów będą trenowane na danych, w których coraz większą część stanowią produkty poprzednich generacji?
Naukowcy opisują to zjawisko jako model collapse — zapadanie się modelu. To proces degeneracyjny: dane generowane przez modele trafiają do zbioru treningowego następnej generacji, a ta zaczyna coraz gorzej odwzorowywać rzeczywistość. W wersji wczesnej model traci informacje o rzadkich, nietypowych fragmentach danych. W wersji późnej jego obraz świata może stać się mocno zubożony i coraz mniej podobny do oryginału. Mówiąc prościej: jeśli maszyna uczy się głównie z uśrednionych kopii, zaczyna mylić średnią z prawdą.
To brzmi abstrakcyjnie, ale można wyobrazić to sobie banalnie. Załóżmy, że w prawdziwym internecie istnieją tysiące opinii o podróżach: jedne entuzjastyczne, drugie złośliwe, trzecie pełne dziwnych detali, czwarte napisane przez ludzi, którzy naprawdę zgubili bagaż, pokłócili się z recepcją albo trafili na genialnego przewodnika. Model uczy się z tego bogactwa i generuje recenzję: „Hotel oferuje komfortowe pokoje, przyjazną obsługę i dogodną lokalizację”. Potem takich wygenerowanych recenzji pojawiają się miliony. Kolejny model uczy się już nie tylko z ludzkiego chaosu, ale także z milionów zdań o „komfortowych pokojach” i „przyjaznej obsłudze”. Po kilku rundach rzadkie doświadczenia znikają. Zostaje fraza.
A przecież właśnie rzadkie doświadczenia są często najcenniejsze. Nietypowy objaw choroby. Lokalny zwyczaj. Błąd w niszowym programie. Ostrzeżenie przed konkretnym oszustwem. Drobna obserwacja, której nie ma w oficjalnej instrukcji. Internet był wartościowy nie dlatego, że był elegancki. Był wartościowy dlatego, że był nadmiarowy, niekonsekwentny i ludzki.
Model collapse nie oznacza, że każda treść syntetyczna jest trucizną. To byłoby zbyt proste. Dane syntetyczne bywają użyteczne, zwłaszcza gdy są projektowane, filtrowane i weryfikowane. Mogą pomagać tam, gdzie brakuje oznaczonych przykładów, gdzie danych wrażliwych nie można użyć bezpośrednio albo gdzie łatwo sprawdzić poprawność odpowiedzi, na przykład w części zadań programistycznych. Różnica między wartościowym zbiorem syntetycznym a internetową papką jest jak różnica między symulatorem lotu a rysunkiem samolotu na serwetce.
Dane z ludzi robią się towarem luksusowym
W tym samym czasie, gdy sieć zalewa treść generowana maszynowo, wartościowe dane ludzkie stają się trudniejsze do zdobycia. Wydawcy, fora, platformy i właściciele stron coraz częściej blokują crawlery albo żądają zapłaty. To jest paradoks nowej sieci. Najbardziej wartościowe dane — świeże, autentyczne, pisane przez ekspertów albo realnych użytkowników — chowają się za paywallami, umowami licencyjnymi i blokadami. Najłatwiej dostępne stają się natomiast treści masowe, tanie i pochodne. Czyli dokładnie te, które mogą pogarszać jakość kolejnych modeli.
Nawet infrastruktura internetu zaczyna się do tego dostosowywać. Pojawiają się mechanizmy, które pozwalają właścicielom stron wybierać, czy crawler AI ma mieć dostęp za darmo, za opłatą, czy nie mieć go wcale. Technicznie to drobiazg; symbolicznie — zmiana epoki. Przez lata domyślną zasadą sieci było: roboty chodzą, indeksują, a w zamian wyszukiwarki odsyłają ludzi do źródeł. W epoce AI ten układ się psuje, bo bot może pobrać treść, model może ją streścić, użytkownik może dostać odpowiedź, a autor może nie dostać ani kliknięcia, ani pieniędzy.
Wydawcy i właściciele treści coraz częściej skarżą się więc na ruch generowany przez boty AI, który obciąża strony, ale nie przekłada się na wizyty użytkowników. To szczególnie wymowne w przypadku relacji między liczbą pobrań treści a liczbą odesłań do źródeł. Jeśli platforma pobiera dużo, a odsyła mało, dawny kontrakt internetu przestaje działać.
Wielka biblioteka bez bibliotekarza
Żeby zrozumieć skalę problemu, wystarczy spojrzeć na publiczne archiwa sieci wykorzystywane w pracach nad modelami językowymi. To miliardy stron internetowych, setki terabajtów treści, miliony domen i hostów. Nie jest to biblioteka w klasycznym sensie. To raczej gigantyczny odkurzacz przejeżdżający przez światowy bałagan.
W dawnym internecie taki bałagan był zaletą. Można było z niego wyciągać sygnały, bo za większością stron stały jakieś ludzkie intencje: zarobek, wiedza, pasja, złość, nuda, potrzeba pomocy, chęć popisania się. Dzisiejszy bałagan coraz częściej ma intencję czysto algorytmiczną: zapełnić niszę, przechwycić wyszukiwanie, wygenerować kliknięcie, sprzedać reklamę, wypełnić katalog, napompować profil.
To dlatego mówienie o „martwym internecie” jest przesadą, ale przesadą intuicyjnie zrozumiałą. Internet nie jest martwy. Ludzie nadal piszą, kłócą się, tworzą, odkrywają, pomagają sobie i publikują rzeczy znakomite. Ale pomiędzy nimi rośnie warstwa syntetycznej waty. Nie zabija sieci jednym ciosem. Raczej wygłusza ją jak pianka akustyczna.
Maszyna nie musi kłamać, żeby szkodzić
Najbardziej mylące w dyskusji o AI jest skupienie się wyłącznie na halucynacjach. Owszem, błędy są problemem. Ale internet może zostać pogorszony także przez teksty, które są zasadniczo prawdziwe. Wystarczy, że będą powtarzalne, wtórne i pozbawione kontaktu z rzeczywistością.
Maszyna nie musi wymyślić fałszywego przepisu, żeby zaszkodzić kulturze wiedzy. Wystarczy, że wygeneruje tysiąc poprawnych przepisów bez jednego kucharza, który naprawdę sprawdził proporcje. Nie musi sfałszować recenzji lekarza. Wystarczy, że stworzy setki neutralnych opisów klinik na podstawie innych neutralnych opisów. Nie musi pisać propagandy. Wystarczy, że będzie produkować teksty tak gładkie, tak ostrożne i tak podobne do siebie, że użytkownik przestanie widzieć różnicę między wiedzą, marketingiem i automatycznym wypełniaczem.
W tym sensie AI może zatruwać internet nie jak trucizna, ale jak cukier. Trochę poprawia smak, dużo obniża wartość odżywczą.
Platformy będą walczyć AI z AI
Oczywiście żadna duża platforma nie przyzna, że bezradnie patrzy na zalew syntetycznej treści. Przeciwnie: zaczyna się wyścig systemów filtrujących. Narzędzia oparte na AI mają wykrywać spam, oszustwa, fałszywe reklamy, farmy treści i automatycznie generowane materiały niskiej jakości. Jednocześnie źli aktorzy używają generatywnej AI do tworzenia tych samych zwodniczych treści szybciej, taniej i na większą skalę.
To modelowa scena nowej epoki: AI produkuje śmieci, AI wykrywa śmieci, AI omija wykrywanie, AI wzmacnia wykrywanie.
Taki wyścig może być konieczny, ale nie rozwiązuje problemu u źródła. Jeśli ekonomia internetu nadal będzie nagradzać ilość, prędkość i dopasowanie pod algorytm, to narzędzia generatywne będą idealnym silnikiem tej ekonomii. Nie dlatego, że są złe. Dlatego, że są tanie.
Człowiek musi mieć temat, doświadczenie, czas, odpowiedzialność i powód, żeby napisać tekst. Maszyna potrzebuje promptu.
Czy da się oznaczyć prawdziwe?
Jedną z odpowiedzi ma być pochodzenie treści, czyli cyfrowa metryka: kto stworzył materiał, kiedy, jakimi narzędziami, czy był edytowany. Powstają standardy, które próbują stworzyć coś w rodzaju „etykiety żywieniowej” dla treści cyfrowych — informacji o historii pliku, dostępnej dla odbiorcy. To sensowny kierunek, szczególnie dla zdjęć, wideo i materiałów informacyjnych, choć nie jest magicznym rozwiązaniem. Etykieta pomaga, jeśli jest powszechnie stosowana, trudna do usunięcia w praktyce i zrozumiała dla użytkowników.
W przypadku tekstu problem jest jeszcze trudniejszy. Tekst można przepisać, streścić, przetłumaczyć, wkleić, przeredagować. Można poprosić model, żeby brzmiał „bardziej ludzko”. Można połączyć trzy źródła, dodać własny akapit i usunąć ślady. W świecie tekstu nie wystarczy pytać: „czy to napisała AI?”. Coraz częściej trzeba pytać: „czy ktoś za to odpowiada?”.
To może być najważniejsza różnica między treścią ludzką a syntetyczną. Nie styl. Nie długość zdań. Nie liczba przymiotników. Odpowiedzialność.
Powrót do drogiego internetu
Najciekawszy scenariusz nie polega więc na tym, że porzucimy AI. To nierealne i niepotrzebne. Bardziej prawdopodobne jest coś innego: powrót do drogiego internetu. Droższego w sensie ekonomicznym, ale też poznawczym.
Dane wysokiej jakości będą licencjonowane. Eksperckie źródła będą chronione. Wydawcy będą negocjować z firmami AI. Platformy będą oznaczać, blokować albo monetyzować crawlerów. Modele będą potrzebowały nie tylko większych zbiorów, ale lepszej selekcji. Wartość odzyskają rzeczy, które jeszcze niedawno wydawały się staroświeckie: redakcja, korekta, autorstwo, reputacja, archiwum, podpis, instytucja, źródło.
Być może największą ironią ery sztucznej inteligencji będzie to, że im więcej treści wygenerują maszyny, tym cenniejszy stanie się tekst napisany przez człowieka, który naprawdę coś widział, sprawdził, przeżył albo zrozumiał.
Nie każdy ludzki tekst jest dobry. Internet nigdy nie był rajem jakości. Był pełen spamu, plotek, błędów i agresji na długo przed ChatGPT. Ale miał jedną przewagę: był bezpośrednim zapisem ludzkich działań. Nawet głupich. Nawet brzydkich. Nawet chaotycznych. AI może ten zapis uporządkować, przetłumaczyć, streścić i uczynić dostępnym. Ale jeśli zacznie go zastępować, będzie piłować gałąź, na której siedzi.
Ostatni człowiek w pętli
Najbardziej niepokojąca wizja nie wygląda jak bunt robotów. Wygląda jak wyszukiwarka pełna odpowiedzi, których nikt nie napisał; sklep pełen recenzji, których nikt nie doświadczył; serwis informacyjny pełen streszczeń tekstów, których nikt już nie opłaca; model uczony na danych, które są cieniem wcześniejszego modelu.
W takim świecie AI nadal będzie mówić płynnie. Może nawet coraz płynniej. Będzie uprzejma, szybka, wielojęzyczna i zawsze gotowa. Tylko z czasem coraz trudniej będzie ustalić, czy za jej słowami stoi świat, czy jedynie poprzednia odpowiedź.
Internet nie musi umrzeć, żeby stracić wartość. Wystarczy, że stanie się miejscem, w którym treść coraz rzadziej wynika z doświadczenia, a coraz częściej z przewidywania następnego najbardziej prawdopodobnego zdania.
Dlatego stawką w sporze o AI nie jest tylko prawo autorskie, liczba kliknięć ani jakość chatbotów. Stawką jest to, czy sieć pozostanie zapisem ludzkiego życia, czy zmieni się w elegancki recykling własnych odbić.
Na początku AI uczyła się internetu. Teraz internet uczy się brzmieć jak AI. A jeśli nikt nie przerwie tej pętli, kolejna generacja maszyn może odkryć, że połknęła cały świat — i nadal jest głodna.


