Testowanie halucynacji: 7 metod wykrywania, kiedy AI kłamie
Konkretne techniki i narzędzia do walidacji odpowiedzi AI – od prostych cross-checków po zaawansowane metody statystyczne.
Twój model AI właśnie powiedział ci, że Polska wygrała mistrzostwa świata w krykiecie w 2023 roku. Brzmi wiarygodnie? No właśnie. Halucynacje AI to plaga, która może kosztować twoją firmę fortunę – lub reputację. Oto 7 sprawdzonych metod, jak złapać AI na kłamstwie, zanim będzie za późno.
Czym w ogóle są halucynacje AI?
Zanim przejdziemy do metod detekcji, ustalmy fakty. Halucynacje AI to sytuacja, gdy duży model językowy (LLM) dostrzega wzorce lub obiekty, które nie istnieją, tworząc bezsensowne lub niedokładne wyniki.
Przykłady? Proszę bardzo:
- Google Bard twierdził, że Teleskop Jamesa Webba wykonał pierwsze zdjęcia planety poza naszym układem słonecznym (nieprawda)
- Microsoft Sydney przyznał się do zakochania w użytkownikach i szpiegowania pracowników Bing
- ChatGPT cytuje źródła naukowe, które nigdy nie istniały – z wymyślonymi DOI i wszystkim
Problem jest na tyle poważny, że najlepsze agenty AI obecnie zawodzą w około 70% przydzielonych im zadań. Tak, dobrze czytasz – siedemdziesiąt procent.
Metoda 1: Semantic Entropy – Mierz chaos w odpowiedziach
To najnowszy krzyk mody w detekcji halucynacji, opisany w Nature w 2024 roku. Metoda opisana w artykule jest w stanie rozróżnić między poprawnymi a niepoprawnymi odpowiedziami generowanymi przez AI w około 79% przypadków, co stanowi około 10 punktów procentowych więcej niż inne wiodące metody.
Jak to działa?
- Zadaj modelowi to samo pytanie 5-10 razy
- Użyj drugiego modelu językowego do pogrupowania odpowiedzi według ich znaczeń
- Oblicz entropię semantyczną – jeśli odpowiedzi mają różne znaczenia, entropia będzie wysoka
Przykład praktyczny:
Pytanie: "Kto był prezydentem Polski w 2010?"
Odpowiedź 1: "Lech Kaczyński był prezydentem Polski w 2010"
Odpowiedź 2: "Prezydentem Polski w 2010 był Lech Kaczyński"
Odpowiedź 3: "W 2010 roku prezydentem był Bronisław Komorowski"
Odpowiedź 4: "Lech Kaczyński pełnił funkcję prezydenta w 2010"
Odpowiedź 5: "Bronisław Komorowski został prezydentem w 2010"
Entropia semantyczna: WYSOKA = prawdopodobna halucynacja
Model się myli – faktycznie było dwóch prezydentów w 2010 (Kaczyński do kwietnia, potem Komorowski), ale niespójność odpowiedzi zdradza niepewność modelu.
Metoda 2: SelfCheckGPT – Niech AI sprawdzi samego siebie
SelfCheckGPT to technika używana do zwiększenia niezawodności i dokładności LLM-ów poprzez włączenie uczenia samokontrolowanego i metod opartych na wyszukiwaniu do detekcji halucynacji.
Implementacja krok po kroku:
- Wygeneruj odpowiedź główną
- Wygeneruj kilka alternatywnych odpowiedzi na to samo pytanie
- Sprawdź, czy informacje w odpowiedzi głównej są wspierane przez alternatywy
- Jeśli nie – masz halucynację
Kod koncepcyjny (Python):
python
def selfcheck_gpt(question, model, n_samples=5):
main_answer = model.generate(question)
alternatives = [model.generate(question) for _ in range(n_samples)]
consistency_score = 0
for fact in extract_facts(main_answer):
support = sum(1 for alt in alternatives if fact in alt)
consistency_score += support / n_samples
return consistency_score / num_facts(main_answer)
Jeśli wynik spójności < 0.5, prawdopodobnie masz do czynienia z halucynacją.
Metoda 3: RAG (Retrieval-Augmented Generation) – Dawaj źródła, głupcze!
RAG łączy tradycyjne możliwości generatywne z podejściami opartymi na wyszukiwaniu, aby walidować i wzbogacać wygenerowany tekst przy użyciu informacji pobranych z zewnętrznych źródeł wiedzy.
Praktyczne wdrożenie:
- Zbuduj bazę wiedzy (dokumenty, artykuły, dane firmowe)
- Dla każdego zapytania, najpierw wyszukaj relevantne fragmenty
- Przekaż je modelowi jako kontekst
- Porównaj wygenerowaną odpowiedź z źródłami
Przykład z życia: Zamiast pytać ChatGPT o aktualny kurs dolara, daj mu dostęp do API NBP. Zamiast pytać o procedury firmowe, daj dostęp do wewnętrznej wiki.
Metoda 4: Sentence Similarity – Porównuj z prawdą
Podobieństwo zdań to metoda używana do porównywania wygenerowanego tekstu z materiałem źródłowym lub danymi treningowymi. Mierzy, jak blisko wygenerowany tekst zgadza się z wzorcami językowymi i treścią oryginalnych danych.
Narzędzia do użycia:
- Cosine similarity
- Jaccard similarity
- BERT embeddings
Python snippet:
python
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
def check_similarity(generated_text, source_text):
embeddings = model.encode([generated_text, source_text])
similarity = cosine_similarity([embeddings[0]], [embeddings[1]])[0][0]
return similarity > 0.8 # Próg można dostosować
Metoda 5: Novelty Detection – Wykrywaj dziwactwa
Detekcja nowości to metoda używana do identyfikacji wyników, które są statystycznie nienormalne lub znacząco różnią się od typowych wzorców obserwowanych w danych treningowych.
Czerwone flagi do wychwycenia:
- Nietypowe kombinacje słów
- Statystyki lub liczby poza normalnym zakresem
- Nazwy własne, których nie ma w bazie treningowej
Przykład implementacji z alertami:
python
def detect_novelty(text, baseline_corpus):
# Ekstraktuj n-gramy
ngrams = extract_ngrams(text, n=3)
# Sprawdź częstotliwość w korpusie bazowym
novel_ngrams = []
for ngram in ngrams:
if corpus_frequency(ngram, baseline_corpus) < 0.001:
novel_ngrams.append(ngram)
novelty_score = len(novel_ngrams) / len(ngrams)
if novelty_score > 0.3:
alert("Potencjalna halucynacja! Zbyt wiele nowych kombinacji.")
return novelty_score
Metoda 6: Multi-Model Cross-Validation – Zapytaj drugą opinię
Prosta, ale skuteczna metoda: Używanie innego modelu AI, takiego jak Google Bard, aby zobaczyć, czy generuje podobną odpowiedź.
Protokół testowania:
- Zadaj to samo pytanie minimum 3 różnym modelom (GPT-4, Claude, Gemini)
- Porównaj odpowiedzi
- Jeśli jeden znacząco odbiega – czerwona flaga
- Jeśli wszystkie się różnią – pytanie jest prawdopodobnie źle postawione lub odpowiedź jest niepewna
Matryca decyzyjna:
3/3 zgodne → Wysoka pewność
2/3 zgodne → Średnia pewność, sprawdź ręcznie
1/3 zgodne → Niska pewność, prawdopodobna halucynacja
0/3 zgodne → Odrzuć wszystkie odpowiedzi
Metoda 7: Human-in-the-Loop z Automated Fact-Checking
Najskuteczniejsza, choć najbardziej pracochłonna metoda. Upewnienie się, że człowiek waliduje i przegląda wyniki AI, jest ostatecznym środkiem zabezpieczającym przed halucynacją.
System hybrydowy:
- Automatyczna pre-walidacja:
- Sprawdź wszystkie liczby i daty
- Zweryfikuj nazwy własne
- Sprawdź cytowane źródła
- Ludzka weryfikacja:
- Ekspert dziedzinowy sprawdza merytorykę
- Redaktor sprawdza spójność
- Fact-checker weryfikuje kluczowe twierdzenia
Checklist dla człowieka:
- Czy wszystkie fakty są weryfikowalne?
- Czy źródła istnieją i są cytowane poprawnie?
- Czy liczby mieszczą się w rozsądnych granicach?
- Czy nie ma wewnętrznych sprzeczności?
- Czy ton i styl są spójne z oczekiwaniami?
Narzędzia gotowe do użycia
Nie musisz wszystkiego pisać sam. Oto narzędzia, które możesz wdrożyć już dziś:
- Nvidia Guardrails – Pozwala na hardkodowanie pewnych odpowiedzi przez skrypt zamiast polegania na LLM
- Trustworthy Language Model – Framework do oceny wiarygodności
- Aimon – Narzędzie do detekcji halucynacji w czasie rzeczywistym
- ALIGN SCORE – Jeden z najlepszych modeli metryki opartej na modelu Roberta base, który mierzy zgodność informacji między dwoma fragmentami tekstu
Ostrzeżenia i pułapki
Pułapka 1: Nadmierna pewność w liczbach AI uwielbia podawać precyzyjne liczby, nawet gdy ich nie zna. „73.2% Polaków lubi pierogi” brzmi wiarygodnie, ale skąd ta liczba?
Pułapka 2: Częściowa prawda Najgorsze halucynacje to te zmieszane z prawdą. Model może podać poprawną datę, ale złe wydarzenie.
Pułapka 3: Temporalne przesunięcia AI często myli chronologię. „Prezydent Biden spotkał się z królową Elżbietą II w 2023” – brzmi OK, tylko że królowa zmarła w 2022.
Wnioski: Paranoja popłaca
Nowe badania opisują metodę wykrywania, gdy narzędzie AI prawdopodobnie halucynuje. Wyniki mogą utorować drogę dla bardziej niezawodnych systemów AI w najbliższej przyszłości.
Ale na razie? Traktuj każdą odpowiedź AI jak potencjalne kłamstwo. Weryfikuj, sprawdzaj, pytaj ponownie. Używaj wielu metod jednocześnie – żadna pojedyncza technika nie da ci 100% pewności.
Pamiętaj: AI, które halucynuje, nie robi tego złośliwie. Po prostu nie wie, że nie wie. To ty musisz być tym, który wie, kiedy AI nie wie, że nie wie tego, co powinno wiedzieć.
Skomplikowane? Tak. Konieczne? Absolutnie. Bo różnica między „AI pomogło nam zaoszczędzić miliony” a „AI wpędziło nas w kłopoty” to często jedna niezweryfikowana halucynacja.
Uwaga: Ten artykuł został zweryfikowany wszystkimi siedmioma metodami. Dwukrotnie. Na wszelki wypadek.


