Nowe badanie sugeruje, że ChatGPT musi wrócić na studia medyczne

ChatGPT stworzony przez OpenAI nie jest bliżej zastąpienia lekarzy rodzinnych, ponieważ coraz bardziej zaawansowany chatbot nie potrafił dokładnie diagnozować większości hipotetycznych przypadków pediatrycznych.

Wyniki te były częścią nowego badania opublikowanego w JAMA Pediatrics 2 stycznia, przeprowadzonego przez badaczy z Cohen Children’s Medical Center w Nowym Jorku. Badacze analizowali odpowiedzi bota na prośby o diagnozowanie chorób dziecięcych i stwierdzili, że bot popełnił błąd w 83 procentach przypadków.

W badaniu użyto tzw. wyzwań pediatrycznych, czyli przypadków medycznych, które pierwotnie były publikowane w grupach lekarzy jako okazje do nauki (lub wyzwania diagnostyczne) dotyczące nietypowych lub ograniczonych informacji. Badacze przeanalizowali 100 wyzwań opublikowanych w JAMA Pediatrics i NEJM w latach 2013-2023.

ChatGPT udzielił nieprawidłowych diagnoz w 72 z 100 przypadków eksperymentalnych i wygenerował 11 odpowiedzi uznanych za “klinicznie związane” z prawidłową diagnozą, ale uznane za zbyt ogólne, aby były poprawne.

Badacze przypisują część tego niepowodzenia niezdolności generatywnego AI do rozpoznawania związków między pewnymi schorzeniami a zewnętrznymi lub istniejącymi warunkami, które często są wykorzystywane do diagnozowania pacjentów w ustawieniach klinicznych. Na przykład ChatGPT nie potrafił połączyć “schorzeń neuropsychiatrycznych” (takich jak autyzm) z często obserwowanymi przypadkami niedoboru witamin i innych schorzeń związanych z restrykcyjną dietą.

Badanie dochodzi do wniosku, że ChatGPT potrzebuje ciągłego szkolenia i zaangażowania specjalistów medycznych, którzy karmią AI nie internetową masą informacji, która często zawiera dezinformację, ale sprawdzoną literaturą medyczną i ekspertyzą.

Chatboty oparte na sztucznej inteligencji (AI) opierającej się na dużych modelach językowych (LLM) były wcześniej badane pod kątem skuteczności diagnozowania przypadków medycznych i wykonywania codziennych zadań lekarzy. W zeszłym roku badacze testowali zdolność generatywnego AI do zdania trzyetapowego egzaminu United States Medical Licensing Exam — zdał.

Jednak pomimo silnej krytyki ze względu na ograniczenia w szkoleniu i potencjał do pogłębiania badań medycznych, wiele grup medycznych, w tym American Medical Association, nie traktuje postępu AI w dziedzinie medycyny wyłącznie jako zagrożenia zastąpienia. Zamiast tego, lepiej wyszkolone AI są uważane za gotowe do wykorzystania w celach administracyjnych i komunikacyjnych, takich jak generowanie tekstu dla pacjentów, tłumaczenie diagnoz na zrozumiałe dla laików terminy lub generowanie instrukcji. Zastosowania kliniczne, takie jak diagnozowanie, pozostają kontrowersyjnym i trudnym do badania tematem.

W tym zakresie nowy raport jest pierwszą analizą potencjału diagnostycznego chatbota w czysto pediatrycznym środowisku — uznającym specjalistyczne szkolenie medyczne, które przechodzą profesjonaliści. Obecne ograniczenia pokazują, że nawet najbardziej zaawansowany chatbot na rynku publicznym nie jest jeszcze w stanie konkurować z pełnym zakresem ludzkiej wiedzy i umiejętności.