ChatGPT stworzony przez OpenAI nie jest bliżej zastąpienia lekarzy rodzinnych, ponieważ coraz bardziej zaawansowany chatbot nie potrafił dokładnie diagnozować większości hipotetycznych przypadków pediatrycznych.
Wyniki te były częścią nowego badania opublikowanego w JAMA Pediatrics 2 stycznia, przeprowadzonego przez badaczy z Cohen Children’s Medical Center w Nowym Jorku. Badacze analizowali odpowiedzi bota na prośby o diagnozowanie chorób dziecięcych i stwierdzili, że bot popełnił błąd w 83 procentach przypadków.
W badaniu użyto tzw. wyzwań pediatrycznych, czyli przypadków medycznych, które pierwotnie były publikowane w grupach lekarzy jako okazje do nauki (lub wyzwania diagnostyczne) dotyczące nietypowych lub ograniczonych informacji. Badacze przeanalizowali 100 wyzwań opublikowanych w JAMA Pediatrics i NEJM w latach 2013-2023.
ChatGPT udzielił nieprawidłowych diagnoz w 72 z 100 przypadków eksperymentalnych i wygenerował 11 odpowiedzi uznanych za „klinicznie związane” z prawidłową diagnozą, ale uznane za zbyt ogólne, aby były poprawne.
Badacze przypisują część tego niepowodzenia niezdolności generatywnego AI do rozpoznawania związków między pewnymi schorzeniami a zewnętrznymi lub istniejącymi warunkami, które często są wykorzystywane do diagnozowania pacjentów w ustawieniach klinicznych. Na przykład ChatGPT nie potrafił połączyć „schorzeń neuropsychiatrycznych” (takich jak autyzm) z często obserwowanymi przypadkami niedoboru witamin i innych schorzeń związanych z restrykcyjną dietą.
Badanie dochodzi do wniosku, że ChatGPT potrzebuje ciągłego szkolenia i zaangażowania specjalistów medycznych, którzy karmią AI nie internetową masą informacji, która często zawiera dezinformację, ale sprawdzoną literaturą medyczną i ekspertyzą.
Chatboty oparte na sztucznej inteligencji (AI) opierającej się na dużych modelach językowych (LLM) były wcześniej badane pod kątem skuteczności diagnozowania przypadków medycznych i wykonywania codziennych zadań lekarzy. W zeszłym roku badacze testowali zdolność generatywnego AI do zdania trzyetapowego egzaminu United States Medical Licensing Exam — zdał.
Jednak pomimo silnej krytyki ze względu na ograniczenia w szkoleniu i potencjał do pogłębiania badań medycznych, wiele grup medycznych, w tym American Medical Association, nie traktuje postępu AI w dziedzinie medycyny wyłącznie jako zagrożenia zastąpienia. Zamiast tego, lepiej wyszkolone AI są uważane za gotowe do wykorzystania w celach administracyjnych i komunikacyjnych, takich jak generowanie tekstu dla pacjentów, tłumaczenie diagnoz na zrozumiałe dla laików terminy lub generowanie instrukcji. Zastosowania kliniczne, takie jak diagnozowanie, pozostają kontrowersyjnym i trudnym do badania tematem.
W tym zakresie nowy raport jest pierwszą analizą potencjału diagnostycznego chatbota w czysto pediatrycznym środowisku — uznającym specjalistyczne szkolenie medyczne, które przechodzą profesjonaliści. Obecne ograniczenia pokazują, że nawet najbardziej zaawansowany chatbot na rynku publicznym nie jest jeszcze w stanie konkurować z pełnym zakresem ludzkiej wiedzy i umiejętności.