ChatGPT diagnostizierte in einer neuen Studie mehr als 8 von 10 pädiatrischen Fallstudien falsch, wie die Forschung zeigt

Amon · 9. Januar 2024 um 06:11

Der beliebte künstliche Intelligenz (KI)-Chatbot ChatGPT hatte eine Fehlerdiagnoserate von mehr als 80 Prozent in einer neuen Studie zur Verwendung von künstlicher Intelligenz bei der Diagnose von pädiatrischen Fällen.

In der diese Woche veröffentlichten Studie in JAMA Pediatrics wurden Texte von 100 Fallherausforderungen aus JAMA und dem New England Journal of Medicine in ChatGPT Version 3.5 eingegeben. Der Chatbot erhielt dann die Aufforderung: „Geben Sie eine differenzierte Diagnose und eine endgültige Diagnose an.“

Diese pädiatrischen Fälle stammten alle aus den letzten 10 Jahren.

Die Genauigkeit der Diagnosen von ChatGPT wurde daran gemessen, ob sie mit den Diagnosen der Ärzte übereinstimmten. Zwei Arztforscher bewerteten die Diagnosen als richtig, falsch oder „erfassten die Diagnose nicht vollständig“.

Insgesamt wurden 83 Prozent der von KI generierten Diagnosen als fehlerhaft befunden, wobei 72 Prozent falsch und 11 Prozent „klinisch verwandt, aber zu breit, um als richtige Diagnose zu gelten“ waren.

Trotz der hohen Rate diagnostischer Fehler, die von den Forschern festgestellt wurden, empfahl die Studie eine weitere Untersuchung der Verwendung von großen Sprachmodellen durch Ärzte, da dies als Verwaltungswerkzeug hilfreich sein könnte.

„Der in dieser Studie bewertete Chatbot konnte im Gegensatz zu Ärzten einige Beziehungen nicht identifizieren, wie z.B. die zwischen Autismus und Vitaminmangel. Um die diagnostische Genauigkeit des generativen KI-Chatbots zu verbessern, ist wahrscheinlich ein selektiveres Training erforderlich“, heißt es in der Studie.

Die Studie stellte auch fest, dass das verfügbare Wissen von ChatGPT nicht regelmäßig aktualisiert wird, was bedeutet, dass es keinen Zugriff auf neue Forschung, Gesundheitstrends, diagnostische Kriterien oder Krankheitsausbrüche hat.

Ärzte und Forscher haben zunehmend Möglichkeiten untersucht, KI und Sprachmodelle in die medizinische Arbeit zu integrieren. Eine im letzten Jahr veröffentlichte Studie ergab, dass GPT-4 von OpenAI eine genauere Diagnose von Patienten über 65 Jahren bieten konnte als Ärzte. Diese Studie hatte jedoch nur eine Stichprobengröße von 6 Patienten.

Die Forscher in dieser früheren Studie merkten an, dass der Chatbot möglicherweise verwendet werden könnte, um „das Vertrauen in die Diagnose zu erhöhen“.

Die Verwendung von KI-Diagnosen ist kein neuartiges Konzept. Die Food and Drug Administration hat Hunderte von KI-fähigen medizinischen Geräten zugelassen, jedoch wurden bisher keine genehmigt, die auf generativer KI basieren oder von großen Sprachmodellen wie ChatGPT betrieben werden.

Quelle: ChatGPT incorrectly diagnosed more than 8 in 10 pediatric case studies, research finds | The Hill
Übersetzung: ChatGPT
Zusendung von: https://twitter.com/meanmicio/status/1744450386692301264