Kan AI beter presteren dan artsen in medische diagnoses? Nieuwe studie onderzoekt het potentieel en de valkuilen

5

In de omgeving van een spoedeisende hulp waar veel op het spel staat, is de gevaarlijkste fout die een arts kan maken niet het kiezen van de verkeerde behandeling, maar het überhaupt niet stellen van de juiste diagnose. Een recente studie suggereert dat een nieuwe generatie kunstmatige intelligentie binnenkort een essentiële bescherming tegen deze kritische vergissingen kan worden.

De opkomst van ‘redeneringsmodellen’

De medische wereld staat aan de vooravond van een technologische verschuiving, aangedreven door geavanceerde Large Language Models (LLM’s). In tegenstelling tot eerdere versies van AI zijn nieuwe ‘redeneermodellen’ – zoals OpenAI’s o1-preview – ontworpen om complexe problemen te verwerken via sequentiële, stapsgewijze logica.

Deze technologische sprong komt tegemoet aan de aanzienlijke vraag van de medische gemeenschap. Volgens een onderzoek onder meer dan 2.000 artsen maakt 1 op de 5 artsen en verpleegkundigen wereldwijd al gebruik van AI om een ​​second opinion te vragen over complexe gevallen, en geeft ruim de helft de wens aan om het verder in hun praktijk te integreren.

Het onderzoek: AI versus menselijke artsen

Een onderzoek onder leiding van biomedisch datawetenschapper Arjun Manrai van de Harvard University, gepubliceerd in Science, testte de diagnostische mogelijkheden van het o1-preview-model tegen menselijke artsen. De onderzoekers gebruikten twee verschillende datasets:
1. Klassieke medische trainingssymptomensets.
2. Gegevens uit de praktijk van 76 patiënten die werden behandeld in een eerstehulpafdeling in Boston.

De resultaten waren opvallend: Het AI-redeneermodel presteerde beter dan zowel menselijke artsen als gespecialiseerde diagnostische software, en identificeerde de diagnose (of een zeer nauwkeurig alternatief) in bijna 80% van de gevallen correct.

Een opmerkelijk voorbeeld van co-auteur Adam Rodman betrof een transplantatiepatiënt met een onderdrukt immuunsysteem die routinematige ademhalingssymptomen vertoonde. Hoewel menselijke artsen de ernst van de situatie misschien over het hoofd hadden gezien, signaleerde het AI-model aanzienlijk eerder dan het menselijke team een ​​vermoeden van een levensbedreigende, vleesetende infectie.

Het tegenargument: logica versus nuance

Ondanks deze indrukwekkende cijfers blijft de wetenschappelijke gemeenschap voorzichtig. Critici beweren dat er een fundamenteel verschil bestaat tussen ‘computationeel redeneren’ en ‘klinisch redeneren’.

“Als we het hebben over klinisch redeneren, betekent dat niet hetzelfde als moreel redeneren”, waarschuwt Arya Rao, onderzoeker aan de Harvard Medical School.

Het team van Rao heeft onlangs een afzonderlijk onderzoek uitgevoerd waarbij 21 AI-modellen werden geëvalueerd, waarbij een hardnekkige zwakte werd blootgelegd: het onvermogen om met onzekerheid om te gaan. Hoewel redeneermodellen uitblinken in het volgen van een logisch pad naar een conclusie, worstelen ze vaak met de nuance die nodig is wanneer meerdere diagnoses mogelijk zijn.

De belangrijkste geïdentificeerde risico’s zijn onder meer:
“Broze” redenering: AI heeft de neiging te snel conclusies te trekken.
Gebrek aan nuance: Modellen worstelen wanneer ze meerdere onzekere mogelijkheden tegelijkertijd moeten afwegen.
Afwezigheid van menselijk oordeel: AI mist de morele en contextuele redenering die essentieel is voor complexe patiëntenzorg.

De toekomst: assistent, geen vervanging

De consensus onder onderzoekers is niet dat AI artsen moet vervangen, maar eerder moet dienen als een krachtig diagnostisch verlengstuk. Het doel is om AI te gebruiken om op te vangen wat het menselijk oog misschien over het hoofd ziet, en zo een ‘vangnet’ voor artsen te creëren.

Naarmate de technologie volwassener wordt, verschuift de focus van of AI een diagnose kan stellen naar hoe deze veilig kan worden geïntegreerd in klinische workflows. Indien correct beheerd, zou deze technologie kunnen dienen als een “grote gelijkmaker”, die diagnostische ondersteuning op hoog niveau biedt aan regio’s met beperkte toegang tot gespecialiseerde medische zorg.


Conclusie
Hoewel AI-redeneermodellen een superieur vermogen hebben aangetoond om correcte diagnoses te identificeren in gecontroleerde onderzoeken, worstelen ze nog steeds met de nuance en onzekerheid die inherent zijn aan de menselijke geneeskunde. De volgende grens voor medische AI ​​ligt in klinische onderzoeken die erop gericht zijn deze hulpmiddelen te integreren als betrouwbare assistenten in plaats van als autonome besluitvormers.