Dans l’environnement aux enjeux élevés d’une salle d’urgence, l’erreur la plus dangereuse qu’un médecin puisse commettre n’est pas de choisir le mauvais traitement, mais plutôt de ne pas identifier le bon diagnostic en premier lieu. Une étude récente suggère qu’une nouvelle génération d’intelligence artificielle pourrait bientôt devenir une protection vitale contre ces oublis critiques.
L’essor des modèles de « raisonnement »
Le domaine médical est à l’aube d’un changement technologique entraîné par les grands modèles linguistiques (LLM) avancés. Contrairement aux itérations précédentes de l’IA, les nouveaux « modèles de raisonnement », tels que l’o1-preview d’OpenAI, sont conçus pour traiter des problèmes complexes selon une logique séquentielle, étape par étape.
Ce saut technologique répond à une demande importante de la communauté médicale. Selon une enquête menée auprès de plus de 2 000 cliniciens, 1 médecin et infirmier sur 5 dans le monde utilise déjà l’IA pour obtenir un deuxième avis sur des cas complexes, et plus de la moitié exprime le désir de l’intégrer davantage dans leur pratique.
L’étude : IA contre cliniciens humains
Une étude menée par Arjun Manrai, scientifique en données biomédicales de l’Université Harvard, publiée dans Science, a testé les capacités de diagnostic du modèle o1-preview par rapport à des médecins humains. Les chercheurs ont utilisé deux ensembles de données distincts :
1. Ensembles de symptômes classiques de la formation médicale.
2. Données réelles de 76 patients traités dans une salle d’urgence de Boston.
Les résultats ont été frappants : Le modèle de raisonnement de l’IA a surpassé à la fois les cliniciens humains et les logiciels de diagnostic spécialisés, identifiant correctement le diagnostic (ou une alternative très précise) dans près de 80 % des cas.
Un exemple notable fourni par le co-auteur Adam Rodman impliquait un patient transplanté immunodéprimé présentant des symptômes respiratoires courants. Même si les médecins humains n’ont peut-être pas compris la gravité de la situation, le modèle d’IA a signalé une suspicion d’infection carnivore potentiellement mortelle bien plus tôt que l’équipe humaine.
Le contre-argument : logique contre nuance
Malgré ces chiffres impressionnants, la communauté scientifique reste prudente. Les critiques soutiennent qu’il existe une différence fondamentale entre le « raisonnement informatique » et le « raisonnement clinique ».
“Quand on parle de raisonnement clinique, cela ne veut pas dire la même chose que de raisonnement moral”, prévient Arya Rao, chercheuse à la Harvard Medical School.
L’équipe de Rao a récemment mené une étude distincte évaluant 21 modèles d’IA, révélant une faiblesse persistante : l’incapacité à gérer l’incertitude. Même si les modèles de raisonnement excellent à suivre un chemin logique vers une conclusion, ils ont souvent du mal à trouver les nuances requises lorsque plusieurs diagnostics sont possibles.
Les principaux risques identifiés comprennent :
– Raisonnement « fragile » : L’IA a tendance à tirer des conclusions trop rapidement.
– Manque de nuance : Les modèles ont du mal lorsqu’ils doivent peser simultanément plusieurs possibilités incertaines.
– Absence de jugement humain : L’IA ne dispose pas du raisonnement moral et contextuel essentiel pour les soins complexes aux patients.
L’avenir : un assistant, pas un remplaçant
Le consensus parmi les chercheurs n’est pas que l’IA devrait remplacer les médecins, mais plutôt servir d’extension de diagnostic puissante. L’objectif est d’utiliser l’IA pour détecter ce que l’œil humain pourrait manquer, offrant ainsi un « filet de sécurité » aux cliniciens.
À mesure que la technologie évolue, l’attention se déplace de si l’IA peut diagnostiquer à comment elle peut être intégrée en toute sécurité dans les flux de travail cliniques. Si elle est gérée correctement, cette technologie pourrait servir de « grand égaliseur », fournissant une aide diagnostique de haut niveau aux régions ayant un accès limité aux soins médicaux spécialisés.
Conclusion
Bien que les modèles de raisonnement de l’IA aient démontré une capacité supérieure à identifier des diagnostics corrects dans des études contrôlées, ils se heurtent toujours aux nuances et à l’incertitude inhérentes à la médecine humaine. La prochaine frontière de l’IA médicale réside dans les essais cliniques visant à intégrer ces outils en tant qu’assistants fiables plutôt que décideurs autonomes.
