Back To Top
IA diagnostic medical usages IA

#IA et dispositifs d’aide à la #décision #médicale : quels #retours des #usages ?

Giulia Anichini, Inserm

Des enquêtes de terrain mettent en lumière les limites comme les atouts d’outils d’aide à la décision médicale basés sur l’intelligence artificielle (IA) utilisés, par exemple, pour mieux détecter des lésions cancéreuses par imagerie médicale, évaluer un traitement dans la sclérose en plaques ou encore livrer un « deuxième avis »..


Les outils d’intelligence artificielle (IA) pour la médecine sont entourés de beaucoup de promesses. Celles-ci sont nombreuses : on attribue aux technologies d’IA la capacité de standardiser les pratiques et de dépasser la variabilité inhérente à chaque observateur et entre deux observateurs différents, de suppléer à des manques d’expertise ou de fournir une solution aux « déserts médicaux », d’empêcher les erreurs diagnostiques par le dépassement des faiblesses humaines comme la fatigue, de mieux affiner la personnalisation des prises en charge…

[Déjà plus de 120 000 abonnements aux newsletters The Conversation. Et vous ? Abonnez-vous aujourd’hui pour mieux comprendre les grands enjeux du monde.]

Qu’en est-il de ces promesses quand elles sont mises au défi des usages ? Qu’elle est la vision des professionnels confrontés à l’introduction de ces technologies ? Quels sont les freins qui entravent leur intégration en pratique clinique mais aussi quelles sont les appropriations réussies ?

Les recherches que j’ai menées autour de la conception et des usages d’outils d’aide à la décision au sein de diverses spécialités médicales (radiologie, oncologie, neurologie, médecine de la reproduction) ont fait émerger des craintes des professionnels mais aussi des difficultés d’articulation des technologies avec les pratiques existantes.

Faire coïncider performances techniques et utilité clinique

En premier lieu, je me suis intéressée à la radiomique qui vise à extraire des informations de bases de données d’images médicales afin de découvrir des biomarqueurs capables d’améliorer la prédiction en oncologie. La radiomique fait partie de ces domaines récents pour lesquels la question de la validation des dispositifs computationnels pour la santé reste cruciale.

Les dispositifs informatiques pour la santé n’épousent en effet que rarement les exigences de réplicabilité et très peu outils dédiés par exemple au traitement d’images médicales ont reçu une validation externe.

Mais au-delà du niveau de preuve nécessaire à la confiance, la question de l’efficacité se pose. Les performances techniques des outils mesurées selon diverses métriques ne répondent pas forcément à l’utilité clinique recherchée par les cliniciens. C’est le cas, par exemple, quand des modèles sont très performants dans la prédiction de récidives de cancers et qu’ils aboutissent à la reconnaissance des sous-groupes de patients… mais qu’une prise en charge différentielle n’est pas disponible.

Ou quand la qualité du modèle est attestée mais qu’il est moins efficace dans la détection de faux négatifs (on parle de « faux négatifs » quand on obtient un résultat négatif pour une maladie donnée chez une personne qui est pourtant bien atteinte par cette maladie, NDLR), ce qui augmente le risque pour les professionnels de « rater » des lésions cancéreuses. La validité des outils n’est pas la seule propriété requise, les systèmes d’aide à la décision doivent savoir répondre aux objectifs des groupes sociaux qui s’en emparent.

Imagerie médicale : une vision trop « stricte » de l’anomalie

Un autre aspect problématique, et qui demande une vigilance des professionnels, concerne le type de données employées pour les quantifications algorithmiques. Par exemple, les logiciels de détection d’anomalies, qui visent à assister les radiologues dans leur travail, ont tendance à étiqueter toutes les anomalies visuelles comme pathologiques alors qu’une partie de celles-ci font partie du corps « normal » pour les radiologues.

Cela s’explique en partie par le fait que les professionnels ont accès à des données (cliniques, narratives et sensibles) qui permettent d’appréhender les lésions différemment que la machine. Le contexte lié à l’apparition et à la localisation d’une lésion sur l’image, les antécédents familiaux du patient et son historique peuvent permettre de saisir l’anomalie dans un contexte de connaissance plus large.

Ainsi, par leur mise en correspondance systématique du pathologique avec l’anomalie, les logiciels véhiculent une vision plus « stricte » de la normalité qui ne correspond pas à la vision des radiologues. Cela montre – et c’est un constat qui peut être étendu à beaucoup d’autres systèmes algorithmiques – que les données sur lesquelles repose la quantification des systèmes d’aide à la décision médicale, orientent la vision d’un phénomène et produisent des catégories qui ne sont pas neutres.

Évaluation des traitements : un exemple dans la sclérose en plaques

Dans mon enquête sur un système algorithmique développé pour améliorer le choix thérapeutique dans le domaine de la sclérose en plaques, j’ai également observé comment l’outil était porteur d’une certaine vision du « meilleur » médicament.

Le logiciel prévoyait une estimation de l’évolution de certains critères cliniques sur un sous-groupe de patients sélectionnés par l’algorithme et considérés comme similaires à un patient donné. L’action d’un médicament candidat était évaluée à partir de l’évolution des patients traités (ou non traités) avec cette molécule. Ici, la pertinence du médicament était jugée en fonction de son efficacité.

Pourtant, quand on s’intéresse à ce qui doit présider au choix thérapeutique auprès des professionnels et des patients, on observe que d’autres priorités sont essentielles dans le calcul bénéfices-risques. Dans la sclérose en plaques, l’observance (c’est-à-dire le fait de bien suivre son traitement, NDLR) est un enjeu majeur et l’adaptation du traitement à la vie du patient est cruciale. Cela explique pourquoi le mode d’emploi d’un traitement (injection, perfusion, comprimés), dont dépend en partie son acceptation, peut orienter le choix des molécules thérapeutiques, au-delà de leur efficacité.

L’outil véhicule une définition du « meilleur » médicament qui exclut des données qui sont pourtant employées au quotidien par les acteurs du soin pour la personnalisation des traitements. Le risque est alors que le processus décisionnel repose exclusivement sur des verdicts quantitatifs au détriment d’autres données qui sont alors considérées moins « objectives » en nourrissant une vision de la machine perçue comme un oracle.

L’automatisation et la crainte de pertes de savoirs

J’ai relevé une autre crainte auprès des professionnels, qui concerne la perte des savoirs nécessaires à l’interprétation de certaines données que pourrait entraîner l’automatisation.

Dans le cas des outils d’aide à la détection d’anomalies à destination des radiologues, nous avons constaté que l’acquisition de certains savoirs tacites, acquis « sur le tas » et impliqués dans la formation du regard médical, pouvait être perturbée, ce qui constituait un sujet de préoccupation.

Chez les internes, confrontés à l’utilisation de ces outils qui repéraient automatiquement les anomalies, j’ai observé des stratégies pour éviter la délégation de cette interprétation et pour se la réapproprier. Comme ce jeune radiologue qui, à l’ouverture des radiographies, détournait le regard des comptes-rendus produits par les logiciels, et me demandait de les fermer pour pouvoir réaliser la lecture de l’image au préalable.

De la même manière, l’éventualité d’utiliser les logiciels pour exclure les images « normales » (en raison de leur meilleure performance dans la reconnaissance de ces données) et réserver aux radiologues l’interprétation d’images « pathologiques » provoquait des inquiétudes chez les professionnels.

Quand l’IA donne un « deuxième avis » précieux

Mais il est des usages qui attestent d’une certaine adhésion aux technologies. Parfois, les systèmes de détection d’anomalies sont utilisés pour refermer des incertitudes concernant de petites lésions qui peuvent inquiéter le radiologue.

Si le logiciel attribue une probabilité minime de gravité à une lésion, le radiologue peut être rassuré et ne pas recourir à des examens supplémentaires. La fiabilité de ce « deuxième avis » dépend d’une connaissance des faiblesses et des forces du logiciel. Dans ce cas, par exemple, le radiologue sait qu’un score peu élevé est rassurant, le logiciel étant généralement plus « sévère » que l’expert.

Comme on le voit, les promesses autour de l’IA en santé doivent être nuancées car l’automatisation s’accompagne toujours de nouvelles incertitudes et les professionnels doivent fournir un travail supplémentaire pour faire fonctionner les technologies au quotidien.


Cet article a été écrit dans le cadre de la troisième édition des Dauphine Digital Days qui a eu lieu à l’Université Paris Dauphine – PSL, du 18 au 20 novembre 2024.

Giulia Anichini, Anthropologue, Post-doctorante à l’ISNS et au Cermes3, Inserm

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.