MEDECINE ET ROBOTIQUE

MEDECINE ET ROBOTIQUE

COMPRENDRE L'INTELLIGENCE ARTIFICIELLE EN MEDECINE


COMPRENDRE L'IA EN MEDECINE N°3: DIAGNOSTIQUER DES METASTASES DE CANCER DU SEIN

Il ne se passe plus de mois sans qu'un nouveau logiciel issu de l'intelligence artificielle ne soit déclaré "meilleur que les médecins" et présenté au public. Que signifie vraiment cette formule? Peux-t-on réellement implanter des systèmes automatiques en lieu et place des médecins?

Dans cette rubrique, nous rendons compte d'études dont les résultats sont généralisables à l'ensemble de l'intelligence artificielle médicale. En décrivant les faits scientifiques, nous espérons mettre à disposition du plus grand nombre des informations de fond permettant à chacune et chacun d'appréhender le débat de société entourant l'IA médicale. 

 

Ce numéro, ainsi que le suivant, sont consacrés à l'expérimentation de logiciels de diagnostic de métastases ganglionnaires de cancer du sein en anatomopathologie.

L'étude présentée ci-dessous a été publiée dans la revue JAMA (Journal of the American Medical Association) en décembre 2017. Il s'agit d'une compétition technologique au cours de laquelle des équipes de chercheurs se sont affrontées pour composer un algorithme de diagnostic de métastases ganglionnaires de cancer du sein. Cette compétition a eu une suite puisque Google s'en est inspiré pour développer son propre logiciel, l'un des derniers nés parmi les algorithmes "meilleurs que les médecins". Ceci sera le sujet du prochain numéro de "COMPRENDRE L'IA EN MEDECINE".

 

 

LE DEEP LEARNING : TECHNIQUE D’APPRENTISSAGE MACHINE DE CHOIX EN RECONNAISSANCE D'IMAGES MEDICALES

 

En 2016, des équipes de chercheurs du monde entier ont été invitées à concevoir des solutions automatisées de détection de métastases de cancers du sein dans les ganglions sentinelles. Elles se sont départagées pendant une compétition technologique dénommée CAMELYON 16 au cours de laquelle la performance de leurs algorithmes a été comparée à celle de médecins anatomo-pathologistes.

 

 ORGANISATION DE LA COMPETITION

1. Préliminaires

Première étape: composition de la base de données. 

399 images collectées en 2015 dans 2 hôpitaux néerlandais auprès de patientes opérées de cancer du sein avec ablation du ganglion sentinelle ont composé la base de données qui a servi à entraîner les algorithmes. 

Deuxième étape: annotation et répartition des images pour composer les jeux de données.

Les images ont été annotées manuellement par des médecins anatomo-pathologistes. Puis, le jeu de données a été divisé en 2: un jeu d'entraînement ( 270 images) et un jeu de test ( 129 images). 


 



 

                                                           

POUR COMPRENDRE L'ETUDE

Qu'est-ce qu'une métastase? 

Une métastase se produit lorsque qu’un cancer, dit primitif, franchit les limites de l’organe où il s’est formé. Des cellules cancéreuses vont alors prendre le chemin des vaisseaux et former d’autres cancers secondaires, que l’on nomme métastases. 

 

Qu’est-ce que le ganglion sentinelle?

Les ganglions lymphatiques jouent un rôle essentiel dans notre immunité, c’est-à-dire la défense de l’organisme contre les agents extérieurs, infections en particulier. Ils se regroupent en chaînes de plusieurs ganglions. Le creux de l’aisselle (ou axillaire) contient une telle chaîne de ganglions. Le ganglion de cette chaîne le plus proche du sein sera le premier touché par une métastase en cas de cancer. Premier relais de la dissémination, on le nomme sentinelle car il informe du caractère métastastique ou non du cancer. 

 

L'ablation chirurgicale est pratiquée dans la majorité des cancers du sein. Le chirurgien retire la tumeur puis, dans un deuxième temps, il recherche le ganglion sentinelle et le retire. Ce dernier est ensuite examiné au microscope par un médecin anatomo-pathologiste. En général, l’examen du ganglion a lieu immédiatement. C’est l’examen dit extemporanné. Le chirurgien attend le résultat. Si le ganglion contient des cellules cancéreuses, il retire tous les autres ganglions, c’est le curage ganglionnaire. Si le ganglion est négatif, la chaîne ganglionnaire est laissée en place et l’intervention chirurgicale prend fin. 

 


Qu'est-ce qu'un médecin anatomo-pathologiste? 

Le travail du médecin anatomo-pathologiste est d'étudier au microscope des fragments d'organes malades (où biopsies) et de rechercher les causes des maladies. Leur rôle est essentiel dans le cancer car leur métier est d'identifier les cellules présentes dans une biopsie, de reconnaître celles qui sont saines et celles qui sont anormales. Ils identifient avec précision les cellules malades et déterminent le type de cancer. Ceci servira par la suite à guider le traitement. 

 

La compétition CAMELYON 16 s’est donc déroulée autour d’un sujet extrêmement important pour la prise en charge du cancer du sein. Important par son aspect strictement médical - le diagnostic de métastases- mais important aussi pour l’organisation des soins. En effet, l’analyse du ganglion sentinelle nécessite la disponibilité physique d’un médecin anatomo-pathologiste au moment précis où le chirurgien retire le ganglion. Ceci n’est pas toujours simple à organiser au quotidien. Le diagnostic automatisé par intelligence artificielle pourrait donc simplifier la réalisation de ce type d’intervention chirurgicale. 

 


 

 

 2. Déroulement de l’expérience

Dans la première phase, on a fourni les 270 images d’entraînement aux équipes participantes: 110 avec métastases, 160 sans métastases. 

Dans la deuxième phase, la performance des algorithmes a été testée sur les 129 images du jeu de test  : 49 avec métastases, 80 sans métastases. 

Chaque équipe avait le droit de soumettre son algorithme 3 fois. 

 

Définition des tâches.

En intelligence artificielle, il est nécessaire de définir avec exactitude ce que l’on va demander à la machine. Dans le cas présent, 2 tâches ont été définies: 

- Tâche N°1, destinée à l’entraînement :identification de métastases au sein de la coupe histologique

- Tâche N°2, destinée à l’évaluation : classer chaque image selon la présence ou non de métastase 

 

Performance des médecins anatomo-pathologistes.

2 expériences distinctes ont été organisées. 

Première expérience, dite « sans contrainte de temps ». Un seul médecin anatomo-pathologiste, expérimenté, a analysé les 129 images du test et a indiqué la localisation précise de chaque métastase. 

Deuxième expérience, dite « avec contrainte de temps ». Un panel de 11 médecins anatomo-pathologiste a eu 2 heure pour analyser les 129 images. Cet exercice  était supposé reproduire les conditions de travail habituelles des médecins. Il correspondait à la tâche N° 2 des algorithmes.

 

3. Principaux résultats

23 équipes ont soumis 32 algorithmes. 

Le médecin qui a participé à l’expérience « sans contrainte de temps » a eu besoin de 30 heures pour lire les 129 pièces.

 

Performance de l’algorithme

25 des 32 algorithmes étaient basés sur l'apprentissage profond (deep learning en anglais) qui s'est révélé être la meilleure technique d’apprentissage machine puisque  les 19 meilleurs algorithmes ont été entraînés de cette façon.

Au total, 7 algorithmes sur les 32 soumis à la compétition ont eu une performance significativement supérieure à celle des 11 pathologistes « avec contrainte de temps ». 

Les résultats des algorithmes ont été affinés pour distinguer les performances de détections des métastases en fonction de leur taille. Les meilleurs algorithmes ont eu des performances équivalentes aux 11 médecins « avec contrainte de temps » pour les macro-métastases ( les plus grosses). Dix algorithmes ont eu une meilleure performance que le meilleur pathologiste du groupe des 11 dans la détection des micro-métastases (les petites métastases).

 

DISCUSSION DES AUTEURS

Dans leur discussion, les auteurs insistent sur le fait que leur étude est la première à montrer que des algorithmes entraînés par deep learning peuvent obtenir un résultat équivalent à celui d’experts humains dans le diagnostic de métastases de cancer du sein sur ganglion sentinelle. 

Les algorithmes issus du deep learning ont mieux réussi que les algorithmes basés sur des données rentrées à la main. Mais ils remarquent que les performances varient beaucoup d’un algorithme à l’autre. La majorité d’entre eux ne sont pas exploitables. 

 

Limites de l’étude selon les auteurs. L’exercice organisé - analyser 129 pièces histologiques en 2 heures- ne reflètait pas réellement les conditions de travail des médecins. Ils observent que les 11 pathologistes « avec contrainte de temps » qui ont du travailler en 2 heures  ont été moins performants que le pathologiste « sans contrainte de temps » qui a eu besoin de 30 heures pour analyser le même nombre de pièces.

 

EDITORIAL ET COURRIER DES LECTEURS 

 Cet article a fait l’objet d’un éditorial et d’une lettre aux auteurs qu’il n’est pas inintéressant de relater. 

 

EDITORIAL par le Dr Jeffrey Alan Golden, médecin anatomo-pathologiste à Harvard Medical School à Boston (Etats-Unis). 

J.A Golden s’interroge sur le coût réel du deep learning en anatomo-pathologie. En effet, il observe que, si la radiologie, qui a numérisé ses images il y a 25 ans, se prête particulièrement au déploiement de l’IA, tel n’est pas le cas de l’anatomo-pathologie. (Rappelons que l’anatomo-pathologiste travaille sur des pièces prélevées sur le corps humain, c’est à dire directement sur tissu biologique. Pour obtenir des images numérisées, il est donc nécessaire de photographier les pièces histologiques). 

L’un des principaux obstacles à la digitalisation de l’anatomopathologie est donc qu’elle implique des coûts supplémentaires. La situation est différente de celle de la radiologie où, en éliminant le film, on a réduit de nombreux coûts (stockage, reproduction pour d’autres correspondants, transport…). 

Pour J.A Golden, l’intérêt médico-économique de l’IA en anatomo-pathologique ne paraît pas clairement établi. 

 

LETTRE AUX AUTEURS par les Dr Smeden, Calster et Greoenwold de l’université de Louvain en Belgique. 

Ces auteurs critiquent les conditions de l’expérimentation qui ne correspondent pas à la réalité de la pratique. Les médecins étaient défavorisés. 

La réponse des auteurs de l’étude était la suivante. Le but de l’étude n’était pas de remplacer les médecins dans leur activité clinique mais de déterminer si l’IA était capable de faire des diagnostics de métastases. Leur schéma expérimental a été configuré pour répondre à cette question. 

 

COMMENTAIRE DE LA REDACTION DE MEDECINE ET ROBOTIQUE

L'intérêt de cette étude est de nous montrer comment se fabrique l'IA médicale. Nous pouvons suivre les différentes étapes: composition de la base de données, phases d'apprentissage et de test. S'agissant d’une compétition technologique au cours de laquelle plusieurs équipes de chercheurs se sont affrontées, le premier résultat à relever est donc la technologie qui l’a emporté. Clairement, le deep learning s’est imposé comme la meilleure méthode d’apprentissage machine pour l’analyse d’images médicales. 

Cette étude est également intéressante à lire car elle permet de se rendre compte des déformations qui alimentent les réseaux sociaux. Comme nous l'avons vu, la "compétition" défavorisait les médecins puisque qu'on a demandé au groupe de 11 anatomo-pathologistes de réaliser en 2 heures un travail qui en prend 30.

Ce schéma expérimental a surtout permis d'évaluer ce que l'IA était capable de faire. En déduire que l'IA est "plus forte que les médecins" et s'apprête à les remplacer est un raccourci simpliste. Pourquoi? 

J.A Golden, dans son éditorial nous l'explique fort bien. L'implantation d'une innovation n'est pas une question purement technique. L'étude a montré qu'il existait une possibilité d'automatiser le diagnostic de métastases ganglionnaires de cancer du sein. Bien. Mais cela présente-t-il un intérêt réel? Il observe à juste titre que les bases de données nécessaires à l'émergence de l'IA en anatomopathologie n'existent pas. Leur fabrication pourrait coûter bien plus cher que le travail humain. Voici une vraie question, un peu trop rapidement écartée par les thuriféraires de l'IA. 

Plus cher ou moins cher? Nous n'avons pas la réponse.  Ceci nécessite une évaluation des coûts. Mais c'est précisément cela qu'il faut exprimer : l'importance de prendre en compte tous les paramètres avant de prendre des décisions. 

 

La place de l’IA en anatomopathologie, comme en médecine en général, reste à déterminer. Seules des études de terrain pourront  le déterminer. 

Ceci nous amène à la présentation du numéro suivant de "Comprendre l'IA en médecine". Les chercheurs de GOOGLE ont repris les résultats de CAMELYON 16 et se sont engagés dans la conception d'un logiciel de diagnostic d'analyse du ganglion sentinelle dans le cancer du sein. Leurs résultats viennent d'être publiés et leur réflexion se porte précisément sur cette question de l'intégration dans la pratique médicale du quotidien. 

 

Référence

https://jamanetwork.com/journals/jama/article-abstract/2665757

 

https://jamanetwork.com/journals/jama/article-abstract/2665757

 

https://jamanetwork.com/journals/jama/article-abstract/2679269

 

 

LES AUTRES ARTICLES DE LA RUBRIQUE "COMPRENDRE L'IA EN MEDECINE

COMPRENDRE L'IA EN MEDECINE N°1. GOOGLE PREDIT LE RISQUE CARDIO-VASCULAIRE

 

COMPRENDRE L’INTELLIGENCE ARTIFICIELLE EN MEDECINE N°2: DEPISTER LE MELANOME

 

EGALEMENT: LE LEXIQUE DE L'IA EN SANTE

LEXIQUE DE L'IA EN SANTE : QU'EST-CE QUE L'INTELLIGENCE ARTIFICIELLE?

 

LEXIQUE DE L'IA EN SANTE: QU'EST-CE QU'UN AGENT CONVERSATIONNEL?

LEXIQUE DE L'IA EN SANTE : QU'EST-CE QUE L'APPRENTISSAGE MACHINE? 

 

 


04/11/2018
1 Poster un commentaire

COMPRENDRE L’INTELLIGENCE ARTIFICIELLE EN MEDECINE N°2: DEPISTER LE MELANOME

ll ne se passe plus de mois sans qu'un nouveau logiciel issu de l'intelligence artificielle ne soit déclaré "meilleur que les médecins" et présenté au public. Que signifie vraiment cette formule? Peux-t-on réellement implanter des systèmes automatiques en lieu et place des médecins? 

Dans cette rubrique nous rendons compte d'études dont les résultats sont généralisables à l'ensemble de l'intelligence artificielle médicale. En décrivant les faits scientifiques, nous espérons mettre à disposition du plus grand nombre des informations de fond permettant à chacune et chacun d'appréhender le débat de société entourant l'IA médicale.

 

Ce second numéro de COMPRENDRE L'IA EN MEDECINE nous montre l’importance de lire soigneusement les articles scientifiques publiés dans le champ de l’intelligence artificielle en santé. Nous rapportons 2 études ayant évalué la performance d’un logiciel de diagnostic automatisé du mélanome. L’une est parue en 2017 dans la revue Nature, l’autre en 2018 dans Annals of Oncology. 

Le succès obtenu par les 2 équipes de chercheurs a été largement répercuté par les médias et les réseaux sociaux. Pourtant, la réalité des résultats scientifiques ne rejoint pas la fiction d’une intelligence artificielle autonome. Il faut dire que le titre de l’article le plus récent,  « L’homme contre la machine », manifestement choisi pour assurer le buzz, entretient savamment la confusion. 

Comme nous le verrons, le groupe des 58 dermatologues ayant « surpassé par la machine » , selon l’expression d’une revue grand public d’actualités scientifiques, n’est pas homogène. Seuls 30 avaient à leur actif une expérience supérieure à cinq ans et étaient qualifiés d’experts. Parmi eux, 22 ont été plus performants que l’algorithme d’intelligence artificielle. Les chercheurs exposent pourtant clairement leur résultats. Si l’emphase permet d’exister sur les réseaux sociaux, elle s’accomode mal d’exactitude de l’information. Celle-ci est pourtant nécessaire pour garder sa rationalité dans un débat public fort agité. 

 

Est-ce à dire qu’il faut prendre le contrepoint des réseaux sociaux et démentir la victoire de la machine ? Non. Car le point de débat n’est pas là. La supériorité ou l'infériorité de l’être humain face à la machine n'est pas un sujet pertinent. Il n’y a pas de compétition à organiser entre l’un et l’autre. L´IA est un outil en construction qui se doit d’être évalué selon des méthodes scientifiques. Or, la comparaison entre méthodes diagnostiques ou entre traitements est la base de la méthodologie de la recherche médicale. 

La comparaison organisée dans ces études n'est donc rien d’autre que la méthode scientifique nécessaire à l’évaluation de la technique. L’interprétation des résultats ne doit pas extrapoler vers un hypothétique remplacement des médecins par l’IA, comme certains ont été tentés de le faire. Il n’existe à ce jour aucun résultat scientifique, que ce soit dans les 2 études présentées ici, ou ailleurs, qui permettent d’argumenter dans ce sens. 

 

Dans l’exposé qui suit, nous vous proposons de lire avec rigueur et méthodologie les 2 publications relatant le diagnostic du mélanome par IA. Nous nous poserons ensuite une question simple : à quoi cela peut-il servir dans la médecine du quotidien? 

 


LES MOTS DE L'INTELLIGENCE ARTIFICIELLE

Réseau de neurones. Il s'agit d'une succession d'opérations mathématiques qui reproduisent le fonctionnement des neurones biologiques. Le réseau de neurones est à la base du fonctionnement de l'intelligence artificielle et de son apprentissage

 

Réseau de neurones convolutif. Il s'agit d'un réseau de neurones particulier bien adapté au traitement d'images. Les chercheurs ont utilisé un réseau de neurones convolutif avec pour données d’entrée (input) les pixels et les noms des maladies à diagnostiquer. 

 

Deep learning. Il s'agit d'une technique d'apprentissage machine. C'est elle qui fait le succès actuel de l'IA. Etudiée depuis plus de 30 ans, elle ne s'est imposée que dans la décennie 2010 grâce aux progrès de l'informatique  qui ont apporté 2 changements importants: premièrement l'augmentation considérable de la vitesse de calcul des ordinateurs et deuxièmement leur capacité à enregistrer de très grandes bases de données (le big data). 

 

 


 

PRESENTATION GENERALE

 

Tout comme le cas présenté dans le premier numéro (calcul d’un risque cardio-vasculaire par analyse d’une photographie de rétine) il s’agit ici de technique de reconnaissance visuelle.

 

Le premier travail est américain, le second est allemand avec participation de français (du centre de recherche contre le cancer de Lyon) et d’américains. Bien qu’effectuées par 2 équipes différentes, les 2 études sont liées. En effet, les chercheurs ont utilisé 2 versions différentes du logiciel de reconnaissance visuelle GoogleNet Inception. Les résultats de la deuxième étude viennent confirmer et compléter ceux de la première. Il ne s’agit pas de travaux cliniques car ils n’ont pas été réalisés auprès de vrais patients. Le matériel des études provenait de bibliothèques d’images existantes de lésions dermatologiques. Chacune était étiquetée avec son diagnostic. 

 Dans les 2 expériences, il s'agissait de reconnaître le bon diagnostic en face de chaque image, les chercheurs comparant la performance du logiciel à celle des dermatologues.

 


Le mélanome est un cancer de la peau. La première étape de son diagnostic est un dépistage visuel, soit a l'œil nu, soit moyen d'un dispositif grossissant appelé dermoscope. Le diagnostic définitif est apporté par la biopsie et l'examen anatomopathologique.

 


 

 DEROULEMENT ET RESULTAT DE LA PREMIERE ETUDE

 

La première étape, préalable à l’apprentissage d’un réseau de neurones est une phase d’initialisation appelée pré-entraînement. Le logiciel d’IA a été pré-entraîné sur la banque ImageNet Large Scale Visual Recognition Challenge qui comprend 1.28 millions d’images. 

 

L’entraînement à proprement parler est la seconde étape. Il est lui même divisé en 2 phases. 

Le réseau de neurones a été entraîné à partir d'une base de données de 129 450 images issues de photographies et de dermoscopies et représentant 2032 maladies différentes.

La première phase consistait à répartir les images en 3 classes : lésions bénignes, lésions malignes et lésions non-néoplasiques. Dans cette étape préalable, le réseau de neurones a été comparé à 2 dermatologues. Le logiciel a obtenu un taux de bonnes réponses de 72%, les 2 dermatologues respectivement 65 et 66%. 

 Puis, une deuxième phase a été organisée pour affiner le diagnostic. L’objectif était de répartir les images dans 9 catégories définitives de lésions dermatologiques. Le logiciel et les 2 dermatologues ont obtenu le même taux d’exactitude de 55%. 

 

Pour valider l’algorithme, les chercheurs ont ensuite réalisé une deuxième expérience. L’objectif était de classer convenablement un groupe d’images dans l’une des catégorie binaire  suivante: carcinome kératinocyte versus kératose séborrhéique bénigne ou mélanome malin versus naevus bénin. Le diagnostic était connu, prouvé formellement par biopsie ( ce qui n’était pas le cas de la première expérience). 21 dermatologues ont été inclus. Pour chaque image, il fallait indiquer la conduite à tenir: faire une biopsie de la lésion ou bien s’abstenir et rassurer le patient. Dans cette phase, le réseau de neurones a obtenu une performance équivalente à celle des dermatologues. 

 

VIDEO DE PRESENTATION DE L'ETUDE PAR L'UN DES CHERCHEURS ( EN ANGLAIS)

 

DEROULEMENT ET RESULTAT DE LA DEUXIEME ETUDE

La seconde étude a concerné uniquement des images de dermoscopie, 300 au total, provenant de la bibliothèque de dermatologie de l’université de Heidelberg en Allemagne. 20% représentaient des mélanomes, 80% des naevus bénins (Grain de beauté). Au sein de ce groupe de 300, les chercheurs ont extrait 100 images pour effectuer la comparaison entre le réseau de neurones convolutif et les dermatologues.

 

Les dermatologues participants ont été recrutés à partir d’une invitation envoyée par mail à une liste de la société internationale de dermoscopie. Sur 172 médecins invités, 58 ont accepté de participer. Ils étaient de 17 pays différents. Dans ce groupe de 58, 17 ( 29.3%) étaient débutants (expérience inférieure à 2 ans), 11 (19%) avaient une expérience de 2 à 5 ans. Un peu plus de la moitié 30 /58, (51.7%) étaient déclarés experts, avec une expérience de plus de 5 ans. 

 

Les dermatologues étaient sollicités 2 fois au cours de cette étude. Dans la première phase, dite lecture I, on leur présentait l’image de dermoscopie et on leur demandait de ranger la lésion dans l’une des 2 catégories suivantes mélanome ou naevus bénin. Ils devaient également choisir parmi les décisions thérapeutiques suivantes: excision, suivi clinique à court terme et renvoi à domicile sans autre suivi. 

Après 4 semaines, les mêmes participants étaient ré-interrogés dans la phase dite lecture II. Il s’agissait des mêmes 100 images de dermoscopie mais en gros plan et accompagnées d’ informations cliniques, ce qui n’était pas le cas dans la phase de lecture I. 

 

Résultat de la phase lecture I

En moyenne, les dermatologues ont une sensibilité de 86%, une spécificité de 71%. Les résultats des experts étaient supérieurs à ceux des débutants. Concernant les décisions thérapeutiques, la sensibilité était de 98% et la spécificité de 71% seulement. 

Les praticiens expérimentés avaient significativement moins de naevus bénins retirés inutilement. 

Résultat de la phase de lecture II. L’ajout d’informations cliniques et d’images en gros plan a augmenté la sensibilité et la spécificité. Le bénéfice concernait les dermatologues débutants et peu expérimentés. Les résultats des médecins expérimentés n’étaient pas modifié. 

Le réseau de neurones. Il atteignait une sensibilité de 95% et une spécificité de 63% sur le set de 100. Sur le set de 300, les résultats étaient:  sensibilité: 95%, spécificité: 80%. 


QU'EST-CE QUE LA SENSIBILITE ET LA SPECIFICITE

Il s'agit de calculs statistiques très utilisés en recherche médicale. Lorsque l'on utilise un test diagnostic, il y a 4 résultats possibles au total. Prenons l'exemple de la grippe que l'on peut rechercher par un prélèvement de sécrétions dans le nez.

Première possibilité. La personne a la grippe, le test est positif. Le diagnostic a été effectué convenablement chez une personne malade. C'est un vrai positif. 

Deuxième possibilité. La personne n'a pas la grippe. Le test est positif et diagnostique une grippe par excès. C'est un faux positif. 

Troisième possibilité. La personne a la grippe mais le test est négatif. Sa grippe n'est pas diagnostiquée. C'est un faux négatif.

Quatrième possibilité. La personne n'a pas la grippe, le test est bien négatif. C'est un vrai négatif. 

Les calculs de sensibilité et de spécificité vont permettre de mesurer la performance des tests diagnostics. 

Sensibilité. Elle mesure la proportion de vrais positifs parmi les malades. Elle correspond donc à la probabilité que le test soit positif si l'on est malade. 

Spécificité. Elle mesure la proportion de vrais négatifs parmi les non malades. Elle correspond donc à la probabilité que le test soit négatif si l'on n'est pas malade. 

 


 

 

Comparaison dermatologues et réseaux de neurones.

La fiabilité diagnostique du réseau de neurones était supérieure à celle des dermatologues car sa spécificité était supérieure aux 2 niveaux de lecture I et II. 

 

Interprétation des auteurs. Pour la première fois un réseau de neurones convolutif a surpassé un groupe international de 58 dermatologues dont 30 experts dans le diagnostic de mélanomes. Ils remarquent cependant que 22% des dermatologues ont été meilleurs que l’algorithme dans le niveau de lecture I. Il est donc supérieur à la plupart des dermatologues mais pas tous. 

Leur conclusion est qu’un réseau de neurones peut être entrainé à établir des diagnostics fiables de mélanomes. Il pourrait ainsi, à l’avenir, être un bon outil d’aide au diagnostic pour les dermatologues. Tout comme les chercheurs de la première étude, les auteurs pensent que ce type d’intelligence artificielle pourrait être introduit dans des appareils portables type Smartphone.

 

COMMENTAIRE DE LA REDACTION DE MEDECINE ET ROBOTIQUE

Le deep-learning est un progrès pour l’intelligence artificielle. Il a permis une avancée technologique réelle dans la reconnaissance automatisée d’images et son potentiel semble pouvoir s’étendre à tous les champs de la médecine qui en utilisent: observations à l’oeil nu des dermatologues, fonds d’oeil des ophtalmologues, radiologues…

 

Le niveau atteint par le logiciel de Google dans la reconnaissance du mélanome est intéressant car il tient la comparaison avec des médecins spécialistes. Dans la deuxième étude, 22% des dermatologues ont des résultats supérieurs à celui du logiciel. Il n’y a donc, pour le moment, pas de supériorité franche de l’IA. Elle ne peut pas, à ce stade, être adoptée comme méthode diagnostique de référence. Bien que la recherche  se poursuive pour améliorer la performance de l’IA, les chercheurs parlent déjà d’une implantation dans des appareils aussi simples d’utilisation que des smartphones. 

L'organisation de vastes études cliniques de confirmation destinées à vérifier les résultats de ces travaux préliminaires nous semble indispensable avant toute exploitation commerciale. Mais celle-ci pourrait cependant être assez rapide car le logiciel nous paraît suffisamment mature pour intégrer la médecine de dépistage.

En effet, si en l’état actuel, l'intelligence artificielle n’apporte pas de valeur ajoutée par rapport à un spécialiste expérimenté, sa performance est très  intéressante pour des médecins ou des professionnels de santé polyvalents. Nous pensons aux médecins généralistes de ville ou aux infirmières des centres de prévention dont l’un des rôles est de dépister le mélanome et d’adresser les patients au spécialiste en fonction de leurs constatations. 

C’est donc très probablement dans le dépistage réalisé par des non-spécialistes que ce logiciel de diagnostic automatisé peut trouver sa place.

 

REFERENCES

Première étude: 

https://www.nature.com/articles/nature21056.epdf?author_access_token=8oxIcYWf5UNrNpHsUHd2StRgN0jAjWel9jnR3ZoTv0NXpMHRAJy8Qn10ys2O4tuPakXos4UhQAFZ750CsBNMMsISFHIKinKDMKjShCpHIlYPYUHhNzkn6pSnOCt0Ftf6

 

Deuxième étude:

https://academic.oup.com/annonc/advance-article-abstract/doi/10.1093/annonc/mdy166/5004443?redirectedFrom=fulltext

 

 

 

SUR LES PRINCIPES DE L'INTELLIGENCE ARTIFICIELLE ET DU DEEP LEARNING, UNE VIDEO EXPLICATIVE TRES SIMPLE

 

 

 


16/06/2018
0 Poster un commentaire

COMPRENDRE L'IA EN MEDECINE N°1. GOOGLE PREDIT LE RISQUE CARDIO-VASCULAIRE

 

l ne se passe plus de mois sans qu'un nouveau logiciel issu de l'intelligence artificielle ne soit déclaré "meilleur que les médecins" et présenté au public. Que signifie vraiment cette formule? Peux-t-on réellement implanter des systèmes automatiques en lieu et place des médecins? 

Dans cette rubrique nous rendons compte d'études dont les résultats sont généralisables à l'ensemble de l'intelligence artificielle médicale. En décrivant les faits scientifiques, nous espérons mettre à disposition du plus grand nombre des informations de fond permettant à chacune et chacun d'appréhender le débat de société entourant l'IA médicale.

GOOGLE a récemment annoncé avoir développé une intelligence artificielle capable de prédire le risque cardio-vasculaire à partir d'une simple photographie de rétine. Nous ouvrons notre série "comprendre l'IA en médecine" avec le compte-rendu de la publication scientifique parue dans la revue Nature Biomedical Engineering en mars 2018. 

Quel est le travail exécuté par les chercheurs? Quels sont leurs résultats? Comment peuvent-ils s'intégrer dans la médecine du quotidien? Réponse dans les lignes qui suivent. 

 

LA METHODE DE L'ETUDE

La rétine change au cours de la vie. Elle se modifie en fonction de certains facteurs: âge, niveau de pression artérielle, tabagisme, taux de cholestérol, diabète, obésité…autant de facteurs de risque cardio-vasculaires.

Les chercheurs ont voulu montrer qu’un algorithme d’intelligence artificielle utilisant le « deep-learning » était capable d’extraire ces informations à partir d’une simple photographie de rétine. 

Ils ont utilisé 2 bases de données issues de 2 études de surveillance médicale. La première est britannique. Elle a été conduite entre 2006 et 2010.  Plus de 67 000 fonds d’oeil ont été faits parmi 500 000 personnes. Un questionnaire relevait les facteurs de risque cardio-vasculaire et les patients devaient mesurer leur pression artérielle par auto-mesure.  La seconde est une étude américaine de suivi de la rétinopathie diabétique conduite entre 2007 et 2015 qui a permis de recueillir un peu moins de 250 000 fonds d'oeil. 


 

QU'EST-CE QUE LE DEEP LEARNING? 

En nous basant sur les explications fournies par les chercheurs de GOOGLE, essayons d'expliquer le deep-learning de façon intelligible pour le profane. 

 

LES MOTS-CLEFS: 

-Pas de programmation directe des solutions: l'ordinateur les retrouve lui-même 

-Apprentissage à partir d'exemples

-Un algorithme est une succession de calculs mathématiques 

-Le deep-learning est une succession d'équations mathématiques, fausses au début, progressivement corrigées par la machine elle-même

 

Le Deep learning ( apprentissage profond en français) est l’une des familles de technique d’apprentissage- machine. Avec cette méthode il n’est pas nécessaire de faire entrer manuellement les solutions dans la machine. Elle peut apprendre sans être programmée directement.  C’est son grand avantage. 

Il faut donc retenir que l'on ne donne pas les solutions d'avance à l'ordinateur. On lui montre des exemples, c'est-à-dire des images pour lesquelles la réponse est connue. Il va apprendre à partir de ces exemples. 

 

Prenons le cas de la rétine de fumeur. Dans la base de données, tous les fumeurs sont identifiés. 

N'oublions pas que les données utilisées proviennent de 2 études épidémiologiques médicales publiées il y a quelques années. Toutes les réponses étaient connues d'avance. Le but de l'étude était de voir si l'intelligence artificielle était capable de les retrouver.  

Les chercheurs vont créer un algorithme qui recherche les fumeurs. Puis, ils montrent les photographies de rétine de fumeur à l'ordinateur. Lorsque l'ordinateur voit juste, on lui indique. Lorsqu'il voit faux, on lui indique également. L'ordinateur retient ce qu'il fait et mémorise les résultats de ses actions. Ainsi, après une phase d'entraînement, il est capable d'identifier les caractéristiques communes à toute rétine de fumeur. Il peut maintenant identifier un fumeur ou un non-fumeur à partir de n'importe quelle photographie de rétine. 

 

 Reconnaître une image : une opération mathématique 

Comme toute programmation informatique, le deep-learning est une succession de calculs mathématiques. On parle de couches de calcul. Lorsque l'on montre les exemples à l'ordinateur, il exécute ces "couches de calcul" et ajuste lui-même les paramètres des équations mathématiques pour retrouver la bonne solution. 

 

Pour désigner ces actions, les ingénieurs parlent de "réseau neuronal profond "( deep-neural network en anglais). Il est donc composé d’une séquence d’opérations mathématiques que l’on applique à une donnée d’entrée, par exemple la valeur du pixel d’une image. Le deep-learning est le procédé par lequel le modèle apprend à corriger ses erreurs pour arriver à une solution exacte. 

Au début, le réseau neuronal est programmé au hasard. Puis, pour chaque image, la prédiction donnée par le modèle est comparée à un exemple dont le résultat exact est connu. Le modèle va alors progressivement corriger ses erreurs pour se mettre en adéquation avec l’exemple. Le processus est répété jusqu’à ce que les équations corrigées soient capables de trouver la solution exacte pour n’importe quelle image. 

 

L’expression « apprendre de ses erreurs » n’a jamais été aussi vraie qu’avec le deep-learning ! 


 

 QUELS SONT LES RESULTATS RETROUVES PAR LES CHERCHEURS ? 

1. Retrouver la présence de facteurs de risque cardio-vasculaire 

Les chercheurs ont utilisés les renseignements suivants présents dans les 2 bases de données: âge, genre, ethnie, l’indice de masse corporelle, la pression artérielle, le taux d’hémoglobine glyquée, le statut fumeur ou non. 


INDICE DE MASSE CORPORELLE: à partir du poids et de la taille d'une personne, on mesure l'indice de masse corporelle (IMC) qui permet de savoir si il y a un surpoids ou au contraire un état trop maigre

HEMOGLOBINE GLYQUEE: mesure biologique obtenue par une prise de sang qui permet d'évaluer le taux de sucre sur les 3 derniers mois. Utilisé dans le suivi du diabète

 


 

Les chercheurs ont évalué la capacité de prédiction de leurs algorithmes en les comparant avec les résultats connus de la base de données. Le modèle d'intelligence artificielle s'avère très efficace pour prédire l’âge.

La pression artérielle systolique, l’indice de masse corporelle et l’hémoglobine glyquée sont également bien prédits mais le  modèle est moins précis. 

 

2. Calculer un risque d'événement cardio-vasculaire grave dans les 5 ans 

Ensuite, les chercheurs ont entraîné le modèle à prédire la survenue d’un « accident cardio-vasculaire majeur » dans les 5 ans qui suivent le recueil des renseignements. Cette information n’était disponible que dans une seule des bases de données, UK Bio-bank. 631 patients, sur les 48 101 en ont été victimes. Les chercheurs ont donc voulu savoir si il aurait été possible de prévenir la survenue de ces accidents cardio-vasculaires. Pour cela ils ont calculé la probabilité de décès par le SCORE et l’ont comparé à la prédiction donnée par leur algorithme. Le SCORE était capable de prédire l’accident dans 72% des cas, l’algorithme dans 70% des cas. Les 2 méthodes apparaissent ainsi équivalentes. 



 

QU'EST-CE QUE LE SCORE? 

SCORE est l'acronyme de Systematic COronary Risk Evaluation (Evaluation du risque coronarien systématique). Il a été conçu sous l’égide de la Société Européenne de Cardiologie et publié en 2003. Il s'agit d'un outil de prévention médicale. Le médecin peut estimer le risque de décès par maladie cardio-vasculaire dans les 10 ans pour une personne donnée et proposer les mesures adaptées pour l'éviter. Il se présente comme un tableau à 4 entrées, un pour les hommes et un pour les femmes. On place le patient dans une case en fonction de son âge, de son taux de cholestérol, de sa pression artérielle systolique et du statut fumeur ou non fumeur. On lit le pourcentage de risque de décès par maladie-cardiovasculaire dans les 10 ans. Pour calculer le SCORE, il est donc nécessaire de réaliser une consultation médicale avec interrogatoire et une prise de sang. 

 

Ci-dessous, tableau de calcul du SCORE

 

 

SCORE.jpg


3. Quelles régions de la photographie de rétine ont-elles été utilisées par l'algorithme d'intelligence artificielle?  

 

Les algorithmes sont des calculs mathématiques qui permettent de déterminer si une image de rétine est associée à un paramètre (ici, l’âge, la pression artérielle, l’hémoglobine glyquée, fumeur ou non fumeur, l’indice de masse corporelle). Mais les chercheurs n’indiquent pas par avance à la machine quelle région de la photographie il faut regarder pour déterminer le paramètre. En s’entraînant, elle va trouver par elle-même la région à regarder pour déterminer telle ou telle donnée. 

Les chercheurs ont réussi à retrouver quelles régions ont été utilisées par la machine. Pour l’hémoglobine glyquée, il s'agit des pourtours vasculaires; pour le genre, du disque optique, des vaisseaux et de la macula. Pour la pression artérielle et l’indice de masse corporelle, il n’y avait en revanche pas de zone spécifique. Les chercheurs en déduisent que les effets de ces 2 paramètres sont diffus dans l’oeil. 

 

Nous visualisons ainsi un peu mieux ce qu’est le deep-learning médical. La machine apprend réellement par elle-même puisqu’elle part d’équations mathématiques qui lui permettent de relier une image à un paramètre, un peu comme dans un exercice de langue étrangère où il faut relier une image avec le mot correspondant. Au début, elle commet beaucoup d'erreurs. Mais, au fur et à mesure de son entraînement, elle va être capable de réduire les erreurs et de cibler les zones de la rétine utiles pour répondre à la question posée. 

 

Ci-dessous: les photographies de rétine utilisées dans l'étude

 

2.jpg

 

LA DISCUSSION DES AUTEURS. COMMENT INTERPRETENT-ILS LEURS RESULTATS? 

Les auteurs se déclarent satisfaits des résultats obtenus. L’application du deep-learning à des images de fond d’oeil isolées a permis d’identifier plusieurs facteurs de risque cardio-vasculaire: âge, genre et pression artérielle systolique. 

Ces éléments étant des composants essentiels des scores de calcul de risque de maladie cardio-vasculaire grave, les chercheurs ont émis l’hypothèse que leurs algorithmes pouvaient les calculer directement. Ceci semble confirmé par le résultat de leur deuxième expérience au cours de laquelle ils ont réussi à composer un algorithme de prédiction qui obtient la même performance que le score européen. 

 

Mais les auteurs soulignent également une importante limite de leur travail. En effet, la taille des échantillons serait trop faible. Des effectifs plus grands seraient plus adaptés au deep-learning. Les résultats gagneraient en fiabilité. 

 

QUELLE UTILITE DANS LA MEDECINE DU QUOTIDIEN? LE COMMENTAIRE DE MEDECINE-ET-ROBOTIQUE

Dans la pratique quotidienne, ce type d'intelligence artificielle apparaît être surtout un instrument de médecine de prévention. L'élément nouveau est de pouvoir retirer des renseignements précis sur une personne par une simple photographie de rétine, facile à obtenir. Si le coût de l'appareil est raisonnable, on pourrait imaginer une installation massive dans des structures collectives comme les centres de santé ou les hôpitaux, avec un résultat transmis au médecin traitant. Cette innovation pourrait donc élargir considérablement nos capacités de dépistage des maladies cardio-vasculaires.

La limite décrite par les auteurs appelle un commentaire. Selon eux, la taille des effectifs utilisés dans leur étude est trop faible. Ceci pourrait être un véritable obstacle pour le deep-learning en médecine.

En effet, pour l'épidémiologie médicale, les effectifs des 2 bases de données utilisées par les chercheurs sont importants. En dehors des grandes séries de suivi des maladies chroniques qui rassemblent les données de dizaines de milliers de personnes, il sera difficile d'obtenir davantage. 

Si elle n'était pas surmontée, cette contrainte pourrait interdire à l'IA de se développer pleinement en médecine. 

 

Référence:https://www.nature.com/articles/s41551-018-0195-0.epdf?author_access_token=YWBi0EzCgfAVb_S540xl-tRgN0jAjWel9jnR3ZoTv0OMsbBDq-7d5VZef-dAA8S4kHGY_hXONc93gwXXjuO908b_ruUDVkgB5jW3RnvvRdLFLmvpTsPku5cXZoTEtr09fPvTK40ZbWzpoOGfLab-NA%3D%3D

 


02/05/2018
0 Poster un commentaire