Si, grâce à l’intelligence artificielle, un ordinateur est désormais capable de faire la différence entre des lésions pigmentées mélanocytaires et des lésions pigmentées bénignes, le diagnostic différentiel de lésions non pigmentées reste compliqué, en raison, notamment, des critères dermatoscopiques plus spécifiques et du nombre important d’autres diagnostics possibles.
L’étude conduite par une équipe internationale de chercheurs a été publiée dans « JAMA Dermatology » (1). Elle avait pour objectif principal de savoir si, en entraînant une forme d’intelligence artificielle (les réseaux de neurones convolutifs) à partir d’images de lésions cutanées non pigmentées, celle-ci serait plus efficace que le diagnostic des experts, notamment des dermatologues, pour la caractérisation des lésions de ce type.
Entraînement intense
Dans un premier temps, les scientifiques d’une clinique de Queensland en Australie ont entrainé les réseaux de neurones convolutifs à partir de 7895 images dermatoscopiques et 5829 images cliniques de lésions connues photographiées et excisées entre le 1er janvier 2008 et le 13 juillet 2017. Les différents types lésionnels étaient les suivants : kératose actinique et carcinome intraépithélial, carcinome basocellulaire, lésions bénignes de type kératosique, histiocytofibrome, mélanome, carcinome de l’épithélium pavimenteux invasif et kérato-acanthome, néoplasme sébacé bénin, tumeur bénigne des follicules pileux.
Les réseaux de neurones ont ensuite analysé 2072 lésions non pigmentées inconnues à partir d’images cliniques et dermatoscopiques provenant de cohortes indépendantes.
Pour être exact, deux réseaux neuronaux convolutifs ont été mis à contribution : l’un était entraîné sur les images cliniques, l’autre sur les images dermoscopiques, avec, en conclusion, une seule réponse combinant les deux analyses.
En parallèle, il était demandé à 95 évaluateurs professionnels de santé (51,6% de femmes ; âge moyen 43,4 ans ; IC 95%,41,0-45,7 ans), dont 62 dermatologues, d’analyser 50 lésions (images cliniques et dermoscopiques), issues du groupe test de 2072 lésion non pigmentées. Les évaluateurs étaient répartis en trois groupes selon leur niveau d’expérience en dermoscopie : débutants : <3 ans ; intermédiaires : de 3 à 10 ans ; experts : >10 ans. Les lésions à analyser étaient réparties de façon aléatoire entre les participants.
Chaque échantillon randomisé était stratifié selon les différentes catégories de diagnostic pour éviter la sur-représentation de diagnostics communs. Il était demandé aux évaluateurs de faire la différence entre une lésion bénigne et une lésion maligne, d’établir un diagnostic précis et de proposer une solution thérapeutique. L’image clinique était toujours montrée avant l’image dermoscopique et l’évaluation finale se faisait sur la combinaison des deux images.
Les performances des réseaux de neurones convolutifs ont ensuite été comparées aux résultats obtenus par les évaluateurs.
Aussi efficace que les experts
Les chercheurs ont ainsi pu constater que la machine était capable de classer les lésions non pigmentées avec autant de précision que les évaluateurs experts, et avec une meilleure précision que les évaluateurs les moins expérimentés. L’étude met également en évidence que l’association des deux types d’images (clinique et dermoscopique) donne de meilleurs résultats qu’une des deux images seule, quelle qu’elle soit. L’intelligence artificielle était, par ailleurs, plus performante pour détecter les lésions bénignes à partir des images cliniques, et plus performante sur les lésions malignes à partir des images dermoscopiques.
Peu performant sur les lésions rares
Si ces résultats sont intéressants, les auteurs soulignent cependant que l’intelligence artificielle ne peut, en l’état, remplacer la pratique clinique. L’analyse effectuée par l’ordinateur prend, en effet, uniquement en compte les caractéristiques morphologiques des lésions, et non des critères importants comme l’âge, la localisation anatomique de la lésion et son historique. Par ailleurs, seuls des cas pathologiques confirmés ont été utilisés dans l’échantillon test, induisant une sur-représentation des cas malins. Or, en situation clinique, un diagnostic effectué uniquement sur des images cliniques et dermoscopiques est source d’erreur ; une confirmation anatomopathologique reste nécessaire. Enfin, la performance de la machine n’est pas uniforme selon les différentes catégories de lésions, notamment les plus rares, du fait de la faible représentation de certaines de ces catégories dans l’échantillon d’entraînement et d’un nombre de pièces à diagnostiquer in fine faible par rapport à ce qu’un évaluateur humain verra tout au long de sa pratique professionnelle.
Pour les chercheurs, l’ordinateur mérite donc encore de l’entraînement avant d’espérer, peut-être, remplacer, un jour, l’Homme.
(1) P. Tschandl et al., JAMA Dermatol., doi:10.1001/jamadermatol.2018.4378, 2018
Près de 40 % du chiffre d’affaires
Médicaments chers : poids lourds de l’activité officinale
Les concentrations continuent
Hygie 31, Giropharm : grandes manœuvres au sein des groupements
Valorisation et transactions en 2023
La pharmacie, le commerce le plus dynamique de France
Gestion de l’officine
Télédéclarez votre chiffre d’affaires avant le 30 juin