• Aucun résultat trouvé

Systèmes d’aide à la décision CADx versus aide à la détection CADe

d’aide à la détection (CADe)

4.5 Évaluation des performances des systèmes CAD

4.7.1 Systèmes d’aide à la décision CADx versus aide à la détection CADe

Deux types d’études CAD sont à distinguer dans la suite de cet état de l’art : celles se focalisant sur la conception de systèmes d’aide à la détection (CADe) et celles préférant l’approche de l’aide à la décision (CADx). Les études se focalisant sur l’établissement de systèmes système d’aide à la détection (CADe) proposent de calculer une carte de probabilité de présence du cancer, il s’agit notamment de celles de Chan et coll. [18], Madabushi et coll. [67,68], Langer et coll. [59], Viswanath et coll. [131], Ozer et coll. [83], Artan et coll. [5] et Lopes et coll. [65].

Les études portant sur des systèmes d’aide à la décision (CADx) proposent d’attribuer un score de suspicion de malignité pour une région d’intérêt (ROI) suspectée par le radio-logue, il s’agit notamment de celles de Puech et coll. [93], de Tiwari et coll. [124] et Vos et coll. [132,133].

Si ces deux approches CAD n’abordent pas le même problème, elles reposent sur les mêmes algorithmes de discrimination.

4.7.2 Les méthodes supervisées utilisant l’IRM multi-paramétrique Dans leur étude publiée en 2003, Chan et coll. [18] combinent trois types de caractéris-tiques (oufeatures) : (1) de l’information anatomique, traduisant la localisation (coordon-nées cylindriques du voxel) au sein de la zone périphérique (ZP), (2) des valeurs d’intensités mesurées sur les images en T2-pondérée (T2-w), densité de protons et sur les cartographies T2 (T2-map) et cartes ADC (obtenues à 1.5 T), (3) des caractéristiques de texture extraites des différentes séquences (à partir de la matrice de co-occurence GLCM en particulier). Ces attributs sont utilisés pour construire une carte de probabilité de présence du cancer dans la zone périphérique (ZP) en appliquant des classifieurs de type maximum de vraisemblance, séparateur à vaste marge (SVM) et analyse discriminante linéaire (ADL). En l’absence d’analyse histologique, l’apprentissage se fait sur une base de données de 15 patients an-notées par un radiologue expert (guidé par les résultats des biopsies). L’apprentissage est réalisé par validation croisée de type LOPO (leave-one-patient-out, apprentissage sur n-1 patients et test sur le dernier, répété n fois). Les performances maximales sont obtenues pour l’ADL utilisant tous les attributs (AUC=0.83) ; faute de convergence à l’apprentis-sage, les performances obtenues avec le SVM et tous les attributs (notamment les textures) ne sont pas quantifiées (AUCSV M,intensité=0.64, AUCSV M,intensité+anatomie=0.76). Les per-formances obtenues avec une classification au maximum de vraisemblance (utilisant un seul attribut à la fois) atteignent seulement AUCSV M,T 2w=0.6. Ils montrent que l’utilisation conjointe de tous les attributs aboutit à des performances de classification statistiquement bien meilleures qu’en utilisant uniquement les valeurs de niveaux de gris directement ex-traites des images (AUCADL,intensité=0.62). En conclusion, les auteurs soulignent l’apport de l’approche multi-séquence et de l’extraction d’attributs images. Il s’agit de la première étude proposant un schéma automatique de discrimination des tissus prostatiques ma-lins/bénins à partir d’images IRM.

Madabushi et coll. [67] proposent, en 2005, d’extraire différents paramètres : (1) sta-tistiques (médiane, moyenne locales, etc), (2) de gradients, et (3) de texture (paramètres de Gabor ou issus de la GLCM) à partir d’images IRM T2-w haute résolution (4 T) ac-quises ex vivo. Ils utilisent un classifieur Bayésien qui fournit, pour chacun des attributs pris individuellement, une carte de vraisemblance de l’appartenance à la classe maligne. Ces cartes sont ensuite fusionnées par différentes méthodes de combinaisont de vraisem-blance : vote à la majorité, moyenne, adaboost et méthode de l’ensemble général (GEM, general ensemble method, qui construit la règle de décision à partir d’une combinaison linéaire des probabilités estimées sur chacun des attributs, [91]). L’évaluation repose sur les données de 5 patients parmi lesquelles seules 33 coupes IRM axiales sont considérées et annotées suivant la vérité histologique. L’apprentissage est effectué sur 5 coupes. Les auteurs montrent que la combinaison des différents attributs extraits permet d’obtenir des performances supérieures à celles obtenues en utilisant chaque attribut de manière indé-pendante. La comparaison des performances individuelles de chacune des caractéristiques montre que celles issues de la GLCM sont les plus discriminantes, suivies des attributs sta-tistiques du premier ordre et de type gradient. Les paramètres de Gabor sont de loin les moins discriminants. La méthode de combinaisons de type GEM est la plus performante avec VPP=30% (valeur prédictive positive). Les résultats sont comparés aux performances de 4 experts mais aucune conclusion générale sur les différences de performances n’a pu être mise en évidence. En conclusion, les auteurs soulignent les limites de leur approche ex vivo mono-séquence (qui ne peut, par nature, pas être étendue à l’imagerie de diffu-sion ou de perfudiffu-sion) et du faible nombre de cas d’apprentissage. En 2006, Madabushi et coll. [68] étendent leur étude à la comparaison des performances réalisées par un classi-fieur naïf de Bayes (CNB), un classiclassi-fieur de type k-plus proches voisins (k-PPV), un al-gorithme de Boosting et de Bagging. Les auteurs montrent que les performances réalisées par le k-PPV sont les meilleures en termes de précision et soulignent ainsi qu’un classi-fieur non-paramétrique simple qui requiert un apprentissage minimal obtient de meilleures performances (AUC=0.94) que le classifieur de Bayes (AUC=0.93) et que des méthodes plus sophistiquées de Boosting (AUC=0.93) ou Bagging (0.92). Dans cette étude, Mada-bushi et coll. remarquent également que la variabilité entre les différents classifieurs est significativement plus faible que celle mesurée sur 5 experts humains.

En 2009, Viswanath et coll. [131] poursuivent le travail réalisé par Madabushi. Ils construisent un système d’aide à la détection (CADe) basé sur des forêts aléatoires d’arbres de décision (RDF) qui combinent les prédictions réalisées par un classifieur naïf de Bayes (CNB). Leur système intègre des attributs statistiques, de gradients et de textures (issus de la GLCM) extraits de l’image T2-w et les valeurs du signal mesuré sur séquence la DCE, acquises cette fois in vivo sur un imageur à 3 T. Là encore, la combinaison de l’informa-tion T2-w et DCE et des différents attributs extraits augmente de manière significative les performances de détection (AUCT 2w=0.7, AUCT 2w+attributs,DCE=0.81). A noter qu’un point faible de cette étude est le jeu de données très restrictif composé uniquement de 18 coupes axiales issues des acquisitions réalisées sur 6 patients.

4.7. LES CAD DU CANCER DE LA PROSTATE : UNE APPLICATION EN DÉVELOPPEMENT

Puech et coll. [93], proposent un système d’aide à la décision pour l’analyse des images DCE, utilisant des paramètres semi-quantitatifs1 extraits des courbes de réhaussement en produit de contraste (temps et valeurs remarquables, pentes de WI, WO). Ils évaluent un algorithme de scoring sur 10 points, basé sur un ensemble de critères expérimentaux orga-nisés sous forme d’arbre. Cette heuristique est évaluée sur 121 ROI extraites de 84 patients (zones périphériques et transitionnelles confondues). La vérité terrain est construite soit à partir de la vérité histologique lorsqu’elle est disponible, soit par un radiologue expert au vu des résultats des biopsies. Avec une AUC de 0.77, les performances du système d’aide à la décision (CADx) sont meilleures que celles d’un radiologue junior (AUC=0.57, p < 0.0001). Les auteurs soulignent néanmoins le manque de spécificité de la méthode propo-sée et le biais introduit par une validation par re-substitution. Les perspectives concernent l’utilisation de paramètres pharmacocinétiques issus de la modélisation des courbes de réhaussement DCE et de l’imagerie de diffusion.

Langer et coll. [59], réalisent en 2009 une analyse par régression logistique des ni-veaux de gris des images de type T2-map et ADC, et de paramètres pharmacocinétiques Ktrans et Ve calculés à partir de la DCE, obtenus à 1.5 T. L’évaluation repose sur une base d’images issues de 29 patients, pour lesquelles la vérité terrain a été reporté de l’his-tologie vers les images par un radiologue expert seul. L’apprentissage est réalisé sur un ensemble de ROI malignes/bénignes extraites des images. L’étude des performances réa-lisées par chacun des paramètres pris individuellement place l’ADC comme attribut le plus discriminant (AUCADC=0.68, AUCT 2=0.67, AUCKtrans=0.59 et , AUCve=0.54). Le modèle optimal consiste en une combinaison des valeurs d’ADC, de T2-map et de Ktrans (AUCT 2,ADC,Ktrans=0.70).

Dans leur étude publiée en 2010, Vos et coll. [132] évaluent le pouvoir de discrimi-nation d’un schéma CADx utilisant les données issues des séquences IRM T2-w et DCE combinées avec un classifieur de type SVM. Outre les attributs correspondant aux inten-sités des images en T1 et T2, ils proposent d’extraire les paramètres pharmacocinétiques Ktrans, Ve, Kep et WO. Leur étude repose sur les données de 29 patients. La vérité ter-rain est construite à partir des données de l’analyse histologique reportées après consensus radiologue/anatomo-pathologiste sur les images IRM. Ils montrent que l’utilisation du si-gnal de la séquence T2-w peut significativement améliorer les performances obtenues en utilisant uniquement les paramètres pharmaco-cinétiques issus de la DCE (AUCDCE = 0.84 versus AUCT 2,DCE = 0.89), démontrant ainsi une fois de plus le besoin d’une ap-proche multi-séquence. Cette étude fait suite à un premier papier publié en 2008 (Vos et coll. [133]) dans lequel seules les données issues de la DCE étaient exploitées. L’originalité de l’approche testée en 2008 est de distinguer dans l’établissement de leur vérité terrain : (1) les tissus malins (notés {M}), (2) les tissus bénins d’apparence normale ({N}) et (3) les tissus bénins d’apparence suspecte à l’IRM ({NS}), faux positifs potentiels. L’analyse des performances de leur système distingue donc deux problèmes de classification : (1) le

1. La section 7.2.3, page 106, sera consacrée à la définition des paramètres de perfusion semi-quantitatifs (WI, WO, etc) et pharmaco-cinétiques (Ktrans, Ve, Kep)

problème "classique" de discrimination des tissus malins et bénins ({M} versus {N, NS}), (2) la discrimination des tissus malins et suspects ({M} versus {NS}), plus difficile mais présentant un plus grand intérêt clinique. Les performances AUCDCE obtenues par leave-one-patient-out (LOPO) sur les données de 34 patients sont respectivement de 0.92 et 0.83.

Artan et coll. [5] comparent, en 2010, différentes méthodes supervisées de type SVM (SVM ou C-SVM, avec ou sans optimisation du paramètre de coût de mauvaise classi-fication C) et incorporent de l’information spatiale via l’utilisation de champs aléatoires conditionnels (CRF). Ils utilisent les caractéristiques de type T2-w, ADC et Kep obtenues sur 21 patients à 1,5 T. Les paramètres des classifieurs sont optimisés de manière à maxi-miser l’indice de Dice ; les performances obtenues (SE, SP, DSC)SV M= (0.73, 0.67, 0.40) versus (SE, SP, DSC)CRF=(0.64, 0.78, 0.46) montrent le potentiel de l’utilisation d’une méthode de régularisation spatiale.

En 2011, Lopes et coll. [65] comparent deux approches de classification : SVM et ada-boost. Leur étude repose sur les données T2-w acquises sur 27 patients, pour lesquelles la vérité histologique est connue, et desquelles sont extraits des paramètres de texture de type ondelettes, filtre de Gabor et paramètres d’Haralick (issus de la GLCM) ainsi que des caractéristiques fractales. Les performances maximales sont obtenues en utilisant unique-ment les attributs fractals (AUCf ractal= 0.92 versus AUCondelette,Gabor,Haralick=0.88). La comparaison des performances des deux algorithmes de classification n’est pas explicitée en termes d’AUC. Les perspectives concernent l’utilisation d’autres séquences IRM dans le schéma de classification.

4.7.3 Systèmes CAD reposant sur des algorithmes de classification