• Aucun résultat trouvé

Partitionnement des images disponibles pour l’entraînement du système

d’aide à la détection (CADe)

4.5 Évaluation des performances des systèmes CAD

4.6.2 Partitionnement des images disponibles pour l’entraînement du système

Une fois le type d’images défini, il convient de les séparer en différents groupes pour la mise en place d’une stratégie de construction et d’évaluation du CAD. Idéalement, il est souhaitable de séparer en deux groupes le jeu de données à disposition : un partie sert de base d’apprentissage, pour fixer le modèle prédictif, l’autre de base de test, pour en évaluer les performances (capacités de généralisation). Cette méthode est désignée sous le nom de hold-out. En effet, la qualité réelle d’un modèle ne peut pas être objectivement estimée par les performances mesurées sur des données qui ont servi à le construire. Néanmoins, dans la pratique, les études reposent sur peu d’exemples (i.e. chaque exemple compte) et cette séparation en deux n’est pas souhaitable, l’évaluation des performances étant alors trop fortement dépendante du partage réalisé.

Plusieurs méthodes de partitionnement (ou ’ré-échantillonnage’) des bases d’images permettant de simuler les conditions réelles d’utilisation à partir des données disponibles sont données dans la littérature, parmi lesquelles les méthodes de :

Validation croisée (k-fold). Technique particulière de validation d’une architecture de

modèle dans laquelle plusieurs modèles de même architecture sont construits sur k sous-ensembles disjoints des données disponibles. La performance de chacun des modèles est alors estimée sur la partie des données qui n’a pas été utilisée lors de sa construction. Chaque exemple sert à l’apprentissage k− 1 fois et est testé 1 fois. Les résultats obtenus pour toutes les combinaisons (échantillons d’apprentissage/test) sont ensuite synthétisés pour donner une estimation du pouvoir de généralisation de l’architecture testée.

Leave-One-Out (LOO) / Leave-one-Patient-Out (LOPO). Cas particulier de la

va-lidation croisée. Lorsqu’un seul échantillon sert au test du modèle de classification et tous les autres à l’apprentissage, la méthode est appelée leave-one-out. Dans la littérature et plus loin dans cette thèse, on verra souvent utilisé le terme LOPO (pour leave-one-patient-out). L’idée est de considérer les données d’un même patient comme un tout indissociable, évitant ainsi d’entraîner et de tester l’algorithme sur des données issues d’un même patient (clustered data).

Resubstitution. La méthode de resubstitution, quant à elle, utilise toutes les données

disponibles pour l’apprentissage et teste le modèle du classifieur sur chacune de ces mêmes données (les ensembles d’apprentissage et de test ne sont pas disjoints). Cette méthode, simple à mettre en œuvre, est souvent critiquée parce qu’elle ne prend pas en considération le comportement de l’algorithme lorsqu’un cas de figure inconnu est rencontré.

Boostrap. La méthode par bootstrap [33] permet, lorsque la base d’exemples est trop restreinte, de répliquer les images disponibles. Soit N la taille de la base de données initiale, notée Binit. Le principe est alors d’effectuer plusieurs tirages avec remise pour constituer de nouveaux échantillons de données de taille N (i.e. un élément de

4.7. LES CAD DU CANCER DE LA PROSTATE : UNE APPLICATION EN DÉVELOPPEMENT

Binitpeut ne pas appartenir à l’ensemble d’apprentissage, ou y figurer plusieurs fois), utilisés comme ensembles d’apprentissage. L’ensemble de test est toujoursBinit. Les performances obtenues sur chaque échantillon sont alors moyennées. A noter que la méthode du ordinary bootstrap consiste à estimer le biais de resubstitution sur des tirages obtenus par bootstrap, que l’on soustrait alors à l’estimation de performance de classification réalisée surBinit.

Des détails théoriques sur ces méthodes et leur comparaison peuvent être trouvés dans l’article de Fukunaga et coll. [39]. Comme le soulignent Sahiner et coll. [107,108] et Li et coll. [60], le choix du partitionnement doit être pris en compte lors de la comparaison de différentes études puisqu’il peut en effet expliquer des différences de performances entre elles.

Les études de Sahiner et coll. [108], Li et coll. [60] et Dundar et coll. [29] ont démontré que les méthodes de hold-out et de leave-one-out (LOO) peuvent être considérées comme non-biaisées, même si elles ont plutôt tendance à sur-estimer l’erreur de classification (mé-thodes pessimistes). Dans le cas de la méthode de LOO (ou k-fold avec k très grand), la répétition de la procédure pour les différents échantillons amène à une erreur moyenne estimée proche de l’erreur théorique du classifieur pour l’ensemble des échantillons dispo-nibles. De plus, elle a démontré une bonne capacité de généralisation. Le point faible du LOO est son coût en temps qui peut s’avérer prohibitif pour de larges bases de données. La méthode de resubstitution a, quant à elle, tendance à sous-estimer fortement l’erreur de classification et à fournir une variance sur la mesure de l’erreur plus grande ; elle favorise le sur-ajustement aux données d’apprentissage.

4.7 Les CAD du cancer de la prostate : une application en

développement

Comme nous l’avons explicité dans le chapitre 2, la détection et la localisation du can-cer de la prostate à un stade précoce sont cruciales pour permettre une prise en charge (traitement ou surveillance active) efficace. Jusqu’à présent, les biopsies "pseudo-aléatoires" (ou randomisées, puisqu’il s’agit du terme consacré) restent la méthode de référence pour le diagnostic des adénocarcinomes. Néanmoins, en plus d’être un acte invasif et possible-ment dangereux, le diagnostic par biopsies ne permet pas une exploration exhaustive de la glande. Il peut donc être source de sur-traitement (à cause d’une détection d’un foyer de taille minime) ou de sous-traitement (dû à des tirages de biopsies à côté d’une cible maligne) selon les cas. Les radiologues se tournent donc de plus en plus vers l’imagerie IRM et en explorent en particulier les performances pour l’aide au ciblage des biopsies vers des régions visuellement suspectes (signal IRM singulier). L’IRM, en permettant d’apprécier l’extension des foyers malins, pourrait également permettre la mise en place de traitements focaux moins radicaux que la prostatectomie. Nous avons vu, section 3.8, que bien qu’au-cune séquence IRM n’ait à ce jour permis de discriminer de manière précise et fiable les zones de cancer des tissus bénins [55], de nombreuses études évaluant les performances

d’observateurs humains ont montré que la précision du diagnostic (évaluée dans la zone périphérique ZP, zone de prédominance de la carcinogenèse prostatique) peut être signifi-cativement améliorée en combinant différentes séquences IRM [19,42,45,57,82,123,140].

Néanmoins, fusionner et analyser un nombre croissant d’informations visuelles devient une tâche complexe et fastidieuse, en particulier pour des radiologues peu expérimentés. C’est une tâche d’autant plus difficile que, comme le montrent les figures 3.9 et 3.10 (page 48), les tissus malins et bénins peuvent présenter un signal similaire (du moins à l’œil. . .) dans une séquence et différent dans une autre ; et qu’il n’existe à ce jour aucun abaque précis pour analyser les images IRM et en particulier le cas d’informations contradictoires. L’objectif des systèmes d’aide au diagnostic est d’assister le radiologue durant sa tâche de diagnostic en lui fournissant un indice de confiance sur des zones suspectes.

Quelques méthodes d’aide au diagnostic du cancer de la prostate, reposant sur des algo-rithmes de classification supervisée ou non-supervisée, ont été proposées ces dix dernières années dans la littérature.

Dans leur article datant de 2006, Zhu et coll. [144] dressent un état de l’art des études émergentes sur l’aide au diagnostic du cancer de la prostate, mais aussi sur les techniques de simulation et de guidage des biopsies ainsi que de segmentation de la glande, en imagerie échographique et IRM. Ils soulignent que si l’utilisation des systèmes CAD s’est largement développée et a démontré son utilité dans certaines applications telles que la mammogra-phie ou le cancer du poumon, leur application au cancer de la prostate reste alors trop limitées.

Six ans plus tard, nous proposons dans cette section une mise à jour de cet état de l’art en faisant le point sur les méthodes CAD récemment proposées pour l’imagerie de la prostate.

Ces méthodes peuvent être organisées selon plusieurs critères : le type de données utilisées (IRM mono ou multi-séquence, échographie, etc), la région prostatique étudiée (ZP, ZT, glande entière), le type d’algorithme de classification mis en œuvre (classification supervisée ou non-supervisée, etc) ou encore l’approche envisagée (CADx versus CADe).

On notera que la comparaison des méthodes proposées reste très difficile puisqu’aucune d’entre elles ne repose sur la même base de données (nombre de patients, procédure d’an-notation, modalité d’acquisition d’images a priori différents, vérité terrain histologique ou radiologique. . .) et que les méthodes d’évaluation mises en œuvre ne sont pas standardi-sées (partitionnement différent de la base de données, évaluation à l’échelle du pixel, d’une région, d’une coupe, d’un patient. . .).

Les tableaux 4.3 et 4.4 présentent une synthèse de cet état de l’art que nous détaillons ci-après.

4.7. LES CAD DU CANCER DE LA PROSTATE : UNE APPLICATION EN DÉVELOPPEMENT

4.7.1 Systèmes d’aide à la décision CADx versus aide à la détection