• Aucun résultat trouvé

Dépasser la performance et l’évaluation conventionnelles des modèles

Dans le document en fr (Page 72-76)

Cette section porte sur l’étude de modèles avancés d’apprentissage profond basés sur l’architecture U-Net, l’objectif étant de comparer les approches encodeur-décodeur les plus récentes sur la base de données CAMUS. Pour compléter l’évaluation et le classement de ces méthodes, nous proposons également des métriques de plausibilité anatomique. Les interro- gations suivantes sont étudiées :

• Peut-on améliorer les scores obtenus par l’architecture U-Net par des propositions plus complexes récemment proposées dans la littérature ?

• Comment pouvons-nous construire un critère automatique et objectif de la validité des formes prédites ? Quel est l’impact sur le classement des méthodes de segmentation ?

1.8.1 Encoder-decoders de l’état de l’art en segmentation 1.8.1.1 Supervision profonde

La supervision profonde a été proposée dans la littérature comme un moyen d’entraîner plus efficacement les réseaux de neurones profonds grâce à l’ajout d’objectifs intermédiaires [39]. Nous avons considéré dans ce travail deux approches de supervision profonde de l’architecture U-Net : la supervision profonde imbriquée [40], et la supervision profonde en cascade [41].

U-Net ++ (Zhou et al., 2018) [40] ont proposé d’ajouter des couches de convolution le long des connexions de saut de U-Net, et d’utiliser la supervision profonde pour forcer les caractéristiques extraites de l’image à être sémantiquement proches en tout lieu du réseau via l’ajout de trois objectifs de segmentation intermédiaires. Lors de la phase de test, la moyenne des quatre sorties est utilisée comme segmentation finale, suivant une stratégie de modèle d’ensemble. Après adaptation, notre version de U-Net++ comprend 1.1M de paramètres, moins que l’original (9M), pour une meilleure performance sur CAMUS.

"Stacked hourglasses" Le modèle des sabliers empilés - "Stacked Hourglasses" (SHG) -

[41], intègre une succession de plusieurs réseaux encodeur-décodeurs (généralement avec la même architecture) en un seul réseau. Les premiers sous-réseaux sont utilisés comme des blocs résiduels, c’est-à-dire que l’entrée d’un sous-réseau est le résultat de l’addition entre la segmentation et l’entrée précédentes. Chaque sortie de sous-réseau est associée à un objectif de segmentation intermédiaire selon une stratégie de supervision profonde qui, combinée aux connexions résiduelles, force les sous-réseaux à apprendre à affiner la segmentation précédente. Pour notre version, nous avons utilisé l’architecture U-Net 1 comme motif.

1.8.1.2 Réseaux de neurones avec contrainte anatomique

Le réseau de neurones avec contrainte anatomique - "Anatomically Constrained Neural Net- work" (ACNN) - proposé dans (Oktay et al. 2017) [42], encourage des résultats de segmenta- tion anatomiquement plausibles par l’ajout d’une contrainte de forme implicite générée par un auto-encodeur. L’optimisation de la segmentation est réalisée sur la fonction de coût :

L=Lx+λ1× Lhe (1.12)

avec Lx le coût de segmentation (ici l’entropie croisée catégorique), Lhe le coût anatomique dérivé de l’auto-encodeur, et λ1 un hyper-paramètre qui équilibre les deux fonctions.

Lhe correspond à la somme des distances euclidiennes entre les coefficients des codes générés par l’auto-encodeur pour les masques de la vérité terrain et ceux générés à partir des seg- mentations prédites par le réseau de segmentation.

Nous avons utilisé U-Net 1 comme réseau de segmentation dans notre implémentation d’ACNN. Les modèles résultants comportaient 2,2 millions de paramètres.

1.8.1.3 Résultats

Résultats géométriques Les scores géométriques sur les images de bonne et moyenne

qualité sont reportés dans le tableau8.2. On peut y observer que les architectures encodeur- décodeur ont obtenu des résultats très proches, toujours inférieurs à l’inter-variabilité. Cepen- dant, par rapport au modèle de référence U-Net 1, les scores obtenus sont :

• équivalents, bien qu’une très faible amélioration soit constatée avec le réseau SHG ; • légèrement dégradés pour l’approche ACNN en ce qui concerne les métriques HD ; • dégradés pour l’architecture U-Net++.

Résultats cliniques Le tableau8.4montre les scores cliniques obtenus pour les 3 méthodes encodeur-décodeur évaluées comparées à U-Net 1. D’après ce tableau, on peut observer que SHG et ACNN obtiennent des scores similaires à U-Net 1, tandis que les estimations des volumes à partir des prédictions de U-Net++ sont moins précises que celles des trois autres encodeurs-décodeurs.

1.8.1.4 Conclusion

L’étude menée montre que les trois réseaux encodeurs-décodeurs testés, tous impliquant une architecture plus complexe que U-Net 1, ne produisent pas de meilleurs résultats sur l’ensemble de la base de données CAMUS. Cette observation confirme l’idée que U-Net at- teint un plateau de performance, supposé à la fin du chapitre7.

1.8.2 Métriques de plausibilité de forme en imagerie cardiaque

Dans cette section, nous complétons l’évaluation avec des métriques d’appréciation des formes associées aux structures cardiaques, à partir desquelles nous construisons la notion de cas aberrant anatomique en échocardiographie 2D. Ce travail a été publié dans le cadre de la conférence MIDL 2019 [43].

1.8.2.1 Simplicité et convexité

Pour comparer automatiquement la segmentation de plusieurs structures S par différents annotateurs, les auteurs dans (Zhu et al., 2017) [44] ont utilisé deux critères géométriques, la convexité et la simplicité :

Convexité : Cx(S) = Aire(S)

Aire(ConvHull(S)) (1.13)

avec ConvHull(S)l’enveloppe convexe de S.

Simplicité : Sp(S) = q

4π × Aire(S)

Table 1.8: Critère d’aberrance anatomique

Structure Cx Sp LV < 0.741 < 0.529 Epi < 0.960 < 0.694

Ces deux métriques ont des valeurs comprises entre 0 et 1, et sont maximisées pour un cercle. Ce qui nous intéresse est que la convexité et la simplicité donnent potentiellement des valeurs discriminantes pour toute forme convexe telles que les formes ovales des cavités cardiaques, et pour les formes en pont comme le myocarde.

1.8.2.2 Aberrance anatomique

Nous avons établi comme critère de cas anatomiquement aberrant tout relevé de valeurs de convexité et/ou de simplicité en deçà des valeurs observées sur les annotations des experts (pli 5 de CAMUS). Les valeurs limites sont données dans le tableau 1.8.

1.8.2.3 Impact sur le classement des méthodes de segmentation par apprentis- sage supervisé

A partir du tableau 8.7sur les scores anatomiques des encodeurs-décodeurs testés, plusieurs observations peuvent être faites :

1. tous les modèles produisent en moyenne des formes moins convexes et plus complexes que les experts ;

2. U-Net 1 ne produit que 5% de cas aberrants anatomiques, ce qui soutient l’idée que le réseau a implicitement appris à reconstruire des masques de segmentation cohérents ; 3. Bien que U-Net 2 ait surclassé U-Net 1 sur toutes les métriques géométriques classiques

(D, MAD, HD), il produit trois fois plus de formes anatomiquement invraisemblables. Cela peut être dû à son nombre de paramètres beaucoup plus élevé, et donc être un signe de sur-apprentissage ;

4. L’effet de raffinement de la segmentation dans SHG peut être observé à partir de la réduction significative du nombre de cas aberrants anatomiques (de 95 à 47) ;

5. la contrainte anatomique implicite des ACNNs a tendance à créer des aberrations anatomiques sur notre jeu de données;

6. Les cas aberrants anatomiques et géométriques sont souvent liés, car la plupart des cas aberrants anatomiques sont aussi des cas aberrants géométriques.

1.8.2.4 Discussion

Les critères anatomiques proposés sont sensibles aux déformations locales, comme le montre la figure 1.9. Cependant, ils ont été établis sur un ensemble d’annotations restreint, aussi bien sur le plan de la variété d’image que de la variété d’experts, ce qui implique qu’ils sont nécessairement imprécis.

(a) Cx=0.96|0.94Sp=0.67|0.71 (b) Cx=0.93|0.95Sp=0.65|0.70 Figure 1.9: Anatomical outliers from U-Net 2: a) is also a geometrical outlier

but not b). Local shape irregularities are cercled in yellow.

De plus, la plausibilité anatomique n’implique pas nécessairement une meilleure précision, de sorte que ce critère de qualité doit être secondaire comparé aux valeurs de MAD et HD. Nos critères de plausibilité sont donc à considérer comme des indicateurs de risque d’échec de la segmentation, plutôt que des limites strictes.

1.8.2.5 Conclusion

L’introduction de métriques anatomiques permet de compléter l’évaluation des modèles d’apprentissage supervisé, en couplant la précision sur les contours et sur les indices clin- iques avec la régularité et la justesse des formes observées.

Bien qu’imprécis, les critères de cas aberrants anatomiques que nous avons conçus ont permis d’observer à la fois le sur-apprentissage de U-Net 2 et l’effet de raffinement dans SHG. Nous avons ansi établi que U-Net 1 est la méthode d’apprentissage supervisé la plus prometteuse, à ce stade de cette étude, et qu’il est difficile d’améliorer les résultats obtenus.

1.9 Améliorer la robustesse de la segmentation par ap-

Dans le document en fr (Page 72-76)