• Aucun résultat trouvé

Architectures d’apprentissage avec attention pour la segmentation

Dans le document en fr (Page 76-80)

1.9 Améliorer la robustesse de la segmentation par apprentissage profond par

1.9.2 Architectures d’apprentissage avec attention pour la segmentation

Nous avons créé et comparé deux modèles à base de CNNs, les premiers réseaux avec attention appliqués dans notre contexte.

1.9.2.1 "Refining U-Net"

"Refining U-Net" (RU-Net) consiste en une succession de deux U-Nets, le second affinant le résultat de la segmentation du premier. Ce modèle est donc similaire à l’architecture

Figure 1.10: Illustration du modèle RU-Net. Les deux U-Nets sont indépen- dants (paramètres séparés).

SHG présentée dans le chapitre précédent, sauf que la première segmentation est ici util- isée pour concentrer le traitement dans une région d’intérêt de l’image ultrasonore d’entrée. L’architecture globale est fournie dans la Fig. 1.10, où le mécanisme d’attention est en- cadré en jaune. Le module d’attention est composé de deux fonctions sigmoïdes paramétrées qui sont respectivement appliquées avant et après une couche de dilatation réalisée par une convolution, ce qui permet de rendre le processus entier différenciable.

1.9.2.2 "Localization U-Net"

"Localization U-Net" (LU-Net) a pour objectif de localiser et de segmenter les parois endo- cardique et épicardique du ventricule gauche dans une procédure d’apprentissage de bout en bout. La différence avec RU-Net est que LU-Net incorpore une étape de localisation après la première segmentation, sous la forme de prédiction des coordonnées d’une boîte englobante. L’hypothèse sous-jacente de cette stratégie est que l’optimisation conjointe de la localisa- tion et de la segmentation devrait conduire à une meilleure segmentation. L’architecture générale est illustrée dans la Fig.1.11. Il est intéressant de noter que l’étape de segmentation intermédiaire a permis de réduire de moitié les erreurs de localisation.

1.9.3 Expériences

1.9.3.1 Méthodes de segmentation

Nous avons comparé nos modèles d’attention au réseau Attention U-Net (AG-U-Net), récem- ment proposé dans (Oktay et al., 2018) [47]. Pour RU-Net, nous avons utilisé une dilatation de 30 pixels et un seuil à 0,7, ce qui s’est avéré être la combinaison la plus performante (4M de paramètres). Pour LU-Net, nous avons utilisé l’architecture U-Loc2-multi comme réseau de proposition de région et U-Net 1 comme réseau de segmentation. Deux marges m= 5% et m=15% de boîte englobante ont été évaluées (13M de paramètres).

Figure 1.11: Illustration du modèle LU-Net avec le réseau de proposition de région U-Loc2-multi-région, décrit dans la section9.5.1.

Les deux U-Nets sont indépendants. 1.9.3.2 Résultats géométriques

A partir du tableau 1.9, on peut tout d’abord observer que tous les réseaux incorporant un méchanisme d’attention ont produit des résultats soit similaires, soit meilleurs, que le réseau U-Net 1 d’origine. Le modèle RU-Net a obtenu des résultats similaires pour le LVendo et une faible amélioration pour le LVepi (surtout visible pour la métrique HD, avec une améliora- tion de 0, 4 mm), comparé à U-Net 1. Il a également obtenu une réduction de 2% des cas aberrants géométriques sur les données de bonne et moyenne qualité (5% pour la base entière). Les modèles les plus performants ont été AG-U-Net et LU-Net. AG-U-Net a obtenu les meilleurs résultats pour la segmentation de la paroi LVendo, conduisant à des scores de seg- mentation proches mais toujours supérieurs à la variabilité intra-observateur. L’approche LU-Net-m5 a obtenu les meilleurs résultats pour la segmentation de la paroi LVepi et le moins de cas aberrants géométriques (11%). Il est intéressant de noter que ces scores sont soit équivalents, soit inférieurs à la variabilité intra-observateur pour ces deux aspects.

1.9.3.3 Résultats cliniques

Les modèles AG-U-Net et LU-Net-m5 ont obtenu les meilleurs scores pour tous les indices cliniques (Tab. 9.4). Cependant, même si les scores de LU-Net-m5 et AG-U-Net étaient légèrement meilleurs que ceux de U-Net 1, les erreurs restaient supérieures à l’intra-variabilité.

1.9.4 Discussion

1.9.4.1 Réseaux d’attention

Les résultats soulignent la capacité des réseaux basés sur le mécanisme d’attention à améliorer la segmentation et l’estimation des indices cliniques associée en échocardiographie 2D.

Table 1.9: Scores géométriques des 4 méthodes évaluées sur les patients de bonne et moyenne qualité d’image (406 au total).

Modèle

LVendo LVepi outl.

D MAD HD D MAD HD geo.

val. mm mm val. mm mm # % intra-observateur ±0.0270.937 ±0.51.4 ±1.84.5 ±0.0200.954 ±0.81.7 ±2.25.0 2113 U-Net 1 ±0.0560.920 ±1.21.7 ±3.35.6 ±0.0300.947 ±1.11.9 ±3.76.2 28217% RU-Net 0.925 1.7 5.4 0.950 1.8 5.8 240 ±0.049 ±1.0 ±3.3 ±0.030 ±1.1 ±3.9 15% AG-U-Net [47] ±0.0490.930 ±1.31.5 ±3.45.3 0.950±0.026 ±1.01.8 ±3.75.9 27017% LU-Net-m5 0.953 1.7 5.5 0.932 1.5 5.1 186 ±0.026 ±0.9 ±3.6 ±0.043 ±0.8 ±3.3 11% LU-Net-m15 ±0.0290.952 ±1.11.7 ±4.05.6 ±0.0490.931 ±1.11.5 ±3.65.3 20312%

1.9.4.2 Comparaison à la variabilité intra-observateur

LU-Net a atteint la variabilité intra-observateur moyenne pour la paroi LVepi. Le nombre de cas aberrants géométriques produits par cette méthode (c.-à-d. 11%) est également inférieur au score intra-observateur. A notre connaissance, c’est la première fois qu’un tel résultat est obtenu dans le cadre de la segmentation d’images échocardiographiques 2D. Cependant, les scores obtenus par notre modèle restent insuffisants pour la paroi LVendo.

1.9.4.3 Pistes d’amélioration

Nous avons identifié deux pistes d’amélioration potentielles. Tout d’abord, en se basant sur les tableaux9.2et9.1, il semble que l’étape de localisation pourrait être optimisée plus avant afin d’améliorer les scores de LU-Net.

Deuxièmement, il semble incontournable d’introduire de la cohérence temporelle dans les architectures d’apprentissage profond. En effet, alors que la stratégie actuelle (où ED et ES sont traités séparément) fournit des résultats de corrélations élevés pour les indices LVEDV et LVESV (0, 956), l’estimation de la fraction d’éjection descend à 0, 829. Cela révèle un manque de cohérence entre les résultats de segmentation de LU-Net à ED et ES.

1.9.5 Conclusion

Nous avons proposé deux méthodes basées sur l’incorporation d’attention dans l’image afin d’améliorer la robustesse de la segmentation de l’endocarde et de l’épicarde en échocardio- graphie 2D. Nous avons montré que l’optimisation conjointe des tâches de localisation et de segmentation du modèle LU-Net conduisait à de meilleurs résultats de segmentation.

Bien qu’il nous reste à atteindre l’intra-variabilité sur plusieurs métriques, ce travail a établi la localisation comme une piste de choix pour une analyse plus robuste des images ultrasonores par apprentissage profond.

1.10 Conclusion

Catte dernière section résume les principales contributions et conclusions tirées de l’analyse des résultats rassemblés dans le manuscrit. Des pistes d’amélioration et des perspectives à court et long termes sont ensuite fournies pour ouvrir la porte à d’autres investigations.

Dans le document en fr (Page 76-80)