• Aucun résultat trouvé

La segmentation sémantique en échocardiographie

Dans le document en fr (Page 52-55)

1.4 État de l’art

1.4.3 La segmentation sémantique en échocardiographie

La segmentation est une étape nécessaire à l’estimation des indices cliniques en échocardiogra- phie. Comme mentionné précédemment, les images échographiques ont des caractéristiques inhérentes (contraste, texture, artéfacts...) qui entravent le processus de segmentation et expliquent la prévalence actuelle des méthodes semi-automatiques en routine clinique.

1.4.3.1 Définition de la segmentation sémantique

La segmentation d’image est la tâche consistant à partitionner une image en objets d’intérêt, soit en traçant des contours, comme sur la Fig.4.3c), soit en classifiant chaque pixel, comme dans la Fig.4.3b). La segmentation sémantique implique d’identifier les objets par leur nature au moyen d’une étiquette numérique, aussi appelée classe. En cas d’occurrences multiples d’un même type d’objet, l’étiquetage peut être adapté pour séparer les éléments distincts d’un même type (segmentation d’instances multiples).

Dans cette thèse, l’identification et la délimitation des structures cardiaques sont exprimées comme une tâche de segmentation sémantique, car nous assignons des étiquettes uniques aux différentes cavités et au myocarde (Tab. 1.1). La segmentation peut être vue comme un mappage X → Y , où X est l’image ultrasonore comme dans la Fig. 4.3a) et Y un masque de segmentation comme dans la Fig. 4.3b). Comme nous ne recherchons pas nécessairement une annotation détaillée de toutes les structures visibles, tout pixel qui n’appartient pas à une structure d’intérêt (ici le ventricule gauche LV , le myocarde myo et l’oreillette gauche LA) est par défaut associé à la classe "fond".

(a) Image échocardiographique 2D avec structures indiquées

(b) Masque de la vérité terrain (c) Contours de la vérité terrain

Figure 1.3: La segmentation multi-structure, considérée comme un problème de classification multi-classes. Les algorithmes d’apprentissage supervisé sont entraînés à prédire b) à partir de a). En guise de visuel, on affiche tradition-

nellement les contours sur l’image comme en c).

Table 1.1: Étiquettes identifiant les structures cardiaques dans ce projet

Structure ventricule gauche myocarde oreillette gauche autre (fond)

1.4.3.2 Vue d’ensemble des méthodes de segmentation en échocardiographie

De nombreuses revues listent les méthodes de segmentation existantes en échocardiographie 2D [18], en échocardiographie 3D [21]. [16] ou les deux [3] [22]. La plupart des travaux portent exclusivement sur la détection de l’endocarde. Comme expliquée dans l’étude de (Noble et al., 2006) [3] et confirmé dans (Kong et al., 2012) [22], la faible qualité d’image de l’imagerie ultrasonore comparée aux autres modalités a incité la communauté à proposer des méthodes spécifiques à ce type d’images.

Les rapports décrivent six grandes catégories de techniques de segmentation en imagerie ultrasonore. Leurs caractéristiques, énumérées dans la section 1.2, comprennent :

1. le formalisme : la segmentation est soit basée sur la détection de transitions d’intensité dans l’image associées à des frontières anatomiques (approche contour), soit sur le regroupement de distributions spécifiques de pixels/voxels basé sur des critères de sim- ilarité (approche région), soit un mix des deux ;

2. l’utilisation de connaissances a priori : des informations pré-établies sur la forme, l’emplacement ou la texture des régions anatomiques sont ajoutées dans le but de con- traindre la segmentation ;

3. la cohérence temporelle : une évolution cohérente des contours à travers les séquences temporelles est obtenue par du suivi, des contraintes spatio-temporelles, ou un lissage en post-traitement ;

4. l’apprentissage supervisé : l’optimisation des paramètres d’un modèle pré-établi est guidée par un ensemble de cas résolus.

1.4.3.3 Méthodes non supervisées

Les méthodes non supervisées ne nécessitent pas de données d’entraînement et incorporent plutôt des connaissances a priori sous forme d’initialisation, de contraintes de forme ou de pré et post-traitement pour guider la segmentation. Parmis elles, les modèles déformables (serpents, level sets, canevas déformables) ont été prédominants en échocardiographie par rapport à d’autres techniques telles que les méthodes de regroupement (k-means, lignes de

Table 1.2: Caractérisation des différents types de méthodes de segmentation en échocardiographie, inspirée de la revue par (Carneiro et al., 2012) [18]

Méthode Contour Région Informationa priori temporelleCohérence Super-vision

Bas en haut ✓ ✓ ✼ Contours actifs ✓ ✼ ✼ ✼ Level Sets ✓ ✓ ✼ ✼ Modèles déformables ✓ ✓ ✓ ✼ Modèles de forme ✓ ✼ ✼ ✼ ✓ Apprentissage automatique / profond

: Propriété inhérente au formalisme originel: Propriété ajoutée au formalisme originel

partage des eaux) ou d’accroissement de région, et les approches probabilistes (coupes de graphe, champs aléatoires markoviens). Plus de détails sur l’application de méthodes non supervisées à l’échocardiographie sont donnés dans le manuscript anglais.

1.4.3.4 Modèles supervisés

Les modèles appris par apprentissage supervisées sont entraînés à reproduire une forme d’expertise en optimisant leurs paramètres sur des cas résolus. Des modèles de forme actifs ont été utilisés pour la segmentation échocardiographique depuis les années 1990, et intégrés au sein de pipelines semi-automatiques, c’est-à-dire nécessitant une saisie manuelle et/ou une adaptation à chaque image. Pour les solutions entièrement automatiques, la tendance actuelle favorise les algorithmes d’apprentissage automatique et d’apprentissage profond. Dans ce résumé, nous proposons la description des différentes méthodes. Le détail des per- formances et des applications en échocardiographie est donné dans le manuscript complet.

Modèles de forme actifs Les modèles de forme actifs (ASM) [6] définissent un espace d’évolution pour les points de contour de la segmentation. Le prototype de forme et les déformations autorisées sont établies à partir de cas résolus. Tout d’abord, toutes les formes sont recalées entre elles à partir de repères annotés manuellement. L’espace de forme est ensuite construit autour de la forme moyenne comme un modèle de variations statistiques, dans lequel les déformations suivent des distributions gaussiennes.

Les principaux modes de variation peuvent être déduits en appliquant une analyse en com- posantes principales (PCA), et des limites peuvent être posées sur l’ampleur des déformations autorisées depuis la forme moyenne. Pour une nouvelle image, une fois recalée dans l’espace de forme, les caractéristiques de l’image sont utilisées pour produire une segmentation plausible par rapport à la base d’apprentissage.

Modèles d’apparence actif Afin de guider l’ajustement itératif de la forme à l’image,

[23] a proposé dans les modèles d’apparence actifs (AAM) d’associer un modèle d’intensité au modèle de forme. La distribution des intensités est également définie selon des modes de variation gaussiens. Cette approche s’est avérée particulièrement efficace en imagerie ultrasonore où les distributions d’intensité spécifiques ont pu être modélisés pour améliorer la précision de la segmentation [3].

Forêts aléatoires Les forêts de décision aléatoires (RF) consistent en un ensemble d’arbres

de décision entraînés sur des sous-ensembles aléatoires de données annotées afin d’éviter le sur-apprentissage. Les arbres sont construits comme des successions de décisions heuristiques binaires sur des caractéristiques pré-établies par le développeur. A chaque intersection, ou nœud, les données sont dirigées vers une des deux branches sortantes de manière à optimiser le gain d’information.

Le modèle des forêts aléatoires est flexible et générique : les extrémités, appelées feuilles, peuvent stocker tout type et toute quantité d’informations sur la tâche à accomplir, souvent une tâche de classification ou de régression. De plus, la phase de test est très rapide par calcul parallèle car chaque arbre est indépendant et n’effectue qu’une poignée d’opérations de seuillage afin de fournir une solution. Étant donné que la segmentation multi-structure peut être vue comme un problème de classification multi-classes, les RF sont une solution intéressante pour la segmentation d’images médicales [24].

Réseaux de neurones Les réseaux de neurones artificiels réalisent un mappage au moyen

d’un ensemble de couches performant chacune une projection dans un espace intermédaire. Ces couches sont habituellement plus de 2 (apprentissage profond). Les réseaux multi-couches sont entraînés itérativement par rétro-propagation de l’erreur [25]. En multipliant les couches, les réseaux de neurones sont capables de capturer des mappages complexes et directement construits à partir de l’image entière, ou d’une partie. Nous distinguons ici les réseaux de neurones entièrement connectés des réseaux de neurones convolutifs.

Dans les perceptrons multi-couches (MLP), également appelés réseaux de neurones entière- ment connectés, chaque couche est composée de plusieurs perceptrons, soit d’une unité dont la sortie est le résultat de l’application d’une fonction non linéaire (activation) à la somme pondérée de toutes les entrées.

Les réseaux de neurones convolutionnels (CNN) se sont établis comme des méthodes de pointe en traitement d’images, y compris en imagerie médicale [26]. Les modèles sont composés de couches convolutives appliquant un filtrage local de l’ entrée, et comportent souvent des couches supplémentaires de régularisation et de normalisation. Un de leurs avantages réside dans la possibilité de ne stocker que les paramètres des filtres, ce qui réduit l’utilisation de la mémoire et permet d’augmenter la taille de l’entrée par rapport aux MLP.

Dans le document en fr (Page 52-55)