• Aucun résultat trouvé

Intégration dans la fonction de coût

toutes les adjacences interdites par F en forçant leurs probabilités respectives à zéro. La figure 13.1 schématise le calcul de aij pour deux structures i et j issues des cartes de probabilités φ de sortie du réseau. L’adjacence représente ici la somme sur les pixels (en rose) à l’intersection des deux régions. La contrainte G(w) est la somme des aij de toutes les adjacences interdites pour toutes les images de la base DG. Comme la plupart des fonctions de coût qui sont utilisées pour entraîner des réseaux de neurones profonds (avec une fonction de coût basée sur le Dice ou l’entropie croisée (section3.4) par exemple), la contrainte n’est pas convexe par rapport aux poids du réseau.

Figure 13.1 – Illustration du calcul de l’adjacence aij à partir de deux cartes de probabi-lités φi et φj.

13.2 Intégration dans la fonction de coût

En pratique, nous résolvons le problème d’optimisation sous contrainte en nous inspirant de méthodes de pénalisation extérieures en optimisation non-linéaire sous contrainte [ No-cedal and Wright, 2006]. À savoir, dans un premier temps le réseau est entraîné à partir des fonctions de coûts de segmentation classiques (section 3.4), puis une fois la convergence atteinte, il est ajusté en ajoutant la contrainte G(w) en tant que pénalisation, dont la pondération λ augmente progressivement en fonction des itérations :

min w 1 |DS| X (I,y)∈DS L(φ(I, w), y)) + λ G(w), (13.6)

avec le premier terme représentant la moyenne de l’erreur de segmentation mesurée par rapport à la base annotée. Le deuxième terme de l’équation13.1est la contrainte NonAd-jLoss évaluée par rapport aux sorties du réseau. Il s’avère important de pré-entraîner le réseau avec la fonction de perte de segmentation (soft Dice et entropie croisée, section3.4) avant d’activer la contrainte NonAdjLoss. En effet, cette dernière incitant la sortie à ne produire aucune erreur d’adjacence, nous avons observé à plusieurs reprises des instabilités d’apprentissage où la sortie du réseau est une image composée d’une unique structure, lorsque la pénalisation arrive trop tôt ou est trop fortement pondérée. Dans ce cas, la pé-nalité d’adjacence se trouve être nulle, du fait de l’absence d’autres structures, toutefois la

P-A. Ganaye 99

CHAPITRE 13. INTÉGRATION DE LA CONTRAINTE D’ADJACENCE DANS UN RNC

fonction de perte de segmentation est non-nulle. Pour simplifier le cadre général de l’ap-plication de la NonAdjLoss, un réseau est pré-entraîné pour le problème de segmentation donné, puis affiné en ajoutant la pénalisation NonAdjLoss. Cette méthodologie est plus robuste aux instabilités d’apprentissage, du fait que la qualité du modèle est déjà bonne lors de la pénalisation, où des possibles erreurs anatomiques seront corrigées.

La procédure d’apprentissage est détaillée dans Algo. 3, où train(λ) est le résultat du problème d’optimisation Eq.13.6pour la pondération λ de NonAdjLoss. L’objectif de l’al-gorithme proposé est de satisfaire de façon stable et progressive la contrainte NonAdjLoss en augmentant la pondération λ de la NonAdjLoss. Deux types d’instabilités peuvent être générées en raison d’une pondération trop forte : soit une erreur numérique due à l’ex-plosion du gradient, soit une dégradation non-négligeable (par rapport à seuil  fixé par l’utilisateur) du Dice. Dans ces deux cas, la procédure proposée diminue automatiquement λ si nécessaire.

Algorithme 3 : Algorithme d’apprentissage sous contrainte

1 Initialisation :

2 L0 , G0 = train(0)

3 λ = λratio× L0 G0

4 for i = 0 to i = nepoque do

5 Li = train(λ) if i mod nupdatethen

6 if L0− Li <  then

7 λ = λ ∗ λincrease

8 else

9 λincrease= λincrease∗ λreduction_f actor

10 λ = λ ∗ λreduction

11 end

12 end

13 end

Dans l’algorithme 3, Li et Gi sont respectivement le Dice moyen et la NonAdjLoss moyenne, calculés sur la base d’entraînement à la fin de l’itération i. Initialement, λ est défini de telle sorte à ce que la valeur de la pénalisation sur l’adjacence soit lambdaratio pour cent de la fonction de perte de segmentation - dans la pratique, 30% (λratio= 0.3). En fixant lambdaratio à une valeur élevée (0.8 par exemple) cela pousserait le processus d’op-timisation à corriger principalement les erreurs d’adjacence, affectant d’office la qualité de la segmentation (mesurée avec le Dice). À l’opposé, un λratio trop bas ralentirait la conver-gence vers l’optimal de la contrainte d’adjacence. Durant l’entraînement, si les mesures de Dice sur la base de validation sont stables ou en amélioration, λ est augmenté de λincrease chaque nupdate itération. Inversement, si le Dice diminue plus de  en dessous de celui de l’itération initiale (non contrainte), λ est ramené à une valeur inférieure et la valeur du pas d’augmentation λincrease est également réduite. λreduction_f actor est la constante uti-lisée pour réduire λincrease en cas de diminution du Dice, un faible λincrease ralentirait la

13.2. INTÉGRATION DANS LA FONCTION DE COÛT

convergence tandis qu’une valeur trop élevée créerait des instabilités d’apprentissage.

Multi-orientation L’apprentissage de contraintes d’adjacence spatialement orientées (section12.1.2) est une généralisation de la NonAdjLoss au cas où l’on dispose d’une ma-trice d’adjacence binarisée ˜Ao spécifique à chacune des orientations o, elles même définies à travers un voisinage Vo pour toutes les orientations o ∈ O. Au cours de l’apprentissage, chacune des 6 contraintes Go(w) est appliquée :

min ∀o∈O, Go(w)=0 1 |DS| X (I,y)∈DS L(φ(I, w), y)). (13.7)

La procédure d’optimisation numérique pour résoudre ce problème contraint est la même que la section13.2 à la seule différence que la pénalité est la somme des six fonctions Go.

Sélection de modèle multi-objectifs Afin de sélectionner le meilleur ensemble de paramètres w du réseau, il faut généralement rechercher l’itération à laquelle la métrique de validation atteint son meilleur niveau ou lorsque qu’elle ne progresse plus. Cependant, dans ce travail, nous nous intéressons à la fois aux métriques de segmentation et d’adjacence en proposant une règle de sélection multi-objectifs. Pour déterminer l’ensemble optimal des paramètres w, nous identifions les itérations avec les cinq meilleurs scores de Dice sur la base de validation et choisissons le modèle présentant la plus faible erreur moyenne pour le critère de non-adjacence. Cette stratégie joue un rôle important dans la recherche de modèles optimaux vis-à-vis de la qualité de segmentation et de la contrainte de non-adjacence, cela contribue aussi à réduire le sur-apprentissage (section3.6).

Figure 13.2 – Vue globale de la méthodologie d’apprentissage, où les paramètres du réseau w sont optimisés à partir de Lseg (pour les images annotées) et NonAdjLoss (pour tout type d’image).

P-A. Ganaye 101

CHAPITRE 13. INTÉGRATION DE LA CONTRAINTE D’ADJACENCE DANS UN RNC