Analyse de la performance - Résultats et analyses

3.3 Résultats et analyses

3.3.4 Analyse de la performance

Cette sous-section présente les expériences et les résultats y sont discutés. Tout d’abord, il convient de décrire une caractéristique du système d’optimisation augmentant indirectement le niveau de bruit présent dans les jeux de données, c’est-à-dire l’ignorance de l’algorithme concernant aux intervalles réels de chaque objectif.

Intervalles réels pour chaque objectif Chaque objectif présent dans les jeux de données est défini sur un certain intervalle : la qualité de l’image est définie sur [0, 1], le photoblanchiment sur [0, 1] et le temps d’exposition sur R+. Or, puisque le système d’optimisation ne connaît pas ces bornes à l’avance, celui-ci peut également présenter à l’utilisateur-trice des objectifs se trouvant à l’extérieur des intervalles possibles comme il est illustré à la figure 3.1. À mesure que le système acquiert de nouvelles images, celui-ci modélise de mieux en mieux la distribution de chaque objectif et les options proposées sont davantage circonscrites à l’intérieur des intervalles possibles.

Cette spécificité pose un problème à l’utilisateur-trice au début d’une ronde d’optimisation. Le front de Pareto se retrouve alors à l’extérieur des intervalles possibles, où il est plus difficile de faire des choix selon le compromis habituel. Il en découle que plus le front de Pareto se trouve loin à l’extérieur des intervalles réels, plus le choix de l’expert-e approche un choix aléatoire, ce qui ajoute du bruit dans les cibles de ces nuages d’options.

Présentation des résultats Puisque ce bruit rend la tâche plus ardue pour les algorithmes, les résultats sont donnés sur deux partitions du jeu de test : premièrement, sur les nuages de points du jeu de test où 90% des options se retrouvent à l’intérieur des intervalles possibles, ensuite, sur le jeu de test complet. Les performances des algorithmes sont données au ta- bleau3.2. Pour plus de détails, des exemples d’erreurs faites par chaque modèle sont présentés à l’annexe C.3.

Performance sur les intervalles réels Lorsque les performances sont évaluées à l’intérieur des intervalles réels de chaque objectif, on observe une légère supériorité du RankSNN. En effet, même si le RankSNN obtient des performances statistiquement comparables au RankSVM en MNE sur les intervalles réels, celui-ci est en moyenne environ 1.2x plus précis sur les deux jeux de données que ce dernier et choisi un point en moyenne 1.27x plus proche pour le premier jeu et environ 1.09x plus proche pour le deuxième.

Performance sur tous les nuages d’options Lorsque l’on rajoute les nuages restants, le RankSNN obtient toujours des performances supérieures pour toutes les mesures. Or, on remarque plusieurs changements par rapport aux performances à l’intérieur des intervalles réels :

1. Les performances chutent en MDE : Premièrement, l’augmentation de MDE sur les deux jeux de données indique que les trois algorithmes choisissent en moyenne une option plus éloignée de la cible lorsque ceux-ci doivent choisir à l’extérieur des intervalles réels. Une partie de cette diminution est expliquée par la distance plus grande entre les options se trouvant à l’extérieur des intervalles possibles. Par contre, la plus grande augmentation de MDE pour le RankSVM sur les deux jeux de données pointe vers une

Table 3.2 – Comparaison de la performance de chaque algorithme sur le jeu 2 objectifs (a) et 3 objectifs (b). Les résultats sur les intervalles réels et sur tous les jeux de données sont présentés pour les trois algorithmes. Pour les résultats sur les intervalles réels, seuls les nuages d’options où 90% de celles-ci sont dans les intervalles réels sont sélectionnés, ce qui représente 26 nuages (21%) pour le jeu 2 objectifs et 593 nuages (39%) pour le jeu 3 objectifs. Mesure : Celle-ci est évaluée à l’aide de la précision (équation 3.2, à maximiser), de la MDE (équation 3.5, à minimiser) et de la MNE (équation3.5, à minimiser). La moyenne sur les 10 entraînements est inscrite pour chaque modèle. Guide : Une flèche unidirectionnelle pointe vers le modèle qui obtient les meilleures performances et une flèche bidirectionnelle indique l’égalité statistique. Deux moyennes sont considérées statistiquement égales si un test t de Welch (Welch, 1947) obtient une p-value > 0.001.

(a) 2 objectifs

Précision MDE MNE

Intervalle réel ? Oui Non Oui Non Oui Non

RankSNN-Linear 0.308 → 0.408 0.259 ← 0.542 4.300 ↔ 5.900 ↓ ↓ ↓ ↑ ↓ ↓ RankSVM 0.546 → 0.594 0.163 ← 0.778 2.000 ↔ 2.000 ↓ ↓ ↓ ↓ l l RankSNN 0.754 ↔ 0.709 0.128 ← 0.295 1.500 ↔ 1.900 (b) 3 objectifs

Précision MDE MNE

Intervalle réel ? Oui Non Oui Non Oui Non

RankSNN-Linear 0.268 ← 0.241 0.830 ← 1.248 23.350 ← 35.650

↓ ↓ ↓ l ↓ ↓

RankSVM 0.377 ← 0.319 0.700 ← 1.266 8.650 ← 16.900

↓ ↓ ↓ ↓ l ↓

RankSNN 0.427 ← 0.393 0.644 ← 0.834 7.500 ← 9.050

inconsistance entre les points choisis à l’intérieur et à l’extérieur des intervalles réels pour celui-ci par rapport aux deux autres algorithmes.

2. Baisse de performance générale pour le 3 objectifs Si les performances en préci- sion et en MNE augmentent légèrement ou ne changent pas sur le jeu 2 objectifs, tous les algorithmes subissent une diminution de performance, et ce pour les trois mesures, lorsqu’ils sont évalués sur le jeu 3 objectifs.

3. Plus grande stabilité pour le RankSNN Si tous les algorithmes subissent une diminution de performance sur tout le jeu de test 3 objectifs, le RankSNN est celui qui est le plus stable et le RankSVM est celui qui est le plus affecté. En effet, sa précision ne baisse que d’environ 8% comparativement à 15% et 10% pour le RankSVM et le RankSNN-Linear, sa MDE n’augmente que de 30% comparativement à 80% et 49% et, finalement, sa MNE n’augmente que de 20% comparativement à 95% et 52% pour les deux autres modèles.

Analyse de la fonction apprise Pour comprendre pourquoi les algorithmes performent moins bien à l’extérieur des intervalles réels et pourquoi le RankSVM est davantage affecté, les fonctions apprises sur le jeu 2 objectifs sont présentées sous forme de carte de fréquentation (heatmap) à la figure3.5et une comparaison entre la fonction apprise sur les intervalles réels et sur un intervalle étendu est illustrée à la figure3.6. Les fonctions apprises sur le jeu 3 objectifs sont aussi disponibles à l’annexeC.4. Ces figures permettent de dégager deux constats.

1. Compromis non linéaire : Mis à part pour ses performances en MDE supérieures ou statistiquement identique que celle du RankSVM, le RankSNN-Linear obtient des performances toujours inférieures aux autres algorithmes sur les deux jeux de données, montrant que la fonction de compromis ne peut pas être modélisée fidèlement par un modèle linéaire. De plus, la figure3.5illustre que les fonctions apprises par le RankSNN et RankSVM ne sont effectivement non linéaires.

2. Les fonctions changent sur les intervalles étendus : Les deux algorithmes changent leur comportement sur les intervalles étendus par rapport à celui sur les intervalles réels comme on le voit par la différence entre les courbes de déciles en figure 3.6. Or, si la fonction apprise par le RankSVM produit le même ordonnancement sur les intervalles étendus, les courbes produites par le noyau gaussien du RankSVM produisent des non linéarités qui changent l’ordonnancement lorsqu’on s’éloigne de la zone circonscrite dans les intervalles réels. Par exemple, alors que le RankSVM minimise le photoblanchiment dans les intervalles réels, celui-ci le maximise dans la zone où la qualité est plus petite que -2.5.

Explication par des règles simples : Le fait que le RankSVM change son ordonnancement sur les intervalles étendus corrobore la diminution de MDE en tableau3.2lorsque le modèle est évalué sur tout le jeu de test. En plus d’obtenir de meilleurs résultats quantitatifs, le RankSNN ne souffre pas de ce problème. Par contre, ses courbes de déciles moins lisses, illustrées en figure 3.5, pointent vers une plus grande variance et un danger de sur apprentissage sur un intervalle étendu trop peu représenté dans le jeu de donnée.

L’apprentissage machine peut, dans ce cas, être utilisé comme un puissant outil d’analyse de donnée pour déceler des relations simples entre les variables. La figure 3.5 permet de déduire deux règles simples pour résumer la fonction apprise par le meilleur algorithme dans une modèle avec un comportement prévisible sur les intervalles étendus :

1. La qualité est l’objectif optimisé en premier : Comme l’indique la direction des flèches sur la figure3.5, l’objectif qui est le plus influent sur le jeu de données considéré est la qualité. Celle-ci est même presque exclusivement optimisée sur une partie du domaine de la fonction apprise. Son influence sur le score est positive et une relation linéaire est assumée entre le modèle simple et la qualité.

Figure 3.5 – Comparaison de la fonction de score apprise par le RankSNN, RankSVM et RankSNN-Linear sur le jeu de données 2 objectifs. Pour chaque algorithme, la fonction de score illustrée est celle du réseau parmi les 10 répétitions qui obtient la précision la plus proche de la moyenne. La figure est générée en passant tous les points d’une grille maillée allant de 0.0 à 1.0 sur chaque axe avec un pas de 0.01. Guide : La figure illustre l’intensité du score pour chaque couple (q, b) sous forme de carte de fréquentation (Heatmap). Pour chacune d’entre elles, les déciles calculés sur l’ensemble des intensités (pointillé blanc) sont présentés. Observations : On voit tout d’abord que le RankSNN-Linear est par conception incapable d’apprendre les subtilités non linéaires contrairement au RankSNN et au RankSVM. Ces derniers produisent des fonctions similaires, mais le RankSVM produit une fonction beaucoup plus lisse en raison de l’utilisation du noyau gaussien (Rasmussen,2003). Toutes deux mettent l’accent sur l’augmentation de la qualité q (flèche rouge), peu importe le photoblanchiment b jusqu’à ce que ce dernier soit assez élevé (environ 0.5) pour qu’il devienne important de le minimiser (flèche bleue).

RankSNN RankSVM RankSNN-Linear

0.00 0.25 0.50 0.75 1.00 Qualité (%) 0.0 0.2 0.4 0.6 0.8 1.0 Photoblanchiment (%) q-10% q-20% q-30% q-40% q-50% q-60% q-70% q-80% q-90% min max

2. À partir d’un certain niveau, les autres objectifs deviennent influents : Le photoblanchiment et le temps d’exposition sont peu minimisés avant un certain seuil, mais après celui-ci, ils sont de plus en plus considérés négativement dans le calcul du score. Pour modéliser l’activation de ces deux objectifs, une fonction sigmoïde est utilisée et paramétrée comme à la figure 3.7. Lorsque la fonction sigmoïde est à son maximum, une relation linéaire est choisie entre le modèle simple et les deux objectifs.

En plus de diminuer les risques de sur apprendre sur les données, les règles simples sont faci- lement explicables et vérifiables auprès de l’expert. Finalement, il est plus facile de connaître les limites d’un modèle simple et ainsi de prévoir ses futures erreurs. Ces règles simples sont combinées à l’équation 3.6où trois paramètres [θ, α, β] sont à optimiser :

Figure 3.6 – Comparaison de la fonction de score apprise par le RankSNN et le RankSVM sur les intervalles réels et sur un intervalle étendu pour le jeu 2 objectifs. Pour chaque algorithme, la fonction de score illustrée est celle du réseau parmi les 10 répétitions qui obtient la précision la plus proche de la moyenne. La figure est générée en passant tous les points d’une grille maillée allant de 0.0 à 1.0 sur chaque axe pour les intervalles réels et -5.0 à 5.0 pour les intervalles étendus, tous deux avec un pas de 0.01. Guide : La figure illustre l’intensité du score pour chaque couple (q, b) sous forme de carte de fréquentation (Heatmap). Pour chacune d’entre elles, les quintiles calculés sur l’ensemble des intensités (pointillé blanc) sont présentés. Observations : Pour les deux algorithmes, le changement dans les courbes de quintiles sur les intervalles étendus par rapport à l’intervalle réel indique un changement dans la fonction de compromis. Par contre, le RankSVM est le seul où la fonction d’ordonnancement change aussi. Par exemple, si le photoblanchiment est minimisé sur tout l’espace circonscrit dans les intervalles réels, le photoblanchiment est maximisé quand la qualité est plus basse que -2.5.

RankSNN RankSVM Intervalle réel 0.00 0.25 0.50 0.75 1.00 Qualité (%) 0.0 0.2 0.4 0.6 0.8 1.0 Photoblanchiment (%) q-20% q-40% q-60% q-80% Min 100% 0.00 0.25 0.50 0.75 1.00 Qualité (%) 0.0 0.2 0.4 0.6 0.8 1.0 Photoblanchiment (%) q-20% q-40% q-60% q-80% Min 100% ↓ ↓ Intervalle étendu 5.0 2.5 0.0 2.5 5.0 Qualité (%) 4 2 0 2 4 Photoblanchiment (%) q-20% q-40% q-60% q-80% Min 100% 5.0 2.5 0.0 2.5 5.0 Qualité (%) 4 2 0 2 4 Photoblanchiment (%) q-20% q-40% q-40% q-60% q-80% Min 100%

Figure 3.7 – Comportement de la fonction sigmoïde σ(x, α, β) = _{1+exp[−α(x−β)]}1 . En chan- geant le paramètre β (en rouge), le point d’inflexion est modifié, tandis qu’en augmentant le paramètre α (en bleu), la vitesse de croissance amplifiée et la sigmoïde s’approche d’une fonction indicatrice.

Change le point d'inflexion Augmente la vitesse de croissance

(S'approche d'une function indicatrice)

sigmoid[a·x] sigmoid[x]

sigmoid[x-b]

Table 3.3 – Paramètres d’initialisation et ceux appris sur le jeu 2 objectifs de 3 objectifs pour le modèle simple.

θ α β

Initialisation [1, 1, 1] [10, 10] [0.6, 3]

Appris sur 2 objectifs [1.1610, 1.0281, 1] [9.3692, 10] [0.6125, 3] Appris sur 3 objectifs [1.2392, 0.6054, 0.1248] [9.3504, 9.7471] [0.8209, 3.3707]

Procédure d’entraînement pour le modèle simple Le modèle simple est entraîné comme les deux RankSNN, c’est-à-dire par descente de gradient stochastique par mini-lots (mini-batch SGD en anglais) minimisant la fonction de perte de hinge adaptée à l’ordonnancement 3.1. L’optimiseur Adam (Kingma and Ba,2014) est employé avec un taux d’apprentissage de η = 0.001 et des paramètres de mémoire fixés à β = (0.9, 0.999). La taille des lots (batch) est établie à 128 et le budget d’entraînement est de 10000 mises à jour de poids. Aucune régularisation L1 n’est utilisée. Un petit jeu de données comptant pour 10% du jeu de données

d’entraînement est extrait de celui-ci pour faire office de jeu de validation. Le meilleur réseau en précision sur ce jeu de validation est considéré comme étant le réseau entraîné, simulant une procédure de early stopping. La marge choisie est de m = 0.1. Puisque l’ordre des mini-lots est aléatoire, 10 essais sont effectués avec des graines aléatoires différentes afin de réduire son influence lors de l’analyse. Les paramètres initiaux et appris sont donnés au tableau 3.3. Performances du modèle simple Le tableau 3.4donne les mesures de performance pour le modèle simple comparativement au RankSNN et au RankSVM et ce sur les intervalles réels et sur tout le jeu de test. On peut dégager deux observations de ces résultats :

Table 3.4 – Performance du modèle simple sur les deux jeux de données 2 objectifs et 3 objectifs. Mesure : Celle-ci est évaluée à l’aide de la précision (équation 3.2, à maximiser), de la MDE (équation 3.5, à minimiser) et de la MNE (équation 3.5, à minimiser). Guide : Les mesures sont présentes pour le RankSVM, le modèle simple et le RankSNN. Pour chaque mesure de performance, l’algorithme faisant meilleure figure est donné en gras. Une flèche unidirectionnelle pointe vers le modèle qui obtient les meilleures performances et une flèche bidirectionnelle indique l’égalité statistique. Deux moyennes sont considérées statistiquement égales si un test t de Welch (Welch,1947) obtient une p-value > 0.001.

(a) 2 objectifs

Précision MDE MNE

Intervalle réel ? Oui Non Oui Non Oui Non

RankSVM 0.546 → 0.594 0.163 ← 0.778 2.000 ↔ 2.000 l l ↑ ↓ l l Modèle simple 0.531 ↔ 0.571 0.177 ← 0.471 2.000 ↔ 2.000 ↓ ↓ ↓ ↓ l l RankSNN 0.754 ↔ 0.709 0.128 ← 0.295 1.500 ↔ 1.900 (b) 3 objectifs

Précision MDE MNE

Intervalle réel ? Oui Non Oui Non Oui Non

RankSVM 0.377 ← 0.319 0.700 ← 1.266 8.650 ← 16.900

↑ ↑ l ↓ ↑ ↑

Modèle simple 0.287 ← 0.255 0.724 ← 1.041 16.900 ← 20.400

↓ ↓ ↓ ↓ ↓ ↓

RankSNN 0.427 ← 0.393 0.644 ← 0.834 7.500 ← 9.050

1. Le modèle simple est une bonne approximation du RankSVM sur le jeu 2 objectifs : En effet, il a une précision et une MNE statistiquement comparable. Or, si le modèle simple est environ 8% moins bon en MDE sur les intervalles réels, il est moins affecté par les options se retrouvant à l’extérieur des intervalles réels. En effet, il choisit des options en moyenne 1.65x plus proche de la cible que le RankSVM sur tout le jeu de test.

2. Le modèle simple est moins bon que les deux autres modèles sur le jeu 3 objectifs : Le modèle simple obtient des performances inférieures partout pour la précision et la MNE sur le jeu 3 objectifs. Le RankSNN trouve donc véritablement des relations supplémentaires que le RankSVM et le modèle simple sont incapables d’apprendre. Pour le jeu 3 objectifs aussi il faut ajouter que le modèle simple est plus stable à l’extérieur des intervalles réels. Le modèle simple choisi des points en moyenne 1.22x plus proche de la cible que le RankSVM sur tout le jeu de test.

3.4 Discussion

Il est démontré dans ce chapitre que l’utilisation d’un réseau de neurones est une voie pro- metteuse pour apprendre à automatiser la préférence entre plusieurs options en microscopie super-résolution STED. En effet, les résultats illustrés dans ce chapitre justifie l’utilisation de l’algorithme RankSNN, tiré des travaux de Chen and Lin (2004), Burges et al. (2005) et Liu et al. (2017), lorsque celui-ci est appliqué aux données de microscopie :

1. Les performances du RankSNN sont supérieures : Il est démontré dans le chapitre que le RankSNN obtient des performances supérieures ou statistiquement comparables au RankSVM pour les deux jeux de données et pour toutes les mesures de performance. 2. La fonction est non linéaire : Les moins bonnes performances du RankSNN-Linear pour toutes mesures et pour les deux jeux de données illustrent bien que la fonction compromis ne peut être apprise par un modèle linéaire.

3. Le RankSVM est instable à l’extérieur de l’intervalle réel : Le RankSVM est affecté par les nuages se trouvant à l’extérieur des intervalles réels comparé au RankSNN et apprend ainsi une fonction moins générale.

Or, les résultats permettent aussi d’identifier deux faiblesses concernant le RankSNN.

Fonction non lisse La figure3.6démontre que le RankSNN est aussi affecté par les options se trouvant à l’extérieur des intervalles possibles. De plus, les courbes de déciles non lisses de la fonction apprise à la figure 3.5 témoignent de la variance élevée de l’algorithme et de la possibilité de sur apprentissage.

Pour plus de contrôle sur la variance de l’algorithme, la fonction du RankSNN est alors décou- pée en deux règles simples afin de bâtir un modèle produisant le même compromis à l’intérieur et à l’extérieur de l’intervalle. Il est intéressant de remarquer que si le modèle simple est plus stable que le RankSVM à l’extérieur des intervalles réels, celui-ci l’est moins que le RankSNN. De plus, les performances du modèle simple sont moins bonnes que le RankSNN et le RankSVM sur le jeu 3 objectifs.

Le RankSNN reste alors la meilleure solution pour résoudre le problème approché dans le chapitre. Par contre, il s’agit d’un seul modèle et pour arriver à une conclusion générale, d’autres modèles simples devraient être essayés dans le futur.

Taux d’erreur élevé De plus, le taux d’erreur de plus d’un nuage sur deux sur le jeu de données 3 objectifs et celui d’un nuage sur quatre sur le jeu de données 2 objectifs montre qu’il y a place à amélioration. Trois hypothèses expliquant le taux d’erreurs actuel sont ici formulées :

— Le niveau de bruit est trop élevé dans le jeu de données : Pour vérifier l’hypo- thèse, les nuages d’options pourraient être organisés selon une fonction de similarité et la variance de leur cible pourrait être calculée. Les métriques pourraient être ajustées pour tenir compte de ce bruit et les prédictions des modèles pourraient recommander un groupe d’options contenues à une distance de 1 écart-type de la prédiction.

— Le RankSNN n’est pas un assez bon modèle pour modéliser la fonction de compromis de l’expert-e : Il serait intéressant de voir comment les algorithmes par arbres de décision combinés avec la procédure RankBoost (Freund et al., 2003) performent par rapport au RankSNN et au RankSVM sur les jeux de super-résolution STED.

— La méthode d’apprentissage par paire ne couvre pas assez les différentes paires possibles : Il est possible qu’un dé-balancement entre les paires biaise l’algorithme d’optimisation. Pour valider cette hypothèse, une étude de l’impact de la ré- partition des distances entre les paires pourrait tout d’abord être effectuée. Ensuite, pour régler le problème, le jeu de données pourrait être balancé en s’assurant que la distribution des distances entre les paires soit équilibrée.

Chapitre 4

Évaluation de la qualité d’une image

par apprentissage de la préférence en

microscopie super-résolution STED

Le chapitre2a présenté et a analysé l’entraînement de réseaux de neurones par régression pour résoudre l’évaluation automatique de la qualité des images (IQA). L’objectif de ce chapitre est de revisiter l’apprentissage de l’IQA en utilisant l’apprentissage de l’ordonnancement par paires. Pour se faire, la technique décrite en chapitre 3 est adaptée aux paires d’images. Le chapitre étudie la possibilité d’utiliser cette technique pour le IQA en microscopie super- résolution STED. Il explique tout d’abord l’avantage d’une telle technique par rapport à la régression sur les scores. Ensuite, pour montrer l’utilité d’une telle technique, des paires d’images sont simulées à partir du jeu de données de F-Actine, décrit en section2.2et utilisé

Dans le document Réseaux de neurones pour l'apprentissage de la préférence en microscopie super-résolution (Page 70-83)