Réseaux de neurones pour l'apprentissage de la préférence en microscopie super-résolution

(1)

Réseaux de neurones pour l'apprentissage de la

préférence en microscopie super-résolution

Mémoire

Louis-Emile Robitaille

Maîtrise en génie électrique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Réseaux de neurones pour l’apprentissage de la

préférence en microscopie super-résolution

Mémoire

Louis-Émile Robitaille

Sous la direction de:

Christian Gagné, directeur de recherche Audrey Durand, codirectrice de recherche Flavie Lavoie-Cardinal, codirectrice de recherche

(3)

Résumé

Pendant plusieurs années, la microscopie à fluorescence a été limitée par le phénomène de diffraction. Or, pour étudier des phénomènes dynamiques à l’intérieur des cellules, une ré-solution nanométrique est souvent nécessaire. Pour ce faire, une avancée importante pour la microscopie super-résolution fut l’invention du microscope à déplétion par émission stimulée (STED pour STimulated-Emission-Depletion) (Hell and Wichmann,1994). Si la microscopie STED permet d’atteindre la précision nanométrique, celle-ci consiste en une technique ex-trêmement sophistiquée et son utilisation requiert des connaissances avancées dans plusieurs domaines, par exemple, la physique, la chimie et la biologie. Dans le but de rendre le micro-scope plus accessible, Durand et al. (2018) tire profit des dernières avancées en intelligence artificielle pour automatiser le paramétrage du STED à l’aide d’une boucle d’optimisation. L’objectif visé est de produire des images avec la plus haute qualité tout en minimisant le photoblanchiment et le temps d’exposition. L’incapacité de mesurer la qualité des images et de choisir un compromis parmi les objectifs nécessite malheureusement toujours la présence d’un expert derrière le microscope. En automatisant l’évaluation de la qualité des images et la sélection de compromis, ce mémoire vise à montrer le potentiel des réseaux de neurones pour l’apprentissage de la préférence en sciences de la vie.

(4)

Abstract

For many years, fluorescent microscopy has been limited by diffraction. However, to study dynamic phenomena inside cells, a nanometric resolution is often necessary. To cope with this problem, an important development for fluorescent microscopy was the invention of STimulated-Emission-Depletion microscopy (STED) (Hell and Wichmann, 1994). If STED achieves nanometric microscopy, it is also an extremely sophisticated technique that requires advanced knowledge across a wide range of domains, e.g. physics, chemistry and biology. With the goal of democratising the microscope, Durand et al.(2018) use the last development in artificial intelligence to automate STED parameterization with an optimisation loop. The objective aimed is to produce high-quality images while minimising photobleaching and ex-position time. The inability of measuring image quality and of choosing between compromise among objectives still forces an expert to stay behind the microscope. By automating the assessment of image quality and the selection of compromise, this master thesis intends to demonstrate the potential of neural networks for preference learning in life science.

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des tableaux vii

Liste des figures viii

Remerciements xii

Introduction 1

1 Notions préalables 6

1.1 Survol de la microscopie STED . . . 6

1.2 Mesure de la qualité d’une image STED . . . 7

1.3 Bref historique jusqu’au réseau de neurones convolutifs . . . 10

1.3.1 Le Perceptron. . . 10

1.3.2 Réseaux de neurones pleinement connectés. . . 10

1.3.3 Réseaux de neurones convolutifs . . . 11

1.4 Composition d’un réseau de neurones . . . 11

1.4.1 Fonctions d’activation . . . 11

1.4.2 Couches spécialisées . . . 12

1.5 Entraînement d’un réseau de neurones . . . 13

1.5.1 Techniques de régularisation. . . 14

1.6 Mesures de performances pour l’évaluation automatique de la qualité des images . . . 16

1.6.1 Performance en précision . . . 16

1.6.2 Performance en ordonnancement . . . 16

2 Évaluation de la qualité d’une image en microscopie super-résolution STED 18 2.1 Description du problème . . . 18

2.2 Analyse des données . . . 20

2.3 Première approche proposée : CNN classique . . . 22

2.3.1 Procédure d’entraînement . . . 24

(6)

2.4.1 Utilité des transformations aléatoires . . . 26

2.4.2 Analyse quantitative de la performance du réseau . . . 26

2.4.3 Analyse du transfert de connaissances . . . 28

2.5 Deuxième approche proposée : CNN pleinement convolutif . . . 35

2.5.1 Procédure d’entraînement . . . 38

2.6 Résultats et analyses du CNN pleinement convolutif . . . 38

2.6.1 Analyse de la performance du réseau . . . 38

2.6.2 Analyse du transfert de connaissances . . . 39

2.7 Discussion . . . 46

3 Apprentissage de la préférence entre plusieurs options en microscopie super-résolution STED 49 3.1 Description du problème . . . 49

3.2 Approche proposée . . . 52

3.3 Résultats et analyses . . . 54

3.3.1 Description des données . . . 54

3.3.2 Mesures de performance . . . 54

3.3.3 Procédures d’entraînement . . . 56

3.3.4 Analyse de la performance. . . 57

3.4 Discussion . . . 65

4 Évaluation de la qualité d’une image par apprentissage de la préférence en microscopie super-résolution STED 67 4.1 Apprentissage de l’ordonnancement par paires pour le IQA . . . 67

4.2 Approche proposée . . . 69

4.3 Expériences, résultats et analyses . . . 70

4.3.1 Construction des paires . . . 70

4.3.2 Procédure d’entraînement . . . 70 4.3.3 Analyse de la performance. . . 71 4.4 Discussion . . . 73 Conclusion 77 A Publications 80 A.1 Publié . . . 80 A.2 Contributions . . . 80

A.3 Autres contributions sans lien avec le mémoire . . . 80

B Matériels supplémentaires pour le chapitre 2 82 B.1 Figures supplémentaires pour le CNN classique . . . 82

B.1.1 Calibrage sans jeu de données balancé . . . 82

B.1.2 Calibrage avec jeu de données balancé . . . 82

B.2 Figures supplémentaires pour le CNN pleinement convolutif . . . 82

B.2.1 Calibrage sans jeu de données balancé . . . 82

B.2.2 Calibrage avec jeu de données balancé . . . 83

C Matériels supplémentaires pour le chapitre 3 93 C.1 Détails de la recherche en grille pour le RankSVM . . . 93

(7)

C.3 Exemples d’erreurs sur le jeu de test . . . 94

C.4 Analyse des fonctions apprises pour le jeu 3 objectifs . . . 100

(8)

Liste des tableaux

2.1 Précision du réseau CNN classique entraîné sur la F-Actine . . . 27

2.2 Mesures de performance du calibrage sur la LifeAct-GFP pour le réseau CNN

classique . . . 33

2.3 Mesures de performance du calibrage balancé sur la LifeAct-GFP pour le réseau

CNN classique . . . 35

2.4 Précision du réseau CNN pleinement convolutionel entraîné sur la F-Actine . . 40

2.5 Performance en ordonnancement du réseau CNN pleinement convolutif entraîné

sur la F-Actine . . . 41

2.6 Mesures de performance du calibrage sur la LifeAct-GFP pour le réseau CNN

pleinement convolutif. . . 44

2.7 Mesures de performance du calibrage balancé sur la LifeAct-GFP pour le réseau

CNN pleinement convolutionel . . . 46

3.1 Courte description des jeux de données. . . 54

3.2 Comparaison de la performance de chaque algorithme sur les deux jeux de données 59

3.3 Paramètres pour le modèle simple . . . 63

3.4 Performance du modèle simple sur les deux jeux de données . . . 64

4.1 Comparaison entre les performances du RankCNN, du CNN classique et du

RankSVM . . . 73

(9)

Liste des figures

0.1 Aperçu du microscope STED . . . 3

0.2 Boucle d’optimisation en microscopie . . . 4

1.1 Microscopie confocale et STED . . . 8

1.2 Couche MaxPooling avec un noyau 2x2. . . 13

1.3 Couche de Batch Normalization . . . 13

1.4 Effet d’une augmentation de données par translation . . . 15

1.5 Effet d’une couche Dropout avec un probabilité de 50%. . . 15

2.1 Jeu de données de F-Actine et de Tubuline . . . 22

2.2 Comparaison entre les images de F-Actine et de LifeAct . . . 23

2.3 Réseau CNN classique utilisé dans le chapitre.. . . 24

2.4 Performances du réseau CNN classique entraîné sur la F-Actine . . . 25

2.5 Région occupée par les images dans l’espace de représentation appris sur la F-Actine . . . 31

2.6 Performance du réseau CNN classique après calibrage sur la LifeAct-GFP par taille de sous-ensemble . . . 34

2.7 Réseau CNN pleinement convolutif . . . 36

2.8 Formation du masque d’avant-plan . . . 37

2.9 Performances du réseau CNN pleinement convolutif entraîné sur la F-Actine . . 39

2.10 Performance du réseau CNN pleinement convolutif après calibrage sur la LifeAct-GFP par taille de sous-ensemble . . . 45

3.1 Optimum de Pareto . . . 50

3.2 Boucle d’optimisation en microscopie . . . 51

3.3 Réseau RankSNN. . . 53

3.4 Nuages de points illustrés à l’expert-e . . . 55

3.5 Comparaison de la fonction de score apprise sur le jeu de données 2 objectifs . . 61

3.6 Comparaison de la fonction de score sur les intervalles réels et sur un intervalle étendu pour le jeu 2 objectifs . . . 62

3.7 Comportement de la fonction sigmoïde . . . 63

4.1 Simplification de la procédure d’étiquetage. . . 68

4.2 Réseau RankCNN . . . 69

4.3 Comparaison entre les fonctions d’ordonnancement pour les trois modèles . . . 72

4.4 Distances des scores prédits par le RankCNN mis en perspective avec la distance des scores cibles. . . 74

(10)

B.1 Distribution des prédictions du CNN classique après calibrage . . . 83

B.2 Performance du réseau CNN classique après calibrage sur la LifeAct-GFP par

index de réseau . . . 84

B.3 Différence de performance du CNN classique pour le calibrage sur la

LifeAct-GFP avec et sans pré-entraînement . . . 85

B.4 Performance du réseau CNN classique après calibrage balancé sur la

LifeAct-GFP par index de réseau . . . 86

B.5 Précision du transfert de connaissance sur la LifeAct-GFP pour le réseau CNN

classique . . . 87

B.6 Distribution des prédictions du CNN pleinement convolutionel après calibrage . 88

B.7 Performance du réseau CNN pleinement convolutionel après calibrage sur la

LifeAct-GFP par index de réseau . . . 89

B.8 Différence de performance du CNN pleinement convolutionel pour le calibrage

sur la LifeAct-GFP avec et sans pré-entraînement . . . 90

B.9 Performance du réseau CNN pleinement convolutionel après calibrage balancé

sur la LifeAct-GFP par index de réseau . . . 91

B.10 Distribution des prédictions obtenues par le CNN pleinement convolutionel

après calibrage sur le jeu balancé de test de LifeAct-GFP . . . 92

C.1 Comparaison de la fonction apprise par le RankSNN pour différentes valeurs

marges. . . 95

C.2 Comparaison entre les nuages de points des trois moins bonnes prédictions sur

l’intervalle réel pour le jeu 2 objectifs . . . 96

l’intervalle réel pour le jeu 3 objectifs . . . 97

le jeu de test 2 objectifs . . . 98

le jeu de test 3 objectifs . . . 99

C.6 Comparaison de la fonction de score apprise sur le jeu de données 3 objectifs . . 101

C.7 Comparaison de la fonction de score sur l’intervalle réel et sur un intervalle

(11)

À ma grand-mère Andrée, passionnée de la connaissance. Pendant que j’écrivais ce mémoire, la maladie effaçait la tienne. Puisse cet hommage t’en rendre un peu.

(12)

On two occasions I have been asked, "Pray, Mr. Babbage, if you put into the machine wrong figures, will the right answers come out ?" ... I am not able rightly to apprehend the kind of confusion of ideas that could provoke such a question.

(13)

Remerciements

J’aimerais tout d’abord remercier mon directeur de maîtrise Christian Gagné pour m’avoir supporté au cours de ce mémoire. Ensuite, je voudrais remercier mes deux co-directrices de mémoire et amies Audrey Durand et Flavie Lavoie-Cardinal qui m’ont appris énormément en apprentissage machine et en microscopie super-résolution. Je voudrais aussi remercier tous mes amis des laboratoires de vision et systèmes numériques (LVSN) et du CERVO de l’université Laval pour m’avoir aidé et m’avoir encouragé pendant la maîtrise. À cet égard, je voudrais remercier Marc-André Gardner pour l’aide et les discussions toujours intéressantes et qui m’ont apporté beaucoup. Finalement, je voudrais remercier ma famille et ma compagne pour m’avoir poussé à finir ce mémoire qui couvre malheureusement qu’une partie de ce que ces trois années à explorer le monde de l’IA et de la recherche m’ont apporté.

(14)

Introduction

Pendant plusieurs années, la microscopie à fluorescence a été limitée par le phénomène de diffraction. En effet, il était impossible pour un tel microscope d’obtenir une résolution plus petite que la moitié de la longueur d’onde du laser utilisé. Pour observer des cellules et des tissus, la précision atteignable par la microscopie classique est suffisante. Or, pour étudier des phénomènes dynamiques à l’intérieur des cellules, une résolution nanométrique est souvent nécessaire. Pour ce faire, plusieurs techniques ont été développées pour contourner la limite imposée par la diffraction.

Microscopie STED Une avancée importante pour la microscopie super-résolution fut l’in-vention du microscope à déplétion par émission stimulée (STED pour STimulated-Emission-Depletion) (Hell and Wichmann,1994). L’idée derrière ce microscope est d’utiliser deux lasers à la place d’un seul ; le premier excitant les marqueurs fluorescents et le deuxième, en forme de tore, les éteignant partout sauf au centre en utilisant l’émission stimulée. Cette nouvelle technologie permet de descendre la résolution jusqu’à 20 nm et ainsi d’observer des structures intracellulaires, comme les anneaux de la protéine actine à l’intérieur des neurones (Xu et al.,

2013).

Grâce à la microscopie STED, il est possible d’atteindre la précision nanométrique, mais celle-ci consiste en une technique extrêmement sophistiquée. La figure 0.1 donne un aperçu de l’intérieur du microscope et du nombre de paramètres à ajuster afin d’obtenir une image de bonne qualité.

Paramètres difficiles à ajuster Si la plupart des paramètres peuvent être ajustés une fois et être réutilisés par la suite, trois paramètres doivent systématiquement être modifiés lorsque l’on change d’échantillon :

1. La puissance du laser d’excitation permet d’augmenter la probabilité d’émission de photons par le fluorophore et par le fait même d’augmenter la netteté de l’image. En contrepartie, une puissance élevée augmente le risque de photoblanchiment, c’est-à-dire de la réduction du potentiel fluorescent du fluorophore suivant une trop forte exposition.

(15)

2. La puissance du laser de déplétion permet d’augmenter la probabilité de déplétion dans le patron en forme de tore et ainsi augmenter la résolution de l’image. Par contre, une puissance élevé peut ici aussi causer un plus grand photoblanchiment. Ce problème est d’autant plus important pour le laser de déplétion, car il doit être généralement de puissance élevée pour assurer une déplétion efficace.

3. Le temps d’exposition par pixel permet d’augmenter le nombre de photons envoyés sur l’échantillon pour chaque pixel. Un temps d’exposition plus grand permet de réduire la puissance des lasers pour obtenir un résultat semblable en réduisant le risque de photoblanchiment. Or, une trop longue exposition peut aussi créer du photoblanchiment et ralentit la prise d’image.

Les différents avantages et inconvénients de chaque paramètre montrent l’étendue des com-promis que l’utilisateur-trice du microscope doit résoudre afin d’obtenir une image de qualité en sortie. De plus, le complexe échantillon/fluorophore réagit différemment aux différents pa-ramètres, ce qui oblige un ajustement à chaque nouvelle prise de mesure. Finalement, le-la scientifique doit souvent rester plusieurs heures derrière le microscope pour acquérir plusieurs images d’une structure.

Automatisation du STED L’optimisation automatique de ces paramètres est une étape cruciale pour l’avancement de la microscopie puisqu’elle permet de tester les nouveaux procédés plus facilement et plus rapidement. L’optimisation automatique consiste à entraîner un agent artificiel à contrôler les paramètres du microscope dans une boucle d’optimisation, représentée en figure 0.2. Le but de l’agent est de trouver la meilleure combinaison de paramètres pour produire des images répondant à une liste de critères.

Objectifs Dans le cadre de ce mémoire, les trois objectifs désirables en microscopie super-résolution STED qui seront abordés sont :

1. La qualité q ∈ [0, 1] : Définie ici comme étant la probabilité que l’image contiennent le maximum d’information acquérable avec le microscope STED et indiquée par un-une scientifique. Dans l’application étudiée, la qualité de l’image permet son utilisation ultérieure par des biologistes et elle doit donc être maximisée.

2. Le photoblanchiment b ∈ [0, 1] : Défini comme étant l’altération photochimique des fluorophores par les lasers et estimé à partir de l’intensité de fluorescence mesurée. Le photoblanchiment est nuisible puisqu’il empêche les échantillons d’être réutilisés et doit être minimisé.

3. Le temps d’exposition t ∈ R+: Défini comme le temps pour l’acquisition de chaque pixel de l’image et connu à l’avance, puisque donné en paramètre. Dans le contexte exposé ici, il est souhaitable d’exposer notre échantillon le moins possible au laser et prendre une image le plus rapidement possible, le temps d’exposition doit être minimisé.

(16)

Figure 0.1 – Aperçu du microscope STED. L’intérieur du microscope (a) ainsi que l’interface utilisateur (UI) avec tous les paramètres sont présentés afin d’illustrer la complexité derrière la prise d’images en microscopie super-résolution STED.

(a) Intérieur du microscope

(b) UI avec paramètres

Problèmes avec les objectifs L’incapacité de mesurer ou même de définir les objectifs à optimiser est malheureusement souvent ce qui limite l’automatisation des procédés (Amodei and Clark, 2016). Par exemple, dans le cas d’utilisation étudié, deux facteurs nécessitent la présence d’un-e expert-e :

— Objectif de qualité difficilement mesurable : La qualité d’une image est principa-lement décrite par le niveau de signal à bruit (SNR) et la résolution spatiale. Toutefois, le SNR et la résolution spatiale ne peuvent qu’être estimés et cette estimation échoue dans plusieurs cas limites où il est élémentaire pour un-e expert-e de les évaluer ( Du-rand et al.,2018). Finalement, l’importance du SNR par rapport à la résolution spatiale n’est pas claire tandis que l’expert-e qui est habitué-e à guider son microscope combine

(17)

Figure 0.2 – Boucle d’optimisation en microscopie. Premièrement, l’agent artificiel utilise une combinaison de paramètres x pour capturer une image avec le microscope. Ensuite, les caractéristiques de cette dernière considérées pour l’optimisation, c’est-à-dire le temps d’ex-position pour obtenir l’image t (donné en paramètre, à minimiser), le photoblanchiment b que le fluorophore subit (estimé à partir de l’image, à minimiser) et le score de qualité de l’image q (donné par l’expert-e, à maximiser) sont rassemblés sous la forme d’un vecteur option o. L’agent utilise cette option pour mettre à jour son modèle f : x 7→ o et propose un ensemble d’options possibles O à l’expert-e pour la prochaine itération. Parmi ceux-ci, l’expert-e choisit l’option o? qui lui semble optimale et l’agent utilise les paramètres associés.

Microscope

STED

t

b q

x

Compromis

Agent

O

Agent

o

⋆

: Intervention humaine

naturellement ces objectifs en une fonction inconnue difficile à formaliser.

— Compromis entre plusieurs objectifs : La présence de plusieurs objectifs intro-duit nécessairement des compromis à résoudre qui prennent la forme d’un front de Pa-reto (Ehrgott,2012). Cette région regroupe l’ensemble des compromis possibles, c’est-à-dire, où l’amélioration de chaque objectif mène à la dégradation d’un autre. Toutefois, pour l’expert-e, tous les compromis ne sont pas égaux ; il est possible qu’un peu plus de photoblanchiment soit acceptable si la qualité en bénéficie largement.

Dans les deux cas, il est nécessaire de demander à l’expert-e de noter la qualité et de choisir les ensembles d’objectifs qui méritent d’être ciblés. Ceci réduit considérablement l’efficacité de la prise de mesure en laboratoire. Premièrement, la méthode oblige à un-une experte de superviser l’entièreté du processus d’optimisation, ce qui lui fait perdre du temps précieux. Deuxièmement, les scores de qualité et les ensembles choisis peuvent varier significativement lors d’une longue séance de mesures à cause de la fatigue de l’utilisateur-trice, ce qui rend les résultats de l’optimisation instables.

(18)

approfondie. Or, est-il possible de profiter des données accumulées par le laboratoire pour apprendre à imiter l’intuition de l’expert-e directement à partir de celles-ci ?

Objectif et sommaire Apprendre à imiter le comportement d’un-e utilisateur-trice à par-tir des données s’inscrit dans le domaine de l’apprentissage de la préférence ou Preference Learning. Dans cette veine, l’objectif du mémoire est de tirer profit des dernières techniques en intelligence artificielle pour faire l’apprentissage de la préférence en microscopie super-résolution STED afin de fournir automatiquement un signal de rétroaction fiable et stable au système d’optimisation le contrôlant. Le mémoire se décline en quatre chapitres.

Le chapitre 1effectue un bref survol des notions préalables à la bonne compréhension du mé-moire. Premièrement, le chapitre présente un survol des techniques de microscopie mention-nées dans ce mémoire. S’ensuit un bref historique des réseaux de neurones jusqu’aux réseaux convolutifs. Ensuite, la composition et l’entraînement du réseau de neurones sont décrits. Fi-nalement, le chapitre formalise les principales mesures utilisées pour évaluer les modèles dans le mémoire.

Le chapitre2décrit une façon d’apprendre l’évaluation automatique des images avec un réseau de neurones convolutifs par la régression sur les scores donnés par un expert-e. Pour ce faire, une première architecture dite classique est tout d’abord considérée. Ensuite, une deuxième architecture est conçue à partir des observations tirées de l’analyse et des contraintes de la microscopie super-résolution STED. Les performances des architectures ainsi que leur capacité à généraliser sur de nouveaux jeux de données en microscopie sont évaluées.

Le chapitre 3 propose une étude de l’utilisation du réseau de neurones pour faire l’appren-tissage de la préférence parmi un ensemble d’objectifs. L’ordonnancement par paires de com-paraisons est utilisé pour entraîner un réseau et ses performances sont comparées à celle du RankSVM (Joachims, 2002). Le chapitre présente finalement une analyse de la fonction de compromis de l’expert-e et propose un modèle simple résumant les observations.

Le chapitre 4 explore la possibilité d’apprendre l’évaluation automatique des images de mi-croscopie avec la technique utilisée en chapitre 3. Pour ce faire, le problème est légèrement adapté pour utiliser l’ordonnancement par paires. L’objectif n’est plus de prédire les scores de qualité de l’expert-e, mais de produire un ordonnancement identique pour un même ensemble d’images. L’architecture dite classique est entraînée sur un jeu de paires d’images simulées et est comparée au RankSVM et au même réseau entraîné en régression. Finalement, une mé-thode de human-in-the-loop (Zanzotto,2019) est proposée pour améliorer les performances.

(19)

Chapitre 1

Notions préalables

Ce chapitre présente les notions préalables à la bonne compréhension du mémoire. Celui-ci débute par un survol des techniques de microscopie mentionnées dans ce mémoire. S’ensuit un bref historique des réseaux de neurones artificiels du perceptron jusqu’au réseaux convolutifs. Différents composants et techniques d’entraînement du réseau de neurones artificiel y sont ensuite décrits. Le chapitre se termine par la présentation des mesures de performance utilisées pour l’évaluation automatique de la qualité des images.

1.1 Survol de la microscopie STED

Dès que l’on s’intéresse aux phénomènes biologiques invisibles à l’oeil nu, il est indispensable d’utiliser un microscope afin de les observer. La première technique de microscopie optique à avoir vu le jour, la microscopie optique à champ clair (Bright-field microscopy ), permet d’observer un échantillon proche du plan focal d’un objectif en utilisant la transmission de la lumière blanche. L’échantillon apparaît agrandi aux yeux d’un-une scientifique et peut ainsi être analysé. L’agrandissement maximal est déterminé par les propriétés de la lentille ainsi que par la distance du capteur, mais quelques caractéristiques limitent, en pratique, la qualité de cet agrandissement et l’utilité de la microscopie à champ clair en biologie.

Microscopie à fluorescence Premièrement, la transparence ou la faible différence de cou-leur entre les structures biologiques limite le contraste possible de l’image en sortie, ce qui empêche le-la scientifique de les distinguer. Il est alors courant d’utiliser la microscopie à fluo-rescence qui consiste à doper l’échantillon à observer avec un composé chimique fluorescent couplé à la structure biologique d’intérêt à l’aide de différentes stratégies (par exemple : an-ticorps, protéine de fusion, fonctionnalisation). En réglant la longueur d’onde de la lumière envoyée par le microscope, il est possible d’exciter le composé chimique et la longueur d’onde de la lumière émise est filtrée pour ne garder que la lumière provenant de l’échantillon et augmenter considérablement le contraste.

(20)

Microscopie confocale deuxièmement, la lumière provenant des plans ne se trouvant pas au focus vient bruiter l’image et réduire sa netteté. Pour ce faire, comme l’illustre la figure1.1, la technologie confocale utilise un sténopé (pinhole) du côté du capteur pour focaliser de nou-veau les rayons et laisser passer uniquement la lumière de l’échantillon au focus. La deuxième focalisation ajoutée par le sténopé réduit l’image en sortie à un seul point sur l’échantillon. Il faut alors utiliser un mécanisme permettant de balayer le laser sur l’échantillon point par point.

Microscopie STED Troisièmement, si la technologie confocale permet d’accroître la netteté de l’image, elle ne permet pas d’obtenir une meilleure résolution que ce que permet la limite de la diffraction en optique, soit environ 200nm lorsque de la lumière visible est utilisée. Or, pour faire l’étude des structures biologiques, il est souvent nécessaire d’observer des interactions moléculaires à une échelle plus petite que cette limite.

Une solution pourrait être d’utiliser la microscopie électronique. Or, la préparation complexe d’échantillons reliée à cette technique limite son accessibilité. De plus, l’impossibilité d’utiliser la microscopie électronique avec des spécimens vivants limite ses applications pour l’étude d’interactions moléculaires dynamiques.

Au cours des dernières décennies, certaines alternatives ont été développées pour atteindre la super-résolution, c’est-à-dire une résolution plus petite que la limite de la diffraction. La technique mentionnée dans ce mémoire est la microscopie de déplétion par émission stimulée ou STimulated Emission Depletion (STED) en anglais. Utilisant deux lasers, elle permet une alternance localisée de l’échantillon fluorescent entre états allumé et éteint. La longueur d’onde du premier laser est ajustée afin d’exciter l’échantillon, comme dans un microscope confocal. Or, la longueur d’onde du deuxième laser est ajustée afin d’éteindre les molécules fluorescentes. Comme il est montré à la figure1.1, l’astuce réside dans le fait qu’un patron lumineux en forme de beigne est utilisé pour le laser qui éteint, laissant seulement les molécules du centre dans l’état excité. Il suffit alors de régler la puissance du laser en forme de beigne pour augmenter la probabilité de l’émission stimulée et ainsi obtenir la résolution escomptée.

1.2 Mesure de la qualité d’une image STED

La microscopie STED est une technologie demandant l’ajustement de plusieurs paramètres comme la puissance des lasers, leur temps d’exposition et la vitesse d’acquisition (Durand et al.,2018). Si, en théorie, le STED permet d’atteindre la super-résolution avec un contraste entre le signal et le bruit (Signal-to-noise ratio SNR) élevé, les paramètres doivent être bien ajustés afin d’obtenir une image de bonne qualité. Une image de qualité se doit d’avoir un haut contraste et d’atteindre la super-résolution voulue. Il est malheureusement très difficile de mesurer le SNR et la résolution. Pour les deux mesures, il est nécessaire d’identifier des

(21)

Figure 1.1 – Montage optique simplifié de la microscopie confocale et de la microscopie STED. a) La microscopie confocale focalise un rayon lumineux sur un point précis de l’échantillon à analyser avec une longueur d’onde excitant la molécule fluorescente (dye). La lumière émise par l’échantillon est ensuite filtrée par un sténopé (pinhole) pour ne laisser passer que celle provenant du point au focus. b) Dans la microscopie STED, la première exposition utilise un patron lumineux identique à celle de la microscopie confocale. Or, la deuxième excitation utilise un patron en forme de beigne qui éteint toutes les molécules hormis celle contenue dans un diamètre inférieur à 200nm, permettant ainsi d’obtenir une image de super-résolution.

(a) Laser Lentille Échantillon Point au focus Miroir Capteur Sténopé Échantillon Hors focus Rayon bloqué par le sténopé (b) Échantillon point au focus Première exposition:

Longueur d'onde d'excitation Longueur d'onde d'inhibitionDeuxième exposition:

(22)

structures précises dans l’image, pour différentier l’avant et l’arrière-plan pour le SNR et pour mesurer la distance minimale entre les structures pour mesurer la résolution (Koho et al.,

2019). Il est cependant possible de les estimer à l’aide de techniques de traitement du signal. Estimer le SNR avec Otsu Durand et al.(2018) décrit une méthode pour estimer le SNR ajouté par rapport à l’image confocale à l’aide de l’algorithme d’Ostu (Otsu, 1979). Cette dernière permet de segmenter l’image entre avant et arrière-plan en minimisant la variance de l’intensité des pixels dans chacune des classes. Durand et al.(2018) estime finalement le SNR avec l’équation 1.1

SNR = STED

75

fg − STEDbg

Confocal75_fg (1.1)

Où STED75_fg et Confocal75_fg sont le 75e percentile de l’avant-plan de la STED et de la confocale respectivement et STED_bg la moyenne de l’arrière-plan de la STED.

Estimer la résolution avec Fourier Ring Correlation (FRC) La FRC estime la résolu-tion en microscopie (Van Heel et al.,1982) à partir de deux images de la même région d’intérêt avec des réalisations de bruit indépendantes. La technique repose sur le fait qu’un cercle de rayon r dans l’espace de Fourier d’une image permet d’obtenir le profil de la fréquence spatiale de norme r dans toutes les directions. Puisque les fréquences reliées au signal devraient être identiques entre les deux images, la corrélation entre la fréquence de norme r de la première et de la deuxième image quantifie son importance. La FRC construit un histogramme de ces cor-rélations pour un ensemble croissant de rayons r. Puisque le bruit est de plus haute fréquence que le signal, il est possible de trouver un seuil r0 dans l’histogramme où la corrélation chute significativement (Koho et al.,2019). Ce seuil représente la limite de la fréquence spatiale du signal et par définition la résolution spatiale.

Estimer la qualité avec NanoJ-SQUIRREL Appuyé par une littérature exhaustive (Pengo et al.,2015;Fox-Roberts et al.,2017;Nieuwenhuizen et al.,2013),Culley et al.(2018) soutient qu’estimer seulement la résolution ne permet pas de détecter les défauts présents dans l’image super-résolution. L’article défini alors la qualité comme étant la représentation haute résolution de l’image basse résolution associée et propose un algorithme, NanoJ-SQUIRREL, pour l’estimer. NanoJ-SQUIRREL calibre une fonction de mise à l’échelle de la résolution (Re-solution Scaling Function RSF) pour faire passer l’image de haute ré(Re-solution le plus proche de l’image basse résolution. Une fois la RSF calibrée, l’image de basse résolution de référence est comparée à l’image basse résolution mise à l’échelle avec la RSF avec 3 mesures d’erreur : l’erreur, le radical de l’erreur quadratique moyenne (Root Mean Squared Error (RMSE)) et la corrélation de Pearson entre les deux images.

(23)

1.3 Bref historique jusqu’au réseau de neurones convolutifs

1.3.1 Le Perceptron

La forme la plus primitive du réseau de neurones et son bloc de construction est le perceptron, défini par F. Rosenblatt en 1958 (Rosenblatt, 1958). Inspiré du fonctionnement cérébral, le perceptron peut être vu comme un modèle extrêmement simple d’un neurone naturel.

Premièrement, chaque indice du vecteur entré x peut être vu comme l’activité synaptique à l’entrée du neurone. Le perceptron reçoit les différentes entrées synaptiques, les sommes et ajoute un seuil nommé biais. Ensuite, la théorie de Hebb (Hebb,1949) énonce que l’activité synaptique se renforce lors de l’apprentissage d’une tâche par le cerveau et a donc un rôle à jouer dans l’inhibition ou l’amplification du signal d’entrée. D’une manière analogue, mais largement simplifiée, le perceptron s’adapte à une tâche en modifiant les poids de ses synapses au cours de l’apprentissage.

D’un point de vue mathématique, il est possible de représenter les modifications synaptiques du perceptron ainsi que son biais comme étant les paramètres d’un hyperplan Πpdans l’espace

des entrées. En effet, la sortie s du perceptron s’écrit mathématiquement s = w>x + b, où w est le vecteur des poids modifications synaptiques et b est le biais. s représente donc la distance avant normalisation de l’entrée x par rapport à l’hyperplan Πp = {x ∈ RD|∀x : w>x + b = 0}.

Dans un problème de classification, cet hyperplan représente un séparateur linéaire et dans un problème de régression, la distance à ce plan, la cible à atteindre.

À partir de cette définition, si on est en possession d’un jeu de données X et de cibles associées y, les poids du perceptron peuvent être appris avec l’algorithme d’apprentissage qui est le mieux adapté au contexte, que ce soit par un estimateur maximisant la vraisemblance (MLE), par l’algorithme du séparateur à vastes marges (SVM) ou encore par la descente du gradient stochastique (SGD).

1.3.2 Réseaux de neurones pleinement connectés

Puisque le modèle du perceptron est un modèle linéaire, ses limites sont évidentes. En effet, l’algorithme est condamné à échouer sur toute tâche n’étant pas séparable linéairement. La clé d’un réseau de neurones pleinement connectés ou fully-connected (FNN) est d’utiliser une couche intermédiaire h dite cachée. Cette couche est formée d’une combinaison de L per-ceptrons différents où chaque sortie s_i..L passe dans une fonction d’activation non linéaire. Ainsi, la couche cachée permet de passer de l’espace d’entrée RD vers un nouvel espace dit de représentation RL. La combinaison de ces perceptrons permet ainsi d’augmenter consi-dérablement l’expressivité du modèle. Plus le réseau est large, plus il possède de neurones sur sa couche cachée, plus on peut espérer qu’il soit capable d’exprimer un grand nombre de fonctions. En effet, en prouvant pour la première fois le théorème d’approximation

(24)

uni-verselle, G. Cybenko 1989 (Cybenko, 1989), montra qu’une couche cachée infinie avec une fonction sigmoïde comme activation permet d’exprimer n’importe quelle fonction. K. Hornik 1991 (Hornik,1991) étendra la preuve à tout type d’activation.

Habituellement, on conçoit un FNN en plaçant plus d’une couche cachée, ce qui forme une hiérarchie de transformations non linéaires. On dit alors que le réseau est profond, d’où l’ap-pellation anglo-saxonne Deep Neural Network (DNN). Plusieurs travaux démontrent les bé-néfices de l’apprentissage profond pour la généralisation par rapport à un réseau de neurones large (Goodfellow et al.,2016).

1.3.3 Réseaux de neurones convolutifs

Le réseau de neurones convolutifs (Convolutional Neural Network, CNN) (LeCun et al.,1989) est une variante du DNN. Le CNN apparaît dans les années 80 (LeCun et al.,1989) comme un moyen d’accélérer l’apprentissage du réseau du DNN sur les images en contraignant l’espace des fonctions possibles. L’opérateur de multiplication matricielle est remplacé par un opérateur convolutif, permettant de réduire considérablement le nombre de paramètres et ainsi l’espace de recherche (Goodfellow et al., 2016). De plus, l’opération de convolution introduite dans le CNN permet de rajouter une connaissance a priori sur le type de données utilisé pour entraîner le réseau de neurones. Par exemple, l’utilisation de filtres est courante lorsque l’on veut traiter les images (Nitzberg et al.,1993;Mehrotra et al.,1992;Chen,2011). De plus, les convolutions permettent d’être équivalent à la translation et de pouvoir détecter un élément en entrée où ce soit dans l’image (Goodfellow et al., 2016), une propriété souvent nécessaire en vision numérique.

1.4 Composition d’un réseau de neurones

Le CNN est construit comme une suite de bloc de construction suivant habituellement l’ordre suivant :

Couche linéaire/convolutive → Fonction d’activation → Couches spécialisé Les prochaines sous-sections décrivent respectivement les fonctions d’activation et les couches spécialisées utilisées dans ce mémoire.

1.4.1 Fonctions d’activation

La fonction d’activation est un élément clé du réseau de neurones. En effet, celle-ci sépare chaque couche de l’architecture et permet de donner un comportement non linéaire au réseau de neurones. Puisqu’une panoplie de fonctions d’activations sont disponibles, seules celles utilisées dans ce mémoire sont décrites ci-dessous et le-la lecteur-trice est référé-e àDing et al.

(25)

Sigmoid La fonction sigmoïde, donnée à l’équation 1.2, limite la sortie du neurone dans l’intervalle [0, 1]. Utilisée surtout sur la dernière couche pour effectuer une régression logis-tique (James et al.,2013), la fonction logistique est rarement appliquée sur les couches inter-médiaires, puisque celle-ci est réputée ralentir la convergence du modèle (Krizhevsky et al.,

2012).

σ(x) = 1

1 + exp [−x] (1.2)

ReLU Tout en étant non linéaire, la ReLU (Jarrett et al., 2009), donnée à l’équation 1.3, conserve la plupart des avantages de la fonction linéaire pour l’optimisation (Nair and Hinton,

2010; Goodfellow et al., 2016). De plus, lorsque l’entrée est négative, la sortie est 0 et la neurone est désactivée, ce qui permet d’obtenir un réseau clairsemé (sparse) (Glorot et al.,

2011).

ReLU(x) = max [0, x] (1.3)

ELU Le fait que le réseau appris avec la ReLU est clairsemé peut aussi être vu comme une faiblesse. En effet, le neurone qui est désactivé ne peut être réactivé puisque son gradient est nul. En plus de régler ce problème, la fonction de ELU, donnée à l’équation 1.4, a une légère valeur négative quand x < 0, ce qui permet d’obtenir une moyenne de sortie plus proche de 0 et améliorer la vitesse de convergence (Clevert et al.,2015).

ELU(x) =    x if x > 0 α(exp [x] − 1) if x <= 0 (1.4) 1.4.2 Couches spécialisées

Les couches spécialisées permettent de rajouter des fonctionnalités supplémentaires dans le réseau de neurone, que ce soit pour rajouter des a priori ou pour accélérer l’apprentissage. Les couches utilisées dans le mémoire sont décrites ci-dessous.

MaxPooling La couche de MaxPooling (Zhou and Chellappa, 1988), schématisé en fi-gure 1.2, consiste en un filtre non linéaire calculant l’activation maximum dans un groupe de pixels voisins contenus dans un espace délimité par le noyau (Goodfellow et al.,2016). En plus de diminuer la taille des cartes d’activation à traiter, cette couche permet de rajouter une légère in-variance à la position, prédisant la même sortie pour un petit déplacement de l’objet dans l’image (Goodfellow et al.,2016). Pour la détection d’objet, où l’information sur la position n’est pas nécessaire, c’est ajout d’information a priori accélère l’entraînement.

(26)

Figure 1.2 – Couche MaxPooling avec un noyau 2x2. En plus de réduire la taille de l’activa-tion, cette couche permet de rajouter une légère in-variance à la position (Goodfellow et al.,

2016).

4 2

1 5 27 Filtrage par 5 7

la fonction max

Figure 1.3 – Couche Batch Normalization. La couche de normalisation en lot, ou Batch Nor-malization exécute en premier une normalisation blanchissante de l’entrée avec les statistiques de moyenne et d’écart-type estimées sur un mini-lot. Ensuite, la couche dé-normalise celle-ci avec des paramètres de moyenne et d’écart-type appris. Ainsi, la normalisation en lot per-met de réduire le décalage de la distribution de l’activation pendant l’entraînement (Ioffe and Szegedy,2015). 4 2 0 6 2 8 0 2 8 0 6 2 8 0 6 6 8 0 6 2 0 6 6 6 6 0 6 6 2 4 4 4 4 4 6 0 m=4, s=2 0 -1 -2 1 -1 2 -2 -1 2 -2 1 -1 2 -2 1 1 2 -2 1 -1 -2 1 1 1 1 -2 1 1 -1 0 0 0 0 0 1 -2

Statistiques sur le lot

Normalisation 1 -2 -5 4 -2 7 -5 -2 7 -5 4 -2 7 -5 4 4 7 -5 4 -2 -5 4 4 4 4 -5 4 4 -2 1 1 1 1 1 4 -5 De-normalisation apprise m=1, s=3

Batch Normalization La normalisation en lot, ou Batch Normalization (Ioffe and Sze-gedy,2015), schématisée à la figure1.3, exécute tout d’abord une normalisation blanchissante de son entrée avec les statistiques de la moyenne et de l’écart-type calculé sur un lot. La couche dé-normalise ensuite celle-ci avec des paramètres de moyenne et d’écart-type appris. La normalisation en lot permet ainsi de réduire le phénomène de décalage de la distribution (covariate shift ) lors de l’apprentissage du réseau de neurones en réduisant les changements dans la distribution des activations (Ioffe and Szegedy,2015).

1.5 Entraînement d’un réseau de neurones

Pour entraîner le réseau de neurones, le jeu de donnée est tout d’abord séparé en plusieurs groupes de taille égale que l’on nomme mini-lot. Pour chaque mini-lot, une itération de descente de gradient est effectuée avec les gradients estimés sur le mini-lot. Lorsque les mini-lots sont pigés aléatoirement, on parle de descente de gradient stochastique par mini-lots, ou Mini-Batch Stochastic Gradient Descent (MB-SGD) (Hinton et al.,2012).

(27)

1.5.1 Techniques de régularisation

Puisque le réseau de neurones est un modèle à grande capacité, son biais est très faible et sa va-riance est élevée (Goodfellow et al.,2016). Pour empêcher tout sur-apprentissage, il convient de choisir les bonnes techniques de régularisation. La régularisation est définie comme dans Good-fellow et al.(2016), c’est-à-dire comme étant une modification de l’algorithme d’apprentissage visant à améliorer les performances en généralisation. Les techniques de régularisation utilisée dans ce mémoire sont décrites dans les paragraphes suivants.

Augmentation de données Les techniques d’augmentation de données consistent à gé-nérer artificiellement des exemples supplémentaires afin de couvrir davantage l’espace des exemples possibles (Shorten and Khoshgoftaar, 2019). Elles peuvent aussi servir à introduire de l’information a priori supplémentaire (Goodfellow et al.,2016). Les réseaux de ce mémoire utilisant l’augmentation de données utilisent la rotation stochastique de 90◦ et la translation stochastique (Shorten and Khoshgoftaar,2019).

Pour chaque image, la rotation stochastique pige uniformément un angle aléatoire dans [0◦, 90◦, 180◦, 270◦] et la tourne de cet angle. Celle-ci oblige le réseau à prédire la même cible, quelle que soit l’orientation de l’image.

La translation pige uniformément deux nombres (h, v) dans un intervalle [−d, d] pour le dé-placement horizontal et vertical respectivement. d représente le nombre maximal de pixels de déplacement et la convention selon laquelle h < 0 et v < 0 équivalent à un déplacement à gauche et vers le bas est suivie. Cette technique d’augmentation de données effectue ensuite la translation pour chaque direction. Puisque la taille de l’image ne change pas, les pixels sortant du cadre de l’image sont éliminés et des nouveaux pixels de remplissage (padding ) sont créés à l’autre extrémité. La figure 1.4 illustre l’effet d’une augmentation de données par translation et plus particulièrement le phénomène de remplissage avec une image de neurone réel.

Dropout La technique de dropout (Srivastava et al., 2014), illustrée en figure 1.5, désac-tive aléatoirement une partie des neurones d’une couche. Ainsi, le cette méthode empêche le réseau de compter seulement sur certains neurones surspécialisés et encourage l’explora-tion (Srivastava et al., 2014). En entraînement, un neurone de la couche visée est désactivé avec une probabilité p, où p est un hyperparamètre. Lors de l’évaluation, aucun neurone n’est désactivé, mais la couche est multipliée par p. En effet, il peut être montré que multiplier par p approche un modèle par ensemble où les contributions de tous les chemins possibles sont moyennés (Goodfellow et al.,2016).

Early stopping L’arrêt précoce, ou early stopping (Prechelt, 1998) utilise un petit jeu de données extrait du jeu d’entraînement comme jeu de validation, typiquement 10% à 20%. L’idée consiste à évaluer les performances en validation pour chaque itération et arrêter

(28)

l’en-Figure 1.4 – Effet d’une augmentation de données par translation vers la droite (a) et vers le haut (b). Puisque la taille de l’image ne change pas, les pixels sortant du cadre de l’image sont éliminés et des nouveaux pixels de remplissage (padding ) sont créés à l’autre extrémité. La ligne blanche entre l’image et le remplissage est tracée pour mieux percevoir la frontière entre ceux-ci. (a) Translation à droite Colonnes de remplissage (b) Translation vers le haut Colonnes de remplissage

Figure 1.5 – Effet d’une couche Dropout avec une probabilité de 50%. Deux exemples de masques échantillonnés en entraînement sont illustrés.

… … X 0 0 0 0 1 1 1 1 … Premier échantillonnage … … X 1 0 0 1 0 1 0 … n-ième échantillonnage 1 …

traînement lorsque celles-ci diminuent. Une période de h itérations consécutives sans amélio-ration sur le jeu de validation peut être exigée pour éviter d’arrêter l’entraînement à cause d’une diminution causée par le bruit causé par l’habituelle petite taille du jeu de validation et par l’algorithme d’entraînement stochastique (Prechelt,1998).

En pratique, s’il n’y a pas de contrainte sur le temps d’entraînement et que les performances sur le jeu de validation sont stables, le réseau peut être entraîné pour un budget de t itérations et l’état du réseau à l’itération qui obtient les performances les plus élevées est choisi. C’est cette méthode qui est privilégiée tout au long du mémoire.

Régularisation LASSO La régularisation LASSO (Tibshirani, 1996) ajoute un multipli-cateur de Lagrange dans la fonction de perte. La contrainte d’optimisation supplémentaire consiste à minimiser la norme L1 du vecteur de poids d’une couche du réseau. Par exemple, pour un vecteur de poids de D dimensions, le multiplicateur de Lagrange est λPD

i=0|θi|. La

(29)

encou-rageant les poids à prendre une valeur nulle (Tibshirani,1996). Non seulement elle pousse le réseau à apprendre une fonction simple, mais permet aussi de faire la sélection des variables importantes (Goodfellow et al.,2016).

1.6 Mesures de performances pour l’évaluation automatique

de la qualité des images

Les performances en évaluation automatique de la qualité des images peuvent être mesurées sur deux plans. Premièrement, la précision mesure à quel point les prédictions du réseau sont éloignées des prédictions de l’expert. Deuxièmement, l’ordonnancement permet de mesurer à quel point les prédictions du réseau suivent les mêmes rangs que les prédictions de l’expert. Pour un jeu de données de taille N , toutes les formules suivantes, ˆq est le vecteur de prédiction et q celui des scores de qualité cibles, tous deux de taille N . Pour tout vecteur x, x_ireprésente son ième élément.

1.6.1 Performance en précision

Erreur moyenne quadratique L’erreur quadratique moyenne, ou Mean Squared Error (MSE), permet de mesurer l’écart moyen entre les prédictions du modèle ˆq et du score de qualité de l’expert q. Pour un jeu de données de taille N , La MSE est formalisée à l’équation1.5.

MSE(ˆq, q) = 1 N N X i=0 (ˆqi− qi)2 (1.5)

Radical de l’erreur moyenne quadratique Le radical de l’erreur moyenne quadratique, ou Root Mean Squared Error (RMSE), permet d’obtenir une erreur avec le même ordre de grandeur que les scores de qualité q. La RMSE est formalisée à l’équation 1.6.

RMSE(ˆq, q) =pMSE(ˆq, ˆq) (1.6)

1.6.2 Performance en ordonnancement

Coefficient de corrélation de Pearson Le coefficient de corrélation de Pearson, ou Pear-son’s Correlation Coefficient en anglais (PCC), permet de mesurer la corrélation linéaire entre les prédictions du modèle et les scores de l’expert. Ainsi, on mesure ici l’écart entre l’ordre linéaire des scores prédits et de celui de l’expert. Cette corrélation est formalisée à l’équa-tion 1.7.

(30)

PCC(ˆq, q) =

PN

i=0(ˆqi− E[ˆq])(qi− E[q])

q (PN

i=0(ˆqi− E[ˆq])2)(PNi=0(q − E[q])2)

= COV[ ˆq, q] σqˆσq

(1.7)

Coefficient de corrélation de Spearman Le coefficient de corrélation de Spearman, ou Spearman’s Rank Order Correlation Coefficient en anglais (SROCC), permet de mesurer la corrélation non linéaire entre les prédictions du modèle et les scores de l’expert. Ainsi, on mesure ici l’écart entre le rang des scores prédits et de celui de l’expert. Il s’agit de la corré-lation de Pearson effectué sur les rangs et celle-ci est formalisée à l’équation 1.8. La fonction RankData retourne le vecteur des rangs pour chaque élément d’un vecteur. La méthode de moyenne est utilisée pour les rangs égaux, ce qui veut dire que chaque égalité obtient le rang moyen entre le rang inférieur et supérieur. Par exemple, pour le vecteur [12, 25, 4, 4, 3], les rangs associés sont [4, 5, 2.5, 2.5, 1].

(31)

Chapitre 2

Évaluation de la qualité d’une image

en microscopie super-résolution STED

Ce chapitre porte sur l’évaluation automatique de la qualité des images en microscopie super-résolution STED à l’aide d’un réseau de neurones convolutif. Plus particulièrement, il décrit l’apprentissage supervisé d’une fonction de qualité à partir de scores fournis par un-e expert-e. Tout d’abord, le problème est expliqué et l’état de l’art est exposé. Ensuite, la procédure de construction des jeux de données est présentée et ceux-ci sont brièvement analysés. Cette mise en contexte permet de concevoir une première solution dite classique (CNN classique). Un protocole expérimental est développé afin de mesurer les performances de ce premier essai. Cette investigation ainsi que les contraintes de microscopie mènent à l’élaboration d’une deuxième solution dite améliorée (CNN pleinement convolutif ).

2.1 Description du problème

Pour chaque prise d’image, le système composé du microscope STED, du fluorophore et de l’échantillon se trouve dans un état non observé. En fonction de cet état et d’un certain ensemble de paramètres d’entrée (la puissance du laser d’excitation et de déplétion, la taille des pixels, le patron d’illumination (Durand et al., 2018)) celui-ci forme une image I ∈ I de l’échantillon, où I correspond à l’espace des images pouvant être créées par le STED. L’image I correspond à l’image optimale I?dégradée par une fonction stochastique inconnue dépendant de l’état du microscope ainsi que de ses paramètres d’entrée.

L’objectif consiste à quantifier la qualité de l’image pour l’optimiser ou pour filtrer une banque de données préalablement acquise par un-e expert-e. La qualité est définie comme étant la probabilité que l’image soit optimale P (I = I?). On assume que P (I = I?) ∼ Bernoulli(q) où la probabilité q ∈ [0, 1] est le score de qualité étiqueté par un-e expert-e.

(32)

Le score de qualité q est une fonction d’un ensemble de caractéristiques objectives, par exemple, le niveau de signal sur bruit et la résolution spatiale. L’intuition de l’expert-e combine ces ca-ractéristiques dans une fonction de qualité inconnue lorsqu’il guide le STED vers une région de paramètres qui produit des images de haute qualité (Robitaille et al.,2018). Afin de réduire le temps occupé par l’expert-e derrière son microscope, la fonction inconnue peut être remplacée par un modèle substitut pour imiter son jugement.

Plus précisément, le problème où l’on tente de déterminer automatiquement la qualité d’une image s’inscrit dans le domaine de l’évaluation de la qualité des images ou Image Quality Assessment (IQA). Le IQA se divise en trois branches (Wang and Bovik,2006) :

— L’évaluation avec référence complète ou full-reference (FR-IQA) est utilisée lorsque l’image optimale I? est accessible. La recherche en FR-IQA se concentre surtout sur le développement de mesures pour comparer fidèlement l’image potentiellement dégradée I et l’image de référence I?_.

— L’évaluation avec référence réduite ou reduced-reference (RR-IQA) est employée lorsqu’un vecteur de statistiques préalablement généré à partir de l’image de qualité optimale I? est offert. Le RR-IQA est surtout pertinent dans un contexte de communi-cation avec compression. Il s’agit sensiblement de résoudre le même problème que pour le FR-IQA, mais en comparant les statistiques de l’image dégradée avec celles de l’image optimale. Cette technique permet d’évaluer la détérioration d’une image compressée à la réception d’un canal de communication sans devoir envoyer l’image de référence, ce qui éliminerait tous les bénéfices de la compression.

— L’évaluation sans référence ou no-reference (NR-IQA) est utilisée lorsque I? n’est pas disponible. Il s’agit du cas le plus difficile, mais également du plus commun, puisque l’image de référence est rarement accessible. Le domaine se concentre alors sur la modé-lisation de la qualité suivie du calibrage de ce modèle sur la perception humaine. Dans le cadre de la microscopie super-résolution STED, on cherche à produire l’image de référence I?. Le problème ne cadre alors ni dans la branche du FR-IQA, ni dans celle du RR-IQA et la qualité doit être déduite à partir de l’image dégradée seulement. Autrement dit, ce chapitre s’inscrit dans la branche du NR-IQA.

Pour résoudre le NR-IQA, les approches conventionnelles utilisent des algorithmes d’extrac-tion de caractéristiques tirés de l’expérience acquise dans un champ d’expertise précis. Par exemple, pour le domaine des images naturelles, Sheikh et al. (2005) emploie une transfor-mation d’ondelettes provenant du protocole JPEG2000 pour extraire des statistiques sur la dégradation des images. Plus récemment, Mittal et al. (2012) propose une méthode pour calculer des statistiques dans le domaine spatial à partir de la luminance de régions dans l’image. Cependant, ces algorithmes sont tous développés pour assurer une maximisation de l’appréciation visuelle humaine après qu’une détérioration artificielle ait été provoquée par

(33)

un algorithme de compression. En comparaison, la qualité recherchée en microscopie super-résolution STED est différente. Premièrement, les dégradations en microscopie sont de nature distinctes ; elles ne sont pas causées par un algorithme, mais bien par l’interaction entre les différentes parties du complexe formé par le microscope, le fluorophore et l’échantillon. Deuxiè-mement, l’appréciation visuelle y est définie par rapport à la quantité d’information acquise pour l’analyse ultérieure faite par un-une scientifique (Robitaille et al.,2018) et non par rap-port à son esthétisme. En effet, l’expérimentateur évalue la qualité d’une image à partir de ses connaissances a priori sur l’apparence des structures présentes dans un certain échantillon (par exemple, une structure formant des fibres, des points, des anneaux). Si, dans la plupart des cas, cette méthode permet de définir la qualité sans devoir inclure les mesures de la réso-lution et de contraste, toutes deux difficiles à calculer, elle présente une limitation si l’image ne contient pas la structure escomptée. Dans ce cas, la note peut être sous-estimée malgré la bonne performance du microscope.

Pour apprendre à partir des connaissances d’un-une expert-e, une approche basée sur les données peut être utilisée. Par exemple,Kang et al.(2014) emploie un petit réseau de neurones à une couche convolutive et deux couches pleinement connectées pour modéliser la qualité d’une image. Ici, la fonction de perte de régression sert également à apprendre à extraire les caractéristiques importantes pour la prédiction de la qualité. Bosse et al. (2016) emploie de son côté un réseau de neurones convolutif profond inspiré de l’architecture VGG (Simonyan and Zisserman,2014) appliquée sur des régions de 32x32 pixels (px) dans l’image d’entrée. La qualité est ensuite définie comme étant la moyenne des scores sur toutes les régions.

Inspirée par ces derniers travaux, la méthode proposée suppose un minimum d’a priori quant à la nature des caractéristiques qui devraient être utilisées pour modéliser la qualité en microsco-pie super-résolution STED. Le chapitre considère l’apprentissage par régression de la fonction f_s? : I 7→ [0, 1] la plus proche de celle de l’expert-e où f est un petit CNN décrit plus bas. Pour entraîner le CNN, un ensemble de données de N images D = ((I₁, q1), (I2, q2), ..., (IN, qN)} est

disponible où I_i∈ I et q_i∈ [0, 1]. Chaque paire est tirée d’une certaine distribution inconnue (Ii, qi) ∼ D supportée par Di∈ I × [0, 1].

2.2 Analyse des données

Trois jeux de données (Robitaille et al., 2018) différents formés d’images de microscopie de neurones en culture ont été créés et sont chacun séparés en partition d’entraînement et de test :

— F-Actine : Le jeu de données contient 2133 images d’entraînement et 532 images de test. La structure biologique observée est le cytosquelette de F-Actine provenant de neurones de l’hippocampe fixés. La F-Actine est ensuite marquée avec la molécule phalloidin-STAR635. La figure 2.1donne une idée de la distribution de la qualité et de l’apparence

(34)

des images contenues dans le jeu de données. Pour une image de bonne qualité, il est possible d’y voir la structure caractéristique de la protéine F-Actine dans les axones, c’est-à-dire une configuration d’anneaux périodiquement espacés (Xu et al.,2013). — Tubuline : Le jeu de données contient 413 images d’entraînement et 103 images de test.

La structure biologique observée est la protéine α-Tubuline provenant de neurones fixés de l’hippocampe. La α-Tubuline est ensuite marquée avec les anticorps Mouse-Anti-Tubulin, Goat-Anti-Mouse(GAM)-Alexa-α 594, GAM-STAR635P, GAM-STAR-RED, GAM-ATTO647 et GAM-ALEXA633. La figure 2.1 donne également une idée de la distribution et de l’apparence des images contenues dans le jeu de données. La α-Tubuline est formée de filaments minces et longs (O’Connor and Adams, 2010) et ne fait pas d’anneaux comme la F-Actine.

— LifeAct-GFP : Le jeu de données contient 458 d’entraînement et 115 de test. La structure biologique observée est le cytosquelette de F-Actine provenant de neurones de l’hippocampe, mais cette fois-ci vivants. Le cytosquelette est marqué avec la protéine LifeAct-GFP qui permet de visualiser l’actine monomérique (G-Actine) et filamenteuse (F-Actine). Le marquage différent change les conditions d’imagerie (Riedl et al.,2008). Les images produites n’ont donc pas la même fonction de qualité associée. Cet exemple réitère l’importance de l’utilisation d’un algorithme d’IQA flexible pour faire face à la di-versité des contextes d’imagerie. La figure 2.2compare les images de F-Actine marquées au Phalloidin-STAR635 et celles marquées au LifeAct-GFP. Elle illustre visuellement les différences cruciales entre les deux ensembles de données.

Toutes les images sont accompagnées d’un score de qualité unique q ∈ [0, 1] donné par des expertes en microscopie. Les expertes choisies ont une très bonne connaissance des applications ultérieures pour les images et sont habituées à contrôler le microscope. Dans la littérature du IQA, lors de ce processus d’étiquetage, il est courant d’utiliser un groupe d’experts-es et de faire la moyenne du score de qualité appelée note d’opinion moyenne ou Mean Opinion Score (MOS) (Huynh-Thu et al., 2010). La moyenne permet ainsi de réduire le bruit lié aux avis subjectifs des individus questionnés. Or, dans le cadre de ce mémoire, le groupe d’experts-es disponibld’experts-es d’experts-est très rd’experts-estreint et il d’experts-est préférable d’interroger ceux-ci pour l’évaluation du modèle et non pendant l’entraînement.

Deux défis sont facilement identifiables grâce à la figure2.1. Premièrement, les jeux de données sont petits par rapport à ceux qui sont normalement utilisés pour entraîner un algorithme d’apprentissage. Deuxièmement, les distributions sont biaisées envers les images de bonne qualité. Ces deux caractéristiques s’expliquent par le fait que chaque capture d’image est coûteuse en temps et en matériel biologique. Pour réduire ces coûts, le jeu de données a été généré au cours d’expériences d’optimisation où l’objectif était d’obtenir les meilleures images possibles, provoquant ce biais.

(35)

Figure 2.1 – Jeu de données de F-Actine et de Tubuline. a)-b) Comparaison entre les dis-tributions d’entraînement et de test. c)-d)-e) Comparaison entre bonnes images q > 0.6, moyennes images 0.4 < q < 0.6 et de mauvaises images q < 0.4. La F-Actine est toujours à gauche et la Tubuline toujours à droite. La barre d’échelle (en bas à droite de l’image) est donnée pour la première image de chaque type et représente 1µ m. Les barres d’intensité (à gauche des images) montre l’intervalle d’intensité de chaque image. Le score des images est également ajouté (entre parenthèses).

(a) gauche F-Actine, droite Tubuline

0.0 0.2 0.4 0.6 0.8 1.0 Qualité 0 1 2 3 4 5 Densité 0.0 0.2 0.4 0.6 0.8 1.0 Qualité 0 1 2 3 4 5 Densité

(b) gauche F-Actine, droite Tubuline

0.0 0.2 0.4 0.6 0.8 1.0 Qualité 0 1 2 3 4 5 Densité 0.0 0.2 0.4 0.6 0.8 1.0 Qualité 0 1 2 3 4 5 Densité

(c) Bonnes images (0.93, 0.93) (d) Moyennes images (0.52, 0.54) (e) Mauvaises images (0.00, 0.02)

Chaque instance du jeu de données est formée de l’image super-résolution STED, les images confocales prisent avant et après la STED ainsi qu’un score de qualité associé noté par l’experte. Chaque image est en niveaux de gris, d’une taille de 224x224px avec un échantillonnage de 20nm/px pour les échantillons fixés (F-Actine et Tubuline) et de 25nm/px pour les échantillons vivants (LifeAct-GFP).

2.3 Première approche proposée : CNN classique

Puisque l’algorithme doit apprendre la fonction de qualité à partir d’images, la famille des fonctions de régression choisie f : I 7→ [0, 1] est celle de l’architecture de CNN décrite dans la présente sous-section.

Le premier modèle entraîné pour la régression de la qualité, proche de celui publié dans ( Ro-bitaille et al.,2018), est un réseau de type philosophie VGG (Simonyan and Zisserman,2014). L’architecture VGG tente de limiter la croissance du nombre d’opérations nécessaires lorsque le nombre de filtres augmente en diminuant la taille des activations. Intuitivement, tout en réduisant le temps de calcul, ce processus force le réseau à oublier certaines caractéristiques

(36)

Figure 2.2 – Comparaison entre de bonnes images, q > 0.6, de F-Actine et de LifeAct pour illustrer les différences entre les structures. Les images de F-Actine sont à gauche et les images de LifeAct sont à droite. Puisque les échantillons sont fixés pour le jeu de données F-Actine et vivants pour le jeu de données LifeAct, les images ne proviennent pas du même échantillon, mais des zones semblables sont présentées. La barre d’échelle (en bas à droite de l’image) est donnée pour la première image de chaque type et représente 1µ m. Les barres d’intensité (en haut à gauche des images) montre l’intervalle d’intensité de chaque image.

(a) Images de F-Actine (b) Images de LifeAct

superflues dans l’espace des images au profit de caractéristiques importantes pour la tâche ciblée. La figure 2.3 présente le schéma du réseau de neurones CNN classique utilisé dans le chapitre.

Le réseau est tout d’abord formé de 6 couches convolutives de {32, 64, 128, 192, 256, 320} filtres de taille 3x3 avec un pas de 1. Chaque couche convolutive est suivie d’une normalisation par lot (Batch Normalization), d’une unité d’activation linéaire-exponentielle (exponential linear unit, ELU) et d’une fonction de réduction maximum fenêtrée (Max Pooling) de taille 2x2 pour abaisser la taille d’un facteur 2.

Les couches convolutives sont ensuite enchaînées d’une opération d’aplatissement (flatten) pour passer l’information à deux couches pleinement connectées de {512, 256} neurones res-pectivement. Chaque couche pleinement connectée est suivie d’une Batch Normalization, d’une fonction d’activation ELU ainsi que d’un abandon de neurone (dropout ) à un taux de 20%. Finalement, une couche linéaire avec une fonction d’activation sigmoïde, assurant un espace de valeur entre 0 et 1, prédit le scalaire représentant le score de qualité de l’image.

(37)

Figure 2.3 – Réseau CNN classique utilisé dans le chapitre.

q

224x224 112x112 56x56 28x28 14x14 7x7 4x4 … … 32 64 ₁₂₈ 192 ₂₅₆ ₃₂₀ 512 256

3x3 conv. + BatchNorm2d + ELU + MaxPool 2x2 Flatten +

Linear + BatchNorm1d + ELU + Dropout 20% Linear

Sigmoid

Le réseau contient alors en tout 4 251 265 paramètres à optimiser.

2.3.1 Procédure d’entraînement

Pour tous les entraînements du CNN classique, le jeu de données de F-Actine est augmenté, lors de l’entraînement, avec des translations de pixels stochastiques dans un intervalle de [−2, 2] pixel ainsi que des rotations stochastiques de 0, 90, 180 et 270 degrés. Toutes les images sont mises à l’échelle individuellement à l’aide d’une normalisation min-max. Le modèle est entraîné pour 2000 itérations avec des lots de 32 images.

L’optimiseur Adam (Kingma and Ba,2014) est choisi pour l’entraînement avec un taux d’ap-prentissage initial de η = 2 × 10−4 et ses paramètres de mémoire fixés à β = (0.9, 0.999). Le taux d’apprentissage est réduit à 2 × 10−5 après 1000 itérations tout en réinitialisant la mémoire de l’optimiseur Adam. La fonction d’erreur utilisée est l’erreur moyenne quadratique ou Mean Squared Error (MSE) 1.5. Un petit jeu de données comptant pour 10% du jeu de données d’entraînement est extrait de celui-ci pour faire office de jeu de validation. Le réseau avec la plus basse MSE sur ce jeu de validation est considéré comme étant le réseau entraîné, simulant une procédure de early stopping.

Le réseau est entraîné 10 fois en changeant la graine d’initialisation aléatoire chaque fois. Non seulement ce changement a pour effet de modifier les poids de départ du réseau, mais également de modifier l’ordre des images illustrées au réseau.

2.4 Résultats et analyses du CNN classique

Cette section analyse les performances du CNN classique sur les trois jeux de données. Pre-mièrement, une étude d’ablation justifie l’utilisation des transformations aléatoires lors de son entraînement. Par la suite, les performances quantitatives du CNN classique entraîné sur le jeu de F-Actine sont exposées sur les trois jeux de données et comparées à un algorithme

(38)

Figure 2.4 – Performances du réseau CNN classique entraîné sur la F-Actine avec et sans transformations aléatoires. Le réseau qui se rapproche le plus de la moyenne de la RMSE (équation 1.6) et de la SROCC (équation1.8) est choisi pour cette figure. Pour une meilleure visualisation, les scores sont arrondis à deux chiffres significatifs après la virgule. a)-b) illustre les courbes d’apprentissage et de validation. Les courbes sont lissées en prenant la moyenne des 100 derniers points pour la courbe d’entraînement et les 10 derniers points pour la courbe de validation. La moyenne (trait plein) avec un écart-type (région transparente) est présentée. c)-d) illustre les prédictions du réseau sur le jeu de test (points rouges) par rapport aux cibles de l’expert-e avec la droite optimale (en pointillé bleu), la marge d’erreur tolérée de 0.2 (en vert transparent) et la marge d’erreur maximale (en rouge transparent).

(a) Sans transformations aléatoires

250 500 750 1000 1250 1500 1750 2000 Nombres de mises-à-jour 0.00 0.05 0.10 0.15 0.20 0.25 0.30 RMSE entraînement validation

(b) Avec transformations aléatoires

250 500 750 1000 1250 1500 1750 2000 Nombres de mises-à-jour 0.00 0.05 0.10 0.15 0.20 0.25 0.30 RMSE entraînement validation

(c) Sans transformations aléatoires

0.0 0.2 0.4 0.6 0.8 1.0 Expert 0.0 0.2 0.4 0.6 0.8 1.0 Réseau

(d) Avec transformations aléatoires

0.0 0.2 0.4 0.6 0.8 1.0 Expert 0.0 0.2 0.4 0.6 0.8 1.0 Réseau

naïf. Finalement, une attention particulière est portée pour évaluer la capacité du modèle à transférer ses connaissances sur un jeu de données non-observé lors de l’entraînement.