Segmentation de neurones pour imagerie calcique du poisson zèbre : des méthodes classiques à l'apprentissage profond

(1)

Segmentation de neurones pour imagerie calcique du

poisson zèbre : des méthodes classiques à

l'apprentissage profond

Mémoire

Jasmine Poirier

Maîtrise en physique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Segmentation de neurones pour imagerie calcique du

poisson-zèbre : des méthodes classiques à

l’apprentissage profond

Mémoire

Jasmine Poirier

Sous la direction de:

Daniel Côté, directeur de recherche Patrick Desrosiers, codirecteur de recherche

(3)

Résumé

L’étude expérimentale de la résilience d’un réseau complexe repose sur la capacité à reproduire l’organisation structurelle et fonctionnelle du réseau à l’étude. Ayant choisi le réseau neuro-nal du poisson-zèbre larvaire comme modèle animal pour sa transparence, on peut utiliser des techniques telles que l’imagerie calcique par feuillet de lumière pour imager son cerveau complet plus de deux fois par seconde à une résolution spatiale cellulaire. De par les bonnes résolutions spatiale et temporelle, les données à segmenter représentent par le fait même un gros volume de données qui ne peuvent être traitées manuellement. On doit donc avoir recours à des techniques numériques pour segmenter les neurones et extraire leur activité.

Trois techniques de segmentation ont été comparées, soit le seuil adaptatif (AT), la forêt d’arbres décisionnels (ML), ainsi qu’un réseau de neurones à convolution (CNN) déjà entrainé. Alors que la technique du seuil adaptatif permet l’identification rapide et presque sans erreur des neurones les plus actifs, elle génère beaucoup plus de faux négatifs que les deux autres méthodes. Au contraire, la méthode de réseaux de neurones à convolution identifie plus de neurones, mais en effectuant plus de faux positifs qui pourront, dans tous les cas, être filtrés par la suite. En utilisant le score F1 comme métrique de comparaison, les performances moyennes

de la technique de réseau de neurones (F₁ = 59, 2%) surpassent celles du seuil adaptatif (F₁ = 25, 4%) et de forêt d’arbres de décisions (F1 = 48, 8%). Bien que les performances

semblent faibles comparativement aux performances généralement présentées pour les réseaux de neurones profonds, il s’agit ici d’une performance similaire à celle de la meilleure technique de segmentation connue à ce jour, soit celle du 3dCNN, présentée dans le cadre du concours neurofinder (F1 = 65.9%).

(4)

Abstract

The experimental study of the resilience of a complex network lies on our capacity to reproduce its structural and functional organization. Having chosen the neuronal network of the larval zebrafish as our animal model for its transparency, we can use techniques such as light-sheet microscopy combined with calcium imaging to image its whole brain more than twice every second, with a cellular spatial resolution. Having both those spatial and temporal resolutions, we have to process and segment a great quantity of data, which can’t be done manually. We thus have to resort to numerical techniques to segment the neurons and extract their activity. Three segmentation techniques have been compared: adaptive threshold (AT), random deci-sion forests (ML), and a pre-trained deep convolutional neural network. While the adaptive threshold technique allow rapid identification and with almost no error of the more active neu-rons, it generates many more false negatives than the two other methods. On the contrary, the deep convolutional neural network method identify more neurons, but generates more false positives which can be filtered later in the proces. Using the F₁ score as our comparison met-rics, the neural network (F₁ = 59, 2%) outperforms the adaptive threshold (F1 = 25, 4%) and

random decision forests (F1 = 48, 8%). Even though the performances seem lower compared

to results generally shown for deep neural network, we are competitive with the best technique known to this day for neurons segmentation, which is 3dCNN (F₁ = 65.9%), an algorithm presented in the neurofinder challenge.

(5)

Table des matières

Résumé iii

Abstract iv

Table des matières v

Liste des tableaux vi

Liste des figures vii

Remerciements xi

Introduction 1

1 Prétraitement des données 9

1.1 Correction du mouvement . . . 9

1.2 Cartes sommaires . . . 16

2 Segmentation d’image 18 2.1 Métriques de comparaison . . . 19

2.2 Images de référence . . . 22

2.3 Méthode du seuil adaptatif . . . 22

2.4 Factorisation par matrices non négatives avec contraintes (CNMF) . . . 28

2.5 Forêt d’arbres de décisions . . . 35

2.6 Réseau de neurones à convolution . . . 44

2.7 Comparaison des résultats . . . 55

Conclusion 59

A Sélection des régions à segmenter manuellement pour l’ensemble de

données Ahrens 61

B Résultats supplémentaires du réseau de neurone sans entrainement

ad-ditionnel 64

C Séries temporelles de régions segmentées manuellement du plan 13 de

l’ensemble de données Ahrens 66

(6)

Liste des tableaux

2.1 Matrice de confusion . . . 19

2.2 Performances de la méthode du seuil adaptatif . . . 25

2.3 Performances de la méthode du seuil adaptatif sur les données PDK1-PDK4 . . 27

2.4 Performances de la méthode du seuil adaptatif sur les données PDK5 . . . 27

2.5 Exemple d’ensemble de données d’entrainement utilisé pour l’arbre de décisions 36 2.6 Sous-ensemble des éléments pour lesquels l’attribut météo à la valeur ensoleillé 37 2.7 Sous-ensemble des éléments pour lesquels l’attribut météo à la valeur couvert . 38 2.8 Sous-ensemble des éléments pour lesquels l’attribut météo à la valeur pluvieux. 38 2.9 Attributs utilisés pour l’entrainement et la classification . . . 39

2.10 Performances de l’algorithme de forêt d’arbres de décisions. . . 40

2.12 Performances de la méthode du seuil adaptatif sur les données PDK5 . . . 41

2.14 Effet du nombre de plan choisi sur les performances - Plan 17 . . . 53

2.15 Effet de l’intervalle choisi sur la segmentation - Plan 17 . . . 54

2.16 Performances moyennes Unet2D sur l’ensemble de données Ahrens . . . 55

2.18 TPR moyenne pour chacun des trois ensembles de données pour les trois mé-thodes de segmentation . . . 56

2.19 Sensibilité moyenne pour chacun des trois ensembles de données pour les trois méthodes de segmentation . . . 57 2.20 Tableau récapitulatif . . . 57 B.1 Plan 13 . . . 64 B.2 Plan 20 . . . 64 B.3 Plan 22 . . . 65 B.4 Plan 27X358 . . . 65 B.5 Plan 27X624 . . . 65

(7)

Liste des figures

0.1 Schéma de l’anatomie du neurone. Avec la méthode de marquage au GCaMP, on rend le noyau du neurone fluorescent lorsque ce même neurone est actif

(https ://sciences-cognitives.fr/les-neurones-pour-apprendre). . . 2

0.2 Potentiel d’action classique (image du haut) et conductance des courant ioniques

du calcium et du sodium (image du bas). (Purves et al., 2019). . . 3

0.3 Schéma du microscope à feuillet de lumière (Ahrens et al., 2013) . . . 4

0.4 L’un des 30 plans reconstituant le volume complet du cerveau, moyenné

tem-porellement, provenant de l’ensemble de données Ahrens. . . 5

0.5 Exemple de deux ensembles de données du laboratoire de Paul De Koninck ,

moyennés temporellement. . . 6

1.1 Moyenne des images du plan 13 de l’ensemble de données Ahrens, sans

correc-tion de mouvement. . . 10

1.2 Illustration des différentes variables de l’équation 1.2 . . . 11

1.3 Moyenne des images du plan 13 de l’ensemble de données Ahrens dont le

mou-vement a été corrigé avec Moco . . . 12

1.4 Coefficient de corrélation de Pearson après la correction de mouvement de la méthode Moco pour les données présentées à la figure 1.3. Chaque point de la courbe représente le coefficient de Pearson de la n-ième image du film comparée

à l’image de référence. . . 13

1.5 Moyenne des images du plan 13 de l’ensemble de données de Ahrens corrigé

avec Thunder . . . 15

1.6 Corrélation de Pearson des images du plans 13 de l’ensemble de données Ahrens

corrigées avec Thunder . . . 15

1.7 (a) Une image au temps t1 de l’ensemble de données PDK5, (b) sa moyenne

temporelle, (c) son maximum temporel et(d) sa médiane temporelle. . . 16

1.8 Acquisition à 30 Hz moyenné temporellement provenant de l’ensemble de don-nées PDK1. (a) Aucun filtre appliqué, (b) Filtre médian appliqué à chacun des

plans . . . 17

2.1 Exemple de résultats obtenus après une segmentation des données PDK1. On retrouve en (a) l’image originale et en (b) l’image segmentée. Cet exemple est obtenu d’une segmentation manuelle, il s’agit donc du résultat optimal que

pourrait fournir une segmentation numérique. . . 18

2.2 Illustration de l’effet des faux positifs sur la sensibilité où les cercles rouges représentent les faux positifs, les cercles verts les vrais positifs et les cercles blancs les faux négatifs. En comparant (a) et (b), on remarque en effet que les

(8)

2.3 Séries temporelles correspondant à un faux positif (a) correspondant à l’arrière-plan et un vrai positif (b) correspondant à un neurone. On voit clairement que (a) est principalement constitué de bruit alors que (b) montre de l’activité

neuronale claire. . . 21

2.4 Segmentation manuelle de différentes sous-régions de l’ensemble de données Ahrens. . . 23

2.5 Segmentation manuelle d’une partie de l’ensemble de données PDK1 . . . 23

2.6 Méthode du seuil global et adaptatif. On retrouve à gauche l’image originale, au centre l’image à laquelle on a appliqué un seuil global, et à droite, l’image à laquelle on a appliqué un seuil adaptatif (Bradley and Roth, 2007). . . 23

2.7 Histogramme théorique d’une image pour laquelle un seuil global effectuerait une bonne segmentation (Wellner, 1993) . . . 24

2.8 Sensibilité de la segmentation en fonction du seuil appliqué pour l’échantillon 13 de l’ensemble de données Ahrens . . . 25

2.9 Résultat de la meilleure segmentation obtenue pour la méthode du seuil adap-tatif sur l’ensemble de données Ahrens1. On retrouve en blanc la segmentation manuelle (vérité), en vert les neurones identifiés manuellement qui ont été re-trouvés par l’algorithme (vrais positifs) et en rouge les éléments rere-trouvés par l’algorithme qui n’ont pas été identifiés manuellement (faux positifs ) . . . 26

2.10 Plan 13 de l’ensemble de données Ahrens sous-échantillonné. (a) Image originale, (b) sous-échantillonnage de fenêtre 2x2, (c) sous-échantillonnage de fenêtre 4x4, (d) sous-échantillonnage de fenêtre 8x8 . . . 43

2.11 Image composite du plan 17 de l’ensemble de données Ahrens avec et sans échantillonnage . . . 44

2.12 Neurone individuel avec les entrées x_i, les poids w_i, le biais b, la fonction d’ac-tivation f(x1w1+ x2w2+ b) et la sortie Y . . . 45

2.13 Différentes fonctions d’activation : sigmoïde à gauche, tangente hyperbolique au centre et ReLU à droite. . . 46

2.14 Architecture du réseau de neurone à propagation avant avec une couche cachée. 46 2.15 Image à classifier . . . 47

2.16 Image dépliée formant la couche d’entrée . . . 47

2.17 Effet du taux d’apprentissage sur la convergence de la descente du gradient (https ://www.jeremyjordan.me/nn-learning-rate/) . . . 49

2.18 Image et filtre de convolution . . . 50

2.19 Carte d’activation . . . 50

2.20 Exemple de max Pooling (http ://cs231n.github.io/convolutional-networks/). . 51

2.21 Architecture du réseau U-Net2DS (Klibisz et al., 2017) . . . 52

2.22 Comparaison de l’algorithme à la segmentation manuelle sur un échantillon de l’ensemble de données Ahrens . . . 54

A.1 Plan 13 . . . 61

A.2 Plan 17 . . . 62

A.3 Plan 20 . . . 62

A.4 Plan 22 . . . 63

A.5 Plan 27 . . . 63

(9)

Every path is the right path

(10)

Remerciements

Merci à Daniel Côté, mon directeur, dont les conseils ont préparé mon entrée dans le monde professionnel.

À mon co-directeur, Patrick Desrosiers, dont les discussions ont su alimenter ma réflexion toujours dans la bonne direction.

À mes collègues du dcclab. Merci pour les bons moments partagés avec vous ainsi que pour nos nombreuses discussions qui ont su développer, au fil des années, mon esprit scientifique. Et finalement, à ma famille. Merci pour votre support inconditionnel. Vous êtes ma plus grande source d’inspiration.

(11)

Introduction

Comprendre la résilience des systèmes complexes, soit la capacité d’un système à adapter son activité suite à des perturbations pour maintenir ses fonctions (Folke,2006), est cruciale aussi bien pour prévenir l’effondrement de systèmes écologiques que les pannes de systèmes technologiques. On choisit généralement d’aborder le problème en modélisant le système à l’étude comme un réseau complexe, de telle sorte que chaque composante (individu d’une population, par exemple) est représenté par un nœud, et chacune des interactions entre ces individus est représentée comme un lien. On appelle ainsi réseau complexe l’ensemble des nœuds et des liens. De par son universalité, la science des réseaux offre des outils puissants pour étudier des phénomènes tels que la résilience : peu importe la signification qu’ont les nœuds du réseau complexe, ou les processus qui y prennent place, ils sont gouvernés par les mêmes principes d’organisation, et peuvent être décrits par le même ensemble d’outils mathématiques (Barabási et al.,2016). Les conclusions tirées de l’étude expérimentale d’un système complexe particulier peuvent ainsi souvent être transférées à d’autres systèmes complexes de structures similaires, même s’ils représentent des systèmes de nature totalement différente.

Pour étudier la résilience d’un point de vue expérimental, on doit d’abord choisir un modèle animal. Dans notre cas, on utilise le connectome du poisson-zèbre, soit la représentation sous forme de réseau complexe de son cerveau complet. Chaque neurone est ainsi modélisé par un nœud, et chaque connexion entre ces neurones par un lien. Utiliser cette représentation permettra ainsi de tirer des conclusions générales qui pourront s’appliquer par exemple à la résilience de la biodiversité animale, de la population ainsi qu’aux réseaux technologiques du Nord.

Plusieurs raisons motivent le choix du poisson-zèbre larvaire comme modèle expérimental. D’abord, l’absence de pigment dans sa peau facilite grandement le processus d’imagerie in-vivo. Alors qu’ils sont naturellement transparents lors des 2 à 3 premières semaines de leur vie, certaines lignées de poissons-zèbres modifiés génétiquement, tels que les Casper ( Anti-nucci and Hindges, 2016; White et al., 2008), sont même transparents jusqu’à l’âge adulte. Une autre raison motivant le choix du poisson-zèbre larvaire comme modèle est la petite taille de son cerveau, qui contient environ100000 neurones dans un volume de 800 × 600 × 200 µm3

(12)

néces-saire pour imager un cerveau complet dépend de sa taille, le poisson-zèbre est d’autant plus intéressant. Pouvant l’imager plus de deux fois par seconde, il est possible d’étudier des dyna-miques neuronales en utilisant des marqueurs fluorescents tels que le GCaMP6S. Finalement, le poisson-zèbre peut facilement se modifier génétiquement, par exemple pour exprimer une protéine fluorescente ou encore pour créer des lignées dont les neurones sont activés ou désac-tivés par la lumière via des techniques d’optogénétique, ce qui représente un atout majeur pour l’étude de la résilience (Simmich et al.,2012).

La reproduction expérimentale du connectome nécessite l’identification de l’empreinte spatiale de chaque neurone ainsi que l’identification des liens qui les relient entre eux. Pour réaliser ces deux tâches, on doit rendre expérimentalement les neurones visibles, sans quoi il serait impossible de les observer en microscopie. Pour y arriver, on utilise généralement un marqueur de calcium (ici le GCaMP) encodé génétiquement dans le noyau cellulaire (figure 0.1).

Figure 0.1 – Schéma de l’anatomie du neurone. Avec la méthode de marquage au GCaMP, on rend le noyau du neurone fluorescent lorsque ce même neurone est actif (https ://sciences-cognitives.fr/les-neurones-pour-apprendre).

Ces marqueurs devenant fluorescents en présence de calcium, ils permettent d’imager indi-rectement l’activité électrique des neurones. En effet, lorsque les neurones transmettent de l’information à une autre population de neurones, ils communiquent entre eux en émettant des potentiels d’action, soit des courants électriques de l’ordre de 100 mV. Lorsqu’un poten-tiel d’action est capté par les récepteurs dendritiques du neurone destinataire, la conductance ionique de la membrane est modifiée (figure0.2) de sorte que certains ions, comme le calcium et le sodium, sont transférés du milieu extra cellulaire vers le milieu intra cellulaire. Cette augmentation de calcium génère ainsi une augmentation de la fluorescence de la protéine, qui peut être observée par microscopie. Une fois l’activité calcique du cerveau du modèle animal imagée, son connectome observé doit être reconstruit en représentant le plus fidèlement pos-sible les observations expérimentales. Pour y arriver, l’identification de la localisation spatiale des neurones (segmentation) doit d’abord être effectuée. Ensuite, les traces calciques peuvent être extraites pour chacun des neurones. Ces traces calciques, qui représentent indirectement l’activité électrique des neurones, peuvent ensuite être utilisées pour inférer la structure fonc-tionnelle du connectome.

(13)

Figure 0.2 – Potentiel d’action classique (image du haut) et conductance des courant ioniques du calcium et du sodium (image du bas). (Purves et al.,2019)

Dans ce travail, on s’intéresse principalement aux techniques de segmentation de neurones pour les films d’activité calcique du cerveau complet du poisson-zèbre afin d’identifier la plus performante sur différents ensembles de données. Une bonne segmentation est essentielle à l’inférence du connectome, puisqu’on l’utilisera comme entrée pour les algorithmes d’inférence les séries temporelles extraites de la segmentation. Cette étude permettra également de guider nos choix face à la construction du microscope en fixant quelles valeurs doivent prendre des paramètres tels que la résolution spatiale et temporelle requise ainsi que le temps d’acquisition. On survolera donc d’abord, dans cette section, le processus d’imagerie calcique du cerveau par microscopie à feuillets de lumière. Les étapes de traitement préalables à la segmentation seront ensuite survolées, puis une revue des algorithmes de segmentation de neurones sera détaillée.

Imagerie calcique du poisson-zèbre

Tel que mentionné précédemment, la première étape vers la segmentation de neurones est l’imagerie calcique du cerveau du poisson-zèbre. Pour reconstruire le connectome, on doit évi-demment imager le cerveau complet, tout en se souciant de la résolution spatiale et temporelle. En effet, pour le reconstruire avec exactitude, on doit avoir une résolution spatiale suffisante pour résoudre les neurones individuellement (diamètre '7 µm), ainsi qu’une résolution tem-porelle suffisante pour résoudre un événement calcique. De plus, l’imagerie doit se faire in vivo, ce qui limite le choix de techniques d’imagerie aux techniques non invasives. Pour répondre à ces contraintes, le microscope à illumination sélective de plan (SPIM) est tout indiqué. Deux types de SPIM peuvent être utilisés pour illuminer sélectivement un plan. Le premier crée une ligne de lumière qui est balayée très rapidement sur l’échantillon grâce à un miroir à balayage (Keller et al.,2008). La deuxième focalise directement la lumière en feuillet statique au moyen d’une lentille cylindrique pour obtenir un plan complet (Huisken et al.,2004). Pour

(14)

Figure 0.3 – Schéma du microscope à feuillet de lumière (Ahrens et al.,2013)

imager le poisson-zèbre au stade larvaire, on opte plutôt pour un microscope à balayage. Avec cette technique, on obtient un feuillet d’intensité plus homogène, en plus d’avoir la totalité de la puissance d’illumination concentrée en une ligne plutôt qu’en une feuille, procurant une efficacité d’illumination de 95% (comparé à environ 3% pour les techniques standards). Cette illumination permet entre autres d’activer la fluorescence des indicateurs de calcium GCaMP, dont l’intensité de la fluorescence augmente avec la concentration de calcium.

Afin de pouvoir imager correctement le cerveau du poisson-zèbre, on doit préalablement l’im-mobiliser. Comme on peut le voir à la figure0.3, on y arrive en le plaçant dans un capillaire de verre rempli d’agarose, un gel transparent ayant l’indice de réfraction de l’eau. Or, les poissons réussissent généralement à effectuer de petits mouvements, perceptibles lors des plus longues acquisitions. Il est donc important de corriger ce mouvement pour obtenir de meilleurs résul-tats de segmentation. Les méthodes de correction de mouvement seront étudiées au chapitre

1.

Ensembles de données

La construction de microscope à feuillet de lumière étant laborieuse et coûteuse, les données d’imageries calciques du cerveau complet du poisson-zèbre se font rares. Dans le cadre de cette étude, des données gracieusement fournies par le laboratoire Ahrens Lab1, situé à Janelia Research Campus ainsi que par le laboratoire de Paul De Koninck, situé au Centre de recherche CERVO seront utilisées. Commençons d’abord par décrire les données provenant de Misha Ahrens (figure 0.4), qui seront référées, par la suite, comme l’ensemble de données Ahrens.

(15)

Il s’agit de films d’activité calcique du cerveau complet du poisson-zèbre acquis à une fréquence de 2 Hz pendant une heure. Le capteur utilisé est de dimension 1144 par 2048 pixels. Pour reconstruire le cerveau complet, trente plans sont imagés à différentes profondeurs dans le cerveau. Concernant la résolution spatiale, chaque pixel image 0, 65 µm, de telle sorte que chaque neurone occupe un diamètre de 10 pixels sur le capteur, et l’épaisseur du feuillet de lumière est de 4, 25 µm. Chaque plan d’acquisition est séparé du suivant et du précédent de 5 µm, de telle sorte qu’un même neurone a de très faibles probabilités de se retrouver dans deux plans subséquents.

Figure 0.4 – L’un des 30 plans reconstituant le volume complet du cerveau, moyenné tem-porellement, provenant de l’ensemble de données Ahrens.

À cet ensemble de données s’ajoutent ceux fournis par le laboratoire de Paul de Koninck (figure

0.5), qui se concentre plutôt sur l’acquisition d’un seul plan, mais à une plus grande fréquence d’acquisition (30 Hz), et ce, à deux résolutions spatiales différentes. Quatre de ces acquisitions ont une résolution de 0, 662 µm par pixel, de telle sorte que les neurones occupent chacun un diamètre de 10 pixels. Ces ensembles de données seront référés par les acronymes PDK1, PDK2, PDK3 et PDK4. Ayant un capteur plus petit (512 par 512 pixels), seule une portion du cerveau est imagée. Pour imager le cerveau complet avec ce capteur, il a fallu réduire la résolution spatiale. Une acquisition de ce type fut effectuée, avec une résolution de 1, 32 µm par pixel, de telle sorte que le diamètre du neurone occupe environ 5 pixels. Cette acquisition sera référée comme PDK5. Tous les ensembles de données, soit celui de Ahrens et ceux de PDK, peuvent être retrouvés sur le serveur caféine du dcclab.

Ce type de données présente plusieurs défis pour la tâche de segmentation. Tel que mentionné précédemment, bien que les poissons soient immobilisés dans l’agarose, ils peuvent tout de même effectuer de petits mouvements. Ce mouvement diminue le contraste des cartes som-maires moyennes (soit la moyenne temporelle de chacun des pixels qui constituent l’image), utilisées comme entrée pour les algorithmes de segmentation. Une stratégie devra donc être élaborée pour corriger numériquement le mouvement du poisson afin d’améliorer

(16)

considérable-(a) PDK5 (b) PDK1

Figure 0.5 – Exemple de deux ensembles de données du laboratoire de Paul De Koninck , moyennés temporellement.

ment la qualité des segmentations. Un autre aspect à considérer est le bruit des images. Sachant qu’il est proportionnel à √N (Wang and Taylor, 1989), où N est le nombre de photons, il sera également inversement proportionnel à la racine carrée du temps d’acquisition. Différentes techniques pour s’affranchir du bruit seront évaluées. Finalement, la grande taille des données (plus de 2 millions de pixels par plan, 30 plans reconstituant le cerveau, et 6615 cerveaux complets par acquisition) pose également problème. En effet, il faudra en tenir compte pour les temps de calcul et les problèmes de mémoire vive.

Segmentation et extraction de séries temporelles

Avec l’arrivée de l’imagerie calcique, la quantité de données à traiter a considérablement aug-mentée. En effet, cette technique de microscopie permet de suivre l’évolution de chacun des 100 000 neurones du cerveau du poisson-zèbre pendant plus d’une heure, générant ainsi plus d’un téraoctet de données par acquisition. Pour faire une étude systématique du cerveau du poisson-zèbre, on doit impérativement avoir recours à des techniques de segmentation numé-riques. Les différents algorithmes présentés dans la littérature pour segmenter les neurones pour des images provenant de différents protocoles expérimentaux seront survolés afin d’éta-blir une stratégie adaptée au problème de segmentation pour l’imagerie calcique du cerveau complet du poisson-zèbre.

Un premier exemple d’algorithme de segmentation provient de Oberlaender et al.(2009), qui propose une méthode en 14 étapes pour segmenter les neurones marqués avec NeuN (Wolf et al.,1996) dans le cortex somatosensoriel du rat. Dans sa méthode, il applique d’abord un seuil pour séparer l’avant-plan de l’arrière-plan après quoi il applique une série de filtres conçus à la main pour identifier individuellement les neurones. Les auteurs filtrent ensuite les résultats

(17)

en se basant sur les propriétés biologiques des neurones (e.g. taille et forme) pour raffiner les résultats de la segmentation. Sur les données testées (marquage NeuN), ils détectent 5,82% de faux positifs et 5,01 % de faux négatifs (Oberlaender et al.,2009). Or, ces performances sont affectées à la baisse lorsqu’on applique l’algorithme à des images provenant d’autres procédures expérimentales puisque les filtres ont été spécifiquement conçus pour ce type de marquage, pour des neurones d’une taille bien définie, ayant des propriétés de fluorescences également bien définies. On doit ainsi rebâtir l’algorithme au complet lorsqu’on l’applique à un autre contexte expérimental.

Désirant ne plus devoir concevoir à la main la série de filtres et décider, pour chaque filtre, du seuil à appliquer, Pachitariu et al. (2013) propose de remplacer ces étapes par un mo-dèle génératif basé sur l’encodage par blocs de convolution creux (convolutional sparse block coding), qui saisit la régularité des neurones dans l’image. Les paramètres du modèle sont ensuite optimisés à l’aide d’une méthode d’apprentissage automatique, soit l’algorithme K-SVD. Cette méthode performe mieux que celle de Oberlaender et al.(2009), aussi bien sur des données simulées, que sur des tranches de tissus fixées que sur l’imagerie calcique du cerveau de la souris. Selon les auteurs, cet algorithme, qui peut retrouver une variété de cellules de formes différentes, est flexible par sa représentation en bloc, ce qui permettrait de l’utiliser dans une variété de problèmes biologiques. Un des avantages de cette méthode, qui est une forme d’apprentissage automatique, est sa polyvalence pour l’application à d’autres contextes expérimentaux, il suffit de le faire réapprendre sur notre jeu de données, sans devoir repenser l’architecture de notre algorithme. Dans cet état d’esprit, une méthode pure d’apprentissage profond, soit la forêt d’arbres décisionnels, sera testée. Plus de détails seront fournis sur cette méthode dans le chapitre 2.

Passons maintenant aux méthodes développées spécifiquement pour l’imagerie calcique. Les méthodes présentées précédemment n’utilisent que l’information spatiale pour effectuer la seg-mentation. Elles sont donc idéales pour segmenter des neurones n’exprimant aucune activité. Or, dans notre cas, on désire justement imager l’activité des neurones afin d’utiliser cette information pour inférer les liens qui relient les neurones. Plusieurs méthodes ont ainsi été développées de telle sorte à tirer profit de la nature spatio-temporelle du problème.

Par exemple, Mukamel et al.(2009) propose d’utiliser l’analyse par composantes principales pour réduire la dimension du problème et diminuer l’impact du bruit. Il étudie ensuite les corrélations des séries temporelles des pixels pour regrouper les pixels en éléments structurels qui représentent les neurones. Une autre méthode tirant profit de la nature spatio-temporelle des données est celle proposée par Pnevmatikakis et al. (2016), qui pose comme hypothèse qu’on peut séparer le film (spatio-temporel) en deux matrices non négatives qui, lorsque mul-tipliées, vont reconstruire le film complet. Cette méthode sera également développée de façon plus détaillée au chapitre2.

(18)

Désirant développer une méthode qui se concentre sur l’impression globale de l’image plutôt que sur les caractéristiques locales, Shi and Malik (2000) proposent la coupe normalisée pour la segmentation d’une image. Initialement développée pour partitionner les graphes, on peut l’appliquer dans un contexte de segmentation d’image en traitant la segmentation d’image comme un problème de partitionnement de graphes. La segmentation se fait donc en mesurant la dissimilarité totale entre les différents groupes ainsi que la dissimilarité totale à l’intérieur du groupe.

Cet algorithme est intégré plus précisément dans un progiciel pour le traitement de données d’imagerie calcique (Kaifosh et al., 2014) pour faire la segmentation de neurones. Dans cet algorithme, on sépare, à chaque étape, un ensemble de pixels en deux nouveaux sous-ensembles de façon à minimiser la pénalité. Cette pénalité est calculée avec les poids qui relient les pixels entre eux. Par exemple, on peut définir le poids entre le neurone i et le neurone j comme wij = ekccij×      e− ||xi−xj ||2 σ2_x _, _si _||x i− xj|| < r, 0, autrement ,

où x_i et x_j sont les positions des pixels i et j, respectivement, σ2_x spécifie la décroissance des poids, jusqu’à une distance maximale r. Finalement, cij est une estimation de la corrélation

entre les signaux d’intensité des deux pixels. On arrête de séparer une partition lorsqu’elle contient moins de pixels que notre critère de taille minimale.

Plusieurs algorithmes ont ainsi été appliqués au problème de segmentation de neurones, dans une variété de contextes expérimentaux différents. Leurs performances étant variables selon le cas d’application, il est primordial d’établir leurs performances sur l’imagerie calcique du cerveau du poisson-zèbre, à des résolutions spatiales et temporelles similaires à ce qui sera obtenu avec le système d’imagerie développé dans nos laboratoires. Dans ce travail, quatre méthodes différentes dont les performances seront comparées sur les mêmes ensembles de données seront étudiées. Ces méthodes sont le seuil adaptatif, la factorisation par matrice non négative, les forêts d’arbres décisionnels ainsi que les réseaux de neurones à convolutions.

(19)

Chapitre 1

Prétraitement des données

Avant de se lancer dans la segmentation, quelques étapes de prétraitement doivent être effec-tuées. Principalement, il faut trouver une méthode de correction de mouvement pour compen-ser le déplacement du poisson dans l’agarose. Trois techniques de correction du mouvement seront testées, soit Moco, NoRMcorre et Thunder. La nécessité du débruitage des images sera ensuite évaluée, puis, finalement, on déterminera la technique qui sera utilisée pour réaliser les cartes sommaires (soit les entrées des algorithmes de segmentation).

1.1 Correction du mouvement

La correction du mouvement est une étape préalable cruciale au traitement des données lorsque le sujet imagé est un animal vivant. Deux types de transformations peuvent être entrainées par les mouvements du sujet : les transformations rigides et non rigides. Les transformations rigides sont induites par une translation ou une rotation uniforme du sujet, de telle sorte que chaque point du sujet subit la même transformation. D’autres transformations, dites non rigides sont également possibles. Pour ces transformations, chaque région de l’image ne bouge pas nécessairement à la même vitesse ni même dans la même direction. Ces transformations peuvent être induites par torsion, ou bien encore par la respiration ou le rythme cardiaque du sujet.

Alors que les mouvements rigides induits par translation dans le plan focal peuvent être cor-rigés numériquement, les mouvements de rotation ainsi que les translations dans l’axe per-pendiculaire au plan focal ne peuvent pas être corrigés en post-traitement. Si les structures imagées au plan focal changent suite au mouvement, il devient impossible de le corriger. Il existe également des techniques pour corriger les translations non rigides dans le plan focal (Pnevmatikakis and Giovannucci,2017).

La majorité des méthodes de correction de mouvement sont basées sur la correspondance de forme (template matching ). Dans ces méthodes, on prend une image de référence, souvent la

(20)

première d’un film. On sélectionne ensuite l’image pour laquelle on veut corriger le mouvement, et on lui applique toutes les transformations géométriques (rotation et translation dans le plan) en la comparant, pour chaque transformation, à l’image de référence. Lors de la comparaison, on calcule leur similitude avec la métrique de notre choix et on choisit la transformation géométrique pour laquelle la métrique indique la plus grande similitude. Plusieurs métriques peuvent être utilisées à cet effet. Par exemple, celles considérées ici sont la norme euclidienne, la corrélation croisée ou encore, plus simplement, la racine de l’erreur quadratique moyenne normalisée (NMRSE) sur la corrélation croisée.

Dans le cadre de ce travail, trois méthodes développées pour la correction de mouvement pour les vidéos d’imagerie calcique seront comparées : Moco, un logiciel développé en Java intégré à ImageJ, NoRMcorre, implémenté dans le package CaImAn, ainsi que Thunder-registration. Les performances de ces algorithmes seront testées sur le plan 13 de l’ensemble de données Ahrens.

Figure 1.1 – Moyenne des images du plan 13 de l’ensemble de données Ahrens, sans correction de mouvement.

Pour évaluer si la correction du mouvement est bien effectuée, on peut utiliser plusieurs mé-triques. Une première indication d’une bonne correction, plus qualitative, est la clarté de la moyenne des images. Si l’image moyenne de tous les temps, une fois corrigé, est floue, cela si-gnifie que la correction du mouvement n’est pas optimale. La moyenne des images du plan 13, sans correction de mouvement, est présentée à la figure 1.1. Pour une comparaison plus quan-titative, on peut utiliser la corrélation de Pearson, pixel par pixel. Le coefficient de corrélation de Pearson est défini comme

r = Pn i=1(xi− ¯x)(yi− ¯y) pPn i=1(xi− ¯x)2 pPn i=1(yi− ¯y)2 (1.1)

(21)

où x_i et y_i sont la valeur du pixel i de l’image corrigée et de l’image qu’on souhaite corriger, respectivement, alors que x et¯ y désignent la valeur moyenne des pixels de l’image corrigée¯ et de celle qu’on souhaite corriger. On s’attend à ce que le coefficient de corrélation soit plus élevé pour une image corrigée que pour une image non corrigée. Bien entendu, dans notre cas, il sera impossible d’avoir une corrélation parfaite, puisque l’intensité lumineuse de chacun des neurones varie individuellement. On compare donc, à l’aide de ces outils, les trois techniques de correction de mouvement.

1.1.1 Moco

Dans le but de faire de la correction de mouvement en temps réel,Dubbs et al.(2016) développe un algorithme qui utilise la correspondance de forme. Soit une image Y prise au temps t et une image X prise au temps t + 1 ayant subi un déplacement. Dans le but de retrouver la transformation géométrique qui alignera X sur Y, on impose une série de déplacements (s, t) à X (où s et t sont les déplacement en pixel horizontal et vertical). Pour chacun des déplacements respectant la contrainte max(|s|, |t|) < w (où w est le déplacement maximal défini par l’utilisateur), on calcule la norme

L2(s, t) = 1 Aire(Ds,t) X (i,j)∈Ds,t (xi+s,j+t− yi,j)2, (1.2)

qui est minimisée lorsque X est très similaire à Y . Ici, Aire(Ds,t) est le nombre de pixel dans

la région de superposition Ds,t une fois le déplacement(s, t) appliqué à X, xi+s,j+test le pixel

(i, j) de l’image X ayant subi un déplacement (s, t) et finalement, yi,j est le pixel (i, j) de

l’image Y .

Figure 1.2 – Illustration des différentes variables de l’équation1.2

Ainsi, lorsque la transformation géométrique minimisant la dissimilarité entre X et Y est trouvée, on l’applique à X. On peut ensuite passer à l’image suivante de notre acquisition. Comme cette méthode nécessite la vérification de toutes les transformations géométriques possibles inférieures au déplacement maximal défini par l’utilisateur, elle a un coût computa-tionnel élevé. Pour accélérer le temps de calcul, les auteurs utilisent plusieurs stratégies dont le sous-échantillonnage. Or, il faut être vigilant lors du sous-échantillonnage, puisque la perte d’information induite par cette opération peut induire des erreurs. D’autres stratégies comme

(22)

la programmation dynamique et l’utilisation de la transformation de Fourier sont également explorées dans le but d’améliorer le temps de calcul. On peut retrouver plus de détails sur ces techniques dans la publication (Dubbs et al.,2016). Cette méthode est implémentée dans un module java qui est disponible sur Fiji (Schindelin et al.,2012;Rueden et al.,2017).

Résultats

Pour utiliser Moco, on doit d’abord fixer deux paramètres : le déplacement maximal pour lequel on teste les transformations géométriques, ainsi que le taux de sous-échantillonnage. Ici, le déplacement maximal a été fixé à 30 pixels et aucun sous-échantillonnage n’a été effectué. La première image du film a été utilisée comme image de référence.

Pour évaluer les performances de Moco, on commence par observer qualitativement l’image moyenne une fois le mouvement corrigé (figure 1.3).

Figure 1.3 – Moyenne des images du plan 13 de l’ensemble de données Ahrens dont le mouvement a été corrigé avec Moco

Cette image indique rapidement que la correction du mouvement n’est pas optimale. Confir-mons notre hypothèse en traçant le coefficient de corrélation de Pearson pour chacune des images corrigées (courbe orange) et non corrigées (bleue) à la figure1.4

La superposition des deux courbes indique que la correction n’a pas été efficace. En effet, on se serait attendue à ce que les images, une fois corrigées, aient un plus grand coefficient que les images non corrigées. En somme, la méthode Moco est à la fois peu performante, en plus de demander un grand temps de calcul pour les images de grande taille. En effet, cette méthode requiert qu’on garde en mémoire vive la séquence temporelle complète afin de procéder à la correction de mouvement. Nos propres images étant de grande taille et ayant

(23)

Figure 1.4 – Coefficient de corrélation de Pearson après la correction de mouvement de la méthode Moco pour les données présentées à la figure1.3. Chaque point de la courbe représente le coefficient de Pearson de la n-ième image du film comparée à l’image de référence.

de longues séquences temporelles, cette méthode requiert une trop grande mémoire vive pour être retenue. Moco ne serait donc pas recommandée pour notre type donnée.

1.1.2 NoRMcorre

Basée sur la méthode présentée dans Guizar-Sicairos et al. (2008), NoRMcorre ( Pnevmati-kakis and Giovannucci, 2017) utilise également la correspondance de forme, mais cette fois en minimisant l’erreur NMRSE sur la corrélation croisée. Mathématiquement, on exprime la corrélation croisée de l’image f et de son modèle g comme

rf g(x0, y0) = X x,y f(x, y)g∗(x − x0, y − y0) (1.3) =X u,v

F(u, v)G∗(u, v) exphi2πux0

M +

vy0

N i

(1.4)

où (*) dénote la conjugaison complexe, N et M sont les dimensions de l’image, et les majuscules la transformation de Fourier de leur contrepartie minuscule. La transformation de Fourier est obtenue selon la formulation classique

F(u, v) =X x,y f(x, y) √ M N exp h −i2πux M + vy N i . (1.5)

La racine de l’erreur quadratique normalisée de la corrélation croisée, qu’on cherche ici à minimiser par rapport à α, s’exprime quant à elle comme

E2= min α,x0,y0 P x,y|αg(x − x0, y − y0) − f (x, y)|2 P x,y|f (x, y)|2 (1.6) = 1 − maxx0,y0|rf g(x0, y0)| 2 P x,y|f (x, y)|2 P x,y|g(x, y)|2 (1.7)

(24)

où(x, y) correspondent aux points de l’image. La somme est donc effectuée sur tous les points de l’image.

La transformation de Fourier ayant déjà un faible coût computationnel, on améliore les per-formances en matière de mémoire et de temps de calcul en sur-échantillonnant la transformée de Fourier discrète uniquement autour des maximums identifiés, puis en raffinant l’estimation de la translation. Un des avantages de la corrélation croisée est qu’elle conserve des bonnes performances en cas de gros rapport signal sur bruit.

Cette méthode, développée pour corriger les transformations rigides, peut être modifiée pour effectuer des transformations rigides par parties. Il suffit en effet de diviser l’image en plusieurs cadres se superposant partiellement et d’appliquer l’algorithme sur chacun de ces cadres indi-viduels. Une fois le vecteur de transformation trouvé pour chacun de ces cadres, on les applique rigidement au cadre correspondant puis on rassemble chacun des cadres corrigés individuelle-ment en interpolant pour obtenir l’image complète corrigée.

Résultats

Malheureusement, cette méthode présente également des problèmes de mémoire vive, la ren-dant impossible de l’exécuter sur un ordinateur personnel. Bien qu’il soit possible d’utiliser des ressources telles que Calcul Canada, on désire une méthode que l’on peut utiliser au laboratoire. NoRMcorre est donc rejetée.

1.1.3 Thunder

La méthode Thunder implémente simplement la correspondance de forme en utilisant comme métrique de comparaison la corrélation croisée.

Résultats

En évaluant l’image de la moyenne des images corrigées par Thunder (figure1.5), on remarque déjà une nette amélioration par rapport à Moco.

En effet, l’image moyenne est très nette, indiquant que le mouvement a bien été corrigé. Analysons maintenant les courbes de corrélation pour les images corrigées et non corrigées (figure 1.6).

Les courbes obtenues sont en accord avec les résultats attendus pour une bonne correction de mouvement puisque le coefficient de corrélation est beaucoup plus élevé pour l’image corrigée. On remarque également que la corrélation diminue constamment pour les images non corrigées. Cela s’explique du fait que le poisson subissait un mouvement relativement constant dans une direction.

(25)

Figure 1.5 – Moyenne des images du plan 13 de l’ensemble de données de Ahrens corrigé avec Thunder

Figure 1.6 – Corrélation de Pearson des images du plans 13 de l’ensemble de données Ahrens corrigées avec Thunder

En somme, Thunder représente le meilleur candidat à la correction de mouvement vu ses performances, sa simplicité d’utilisation ainsi que le temps de calcul raisonnable.

Par ailleurs, la correction de mouvement n’a pas pu corriger tous les mouvements du poisson puisqu’il effectuait des rotations en dehors du plan focal. De ce fait, puisque ce ne sont pas les mêmes neurones qui sont imagés tout au long du film, il est impossible de les apparier correctement.

(26)

1.2 Cartes sommaires

La segmentation de neurones se fait, pour la majorité des méthodes, sur une carte sommaire temporelle, et ce, pour plusieurs raisons. Entre autres, le choix d’une bonne carte sommaire permet de mieux distinguer les neurones en améliorant le contraste. De plus, en résumant l’activité sur une image sommaire, on doit effectuer moins de calculs, rendant les méthodes plus rapides. Plusieurs méthodes sont possibles pour générer la carte sommaire. Entre autres, on peut faire la moyenne des images temporellement, ce qui réduirait l’impact du bruit. Or, en faisant la moyenne, on perd l’information sur les neurones qui ont été actifs mais brièvement.

(a) (b)

(c) (d)

Figure 1.7 – (a) Une image au temps t1 de l’ensemble de données PDK5, (b) sa moyenne

temporelle, (c) son maximum temporel et(d) sa médiane temporelle.

Pour remédier au problème, on pourrait penser faire une carte sommaire en sélectionnant toujours le pixel le plus brillant de sa série temporelle. Or ayant beaucoup de bruit dans ce type d’image, on accentue son effet en choisissant cette méthode, diminuant ainsi le contraste

(27)

entre les neurones et l’arrière-plan. On peut également prendre la médiane du pixel, mais cette méthode est réputée pour être plus longue que les autres. On peut voir, à la figure 1.7, chacune des cartes sommaires énoncées précédemment ainsi qu’une image individuelle. Un bon compromis serait d’effectuer des moyennes localement (tel que sur n plans adjacents), puis faire une carte sommaire des maximums. On réduit ainsi le bruit en moyennant, tout en conservant l’information des neurones qui sont peu actifs.

(a) (b)

Figure 1.8 – Acquisition à 30 Hz moyenné temporellement provenant de l’ensemble de données PDK1. (a) Aucun filtre appliqué, (b) Filtre médian appliqué à chacun des plans

On remarque rapidement que les deux meilleures options sont la moyenne et la médiane, puisqu’elles permettent de distinguer clairement les neurones, et qu’elles diminuent le bruit, contrairement au maximum et à l’image individuelle. On opte par contre pour la moyenne puisque la médiane prend beaucoup plus de temps à calculer. Pour la suite du mémoire, toutes les cartes sommaires seront obtenues par la moyenne. On pourrait également penser à filtrer le bruit en utilisant un filtre médian. En le testant, on remarque que l’application du filtre médian fait perdre énormément de contraste, comme on peut le remarquer à la figure 1.8. Or, tel que mentionné précédemment, la carte sommaire moyenne diminue déjà considérablement le bruit, de telle sorte que le filtre médian n’est pas nécessaire.

(28)

Chapitre 2

Segmentation d’image

La première étape de l’inférence du connectome du poisson-zèbre est la segmentation des neurones, soit l’identification de l’empreinte spatiale. Plus précisément, on cherche à générer une carte binaire où tous les pixels représentant un neurone sont représentés par des 1, et tous les pixels représentant l’arrière-plan sont représentés par des zéros. On retrouve un exemple de segmentation à la figure 2.1.

(a) (b)

Figure 2.1 – Exemple de résultats obtenus après une segmentation des données PDK1. On retrouve en (a) l’image originale et en (b) l’image segmentée. Cet exemple est obtenu d’une seg-mentation manuelle, il s’agit donc du résultat optimal que pourrait fournir une segseg-mentation numérique.

Il s’agit d’une tâche colossale à effectuer manuellement considérant que le cerveau du poisson-zèbre, à l’état larvaire, contient environ 78 000 neurones déjà 168 heures après la fertili-sation (Hill et al., 2003). Il est donc essentiel de trouver un algorithme qui remplacera les méthodes de segmentation manuelles, généralement utilisées pour la microscopie électronique. Dans ce chapitre, quatre algorithmes de segmentation seront appliqués au problème spécifique de la segmentation des neurones sur des films d’activité calcique du cerveau du poisson-zèbre. Ces quatre méthodes, soit le seuil adaptatif, la factorisation par matrices non négatives avec contraintes, la forêt d’arbres de décision ainsi que le réseau de neurones à convolution,

(29)

se-ront ensuite comparées les unes aux autres afin de déterminer laquelle présente les meilleures performances.

Pour quantifier adéquatement leur performance, on devra d’abord choisir un ensemble de métriques qui permettra de tirer des conclusions quantitatives sur les résultats numériques obtenus. Les différentes métriques employées dans le domaine de la vision numérique seront survolées dans la prochaine section afin d’établir celles qui seront utilisées dans le cadre de ce travail.

2.1 Métriques de comparaison

Bien qu’il soit possible de dire qualitativement si une segmentation est bonne ou non, on doit définir des critères objectifs qui permettront de tirer des conclusions quantitatives de nos résultats. À cet effet, on présentera quelques métriques fréquemment utilisées dans la littérature pour ensuite sélectionner celles qui seront appliquées dans ce travail.

2.1.1 Matrice de confusion

Dans les problèmes de classification, on utilise souvent la matrice de confusion pour dresser un portrait des performances d’un algorithme, tel que représenté à la table2.1. Chaque rangée de cette matrice correspond à une instance de la classe prédite par l’algorithme alors que chaque colonne représente une instance de la classe réelle (soit la vérité absolue). Les éléments de la matrice correspondent donc au nombre de vrais positifs (VP), de faux positifs (FP), de vrais négatifs (VN) ainsi que de faux négatifs (FN).

Table 2.1 – Matrice de confusion Réels Neurones Fond

Prédits Neurones VP FP

Fond FN VN

On définit un VP comme un élément identifié manuellement qui est retrouvé par l’algorithme, un FP comme un élément retrouvé par l’algorithme qui n’a pas été identifié manuellement (une fausse identification), un FN un élément identifié manuellement qui n’a pas été retrouvé par l’algorithme et, finalement, un VN est un élément qui n’a pas été identifié ni manuellement ni par l’algorithme. Généralement, on cherche à maximiser le nombre de VP et de VN tout en minimisant le nombre de FP et de FN.

Plusieurs définitions peuvent être utilisées pour décrire ce qu’est un vrai/faux positif/négatif. Entre autres, on peut comparer pixel par pixel l’image segmentée manuellement à la prédic-tion de l’algorithme, ou plutôt objet par objet (e.g. neurone à neurone). On utilisera ici une comparaison objet par objet, où on considère la prédiction comme bonne (e.g. vrai positif) dès

(30)

(a) sensibilité = 1 (b) sensibilité = 1 (c) sensibilité = 0,8

Figure 2.2 – Illustration de l’effet des faux positifs sur la sensibilité où les cercles rouges représentent les faux positifs, les cercles verts les vrais positifs et les cercles blancs les faux négatifs. En comparant (a) et (b), on remarque en effet que les fausses détections (cercle rouge) n’affectent pas la sensibilité.

qu’elle se superpose, même partiellement, à la vérité absolue. En se remettant dans le contexte du problème, on se rappelle qu’on souhaite segmenter les neurones pour en extraire leur série temporelle, pour ensuite inférer la structure du connectome. Chacun des points de la série temporelle est obtenu en extrayant, dans le plan correspondant l’intensité moyenne des pixels appartenant à l’élément segmenté. Ainsi, qu’on ait identifié numériquement 80% des pixels, ou 115% des pixels, la moyenne de l’intensité ne devrait pas en être trop affectée. De cette manière, on peut s’affranchir des critères d’exactitude géométrique. Le seul problème pouvant arriver est qu’un algorithme identifie un neurone qui, en réalité, est superposé à plusieurs éléments segmentés manuellement. Il serait ainsi possible, éventuellement, d’ajouter un critère qui tiendrait compte d’une telle situation.

Sensibilité/Taux de vrais positifs

Plusieurs métriques peuvent être construites à partir des éléments qui constituent la matrice de confusion. On peut entre autres penser à la sensibilité (également appelée le taux de vrais positifs) défini par

T P R= VP VP + FN =

VP

P (2.1)

qui représente la fraction de positifs (identifié manuellement) qui sont correctement retrouvés par l’algorithme. Comme on peut le déduire de son équation, le nombre de faux positifs n’influence pas cette métrique (figure2.2). Ainsi, il s’agit d’un bon choix de métrique lorsqu’on cherche à maximiser le nombre de détections peu importe le nombre de fausses détections entrainées.

Cette métrique particulière est d’une grande importance dans ce travail justement du fait qu’elle n’est pas influencée par le nombre de faux positifs. En se remettant dans le contexte spatio-temporel de notre problème, on peut, à l’aide de la série temporelle d’un neurone, identifier s’il s’agit d’un vrai ou d’un faux positif. La série temporelle d’un faux positif ne sera essentiellement que du bruit (figure 2.3a), alors que la série temporelle d’un vrai positif

(31)

(a) (b)

Figure 2.3 – Séries temporelles correspondant à un faux positif (a) correspondant à l’arrière-plan et un vrai positif (b) correspondant à un neurone. On voit clairement que (a) est princi-palement constitué de bruit alors que (b) montre de l’activité neuronale claire.

présentera plutôt de l’activité calcique (figure2.3b). Ainsi, les fausses détections pourront être filtrées à l’aide de techniques d’analyse de séries temporelles classiques.

Précision (PPV)

Lorsqu’on cherche plutôt à minimiser le nombre de fausses détections, on va chercher à opti-miser la précision,

P P V = VP VP + FP,

laquelle représente la proportion de vrais positifs par rapport au nombre d’éléments identifiés (vrais et faux positifs). Lorsqu’on optimise cette valeur, on minimise par la même occasion le nombre de fausses détections. Ainsi, on l’utilise généralement lorsqu’on veut minimiser le nombre de FP par rapport au nombre de vrais positifs. Dans notre cas, puisqu’on préfère maxi-miser le nombre de détections même si cela entraine des FP (qui seront ensuite filtrées), cette métrique ne sera pas utilisée pour quantifier les performances de nos algorithmes. Cependant, la précision est utilisée pour construire la métrique du score F1, présentée ci-dessous.

Score F1

Une métrique utile lorsqu’on veut faire un compromis entre la précision et la sensibilité est le score F₁. Généralement définie comme la moyenne harmonique entre la précision et de la sensibilité, on la définit mathématiquement comme

F1 = 2

PPV · TPR PPV + TPR.

Encore une fois, on désire ici maximiser la sensibilité plutôt que faire un compromis. Donc, on ne cherche pas à maximiser le score F1, mais cette métrique nous sera quand même utile

(32)

puisqu’elle est fréquemment utilisée dans la littérature pour évaluer les performances des algo-rithmes, ce qui nous permettra de nous comparer aux résultats présentés dans la littérature.

2.1.2 Choix des métriques

Dans le cadre de ce travail, deux métriques seront principalement utilisées. La première est la sensibilité. Puisqu’on cherche à maximiser le nombre de vrais positifs, même si cela en-traine une augmentation du nombre de faux positifs, il s’agit de la métrique tout indiquée. L’autre métrique qui sera utilisée est le score F1, qui permettra principalement de comparer les résultats obtenus dans cette étude à ceux présentés dans la littérature.

2.2 Images de référence

Toutes les métriques présentées à la section précédente possèdent un point commun : elles nécessitent toutes une image de référence, segmentée manuellement, agissant comme vérité absolue en comparaison avec la prédiction de l’algorithme. De telles segmentations manuelles devront ainsi être produites afin de comparer adéquatement les différents algorithmes. Cette segmentation manuelle a ainsi été effectuée pour chacun des ensembles de données fourni. Pour l’ensemble de données Ahrens, puisqu’il est trop volumineux (il contient environ 100 000 neurones), six sous-régions de dimensions 256x256 pixels (figure 2.4) ont été sélectionnées pour la production des images de référence. Les régions choisies pour produire les images de référence sont situées à différentes profondeurs du cerveau ainsi qu’à différentes positions(x, y) sur ces plans. Des régions de différentes densités ont été choisies pour représenter l’ensemble des différentes zones qu’on retrouve dans nos images. Ayant segmenté manuellement 998 neurones, notre jeu de données de test représente environ 1% du cerveau complet du poisson-zèbre. On peut retrouver les régions sélectionnées dans l’annexe A.

La segmentation manuelle de tous les ensembles de données PDK1 à PDK5 (figure 2.5) per-mettra de tester les performances des algorithmes sur des images ayant différentes résolutions spatiales et temporelles, ainsi que d’autres paramètres d’acquisition de la caméra.

2.3 Méthode du seuil adaptatif

La première méthode considérée dans cette étude est celle du seuil adaptatif. Il s’agit d’une version raffinée de la méthode du seuil global, qui permet de transformer une image en niveaux de gris en une image binaire. Cette technique de segmentation est basée sur l’histogramme de l’intensité des pixels de l’image à segmenter. Prenons l’exemple d’une image de texte noir sur un fond blanc (figure 2.6). On distinguerait, dans l’histogramme, deux pics (figure 2.7). Le premier serait centré sur la valeur moyenne des pixels qui constituent le texte, et l’autre sur la valeur moyenne de l’intensité des pixels qui constituent la page.

(33)

Figure 2.4 – Segmentation manuelle de différentes sous-régions de l’ensemble de données Ahrens

Figure 2.5 – Segmentation manuelle d’une partie de l’ensemble de données PDK1

Figure 2.6 – Méthode du seuil global et adaptatif. On retrouve à gauche l’image originale, au centre l’image à laquelle on a appliqué un seuil global, et à droite, l’image à laquelle on a appliqué un seuil adaptatif (Bradley and Roth,2007).

(34)

Un bon seuil à appliquer serait donc situé entre ces deux pics de sorte à bien séparer les pixels en deux classes : ceux appartenant à la page prendront la valeur de 1 et ceux appartenant au texte prendront la valeur de 0. Or, comme on peut le remarquer au centre de la figure 2.6, cette méthode effectue une segmentation erronée lorsque l’illumination de la scène n’est pas uniforme, ce qui se traduirait par un histogramme où on ne peut distinguer les deux pics. On utilise alors la même stratégie, mais au lieu d’appliquer le même seuil à l’image entière, on applique un seuil différent à chacun des pixels, dont la valeur changera en fonction des statistiques locales. Appliquer un seuil adaptatif revient donc à approximer que l’illumination est uniforme localement.

Figure 2.7 – Histogramme théorique d’une image pour laquelle un seuil global effectuerait une bonne segmentation (Wellner,1993)

Plusieurs stratégies peuvent être utilisées pour déterminer le seuil à appliquer. Entre autres,

Wellner (1993) propose de fixer le seuil d’un pixel en fonction de la moyenne des n derniers pixels, de sorte que le pixel sous considération soit mis à zéro si sa valeur est en-dessous de la moyenne, et mis à un si sa valeur est au-dessus. Or, les résultats obtenus lorsqu’on applique ce seuil sont variables selon l’ordre dans lequel on effectue le calcul (tel que de droite à gauche versus de gauche à droite). Pour résoudre ce problème, Bradley and Roth (2007) proposent plutôt de calculer cette moyenne mobile sur une fenêtre (généralement d’environ 5 ×5 pixels) centrée sur le pixel pour lequel on veut calculer le seuil. De cette façon, la nouvelle valeur du pixel (i, j) est calculée à l’aide de la règle

I(i, j) =    0, si I(i, j) ≤ t · µ(i, j), 1, autrement , (2.2)

où t est un pourcentage fixé par l’utilisateur et µ(i, j) est la moyenne des pixels de la fenêtre n × n centrée sur le pixel(i, j). Pour appliquer cette méthode, on doit ainsi déterminer la taille optimale pour la fenêtre ainsi que le pourcentage t optimal.

(35)

2.3.1 Résultats

Afin d’améliorer le contraste des images, on applique la méthode du seuil adaptatif sur les cartes sommaires moyennes plutôt que sur une image individuelle. En utilisant l’échantillon 13 de l’ensemble de données Ahrens, on parcourt l’espace des paramètres pour trouver le seuil1, un paramètre du modèle qui ajuste le nombre de pixels identifiés comme avant-plan, qui génère la meilleure segmentation, soit celui qui maximisera la sensibilité.

Figure 2.8 – Sensibilité de la segmentation en fonction du seuil appliqué pour l’échantillon 13 de l’ensemble de données Ahrens

Tel que montré à la figure2.8, où la sensibilité de la segmentation obtenue en fonction du seuil est tracée, le seuil qui génère la meilleure segmentation pour l’échantillon 13 de l’ensemble de données Ahrens est 0,56. En vérifiant sur les autres échantillons de l’ensemble Ahrens, on remarque que le même seuil maximise la sensibilité de tous les échantillons. Une représentation qualitative de la segmentation obtenue pour ce seuil est présentée à la figure 2.9 alors qu’on peut retrouver les résultats quantitatifs à la table 2.2.

Table 2.2 – Performances de la méthode du seuil adaptatif

Positives TP FP FN Sensibilité Précision score F1

Plan 13 301 89 6 212 0,30 0,93 0,45 Plan 17 235 81 6 154 0,34 0,93 0,50 Plan 20 86 28 11 58 0,33 0,72 0,45 Plan 22 88 30 20 58 0,34 0,60 0,43 Plan 27-358 43 18 10 25 0,42 0,64 0,51 Plan 27-624 245 59 8 186 0,24 0,88 0,38 moyenne 0,33 0,78 0,45

En analysant les images originales, on remarque que, même en appliquant un seuil adaptatif plutôt qu’un seuil global, la méthode ne retrouve que les neurones les plus actifs. Il est fort

1. Ce paramètre s’appelle généralement sensibilité, mais pour éviter toute confusion avec la métrique du même nom, il sera référé comme seuil dans le contexte du seuil adaptatif.

(36)

(a) Plan 13 (b) Plan 17 (c) Plan 20

(d) Plan 22 (e) Plan 27 - 1 (f) Plan 27 - 2

Figure 2.9 – Résultat de la meilleure segmentation obtenue pour la méthode du seuil adaptatif sur l’ensemble de données Ahrens1. On retrouve en blanc la segmentation manuelle (vérité), en vert les neurones identifiés manuellement qui ont été retrouvés par l’algorithme (vrais positifs) et en rouge les éléments retrouvés par l’algorithme qui n’ont pas été identifiés manuellement (faux positifs )

probable que ce résultat soit dû à l’entassement compact des neurones. En effet, puisqu’ils sont si rapprochés les uns des autres, il devient difficile, dans la fenêtre où on applique le seuil adaptatif, d’avoir suffisamment de pixels appartenant à la catégorie arrière-plan par rapport au pixel appartenant à l’avant-plan (soit les neurones). De ce fait, il est à penser que l’algorithme considère les neurones les plus brillants comme l’avant-plan, et les neurones les moins brillants (les moins actifs) comme l’arrière-plan.

Dans ce sens, on remarque que les meilleures performances sont obtenues sur l’échantillon 27-358 (figure 2.9e), qui est en réalité l’échantillon le moins dense de Ahrens1. Étant beaucoup moins dense que la moyenne des régions du cerveau, le contraste est meilleur entre les neurones les moins actifs et l’arrière-plan, ce qui permet de les détecter avec la technique du seuil adaptatif.

En testant la méthode sur les ensembles de données PDK1 à PDK4, on remarque que le seuil qui maximise la sensibilité est plutôt de 0,43 (contrairement à 0,56 pour les données Ahrens). Il est donc important de revérifier, pour chaque ensemble de données pris dans des conditions expérimentales différentes, quel est le seuil qui optimise la segmentation. Les résultats pour les ensembles de données PDK1 à PDK4 sont présentés à la table2.3.

(37)

Table 2.3 – Performances de la méthode du seuil adaptatif sur les données PDK1-PDK4 Positives TP FP FN Sensibilité Précision score F1

PDK1 970 189 11 781 0,19 0,95 0,32

PDK2 892 183 15 709 0,21 0,92 0,34

PDK3 827 154 13 673 0,19 0,92 0,31

PDK4 715 204 83 511 0,28 0,71 0,41

moyenne 0,22 0,88 0,35

En comparant les résultats obtenus pour les données PDK1 à PDK4 aux résultats des données Ahrens, qui ont pourtant une résolution spatiale similaire, on remarque que le seuil adaptatif performe mieux sur les données de Ahrens que sur les données PDK. L’explication la plus probable, à mon avis, est simplement que le poisson imagé pour PDK présente moins d’ac-tivité neuronale que le poisson de Ahrens. Ainsi, puisque la méthode détecte plus souvent qu’autrement les neurones les plus actifs, si la proportion de neurones actifs est plus élevée pour Ahrens que PDK, les performances seront meilleures pour Ahrens.

Finalement, l’algorithme fut testé sur les données PDK5 (table 2.4), et les résultats obtenus sont plutôt décevants. Comme il sera expliqué plus loin, la résolution spatiale a un grand rôle à jouer dans les performances des algorithmes de segmentation. En effet, une trop faible résolution spatiale (nombre de pixels par neurone) agit comme un moyennage spatial, de telle sorte que le contraste entre les neurones et l’arrière-plan, déjà faible, se voit encore plus diminué.

Table 2.4 – Performances de la méthode du seuil adaptatif sur les données PDK5 Positives TP FP FN Sensibilité Précision score F1

PDK5-1 410 34 3 376 0,08 0,92 0,15

PDK5-2 400 14 0 386 0,04 1,00 0,07

PDK5-3 515 27 3 488 0,05 0,90 0,10

PDK5-4 563 33 3 530 0,06 0,92 0,11

moyenne 0,06 0,94 0,11

Il sera donc important, lors de la construction d’un microscope destiné à l’imagerie du poisson-zèbre, de le concevoir de telle sorte que la résolution spatiale soit suffisante (de l’ordre de 0,6 µm/pixel, comme pour les données de Ahrens et PDK1-PDK4).

En somme, le seuil adaptatif est une méthode qui ne demande que très peu d’efforts compu-tationnels (2.63 ms pour une image 256x256 pixels), et très peu d’efforts d’implémentation puisqu’il existe une fonction intégrée dans plusieurs langages de programmation communs tels que MATLAB et Python, par exemple. Or, ses performances sont très variables d’un ensemble de données à l’autre, selon les paramètres utilisés lors de l’acquisition. Il faut donc, avant d’uti-liser cette méthode, établir ses performances sur un ensemble de données test ayant les mêmes paramètres d’acquisition que ceux qui seront utilisés pour les images à segmenter.

(38)

2.4 Factorisation par matrices non négatives avec contraintes

(CNMF)

2.4.1 Factorisation par matrice non négative (NMF)

La factorisation par matrices non négatives est un algorithme qui permet de factoriser une matrice V en deux matrices W et H de manière à ce que V ' W H, où ces trois matrices sont contraintes à ne contenir que des éléments non négatifs. Le problème de factorisation par matrices non négatives n’a généralement pas de solution analytique2, on doit donc recourir à des méthodes numériques pour le résoudre. La méthode généralement utilisée calcule d’abord la distance entre l’estimé W H et la matrice V , et cherche à la minimiser à l’aide d’une règle de mise à jour convexe, qui assure la convergence vers un minimum.

Lee and Seung(2001) proposent deux algorithmes spécifiquement pour solutionner numérique-ment ce problème. Dans le premier, soit pour deux matrices non négatives A et B, on considère que A approxime bien B si le carré de la distance euclidienne entre ces deux matrices,

||A − B||2=X

ij

(Aij− Bij)2, (2.3)

est minimisée. La norme ||A − B||2 est bornée par le bas à 0, et n’est nulle que dans le cas où A= B.

Le deuxième algorithme proposé utilise une variante de la distance de Kullback-Leibler pour quantifier la similitude entre A et B. Les deux matrices sont ainsi, en quelque sorte, considérées comme des distributions de probabilités. Cette métrique est ici définie comme

D(A||B) =X ij Aijlog Aij Bij − Aij+ Bij . (2.4)

Cette expression se réduit à la divergence de Kullback-Leibler lorsque P

ijAij =

P

ijBij =

1. Comme la distance euclidienne, cette métrique est bornée par le bas à 0, et n’est nulle uniquement que si A= B.

On vient donc de formuler deux alternatives au problème d’optimisation de la NMF :

Problème 1 Minimiser ||V − W H||2 par rapport à W et H, sujet aux contraintes W, H ≥0 Problème 2 Minimiser D(V ||W H) par rapport à W et H, sujet aux contraintes W, H ≥ 0

Il est à noter que les deux métriques ||A − B||2 et D(A||B) sont convexes, mais selon W uniquement ou H uniquement, jamais selon W H. Il n’est donc pas assuré que le minimum

2. Plusieurs ont développé des heuristiques pour solutionner le problème analytiquement (Vandaele et al.,