Simulation et inférence de réseaux de neurones à l’aide d’intelligence artificielle

(1)

Simulation et inférence de réseaux de neurones à l’aide

d’intelligence artificielle

Mémoire

Mohamed Bahdine

Maîtrise en informatique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Simulation et inférence de réseaux de neurones à l’aide

d’intelligence artificielle

Mémoire

Mohamed Bahdine

Sous la direction de :

Simon V. Hardy, directeur de recherche

Patrick Desrosiers, codirecteur de recherche

(3)

Résumé

La représentation par réseau est un outil puissant pour la modélisation des systèmes dy-namiques complexes. Elle est notamment utilisée en neurosciences pour étudier le cerveau. Cependant, extraire un connectome, soit la liste des neurones et des connexions qui les re-lient, demeure un défi important pour des cerveaux de plusieurs milliers de neurones. C’est le cas du cerveau de la larve du poisson-zèbre qui contient près d’une centaine de milliers de neurones. Puisque les synapses ne peuvent être directement observées, les connexions entre neurones doivent plutôt être inférées. Plusieurs méthodes classiques, dites d’inférence fonction-nelle, issues des statistiques et de la théorie de l’information, prédisent la connectivité à partir des séries temporelles qui décrivent l’activité des neurones. Plus récemment, des avancées en intelligence artificielle ont ouvert la voie à de nouvelles méthodes d’inférence.

L’objectif du projet de maîtrise exposé dans ce mémoire est de comparer la performance des méthodes de l’intelligence artificielle à celle des méthodes bien établies. Puisque la connectivité réelle est nécessaire pour une telle comparaison, un simulateur de réseau de neurones est utilisé pour générer des séries temporelles d’activité à partir de connectivités réelles extraites de vidéos d’activité. Il est montré que la calibration d’un tel simulateur, dans le but d’obtenir de l’activité similaire à celle des poissons-zèbres, n’est pas une tâche triviale. Une approche d’apprentissage profond est donc conçue pour prédire, à partir de métriques d’activité globale, les paramètres de simulation idéaux. Il est ensuite montré, sur 86% des simulations générées, qu’un modèle de réseau de neurones artificiels à convolution performe significativement mieux que les autres méthodes d’inférence. Cependant, lorsqu’un entraînement supervisé est impossible, la méthode classique de transfert d’entropie performe mieux qu’un modèle d’apprentissage profond non-supervisé sur 78% des simulations générées.

(4)

Abstract

Complex network analysis is a powerful tool for the study of dynamical systems. It is often used in neuroscience to study the brain. However, extraction of complete connectomes, i.e. , the list of all neurons and connections, is still a challenge for large brains. This is the case for the brain of the zebrafish which contains almost a hundred thousand neurons. Since direct observation of synapses is still intractable for a brain of this size, connections between neurons must be inferred from their activity. It is indeed possible to extract time series of activity for all neurons, by making them fluorescent upon activation through genetic engineering and by leveraging the zebrafish’s transparency during the larval stage. Then, so-called methods of functional inference, based on information theory, can be used to predict the connectivity of neurons from time series of their activity.

Recent breakthroughs in artificial intelligence have opened the door to new methods of infe-rence. The goal of the project described in this thesis is to compare the performance of such new methods to the performance of well-established ones. Since ground truth of connectivity must be known for comparison, a simulator is used to generate synthetic time series of activity from known connectivity. It is shown that the tuning of such a simulator, in order to generate realistic data, is not an easy task. Therefore, a deep learning approach is proposed to pre-dict optimal simulator parameters by analysis global dynamical metrics. Using the generated time series, it is shown that a convolutional neural network performs significantly better than well-established methods on 86% of simulations. However, in cases where supervised learning is impossible, the zebrafish’s case being an example, the classical method of Transfer Entropy performs better than an unsupervised deep learning model on 78% of simulations.

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des figures v

Liste des tableaux vii

Introduction 1 1 Théorie 4 1.1 Neurosciences computationnelles . . . 4 1.2 Inférence fonctionnelle . . . 16 1.3 Intelligence artificielle . . . 21 2 Simulations 31 2.1 Jeu de données . . . 31 2.2 Méthode . . . 33 2.3 Résultats et discussion . . . 37 3 Inférence 49 3.1 Jeu de données . . . 49 3.2 Méthode . . . 53 3.3 Résultats . . . 66 3.4 Discussion . . . 73 Conclusion 78 Bibliographie 80

A Code d’entraîneur générique 85

B Code d’entraîneur supervisé 86

(6)

Liste des figures

1.1 Schéma simplifié d’un neurone . . . 5

1.2 Schéma simplifié d’une synapse . . . 5

1.3 Schéma du modèle Hudgkin-Huxley. . . 6

1.4 Exemple du modèle Hudgkin-Huxley . . . 7

1.5 Schéma du modèle Leaky Integrate-and-Fire . . . 8

1.6 Exemple du modèle Leaky Integrate-and-Fire . . . 9

1.7 Exemple du modèle Adaptative Exponential Leaky Integrate-and-Fire . . . 11

1.8 Patrons d’activité de neurone typique . . . 12

1.9 Tableau des valeurs de paramètres du modèle AdEx . . . 12

1.10 Illustration du modèle d’Izhikevich . . . 14

1.11 Représentation du réseau de neurones du C. Elegans. . . 15

1.12 Graphique de décharge d’une simulation du modèle AdEx . . . 16

1.13 Digramme des domaines d’intelligence artificielle . . . 21

1.14 Analyse du jeu de données des fleurs d’Iris . . . 22

1.15 Illustration du concept de base d’un modèle SVM . . . 24

1.16 Illustration de l’usage d’un noyau du modèle SVM . . . 24

1.17 Illustration de l’impact de l’hyperparamètre C du modèle SVM . . . 25

1.18 Illustration de l’impact de l’hyperparamètre gamma du modèle SVM . . . 26

1.19 Exemples d’échantillons du jeu de donnée MNIST. . . 26

1.20 Taux d’erreur de prédiction et temps d’entraînement d’un modèle SVM . . . . 27

1.21 Illustration du concept de réseau de neurones artificiels. . . 28

1.22 Illustration de l’activation d’un neurone réel et artificiel . . . 29

2.1 Image d’un plan de cerveau de poisson-zèbre . . . 32

2.2 Séries temporelles de quatre plans de poisson-zèbre . . . 33

2.3 Schéma de la méthode de calibration de simulateur . . . 34

2.4 Comparaison des histogrammes des métriques mesurées . . . 38

2.5 Corrélation entre les métriques, les paramètres et les populations . . . 41

2.6 Exploration des paramètres du modèle MLR. . . 42

2.7 Histogrammes de prédictions des paramètres . . . 43

2.8 Histogrammes de prédictions des populations . . . 44

2.9 Valeur de métriques en fonction du poisson et du plan imagé . . . 45

2.10 Valeurs de paramètres prédits en fonction du poisson et du plan imagé . . . 46

2.11 Valeurs de taille de population prédites en fonction du poisson et du plan imagé 46 3.1 Schéma de la méthode de simulation utilisée au chapitre 2 . . . 50

3.2 Effet de la fréquence d’échantillonnage sur les séries temporelles . . . 51

(7)

3.4 Illustration de séries temporelles simulées par heatmap . . . 53

3.5 Implémentation de la classe de jeu de données générique . . . 54

3.6 Implémentation de la classe de jeu de données supervisé . . . 55

3.7 Implémentation de la classe de jeu de données non-supervisé . . . 56

3.8 Schéma de l’architecture du modèle LIN . . . 58

3.9 Implémentation du modèle LIN . . . 59

3.10 Schéma de l’architecture du modèle CNN . . . 60

3.11 Implémentation du modèle CNN . . . 61

3.12 Schéma de l’architecture du modèle RNN . . . 62

3.13 Implémentation du modèle RNN . . . 62

3.14 Schéma de l’architecture du modèle NLC . . . 63

3.15 Implémentation du modèle NLC . . . 64

3.16 Tableau des métriques en classification binaire. . . 65

3.17 Illustration de courbe ROC . . . 65

3.18 Courbes ROC rectifiées pour plusieurs classifieurs CNN . . . 68

3.19 Exploration des paramètres du jeu de données . . . 69

3.20 Exploration des paramètres du modèle CNN . . . 69

3.21 Historique de perte du modèle NLC . . . 70

3.22 Exploration des paramètres du modèle NLC . . . 71

3.23 Courbes ROC des prédictions du modèle NLC . . . 71

3.24 Histogrammes de score ROC AUC et courbes ROC pour chaque méthode . . . 72

3.25 Score ROC AUC de chaque modèle sur chaque simulation . . . 73

3.26 Score ROC AUC de chaque modèle non-supervisé sur chaque simulation . . . . 74

3.27 Corrélation entre les scores ROC AUC et les métriques . . . 75

3.28 Évolution d’un échantillon à travers les couches du modèle CNN . . . 76

A.1 Implémentation de la classe d’entraîneur générique . . . 85

B.1 Implémentation de la classe d’entraîneur supervisé . . . 86

(8)

Liste des tableaux

1.1 Comparaison qualitative des modèles de neurones. . . 16

1.2 Comparaison qualitative des méthodes d’inférences . . . 21

2.1 Résumé des métriques d’activité globale. . . 35

2.2 Résumé des paramètres à ajuster . . . 36

2.3 Nombre de métriques mesurées . . . 37

3.1 Résumé des méthodes d’inférence testées . . . 66

(9)

Remerciements

Je tiens à remercier mes directeurs, les professeurs Simon Hardy et Patrick Desrosiers, qui ont su me guider tout en me laissant explorer. Je tiens aussi à souligner l’aide du laboratoire du professeur Paul de Koninck pour le partage de données. Finalement, un énorme merci à ma famille, qui m’a encouragé tout au long de cette expérience.

(10)

Introduction

Ces dernières années, l’intérêt envers l’analyse de propriétés dynamiques de systèmes com-plexes s’est amplifié, et ce, dans divers champs de recherche. En effet, que ce soit en écolo-gie [48], en ingénierie [46] ou en santé [10], l’étude de propriétés telles que la robustesse et la résilience permet de mieux comprendre la tolérance d’un système à subir des perturbations [18] et sa capacité à restaurer sa fonction par la suite [19].

Une stratégie populaire pour de telles analyses est la représentation du système complexe à l’étude par un réseau, soit une collection de noeuds connectés par des liens [4,51,30,13]. Cette modélisation aide à mieux comprendre l’impact de la structure d’un système sur sa dynamique. Aussi, une telle abstraction de la nature des éléments composant un réseau favorise un meilleur partage d’outils d’analyse de réseaux entre différents domaines de recherche.

Le projet 1.2 du programme de recherche Sentinelle Nord La résilience des réseaux complexes : identifier les indicateurs critiques pour une intervention ciblée adhère à cette stratégie. Son objectif est de développer et de valider des algorithmes qui identifient les noeuds qui ont le plus d’impact sur la résilience. La validation des algorithmes se fait par le biais de la perturbation d’un réseau fonctionnel réel. Ce projet est le cadre du projet de maîtrise expliqué dans ce mémoire.

Le réseau réel choisi est le réseau de neurones constituant le cerveau du poisson-zèbre. Celui-ci est le candidat idéal en raison des propriétés optiques de l’animal. En effet, au stade larvaire, le cerveau du poisson-zèbre est complètement translucide et peut donc être imagé par mi-croscopie [50]. Les neurones, soit les noeuds du réseau, sont observés grâce des modifications génétiques qui forcent l’expression de protéines fluorescente au sein de leur noyau. De plus, le cerveau peut être perturbé à l’aide de laser. Il devient alors possible, par exemple, d’utiliser un laser infrarouge pour désactiver des neurones ciblés ou encore, par techniques d’optogénétique, de provoquer leur activation [42].

Un défi demeure toutefois, soit l’identification des connexions du réseau, car à cette échelle, l’observation directe des synapses est intraitable [21]. À la place, les connexions entre les neu-rones doivent être devinées ou inférées à partir de l’activité de ces derniers. Ceci est possible, car les protéines fluorescentes exprimées dans les noyaux sont sensibles au taux de calcium,

(11)

un ion dont la concentration augmente soudainement lors d’un potentiel d’action. Ce faisant, des vidéos d’activité de cerveau sont produits et grâce à des programmes de segmentation, il devient possible d’identifier la position des neurones et d’extraire pour chacun une série temporelle de fluorescence.

L’opération qui consiste à prédire la connectivité à partir de l’activité s’appelle l’inférence fonctionnelle et elle est le sujet d’étude principal du projet de maîtrise exposé dans ce mémoire. Plus spécifiquement, l’objectif général du projet de maîtrise est de comparer la performance de diverses méthodes d’inférence fonctionnelle bien établies à de nouvelles méthodes issues de l’intelligence artificielle. Le projet a aussi pour but d’identifier la meilleure méthode à adopter pour obtenir le réseau fonctionnel du poisson-zèbre et ainsi contribuer à l’avancement du projet 1.2 du programme Sentinelle Nord.

Dans un premier chapitre, les notions théoriques nécessaires à la compréhension du projet sont présentées. D’abord, plusieurs modèles de neurosciences computationnelles sont expli-qués. Certains sont naïfs, d’autres raffinés, certains sont théoriques et d’autres empiriques. Les réalismes et efficacités de chacun sont comparés. Ensuite, des méthodes d’inférence fonc-tionnelle issues de la théorie de l’information sont expliquées et comparées. Certaines mesurent la corrélation tandis que certaines prédisent la causalité. Finalement, des notions de base de l’intelligence artificielle sont abordées. Dans un premier temps en expliquant l’apprentissage machine puis en introduisant l’apprentissage profond. Les notions de jeu de données, d’archi-tecture, d’entraînement et d’évaluation sont abordées.

Afin de comparer les performances de méthodes d’inférence fonctionnelle, des séries temporelles à connectivité connue doivent être générées. Pour cette raison, un second chapitre est consacré à la calibration d’un simulateur de séries temporelles à partir de connectivité connue. La calibration d’un tel simulateur est essentielle pour générer des séries similaires aux séries réelles de poissons-zèbres et pour ainsi s’assurer que les conclusions des comparaisons soient applicables. Il est montré que l’usage de l’intelligence artificielle est nécessaire pour résoudre un tel problème à haute dimensionnalité. Puisque la similarité d’ensembles de séries temporelles est un concept difficile à définir, une méthode d’apprentissage profond est proposée. Dans un premier temps, des centaines de simulations sont générées en utilisant des paramètres aléatoires. Ensuite, un ensemble de métriques d’activité globale sont calculées sur chaque simulation. Le modèle d’apprentissage profond est alors entraîné à prédire les paramètres qui ont été utilisés à partir des métriques qui ont été calculées. Une fois entraîné, le modèle prédit les paramètres à utiliser à partir des métriques calculées sur les séries temporelles réelles, permettant ainsi de générer une centaine de simulations réalistes à partir de connectivité inférée par des méthodes bien établies.

Les séries temporelles réalistes générées permettent donc d’étudier la performance des mé-thodes d’inférence basées sur l’apprentissage profond. Un troisième chapitre est consacré à

(12)

cette étude. D’abord, comme pour tout problème d’intelligence artificielle, le jeu de données est exploré en détail et les objectifs des modèles sont établis. Ensuite, plusieurs architectures sont conçues en se basant sur des réseaux de neurones à convolution ou récurrents. Après optimisation, les modèles sont entraînés et la qualité de leurs prédictions est comparée. Il est montré qu’un réseau de neurones à convolution performe le mieux, mais qu’il est limité par le fait que son entraînement est supervisé.

La stratégie de calibration de simulateur présentée dans ce mémoire pourrait être adaptée à d’autres modèles biologiques aux paramètres couplés. De plus, les architectures de modèles d’inférence proposés pourraient être utilisées pour prédire la connectivité d’autres réseaux tels que des réseaux d’interactions entre espèces animales, ou encore, des réseaux d’influences entre indices boursiers. Ce mémoire est donc plus qu’une démonstration de l’apport de l’intelligence artificielle aux domaines des neurosciences computationnelles et d’inférence fonctionnelle.

(13)

Chapitre 1

Théorie

Le projet, décrit dans ce mémoire, traite de l’utilisation d’intelligence artificielle pour améliorer l’inférence fonctionnelle de connectivité à partir de séries temporelles d’activité de neurones simulés. Pour ce faire, trois champs théoriques sont expliqués dans ce chapitre.

Tout d’abord, une section explique les fondements de neurosciences computationnelles néces-saires à la compréhension des simulations d’activité de neurones. Ensuite, une section expose les méthodes bien établies d’inférence fonctionnelle. Finalement, une section traite du fonc-tionnement de l’intelligence artificielle qui est utilisée dans les chapitres suivants.

1.1 Neurosciences computationnelles

Selon Azevedo et al. [2], le cerveau humain est composé de 86.1 ± 8.1 milliards de neurones partageant, selon Drachman [11], près de 1, 5 · 1011 _{de synapses. Les dynamiques complexes}

des neurones et des synapses ainsi que la structure de leur connectivité sont responsables de l’émergence de notre capacité à raisonner.

Plusieurs modèles permettent de mieux comprendre le fonctionnement du cerveau et même d’en simuler son activité. Ces modèles sont expliqués à cette section.

1.1.1 Modèle biologique

Le neurone est l’unité de base du cerveau, mais reste une des cellules les plus complexes du corps. La figure 1.1 présente un schéma simplifié d’un neurone. On y voit trois parties principales. Le cadre bleu représente la section réceptrice. Cette dernière est composée entre autres de dendrites, qui font connexion avec d’autres neurones, recevant leurs signaux. La section réceptrice est aussi composée du corps cellulaire qui intègre et traite l’information reçue pour potentiellement activer le neurone à travers un potentiel d’action. Ce potentiel d’action se propage sous forme de signal électrique dans l’axone, soit la seconde section. La

(14)

troisième section, illustrée par un cadre vert, est responsable de transmettre l’information à travers une grande quantité de terminaison neuronale aux neurones suivants.

Figure 1.1 – Schéma simplifié d’un neurone. Tiré de Hébert [26].

La synapse est la zone entre un bouton axonal et une épine dendritique tel qu’illustré au schéma de la figure1.2. Lorsqu’un potentiel d’action arrive au bout de l’épine pré-synaptique, des vésicules contenant des neurotransmetteurs sont libérées dans la fente synaptique. Ces neurotransmetteurs vont activer des pompes à la membrane post-synaptique qui feront entrer des ions, dépolarisant ainsi la membrane.

Figure 1.2 – Schéma simplifié d’une synapse. Tiré de Roper et Chaudhari [44].

Le potentiel de la membrane est donc un bon indicateur de l’activité d’un neurone. Plusieurs modèles permettent de simuler de l’activité neuronale et des potentiels d’actions.

(15)

1.1.2 Modèle électrique

Hodgkin et Huxley [23] ont modélisé, en 1952, la membrane cellulaire à l’aide d’un circuit élec-trique illustré à la figure1.3. Le modèle sépare l’intérieur et l’extérieur de la cellule par quatre branches parallèles contenant divers éléments électriques représentant chacun un mécanisme biologique.

Figure 1.3 – Schéma du modèle Hudgkin-Huxley. Le modèle proposé par Hodgkin et Huxley [23] représente la membrane d’un neurone par un circuit électrique.

La première branche contient un condensateur C représentant la permissivité électrique de la membrane semi-perméable. La seconde couche est constituée d’une conductance gL (soit

l’inverse d’une résistance g = 1/R) en série avec une pile EL. L’indice L est pour Leaky, soit

fuite et représente ainsi la contribution d’une famille entière de pompes qui laissent passer librement des charges entre l’intérieur et l’extérieur de la membrane, forçant la différence de potentiel V à converger vers le potentiel EL. Similaires à la seconde branche, la troisième

et la quatrième branche représentent respectivement la contribution des pompes à sodium (Na) et à potassium (K). Ces dernières sont des canaux tensio-dépendants qui s’enclenchent uniquement lorsque certaines conditions sont atteintes.

La loi des courants de Kirchhoff [7, p.209] à l’équation1.1permet de calculer le courant total I qui circule à travers la membrane en sommant les courants qui circulent dans chaque branche du circuit :

I = CdV

dt + gL(V − EL) + gN a(V − EN a) + gK(V − EK) (1.1)

Toutefois, contrairement à la conductance de fuite gLqui est fixe, les conductances des canaux

actifs gN a et gK dépendent d’autres paramètres. Hodgkin et Huxley [23] décrivent la

(16)

αp(V ) et βp(V ) sont des fonctions empiriques qui décrivent l’état des pompes en fonction de la différence de potentiel. dV dt = gL(V − EL) + gN am3h(V − EN a) + gKn4h(V − EK) + I C dm dt = αm(V )(1 − m) − βm(V )m dn dt = αn(V )(1 − n) − βn(V )n dh dt = αh(V )(1 − h) − βh(V )h (1.2)

Il est possible de résoudre numériquement ces équations différentielles et ce, pour différentes valeurs de courant d’entrée I. La figure 1.4, tirée du papier original Hodgkin et Huxley [23], illustre le potentiel membranaire V en fonction du temps pour une simulation de leur modèle (en haut) et pour une mesure sur un axone réel (en bas).

Alan Lloyd Hodgkin et Andrew Fielding Huxley ont obtenu le prix Nobel de physiologie ou médecine de 1963 pour ces travaux.

Figure 1.4 – Potentiel de membrane en fonction du temps pour le modèle Hudgkin-Huxley. En haut, obtenu d’une résolution numérique des équations différentielles et en bas, mesuré sur un axone réel. Tiré de Hodgkin et Huxley [23]

(17)

1.1.3 Modèle de décharge

La puissance du modèle Hodgkin-Huxley vient de sa capacité à recréer fidèlement le patron d’un potentiel d’action. La forme de ce dernier peut varier d’un neurone à l’autre, mais reste stéréotypique pour un neurone donné selon Abbott [1]. Il est ainsi accepté par la communauté que ce n’est pas la forme du potentiel d’action qui transmet un message, mais plutôt le patron de décharge d’un neurone.

Ainsi, de nouveaux modèles, plus simples mathématiquement et moins coûteux numérique-ment, ont été développés permettant de modéliser l’amont d’un potentiel d’action, sans avoir à modéliser ce dernier. Dans ces modèles, dit de décharge, ce n’est que le moment d’activation du neurone qui est important et non l’évolution du potentiel membranaire.

Le modèle le plus simple de cette famille est le modèle Leaky Integrate-and-Fire (LIF) dérivé du modèle de Abbott [1]. Ce modèle représente aussi la membrane comme un circuit électrique, mais avec moins de composants comme illustrée au schéma de la figure 1.5. Ce modèle réduit ne modélise que deux branches, soit la branche du condensateur et la branche de la fuite.

Figure 1.5 – Schéma du modèle Leaky Integrate-and-Fire. Où la membrane est représentée par un circuit électrique.

Le taux de variation du potentiel de membrane est donnée par l’équation différentielle sui-vante :

dV dt =

−gL(V − EL) + I

C (1.3)

La figure 1.6 montre l’évolution du potentiel membranaire pour un courant I qui change en fonction du temps. Des valeurs typiques pour les constantes biologiques sont fixées à gL= 58 nS

(18)

Figure 1.6 – Exemple du modèle LIF. A) Courant d’entrée appliqué en fonction du temps. B) Trace des potentiels d’action pré-synaptiques et du courant de conductance qu’ils engendrent. C) Potentiel membranaire en fonction du temps lorsque les courants illustrés en A et B sont appliqués. D) Résultat de la simulation, soit une séquence de potentiel d’action. Tiré de [41].

On remarque que plus le courant est élevé, plus le potentiel augmente rapidement, mais converge tout de même à une certaine valeur stable. Cette valeur est calculable analytiquement pour un courant constant :

dV dt = −g_L(V − EL) + I C , 0 = −gL(V − EL) + I C , gL(V − EL) = I, V = I gL + EL. (1.4)

Cette équation suggère que le potentiel peut croître infiniment avec le courant I, ce qui n’est pas biologiquement réaliste, car de vrais neurones entrent en potentiel d’action lorsque le potentiel atteint une certaine valeur seuil. Ainsi, il faut introduire une condition au modèle qui détecte un potentiel d’action lorsque le potentiel dépasse cette valeur VT = −50 mV.

Et puisque le modèle LIF est incapable de modéliser la forme du potentiel d’action et de temps réfractaire, le potentiel sera maintenu au potentiel de repos Vrepos = −65 mVpour une

période réfractaire de tref ract = 2 ms. La figure 1.6illustre bien cela où on y voit le potentiel

membranaire en fonction du temps avec ces contraintes appliquées. On y voit en effet que le potentiel est maintenu artificiellement au potentiel de repos après un potentiel d’action. Ainsi, pour ce modèle de décharge, l’information pertinente n’est pas la forme du potentiel membranaire, mais plutôt les moments des potentiels d’action. C’est ce que représente la figure

(19)

du bas (D). On y remarque que seuls les moments auxquels un potentiel d’action est survenu sont conservés.

1.1.4 Modèle adaptatif

La simplicité du modèle LIF est un atout important, surtout pour des simulations massives de larges réseaux de neurones. Toutefois, cette même simplicité engendre certaines limites. Par exemple, un système dynamique contenant une seule équation différentielle ordinaire telle que celle du modèle LIF ne permet au système d’osciller ou de présenter de la dynamique riche et complexe.

Pour contrer cette lacune, Brette et Gerstner [3] proposent le modèle Adaptative Exponential Leaky Integrate-and-Fire(AdEx) qui ajoute une équation différentielle pour d’écrire l’évolution d’une nouvelle variable d’état, soit la variable d’adaptation w.

Conceptuellement, la variable w combine l’effet de plusieurs mécanismes d’adaptation qui engendrent un courant qui tend à contrer le courant d’entrée, diminuant ainsi l’activité d’un neurone après plusieurs décharges successives.

De plus, un terme exponentiel est ajouté à l’équation différentielle principale. Ce terme domine l’équation lorsque le potentiel s’approche du potentiel extrême Vpeak et représente la

dépola-risation soudaine (régulée par la constante de temps ∆T) de la membrane. Ce terme permet

d’améliorer la stabilité du neurone, en plus d’empêcher des artefacts numériques indésirables. Le système est donc décrit par les équations :

dV dt = −g_L(V − EL) + gL∆Te _{V −Vpeak} ∆T + I C , dw dt = a(V − EL) − w τW . (1.5)

Si le potentiel dépasse le potentiel critique VT, un potentiel d’action survient et les

condi-tions 1.6doivent être appliquées. Celles-ci stipulent que le potentiel doit être fixé au potentiel de repos Vr pour une durée de temps réfractaire et que la variable d’adaptation doit être

augmentée de b : si V ≥ Vpeak = 0 mV, alors    V → Vr w → w + b . (1.6)

La figure1.7illustre l’évolution des deux variables d’états. On voit qu’à chaque potentiel d’ac-tion, la variable w augmente d’une certaine valeur et que ceci ralenti l’évolution du prochain potentiel d’action. Et on voit aussi que la variable w décroît exponentiellement par la suite.

(20)

Figure 1.7 – Potentiel membranaire et variable d’adaptation en fonction du temps pour le modèle AdEx (figure produite par Brette [2009]).

Malgré la simplicité de ce modèle, un problème de taille émerge. En effet, l’ajout de tous ces termes force l’usager à fixer plusieurs nouvelles constantes. C’est une tâche non triviale, puisque les variables sont couplées à travers des équations non linéaires et conséquemment, de petites variations de valeurs ont des effets significatifs sur la dynamique du neurone.

Naud et al. [38] proposent une approche d’ajustement des paramètres du modèle AdEx et partagent une table d’ensemble de valeurs de constante pour obtenir huit types de dynamique distincte retrouvée parmi des neurones réels. La figure1.8illustre ces huit patrons ainsi que les trajectoires des variables d’état V et w dans des diagrammes de phases. La table à la figure1.9

(21)

Figure 1.8 – Huit patrons d’activité de neurone typique qu’il est possible de générer à l’aide du modèle AdEx. Pour chaque patron, les trajectoires des variables d’état V et w sont illustrées dans un diagramme de phase. Tiré de Naud et al. [38].

Figure 1.9 – Tableau des valeurs trouvées numériquement pour les constantes du modèle AdEx afin de modéliser les huit patrons d’activité de neurone (tiré de Naud et al. [38]).

(22)

1.1.5 Modèle empirique

Par une approche empirique, Izhikevich [28] propose un modèle qui permet aussi de simuler huit dynamiques de décharge retrouvées chez des neurones réels basés sur les deux équations différentielles : dV dt = 0.04V 2_{+ 5V + 140 − u + I,} du dt = a(bV − u), (1.7) et la condition : si V ≥ 30 mV, alors    V → c, u → u + d. (1.8)

La figure 1.10montre les valeurs des paramètres a, b, c et d à utiliser pour obtenir un certain patron d’activité de neurone parmi ceux illustrés aux deux rangées du bas.

À cause de la nature empirique du modèle, plusieurs variables biologiques sont absorbées dans quelques valeurs et donc l’impact des différentes constantes est difficile à interpréter biologiquement.

1.1.6 Modèle synaptique

Parmi les modèles présentés, le modèle AdEx est le plus polyvalent. Sa simplicité permet une efficacité numérique importante, tout en étant capable de reproduire des patrons d’activités réalistes. De plus, contrairement au modèle d’Izhikevich, le modèle AdEx conserve sont in-terprétabilité en ayant des variables explicites. Toutefois, tous ces modèles ont été présentés pour simuler l’activité d’un seul neurone. Ce qui soulève ainsi la question : Comment simuler l’activité d’un réseau de neurones ?

Pour ce faire, il faut introduire une nouvelle équation dynamique qui modélisera une synapse, soit l’élément par lequel les neurones communiquent. Pour utiliser le même formalisme de circuit électrique, cela revient à ajouter une nouvelle branche au circuit qui induira un courant synaptique I qui prendra une forme similaire à la branche de fuite, à quelques exceptions près. L’équation 1.9 décrit la forme du courant synaptique à la membrane d’un neurone post-synaptique, sachant qu’un neurone pré-synaptique a atteint un potentiel d’action. Cette forme encourage le potentiel V à tendre vers un potentiel Epre. Ce dernier est supérieur au potentiel

de seuil pour un neurone pré-synaptique excitateur (Eexc > VT) et inférieur au potentiel de

(23)

Figure 1.10 – Illustration du modèle d’Izhikevich. À la ligne du haut, de gauche à droit, on y voit les équations différentielles empiriques décrivant le système, l’évolution des variables d’état en fonction du temps et finalement deux figures d’exploration des paramètres du modèle où chaque point montre les valeurs des constantes à utiliser pour obtenir un certain patron de décharge parmi ceux montrés aux figures des deux lignes du bas. Tiré de Izhikevich [28].

est modulée par une exponentielle décroissante qui dépend d’une constante de temps τE et de

la différence ∆t entre le temps du dernier potentiel d’action du neurone pre-synaptique et un

temps donné. Un délai de transmission tdelai peut être considéré dans le calcul du ∆t pour

ajouter de la richesse au modèle avec une valeur de 10 ± 4ms par exemple selon González-Burgos et al. [15]. Finalement, pour considérer la contribution synaptique de tous les neurones pré-synaptiques, une somme est effectuée sur tout ceci :

Ipost = Σpre− gE· e

−∆tspike

τE _(V_post_{− E}_pre_). (1.9)

1.1.7 Modèle en réseau

Un cerveau peut être représenté comme un réseau où les neurones correspondent aux noeuds et où les connexions synaptiques correspondent aux liens. Il devient alors possible de décrire un connectome par une matrice de connectivité, dite matrice d’adjacence W , de taille N par

(24)

N, où N est le nombre de neurones. Cette matrice est binaire, avec Wi,j = 1s’il existe une

connexion synaptique du neurone j vers le neurone i, autrement, Wi,j = 0. Cette matrice est

dirigée et est donc potentiellement non-symétrique.

Un seul réseau de neurones complet (dit connectome) est connu jusqu’à présent et est celui du C. Elegans, un ver microscopique qui possède 279 neurones connectés1. Son réseau de neurones et la matrice de connectivité correspondante WC.Elegans sont illustrés à la figure1.11.

Figure 1.11 – Représentation du réseau de neurones du C. Elegans. a) Illustration du réseau où les positions relatives entre les noeuds dépendent de leur degré. La couleur de chaque noeud dépend du type de neurone. b) Matrice d’adjacence du réseau.

Il est donc possible de simuler l’activité du cerveau du C. Elegans à l’aide du modèle AdEx et du modèle synaptique. La figure 1.12 présente le graphique de décharge du cerveau, où chaque ligne correspond à l’activité en fonction du temps d’un neurone donné. Les points correspondent aux potentiels d’action détectés. Les valeurs des constantes sont tirées de Naud et al. [38].

(25)

Figure 1.12 – Graphique de décharge d’une simulation du modèle AdEx sur le connectome du C. Elegans. Les points correspondent aux potentiels d’action des neurones à certains temps et l’intensité de la couleur correspond au nombre de potentiels d’action dans l’intervalle temporel.

1.1.8 Résumé

Le tableau 1.1résume les différentes caractéristiques des modèles de simulations.

Modèle Nombre d’équations Réalisme Interprétabilité Patron de décharge

LIF 1 − + −

AdEx 2 + + +

Izhikevich 2 + −− +

Hodgkin-Huxley 4 ++ ++ ++

Table 1.1 – Comparaison qualitative des modèles de neurones.

1.2 Inférence fonctionnelle

Un des objectifs du projet est d’inférer les connexions des neurones à partir de séries tem-porelles d’activité. L’opération qui consiste à passer de séries temtem-porelles à une matrice de connectivité est communément appelée inférence fonctionnelle et plusieurs méthodes et algo-rithmes peuvent être utilisés pour accomplir cette tâche.

Certaines méthodes expliquées dans cette section sont issues de la statistique ou de la théorie de l’information. Ainsi les formalismes qui ont été utilisés pour développer ces stratégies sont plus génériques et s’appliquent à plus que des séries temporelles. Toutefois, pour alléger la lecture et les explications, seul le cas des séries temporelles est abordé.

(26)

1.2.1 Corrélation croisée

Une des méthodes d’inférence les plus naïves est la corrélation croisée. L’hypothèse derrière cette méthode est que deux séries connectées devraient avoir une allure similaire considérant un certain retard. Alors, la méthode consiste à décaler deux séries temporelles avec tous les délais possibles. Puis pour chaque retard, calculer une mesure de distance entre les séries, tel que l’erreur quadratique moyenne. Puis, l’erreur la plus petite obtenue donne une indication de la ressemblance de deux séries dans le meilleur de cas.

Pour accélérer le calcul, au lieu de procéder à une boucle de décalage et un calcul d’erreur standard, une convolution est plutôt employée. Cette opération renvoie naturellement le bon résultat, à quelques facteurs de proportionnalité près. De plus, cette opération retourne une valeur de similitude plutôt que de distance.

Cette stratégie peut s’appliquer pour toutes les paires de séries possibles et génèrent ainsi une matrice de même taille que la matrice d’adjacence. Toutefois, au lieu d’être éparse et binaire, cette matrice est dense et contient des valeurs continues. Plus la valeur de similitude mesurée est grande, plus la connectivité est probable.

Cette méthode est limitée par son hypothèse. En effet, la connectivité de neurones ne signifie pas que leur activité aurait la même forme, car les neurones sont des unités d’intégration non linéaires et leurs dynamiques sont chaotiques et non robustes. Un exemple simple de cette limite est dans la détection de connexion inhibitrice. Dans ce contexte, un neurone inhibiteur limiterait l’activité d’un neurone post-synaptique au lieu de l’encourager et donc leur patron d’activité serait opposé. Finalement, à cause de la commutativité de l’approche, la matrice de similitude est symétrique et donc non-dirigée, contrairement à la matrice de connectivité réelle.

1.2.2 Corrélation de Pearson

La corrélation de Pearson, aussi appelée corrélation bivariée provient des statistiques et cor-respond au ratio entre la covariance de deux variables aléatoires par rapport au produit de leurs variances. L’expression :

ρx,y = cov(x, y)

σxσy

, (1.10)

montre le calcul pour les valeurs de deux séries x et y. Cette valeur, bornée entre -1 et 1, donne une indication de la manière dont les séries varient ensemble. Pour un ratio s’approchant de 1, la covariance est parfaitement positive, soit que lorsque la série j augmente, la série i augmente aussi, alors qu’un ratio de -1 signifie une covariance parfaitement négative. Soit que lorsque la série j augmente, la série i diminue, soit une forte corrélation aussi, mais inhibitrice. Un ratio de 0 signifie qu’il n’y a pas de corrélation notable entre les deux variables.

(27)

Cette méthode, comme pour la corrélation croisée, est limitée par son approche linéaire qui n’est pas adaptée pour observer des variables non linéairement corrélées. De plus, cette ap-proche est par paire, c’est-à-dire que la connectivité est limitée à être inférée en observant seulement deux variables à la fois. Toutefois, à cause de la nature d’intégration des neurones, l’information peut provenir de plusieurs sources à la fois et donc la corrélation entre deux variables peut être modulée ou conditionnée par d’autres variables. Finalement, comme la corrélation croisée, cette méthode produit une matrice symétrique et donc non-dirigée.

1.2.3 Causalité de Granger

Granger [16] propose une méthode appelée Causalité de Granger pour inférer de la causalité à partir de séries temporelles. Cette méthode a initialement été développée pour la prédiction de causalité entre des indices boursiers à partir de leurs séries temporelles de prix et a valu à Clive Granger le Prix de la Banque de Suède en sciences économiques en mémoire d’Alfred Nobel en 2003.

L’hypothèse de cette méthode est différente de celle des méthodes de corrélation. Conceptuel-lement, la méthode prédit une connexion entre deux séries si une des séries aide à prédire le futur de l’autre.

La méthode fonctionne en posant deux séries temporelles x(t) et y(t). L’objectif étant de déterminer si x cause y. Pour ce faire, deux calculs seront faits, chacun avec une hypothèse différente.

Le premier calcul est fait en supposant que x ne cause pas y, soit W = 0. Alors une régression linéaire est faite pour tenter de prédire le futur de y en n’utilisant que les m derniers pas de temps de y comme information, soit :

y(t) = a0+ a1yt−1+ a2yt−2+ ... + amyt−m+ erreurW=0. (1.11)

L’erreur de prédiction minimale erreurW =0 est alors extraite pour les paramètres (a0, ..., am)

optimaux.

Le second calcul est fait en supposant que x cause y, soit W = 1. Alors, similairement, le futur de y tente d’être prédit, mais cette fois en utilisant les m derniers pas de temps de y et de x, comme à l’équation 1.12. Et encore une fois, l’erreur minimale erreurW =1 est notée.

y(t) =a0+ a1yt−1+ a2yt−2+ ... + amyt−m+

b0+ b1xt−1+ b2xt−2+ ... + bmxt−m+ erreurW =1

(28)

Finalement, les deux erreurs sont comparées pour vérifier le respect de la condition 1.13. C’est-à-dire, si l’erreur de prédiction est plus petite lorsque l’historique de x est utilisée, alors l’activité de x affecte y et elles sont donc considérés Granger-causales :

si erreurW =0 erreurW =1, alors W = 1 (1.13)

Bien que la méthode expliquée ci-haut s’intéresse à des paires de séries temporelles, une ap-proche similaire peut être utilisée pour considérer toutes les séries à la fois. Cette apap-proche consiste à faire la régression sur toutes les séries en même temps, puis supprimer l’information de séries itérativement et voir si le fait d’en retirer augmente l’erreur de prédiction.

Cette méthode n’a qu’un paramètre, soit le délai maximal considéré m. À cause de sa nature de prédiction, l’algorithme roule plus lentement que les méthodes de corrélation. De plus, comme la causalité de Granger est basée sur une régression linéaire, la dynamique inférée est limitée à des interactions linéaires et n’est donc pas parfaitement adaptée à la nature de la dynamique neuronale.

1.2.4 Transfert d’entropie

Selon Vicente et al. [49], pour circonvenir à la limite de linéarité des méthodes présentées, le transfert d’entropie peut être utilisé. Cette méthode, comme la causalité de Granger, tient comme hypothèse que la causalité peut être inférée lorsqu’une information contribue à amé-liorer la prédiction des états futurs.

Comme pour la causalité de Granger, la méthode fonctionne en posant deux séries temporelles x(t) et y(t). L’objectif étant de déterminer si x cause y. Encore une fois, deux calculs seront faits, chacun avec une hypothèse différente.

Il faut noter que le transfert d’entropie fonctionne sur des états discrets, par exemple une série temporelle de neurones qui peuvent être actifs (1) ou inactifs (0).

La première hypothèse est que x ne cause pas y, alors le futur de y sera prédit en n’utilisant que son propre historique. Pour ce faire, des distributions de probabilité sont estimées à partir des données disponibles. Le terme :

P (yt= 1|yt−1, yt−2, ..., yt−m) , (1.14)

montre une probabilité d’activation pour une séquence d’état donnée. Par exemple, si la série peut prendre s états et que m pas de temps sont considérés, alors la probabilité d’activation

(29)

doit être calculée pour les S = sm _{séquences d’états possibles.}

La seconde hypothèse est que x cause y, alors les densités de probabilités sont calculées en considérant l’historique des deux séries temporelles comme au terme 1.15. Si n séries sont considérées, alors le nombre de séquences d’états possibles augmente à S = snm_.

P (yt= 1|yt−1, yt−2, ..., yt−m, xt−1, xt−2, ..., xt−m) (1.15)

Une fois ces probabilités estimées, pour chaque hypothèse, les entropies de Shannon [45] HW =0

et HW =1 sont calculées comme à l’équation1.16.

H = −X

S

PSlog PS. (1.16)

Finalement, le respect de la condition :

si HW =0 > HW =1, alors W = 1, (1.17)

est vérifié pour déterminer si un lien causal existe. L’interprétation de la condition est la suivante. La valeur obtenue par l’entropie de Shannon est une indication de l’incertitude d’une probabilité ou encore un indicateur de la quantité d’information manquante pour améliorer la prédiction. Ainsi si l’entropie de prédiction diminue lorsque la causalité est supposée, alors cela veut dire que la série x transfert une quantité d’information à y et doivent donc être causales.

Le transfert d’entropie est donc une méthode très puissante, car elle ne tente pas d’inférer un modèle dynamique qui peut être limité par une linéarité. Similairement à la causalité de Granger, bien que la méthode soit expliquée par paire de séries, l’approche de soustraction de série peut être aussi appliquée pour détecter des causalités conditionnelles à des ordres supérieurs.

Toutefois, un coût computationnel important en découle. En effet, la complexité croit expo-nentiellement avec le délai et avec le nombre de séries considéré. Le nombre d’états aussi a un impact majeur sur la capacité à calculer les probabilités, car ici un exemple binaire est employé, malgré le fait que les séries temporelles de calcium soient continues. Alors plusieurs approximations doivent être faites, telles qu’un seuillage et une déconvolution des séries. Fina-lement, pour estimer fidèlement les densités de probabilités, une grande quantité de données doit être disponible.

(30)

1.2.5 Résumé

Le tableau 1.2 résume les différentes caractéristiques des méthodes d’inférences.

Méthode Hypothèse Par paires Dirigée Linéaire Calcul

Corrélation croisée Ressemblance x x −

Corrélation de Pearson Ressemblance x x −

Causalité de Granger Prédiction x x +

Transfert d’entropie Prédiction x ++

Table 1.2 – Comparaison qualitative des méthodes d’inférences

1.3 Intelligence artificielle

L’intelligence artificielle est de plus en plus utilisée comme méthode d’analyse dans divers domaines de recherche. Il faut toutefois différencier certains termes qui sont généralement uti-lisés de manière interchangeable. La figure1.3illustre la relation entre l’intelligence artificielle, l’apprentissage machine et l’apprentissage profond.

Figure 1.13 – Diagramme illustrant les liens entre l’intelligence artificielle, l’apprentissage machine et l’apprentissage profond.

L’intelligence artificielle est une discipline qui est apparue et qui s’est consolidée à la moitié du 20ème siècle grâce à la venue de jeux de données plus grands et des capacités de stockage et de calcul croissantes. L’idée générale est de programmer des algorithmes en mesure de répliquer le processus de réflexion nécessaire pour résoudre un problème, tel qu’un humain peut le raisonner. Un exemple simple d’intelligence artificielle de bas niveau serait un algorithme de régression linéaire qui cherche à trouver une corrélation entre deux variables en tentant de minimiser une certaine erreur.

1.3.1 Apprentissage machine

L’apprentissage machine est un domaine large. Seules les approches utiles au projet de re-cherche sont décrites dans cette section et certaines généralisations sont faites. Dans le contexte

(31)

du projet, l’apprentissage machine se résume à un ensemble de méthodes permettant de trans-former certaines caractéristiques en d’autres caractéristiques plus utiles pour la classification, la régression ou le partitionnement (Clustering en anglais).

Pour expliquer la motivation de l’apprentissage machine, le traditionnel jeu de données des fleurs d’Iris de Fisher [12] est utilisé. Ce jeu de données a été construit par Edgar Anderson qui a pris des mesures sur 50 fleurs d’Iris pour trois sous-espèces de fleurs totalisant ainsi 150 échantillons. Pour chaque fleur, Anderson a mesuré les longueurs et largeurs des pétales et sépales. Ainsi, chacune des 150 fleurs est représentée par cinq valeurs, dont quatre sont des mesures et une est la classe de l’espèce.

Figure 1.14 – Liens entre les quatre mesures prises sur les 150 fleurs d’Iris. Les couleurs rouge, vert et bleu correspondent respectivement aux trois sous-espèces Setosa, Versicolor et Virgi-nica. Pour alléger la figure, les valeurs numériques des mesures sont omises, car l’important est la visualisation qualitative des distributions des valeurs. Les graphiques sous la diagonale sont les mêmes qu’au-dessus, mais transposés. Les points sont gris pour illustrer le cas où les classes ne sont pas connues.

(32)

La figure 1.14 illustre les liens entre les quatre différentes mesures. En fonction des paires de métriques comparées, des groupes de formes différentes apparaissent. Certains groupes correspondent plus aux classes de sous-espèces que d’autres. Par exemple, au sous-graphique le plus haut de la colonne gauche qui compare la longueur et la largeur des sépales, il est difficile de séparer la sous-espèce verte et bleue efficacement tandis que dans le graphique en bas à droite, la séparation devient plus évidente. Toutefois, dans ces mêmes graphiques en version de ton de gris, où les classes ne sont indiquées, la discrimination est difficile dans les deux cas.

Ainsi la manière dont les métriques sont combinées va affecter la capacité à résoudre un problème, par exemple si l’objectif est de classifier chaque fleur en une des trois sous-espèces. Le cas des Iris de Fisher est simple car il contient un petit nombre de données, une dimensionnalité faible et une séparation linéaire efficace. Toutefois, pour des jeux plus complexes où plus de caractéristiques bruitées sont utilisées, une analyse qualitative ou numérique élémentaire ne sera pas suffisante. C’est cette lacune que l’apprentissage machine vient combler.

Machine à vecteur de support (SVM)

Le SVM (machine à vecteur de support) est une famille de modèle d’apprentissage supervisé utilisé pour la classification et la régression. L’idée générale du modèle est de déterminer le vecteur qui permet de séparer les données de classes avec la plus grande marge possible. Pour des problèmes à plus hautes dimensions, ce vecteur devient plutôt un plan ou un autre séparateur d’espaces.

La figure 1.15 illustre le concept de base du SVM. On y voit, à la sous-figure gauche, des points représentants des échantillons provenant de deux classes fictives : vert et bleu. Ces points sont distribués sur un espace à deux dimensions arbitraires. Aux sous-figures du centre et de droite, une ligne orange est ajoutée et représente un vecteur de séparation optimal, discriminant parfaitement les deux classes. Toutefois le vecteur de la sous-figure centrale semble plus approprié, c’est parce qu’il fait un bon compromis d’espacement avec les échantillons. En d’autres mots, les points sont tous à une distance raisonnable du vecteur et donc les marges sont satisfaisantes. L’algorithme du SVM trouve ce vecteur aux marges optimales.

(33)

Figure 1.15 – Illustration du concept de base d’un modèle SVM. À gauche, un jeu de données à deux classes illustré comme un nuage de points dans un espace à deux dimensions. Au centre, un vecteur de séparation efficace et approprié. À droite, un vecteur de séparation efficace, mais inapproprié.

L’exemple de la figure 1.15 est assez trivial, car les données sont aisément linéairement sé-parables. Le problème devient plus difficile si les données étaient plutôt distribuées comme à la sous-figure gauche de la figure 1.16. Dans ce cas, il est impossible pour un vecteur de séparer les données. Toutefois, en passant d’un système de coordonnée cartésien à système de coordonnées cylindrique, à la sous-figure du centre, un vecteur peut être simplement trouvé. La sous-figure de droite montre ce vecteur lorsque transformé dans le système de coordonnées original. L’algorithme du SVM a la flexibilité de faire un tel changement de coordonnées en utilisant un noyau (kernel) approprié. L’implémention du SVM du module scikit-learn sélec-tionne automatiquement le noyau le plus efficace.

Figure 1.16 – Illustration de l’usage d’un noyau. À gauche, un jeu de données à deux classes non linéairement séparable. Au centre, le jeu de données après un changement de coordonnées et le vecteur séparateur idéal. À droite, le jeu de données dans son espace original avec le vecteur transformé.

L’algorithme du SVM n’est toutefois pas parfaitement autonome. Deux hyperparamètres doivent être sélectionnés. Le premier est le paramètre de régularisation C. Ce paramètre

(34)

af-fecte la tolérance aux erreurs du vecteur. Ce paramètre est important lorsque des données aberrantes existent ou lorsque la nature des données encourage un chevauchement des distri-butions. La sous-figure de gauche de la figure 1.17 montre une telle situation. La figure du centre montre un vecteur trouvé avec une faible valeur de C où des erreurs sont tolérées, tandis que la figure de droite montre une haute valeur de C où le vecteur s’adapte fortement aux données. Il n’existe pas de valeur optimale pour ce paramètre, il s’agit plutôt d’un compromis entre la capacité à généraliser ou à sur-apprendre du modèle.

Figure 1.17 – Illustration de l’impact de l’hyperparamètre C du modèle SVM. À gauche, un jeu de données à deux classes. Au centre, un vecteur avec un faible C. À gauche, un vecteur avec un fort C.

Le second hyperparamètre du SVM est le paramètre d’influence gamma qui contrôle l’influence de la distance des points sur le vecteur trouvé. À la sous-figure de gauche de la figure 1.18, on y voit le jeu de données, au centre on y voit un vecteur avec une forte valeur d’influence, c’est-à-dire que les points proches ont un impact significativement plus important sur la position du vecteur. La figure de droite montre un vecteur trouvé avec un paramètre d’influence bas, c’est-à-dire que tous les points sont utilisés également pour déterminer la position du vecteur. Comme pour le paramètre C, le paramètre gamma n’a pas de valeur optimale et correspond plutôt à un compromis qui dépend du jeu de données et de l’objectif de la classification.

(35)

Figure 1.18 – Illustration de l’impact de l’hyperparamètre gamma du modèle SVM. À gauche, un jeu de donnée à deux classes. Au centre, un vecteur avec un faible gamma. À droite, un vecteur avec un fort gamma.

Le SVM est un des modèles les plus simple et efficace de l’apprentissage machine, mais comme tout modèle, il demeure limité par la collecte des données et les caractéristiques mesurées qui doivent être instructives et doivent permettre la discrimination des classes. Par exemple, si Fisher avait décidé de mesurer la température et la rugosité des fleurs plutôt que leurs tailles, peut-être qu’une classification aurait été impossible.

L’apprentissage automatique est donc limité par le choix des caractéristiques. Pour des pro-blèmes plus complexes, le choix des caractéristiques n’est pas toujours évident, comme par exemple la classification d’images. Pour un SVM, les caractéristiques d’une image sont ses pixels. Utilisons par exemple le populaire jeu de données MNIST. Ce jeu consiste en 70 000 images étiquetées de chiffres manuscrits de 0 à 9. Quelques échantillons sont illustrés à la figure 1.19. L’objectif est de classifier les images par numéro correctement.

Figure 1.19 – Exemples d’échantillons de chiffre manuscrit du jeu de donnée MNIST. Chaque image contient un seul chiffre en tons de gris centré et à une résolution de 28x28 pixels pour un total de 784 pixels. En d’autres mots, chaque image possède 784 caractéristiques. Ces

(36)

caractéristiques sont considérées indépendantes pour une méthode d’apprentissage automa-tique tel que le SVM. La figure 1.20 montre le taux d’erreur et le temps d’entraînement en fonction du nombre d’images utilisées pour entraîner le modèle. Le taux d’erreur est calculé sur 5000 images jamais vues par le modèle lors de l’entraînement.

Figure 1.20 – Taux d’erreur de prédiction et temps d’entraînement d’un SVM en fonction du nombre d’images du jeu de données MNIST utilisé. Le temps mesuré est pour ordinateur Macbook Pro 2014 avec un processeur i7 et 16gb de RAM.

Sans surprise, le taux d’erreur diminue en utilisant plus d’images et le temps d’entraînement augmente. Il est aussi possible de remarquer que le taux d’erreur tend asymptotiquement vers 10%. Soit qu’environ une fois sur dix, le SVM prédit le mauvais chiffre.

Pour diminuer davantage le taux d’erreur, il faudrait plutôt une méthode d’apprentissage automatique qui s’occupe de déterminer par elle-même les caractéristiques pertinentes à partir des données brutes. C’est ce que permet l’apprentissage profond par réseaux de neurones artificiels permet de faire.

1.3.2 Apprentissage profond

L’apprentissage profond (AP) s’inspire du fonctionnement du cerveau en utilisant des réseaux de neurones artificiels entraînés à accomplir des tâches. Pour comprendre la stratégie et la méthode de l’AP, utilisons tout d’abord le jeu d’Iris de Fisher avec, comme objectif, de prédire l’espèce (la classe) d’une fleur à partir de ses mesures (les caractéristiques).

(37)

Ainsi, un échantillon donné serait représenté en entrée (input) par un vecteur de quatre ca-ractéristiques, par exemple [12.0 , 3.4 , 15.7 , 8.0]. L’objectif (target) serait représenté par un vecteur d’appartenance à une des trois classes, par exemple [0 , 0 , 1] pour un échantillon ap-partenant à la troisième espèce. La stratégie consiste donc à trouver la séquence d’opérations optimale qui transformera le vecteur d’entrée en un vecteur de sortie (output) qui se rapproche le plus possible du vecteur target, par exemple [0.1 , 0.1 , 0.8]. La sortie représentera donc un vecteur de probabilités d’appartenance aux classes.

Figure 1.21 – Illustration du concept de réseau de neurones artificiels. La majorité des liens sont omis pour alléger la figure.

La figure1.21illustre une architecture de réseau simple. On y voit le vecteur d’entrée à gauche et le vecteur target à droite. Entre ces vecteurs, se trouvent des couches de neurones artificiels. Un neurone est illustré comme un cercle. Le fonctionnement d’un neurone est simple : tout comme un neurone biologique, il intègre l’information en entrée pour sortir un signal de sortie. Dans le cas de l’AP, un neurone accomplit une somme pondérée de ses entrées puis applique une fonction d’activation non-linéaire f sur le résultat. Par exemple la sortie du neurone rouge serait donnée par :

y = f (12.0w1+ 3.4w2+ 15.7w3+ 8.0w4+ b) . (1.18)

Où w sont les poids et b est un biais qui n’est pas illustré à la figure, mais est présent. La première couche de neurone donnera donc un nouveau vecteur composé de 6 éléments. Ce vecteur sera traité de la même manière par la seconde couche qui donnera en sortie un vecteur de taille 4. Puis la sortie de cette dernière sera traitée par la troisième couche donnant un vecteur de taille 3. Le résultat de la dernière couche correspond au vecteur de sortie. L’objectif est donc de trouver les poids w et les biais b optimaux qui minimisent l’erreur sur l’ensemble du jeu de données.

Il est important que la fonction d’activation f soit non-linéaire. Autrement, les trois couches pourraient être réduites à une seule couche linéaire. Auquel cas, un simple algorithme d’opti-misation pourrait résoudre le système d’équations linéaires et trouver les paramètres idéaux.

(38)

Toutefois, l’AP est surtout utilisé pour résoudre des problèmes très non-linéaires à dimension-nalité élevée.

En effet, la raison même d’utiliser un réseau de neurones artificiels est d’émuler la puissance de représentation et de calcul du cerveau. Et la puissance du neurone, tel qu’expliqué aux sections précédentes, est sa non-linéarité. Parmi une multitude de telle fonction d’activation, la plus populaire est la ReLU (Rectified Linear Unit).

La fonction ReLU est illustrée à la figure 1.22et s’inspire de l’activation d’un neurone réel. La fréquence de décharge de ce dernier croit avec la valeur du courant d’entrée, lorsque celle-ci dépasse un certain seuil, tel que modélisé aux sections précédentes par les modèles de décharges. Pareillement, la fonction ReLU rend la sortie proportionnelle à l’entrée lorsque l’entrée dépasse un certain seuil (typiquement égale à 0).

Figure 1.22 – Illustration de l’activation d’un neurone réel qui est l’inspiration de l’activation d’un neurone artificiel à l’aide de la fonction ReLU.

L’ajout de non-linéarité empêche toutefois de déterminer les paramètres idéaux par résolution de système d’équation. Plutôt, un algorithme de descente de gradient stochastique (SGD) est typiquement utilisé. Celui-ci fonctionne en présentant de manière itérative des données au réseau de neurones. Initialement les poids et les biais ont des valeurs aléatoires.

Puis, pour chaque exemple, le vecteur de sortie est comparé au vecteur target à l’aide d’une fonction de coût (Loss). Dans un contexte de classification unique, la fonction utilisée est la perte d’entropie croisée. Avec comme objectif de minimiser la perte, le gradient de la perte est propagé à travers le réseau de neurones en suivant les règles de l’algorithme de backpropaga-tion. Concrètement, cela revient à déterminer la contribution à l’erreur de chaque paramètre et par le fait même de combien chaque paramètre devrait être ajusté pour corriger la prédic-tion. Conceptuellement, cela revient à trouver un minimum local dans l’espace des valeurs de paramètre. Comme montré par Lu et al. [36], un réseau composé d’au moins deux couches non-linéaires a le potentiel théorique d’approximer n’importe fonction non-linéaire.

Une expérience d’apprentissage profond suit généralement les mêmes étapes. La première étape est la plus critique et consiste à créer, traiter et préparer le jeu de données. Ensuite, un

(39)

mo-dèle doit être conçu, c’est-à-dire choisir les composantes du réseau de neurones et déterminer l’architecture. Par la suite, l’entraînement est effectué selon une stratégie d’entraînement spé-cifique. Finalement, la performance du modèle est testée sur un jeu de données précédemment jamais utilisé par le modèle. À travers toutes ces étapes, plusieurs paramètres doivent être choisis et fixés. Certains comparent l’apprentissage profond à de l’alchimie, où le scientifique développe une forme d’intuition sur le choix de l’architecture et des valeurs des paramètres. Et bien qu’il y ait de forts avancements dans le développement théorique de stratégies d’AP, le processus demeure itératif, empirique et agile.

Jusqu’ici, l’avantage de l’AP peut sembler flou, toutefois des architectures et stratégies d’ap-prentissage plus raffinées existent et sont expliquées aux sections des méthodes lorsque néces-saire. Parmi celles-ci comptent les réseaux de neurones à convolution (RNN) et les réseaux de neurones récurrents (RNN).

Les prochains chapitres utilisent tous deux l’intelligence artificielle. Le premier pour prédire des paramètres optimaux de modèles de neurosciences computationnelles et le second pour concevoir de nouvelles méthodes d’inférence fonctionnelle. Les concepts essentiels ont donc été ainsi couverts dans ce chapitre de théorie.

(40)

Chapitre 2

Simulations

L’objectif global du projet présenté dans ce mémoire est de comparer des méthodes d’inférence fonctionnelle bien établies à de nouvelles méthodes issues de l’intelligence artificielle pour la prédiction de la connectivité d’un réseau de neurones réels. Pour comparer la performance des multiples modèles, la connectivité réelle doit être connue. Cette dernière n’est toutefois pas disponible dans le cas du poisson-zèbre. Pour contrer ceci, des simulations réalistes d’activité de neurones doivent être générées à partir de connectivités connues et ces simulations doivent être les plus similaires aux données réelles que possible. Ce chapitre traite donc du premier objectif du projet, soit de concevoir une nouvelle approche d’apprentissage profond permettant de prédire les paramètres de simulation pour générer les séries temporelles les plus réalistes.

2.1 Jeu de données

À l’aide d’un microscope à deux photons, les cerveaux translucides de neuf poissons-zèbres sont filmés. Ces derniers proviennent de la lignée génétiquement modifiée Tg(elavl3 :H2B-GCaMP6s) qui fait la promotion d’expression de la protéine fluorescente GCaMP6s [6], sen-sibles aux variations de concentration de calcium dans le noyau des neurones. Ainsi, lorsque des potentiels d’action surviennent, le noyau des neurones s’illumine.

Pour chaque poisson, le cerveau est imagé par le laboratoire du professeur Paul De Koninck en 8 plans espacés de 10 ± 3 microns à une résolution spatiale de [1024 x 512] pixels et à fréquence d’acquisition de 3.86Hz. Le premier plan imagé de chaque cerveau doit toujours être omis, car l’élément piézo-électrique du microscope, qui permet de scanner le cerveau en 3D, y provoque des artefacts d’imagerie. Ainsi, avec 9 cerveaux imagés en 7 plans, un total de 63 vidéos d’activité sont obtenus.

Durant les 140 secondes d’acquisition de ces vidéos, les poissons sont stimulés visuellement à l’aide d’un écran LCD selon un paradigme Dark-Flash [24], pour lequel l’écran est allumé puis éteint à chaque 20 secondes.

(41)

Figure 2.1 – Image d’un plan de cerveau de poisson-zèbre à la section supérieure de l’image et la segmentation obtenue par le module CaImAn à la partie inférieure.

Pour chaque vidéo, le module CaImAn en langage Python est utilisé pour segmenter chaque neurone et en extraire ensemble de séries temporelles. Ce module, entre autres, corrige le mou-vement, applique l’algorithme Constraint-Non-Negative-Matrix-Factorization (CNMF) pour segmenter les neurones et utilise des modèles d’apprentissage profond préentraînés pour ré-duire le bruit, déconvoluer la fluorescence et éliminer des faux positifs.

La figure 2.1 illustre la fluorescence d’un plan de cerveau de poisson-zèbre ainsi que sa seg-mentation. En effet, on y voit, à la partie supérieure de l’image, des neurones. L’intensité lumineuse de ceux-ci dépend de leur activité au moment où le plan fut capturé. À la section inférieure de l’image, on y voit plutôt la segmentation obtenue par le module CaImAn. Les séries temporelles de quelques plans sont illustrées à la figure 2.2. Chaque sous-figure correspond à l’activité d’un plan où chaque ligne correspond à l’activité d’un neurone en fonction du temps. L’intensité de la couleur rouge correspond à l’intensité de la fluorescence du neurone.

On y remarque que le nombre de neurones change d’un plan à l’autre et que leur activité varie. Des vagues d’activation émergent à toutes les 20 secondes, soit lorsque la stimulation visuelle change. Ces variations permettent de détecter différentes communautés de neurones et de les regrouper, comme c’est le cas à la figure2.1à l’aide de l’algorithme de partitionnement k-means [32].

Un des objectifs du projet est de générer des simulations réalistes, à partir de matrice de connectivité connue, pour comparer efficacement les méthodes d’inférence au prochain cha-pitre. Toutefois, les modèles de neurones permettant de simuler des cerveaux possèdent plu-sieurs paramètres qui doivent être ajustés et une analyse qualitative ne suffit pas. Dans ce chapitre, une approche d’apprentissage profond basée sur une analyse par métriques d’activité globale est présentée.

(42)

Figure 2.2 – Séries temporelles de quatre plans de poisson-zèbre extraites par le module CaImAn, normalisées puis groupées par leur ressemblance à l’aide de l’algorithme k-means. Plus un neurone est actif, plus la couleur de sa trace tend vers un rouge lumineux.

2.2 Méthode

Pour déterminer si des séries temporelles simulées sont similaires à des séries temporelles réelles, une analyse qualitative ne suffit pas. Plutôt, des métriques quantitatives d’activité globale doivent être utilisées.

Ce faisant, l’approche consistera à mesurer des métriques sur des séries temporelles réelles et sur des séries simulées à partir de paramètres aléatoires puis utiliser des algorithmes d’intelli-gence artificielle pour prédire les paramètres de simulations optimaux.

Le schéma de la figure2.3explique l’approche en plus grands détails. Le cadre vert correspond au début de l’approche. À partir de séries temporelles réelles, extraites de vidéos de microscopie qui auront été segmentées, des matrices de connectivité sont inférées. Ces matrices sont utilisées conjointement avec des paramètres de simulation aléatoires pour générer des centaines de séries temporelles simulées. Une analyse permet de collecter des métriques pour chaque simulation. Ensuite, un modèle d’apprentissage est entraîné à prédire les paramètres qui ont été utilisés pour obtenir les valeurs de métriques correspondantes. Une fois entraîné, le modèle prédit les paramètres de simulations optimaux à partir de métriques calculées sur les séries réelles. Les étapes du schéma placées dans des boites grises sont expliquées davantage aux sous-sections suivantes.

(43)

Figure 2.3 – Schéma résumant la méthode utilisée pour prédire les paramètres de simulations optimaux

2.2.1 Inférence

Comme point de départ, des matrices de connectivité sont inférées à partir des séries tempo-relles réelles par une méthode bien établie, soit le transfert d’entropie (TE). Ainsi, 63 matrices de connectivité sont obtenues, une pour chaque vidéo. Ces matrices ne sont toutefois pas bi-naires, car le TE retourne plutôt des matrices denses pour lesquelles l’élément Wi,j correspond

essentiellement à la quantité d’information transférée d’un neurone j vers un neurone i. Un seuil doit donc être appliqué à la matrice pour la rendre binaire. L’approche du centile est utilisée. Par exemple, avec un centile de 99, seulement les 1% des connexions possibles les plus élevées sont conservées. La valeur de centile optimale est un des paramètres que la méthode d’apprentissage devra prédire.

2.2.2 Analyse par métriques

La table2.1résume les métriques de séries temporelles utilisées. On y retrouve des métriques globales de synchronisation, de chaos, de mémoire et de complexité.

La métrique Complexité Oméga mesure la synchronisation de séries temporelles en estimant le nombre de dimensions nécessaires pour décrire efficacement la trajectoire d’un jeu de séries temporelles. Une manière intuitive de comprendre son fonctionnement est d’imaginer qu’un ensemble de séries temporelles correspond à un système de N dimensions, où N est le nombre de neurones. Le jeu de données est donc représenté par un point se déplaçant dans ce système de coordonnées à chaque pas de temps, avec la valeur pour chaque axe représentant l’activité