• Aucun résultat trouvé

4.2 Le spike-sorting

4.2.1 Traitement des donn´ ees brutes avant le spike-sorting

D´etection

On commence par d´etecter un premier ensemble de grands ´ev´enements : les maxima locaux dont les valeurs d´epassent un certain seuil fix´e a priori et ´egal `a 5 fois la d´evia- tion standard (standard deviation, SD) de toute la trace de ce site. Ces ´ev´enements sont moyenn´es et normalis´es (amplitude au pic ´egale `a 1), de fa¸con `a obtenir un prototype d’´ev´enement (template) avec lequel la trace de chaque site est filtr´ee (convolution de la trace avec l’´ev´enement prototypique). Les ´ev´enements sont alors d´etect´es sur la trace filtr´ee de chaque site : ce sont les maxima locaux dont les valeurs d´epassent un certain seuil, d´efini comme multiple de la SD de la trace filtr´ee. Le seuil utilis´e d´epend des don- n´ees, notamment du rapport signal sur bruit. Il est ajust´e en fonction de la qualit´e de la d´etection qu’il permet d’obtenir. En g´en´eral, il est compris entre 3 et 5. La longueur de l’´ev´enement prototypique utilis´e pour filtrer les traces est ´egalement un param`etre d’ajustement pour la qualit´e de la d´etection. Le plus souvent cette longueur est de 60 points d’´echantillonnage, soit 4 ms. Enfin, pour ´eviter de d´etecter un mˆeme ´ev´enement sur deux sites diff´erents, on impose une distance minimale de 5 points d’´echantillonnage (1/3 ms) entre deux ´ev´enements. Lorsque deux ´ev´enements sont d´etect´es dans cet inter- valle de temps sur deux sites diff´erents, seul le temps de celui de plus grande amplitude est conserv´e.

1

http ://scilabsoft.inria.fr 2

site 4

site 3

site 2

site 1

Figure 4.2: Exemple de donn´ees brutes enregistr´ees sur les 4 premiers sites de l’´electrode multisite (dur´ee totale: 5 secondes). Les donn´ees brutes extracellulaires sont un m´elange d’activit´es neuronales individuelles. Barre d’´echelle horizontale: 500 ms. Barres d’´echelles verticales: 0.25 mV .

Repr´esentation des ´ev´enements

Pour chaque ´ev´enement d´etect´e, on s´electionne un segment de donn´ees autour du maximum d’amplitude sur le site o`u il a ´et´e d´etect´e. Ce segment est choisi de fa¸con `a ce que son d´ebut et son terme soient `a 0. En g´en´eral, 45 `a 75 points d’´echantillonnage suffisent (soit 3 `a 5 ms pour une fr´equence d’´echantillonnage de 15000 Hz). La position du pic d’amplitude dans ce vecteur est fix´ee et demeure la mˆeme pour tous les ´ev´ene- ments. Le segment de donn´ees d´ebutant au mˆeme instant, et d’une dur´ee identique, est s´electionn´e sur chacun des trois autres sites consid´er´es. L’´ev´enement est alors repr´esent´e par un vecteur de dimension d constitu´e de la concat´enation de ces quatre segments : pour des segments de 45 points d’´echantillonnage, d vaut donc 180 (Fig. 4.3).

Reduction de la dimensionalit´e des ´ev´enements

Afin de r´eduire les temps de calcul qui seront effectu´es ult´erieurement pour la clas- sification des ´ev´enements, il est n´ecessaire de r´eduire la dimension de leur espace de repr´esentation (chapitre 3, section 3.2). On a utilis´e l’analyse en composante principale (voir section 3.2.4), ainsi que la s´election des composantes du vecteur de repr´esentation dont la variance est la plus grande sur l’ensemble des ´ev´enements d´etect´es (voir section 3.2.3). Dans le cas de la PCA, 3 `a 9 directions principales suffisaient `a rendre compte de plus de 90% de la variance des ´ev´enements. C’est le deuxi`eme type de r´eduction de la di- mensionalit´e, plus imm´ediat et ´egalement performant, qui a ´et´e le plus souvent employ´e. Les 3 composantes de plus grandes variances sur le vecteur d’´echantillonnage de chaque site sont s´electionn´ees (Fig. 4.3) (rappelons qu’un tel vecteur poss`ede 45 `a 75 compo- santes, voir le paragraphe pr´ec´edent). Les ´ev´enements sont donc finalement repr´esent´es par des vecteurs de dimension 12 : on parle d’ “´ev´enements r´eduits”. Lorsque le spike- sorting est effectu´e avec l’algorithme Monte Carlo par Chaˆınes de Markov (MCMC) (section 4.2.3), les ´ev´enements sont repr´esent´es par l’amplitude au pic sur chaque site d’enregistrement, soit par un vecteur de dimension 4.

Matrice de covariance du bruit et blanchiment

La matrice de covariance du bruit est calcul´ee `a partir d’un ensemble d’´ev´enements dits “de bruits” (typiquement 1000), pris entre deux ´ev´enements d´etect´es. Ces ´ev´ene- ments de bruit sont de mˆeme longueur que les ´ev´enements r´eels initiaux d´ecrits ci-dessus (et correspondant `a des PAs). Leur dimension est r´eduite de la mˆeme mani`ere que l’on a r´eduit les ´ev´enements r´eels : on ne garde que les composantes de ces vecteurs de bruit qui ont ´et´e conserv´ees sur les vecteurs des ´ev´enements r´eels. La matrice de covariance Γ calcul´ee sur ces ´ev´enements de bruit est ensuite utilis´ee pour “blanchir” les ´ev´enements r´eels (Pouzat et al., 2002).

Ce blanchiment est une transformation lin´eaire des ´ev´enements. La matrice trian- gulaire sup´erieure T de cette transformation est obtenue `a partir de Γ par une d´ecom- position de Cholesky :

Γ−1 = TtT

o`u l’exposant t d´esigne la transposition. La matrice T est donc appliqu´ee `a tous les ´ev´enements d´etect´es. Apr`es cette transformation, si le bruit est bien d´ecrit par sa

Individual events Mean event SD

S4

S3

S1

S2

Figure 4.3: D´etection des potentiels d’action (´ev´enements). Haut : les ´ev´enements d´etect´es sur les 4 premiers sites de l’´electrode sont superpos´es. Chaque ´ev´enement est constitu´e par la mise bout `a bout des formes qu’il prend sur les 4 sites (S1 `a S4, d´elimit´es par les 4 lignes verticales vertes). Milieu: ´ev´enement moyen. Bas: d´eviation standard. Il y a 45 points d’´echantillonnage par site, soit 180 au total. On r´eduit la dimensionalit´e de cette repr´esentation en ne conservant que 3 points par site, `a savoir ceux dont la d´eviation standard est la plus grande. Sont marqu´es d’une fl`eche les 3 points retenus sur le site 1. Ces mˆemes points sont ´egalement retenus sur les 3 autres sites dans la repr´esentation finale d’un ´ev´enement, qui est d`es lors de dimension 12. On peut ´egalement se contenter d’un seul point par site, le second des trois ci-dessus (repr´esentation de dimension 4). Les index des points retenus constituent le syst`eme de coordonn´ees de l’espace r´eduit de repr´esentation.

Indice 9 −20 0 10 20 30 −40 −20 0 10 −30 −20 −10 0 −20 0 10 20 30 Indice 11 Indice 10 −10 0 10 20 30 40 −30 −20 −10 0 −40 −20 0 10 −10 0 10 20 30 40 Indice 12

Figure 4.4: Graphiques de Wilson. Les ´ev´enements d´etect´es (Fig. 4.3) sont visualis´es dans l’espace r´eduit de repr´esentation (dimension 12 ou 4), par paires de coordonn´ees (l’index de la coor- donn´ee est pr´ecis´e sur la diagonale). On choisit de repr´esenter les paires des 4 coordonn´ees les plus discriminantes.

matrice de covariance (i.e ses propri´et´es statistiques de second ordre), les variances des ´ev´enements dues au bruit sont ind´ependantes et identiques selon toutes les direc- tions. La matrice de covariance du bruit est ´egale `a l’identit´e et celui-ci est qualifi´e de “blanc”. Cette transformation lin´eaire des ´ev´enements permet de simplifier les calculs et de r´eduire la complexit´e de nos algorithmes de classification : dans le cas du mod`ele de m´elange (chapitre 3, section 3.3.4), la matrice de covariance Σkde la densit´e k du

m´elange devient l’identit´e ; dans le cas de notre algorithme MCMC, c’est tout notre mod`ele de g´en´eration de donn´ees qui se trouve simplifi´e.

Les ´ev´enements r´eduits et blanchis sont visualis´es dans leur espace de repr´esentation, `

a l’aide d’un ensemble de graphiques `a 2 dimensions que l’on d´enomme “graphiques de Wilson” dans ce travail (Fig. 4.4). Cette repr´esentation fait apparaˆıtre les nuages d’´ev´enements, plus ou moins s´epar´es.

4.2.2

Le mod`ele de m´elange gaussien multivari´e et l’algorithme