• Aucun résultat trouvé

3.2.1

Repr´esentation initiale des PAs

La forme de chaque PA d´etect´e, not´ee xj, est d´ecrite par son ´echantillonnage nu-

m´erique, c’est-`a-dire par un vecteur de dimension d : xj = (xj1, ..., xjd). Compte tenu des fr´equences d’´echantillonnage g´en´eralement adopt´ees (typiquement 15 kHz) et de la fenˆetre de temps n´ecessaire pour d´ecrire enti`erement un PA (typiquement 4 ms), la dimension d de l’espace de d´epart est de l’ordre de 60. Lorsqu’un PA est d´ecrit par sa forme sur quatre sites d’enregistrement (dans le cas des t´etrodes), cette dimension est de l’ordre de 240 (mise bout `a bout des quatre vecteurs). Les donn´ees initiales soumises au spike-sorting sont donc constitu´ees d’un ensemble de n vecteurs {xj} (j = 1, . . . , n) de dimension d repr´esentant les n PAs d´etect´es. De plus, afin de minimiser la variabilit´e des formes de PAs, la position du maximum de tous ces vecteurs, c’est-`a-dire des pics des PAs, est la mˆeme.

Si l’on fait l’hypoth`ese qu’un neurone donn´e ´emet un PA de forme fixe `a laquelle s’ajoute un bruit ind´ependant, les PAs de ce neurone forment, dans cet espace de grande dimension, un nuage de points (en Anglais : cluster ). Les PAs d’un autre neurone formeront id´ealement un autre nuage de points et l’objectif du spike-sorting est d’isoler ces diff´erents nuages (clustering) et de d´eterminer `a quel nuage (i.e neurone) appartient chaque point (i.e PA). N´eanmoins, la grande dimension de l’espace de d´epart rend cette ´etape de clustering tr`es coˆuteuse, voire inextricable. Il est possible d’ˆetre beaucoup plus ´econome dans la repr´esentation des PAs et de r´eduire celle-ci `a quelques param`etres discriminants.

La premi`ere ´etape du spike-sorting consiste donc `a trouver un espace de repr´esen- tation des PAs de dimension r´eduite m < d avant d’effectuer le clustering proprement dit (Fig. 3.1). Cette r´eduction de dimensionalit´e doit ˆetre accompagn´ee d’une perte mi- nimale d’information par rapport `a la description compl`ete de d´epart. Le probl`eme est donc de trouver - d’extraire - un petit nombre de caract´eristiques des formes de PAs qui soient les plus discriminantes possibles. Il s’agit de d´eterminer la repr´esentation mini- male qui conserve le mieux la s´eparation des PAs. Pour ce faire, diverses m´ethodes ont ´et´e propos´ees dont voici les plus r´epandues. Les m´ethodes d´ecrites dans cette section sont autant de mani`eres de r´ealiser cette ´etape d’extraction des caract´eristiques ; elles constituent en ce sens diff´erentes alternatives possibles pour r´ealiser la transformation d’un PA xj = (xj

1, ..., x j

d) en un vecteur zj = (z j

1, ..., zjm), m < d. Ces notations seront

utilis´ees dans toute la suite : xj et d pour l’espace de d´epart, zj et m pour l’espace r´eduit des caract´eristiques.

3.2.2

Choix a priori des param`etres caract´eristiques des PAs

La m´ethode la plus simple est de ne d´ecrire chaque PA que par un petit nombre de grandeurs cruciales qui le caract´erisent, telles que son amplitude au pic, son amplitude pic `a pic ou sa largeur `a mi-hauteur (Schmidt, 1984b). Pour les enregistrements avec t´etrodes, et plus g´en´eralement pour les enregistrements avec ´electrodes multisites, on

peut par exemple ne conserver que les amplitudes au pic des PAs sur quatre sites pour les d´ecrire. Des param`etres temporels tels que le temps entre le pic et le minimum du PA, ou le temps entre le pic et le prochain z´ero, sont ´egalement souvent tr`es pertinents pour caract´eriser la forme d’un PA. On r´eduit ainsi la repr´esentation des PAs `a quelques param`etres choisis a priori (m = 2, 3 ou 4 typiquement). Si ces param`etres sont effecti- vement discriminants, les PAs forment, dans cet espace de petite dimension, des nuages de points qu’un algorithme de clustering permet d’isoler.

3.2.3

S´election des points d’´echantillonnage pertinents : Re-

duced Feature Set (RFS)

On peut aussi faire le choix de repr´esenter un PA par un sous-ensemble de m points d’´echantillonnage, choisis parmi les d points de la description initiale. Dans cette ap- proche, il s’agit de s´electionner les m points d’´echantillonnage (appel´es Reduced Feature Set, ou RFS, dans la litt´erature) les plus discriminants dans la forme des PAs enre- gistr´es. Cette s´election se fait `a l’aide d’un ensemble S pr´ed´efini de PAs pris dans l’enregistrement. Le point d’´echantillonnage le plus discriminant est ´evidemment celui dont la variance est maximale sur S. Dinning et Sanderson (1983), Salganicoff et al. (1988) ont d´ecrit des algorithmes pour s´electionner des points d’´echantillonnage sup- pl´ementaires. Les proc´ed´es de s´election d´ecrits par ces auteurs favorisent naturellement les points d’´echantillonnage ayant une grande variance sur S ; ils favorisent ´egalement une r´epartition uniforme de ces points sur les r´egions de grande variance. Tout nou- veau PA de l’enregistrement est ensuite d´ecrit par ce seul sous-ensemble de m points d’´echantillonnage s´electionn´es.

Dans le cas d’enregistrements obtenus avec des t´etrodes, la s´election du point d’´echan- tillonnage de plus grande variance sur chaque site fournit tout naturellement les quatre points les plus discriminants de la forme des PAs enregistr´es sur ces quatres sites.

3.2.4

Analyse en composante principale (PCA)

L’une des m´ethodes les plus r´epandues dans la r´eduction de la dimensionalit´e est sans aucun doute l’analyse en composantes principales (Principal Component Analysis, ou PCA)(Glaser and Marks, 1968 ; Eggermont, 1983). Il s’agit d’une transformation lin´eaire des PAs xj = (xj

1, ..., x j

d) dans l’espace de d´epart en vecteurs zj = (z j

1, ..., zjm)

dans un espace de dimension m < d. L’id´ee g´en´erale de cette approche est de trouver les m directions orthogonales de l’espace de d´epart, selon lesquelles les variances d’un ensemble S pr´ed´efini de n PAs pris dans l’enregistrement sont les plus grandes. Ces directions, appel´ees directions - ou composantes - principales, sont de ce fait les plus discriminantes pour l’ensemble S. Tous les PAs enregistr´es sont ensuite syst´ematique- ment projet´es sur ces m directions principales.

Les m composantes principales orthogonales sont celles qui minimisent le carr´e de l’erreur moyenne de la repr´esentation des PAs de l’ensemble S. Soit xj = (xj

1, ..., x j d)

l’un des PAs de cet ensemble. Sans perte de g´en´eralit´e, on peut repr´esenter xj comme

xj =

d

X

i=1

zijui (3.1)

Il s’agit ici d’une simple rotation du syst`eme de coordonn´ees par rapport `a la re- pr´esentation initiale du vecteur xj. Les coordonn´ees zji du vecteur xj dans ce nouveau syst`eme de coordonn´ees sont donn´ees par :

zij = uTi xj (3.2)

L’objectif est de ne conserver qu’un sous-ensemble m < d des vecteurs de base ui, de fa¸con `a repr´esenter chaque vecteur xj par m coordonn´ees z

j

i uniquement. Les

coefficients restants sont remplac´es par des coefficients constants bi identiques pour

tous les vecteurs, de sorte que chaque vecteur xj est approxim´e par une expression de

la forme : e xj = m X i=1 zjiui+ d X i=m+1 biui (3.3)

Il s’agit bien ici d’une r´eduction de dimensionalit´e puisque le vecteur xj, qui conte-

nait d degr´es de libert´e, est d´esormais approxim´e par un vecteur ayant m < d degr´es de libert´e. Comment d´eterminer la base de vecteurs orthonorm´es ui? De fa¸con naturelle,

on choisit la base qui fournit la meilleure approximation, en moyenne, des n vecteurs {xj} de notre ensemble S de PAs. L’erreur introduite par la r´eduction de dimensionalit´e

pour un vecteur xj de cet ensemble S s’´ecrit :

xj− exj = d

X

i=m+1

(zij− bi)ui (3.4)

On d´efinit la meilleure approximation des n vecteurs de l’ensemble S comme ´etant celle qui minimise la somme des carr´es des erreurs sur cet ensemble. On minimise donc la quantit´e Em suivante : Em = 1 2 n X j=1 kxj − exjk2 = 1 2 n X j=1 d X i=m+1 (zji − bi)2 (3.5)

En annulant la d´eriv´ee de Em par rapport `a bi, on obtient :

bi = 1 n n X kj=1 zij = uTi x (3.6)

o`u x est le vecteur moyen de S :

x = 1 n n X j=1 xj (3.7)

Em= 1 2 d X i=m+1 n X j=1 uTi xj − x2 = 1 2 d X i=m+1 uTi Σui (3.8)

o`u Σ est la matrice de covariance de l’ensemble S de vecteurs {xj}, donn´es par :

Σ =X

j

xj− x

xj − xT

(3.9)

Un recours aux multiplicateurs de Lagrange, que je ne d´etaille pas, permet de mi- nimiser Em par rapport `a la base orthonorm´ee {ui} (Bishop, 1995). Ce minimum est

atteint lorsque les vecteurs de base ui satisfont :

Σui = λiui (3.10)

Le minimum de Em est donc atteint avec les vecteurs propres de la matrice de

covariance des vecteurs de l’ensemble S . Cette matrice ´etant r´eelle et sym´etrique, ses vecteurs propres peuvent ˆetres choisis orthonorm´es. En rempla¸cant 3.10 dans 3.8, et en utilisant l’orthogonalit´e des vecteurs ui on obtient la valeur de Em au minimum :

Em = 1 2 d X i=m+1 λi (3.11)

Ainsi, l’erreur Em est minimis´ee si l’on choisit les d − m plus petites valeurs propres

(et les vecteurs propres correspondants) de la matrice de covariance des vecteurs de l’ensemble S, comme celles `a ne pas consid´erer dans la repr´esentation des vecteurs de S. Autrement dit, on minimise l’erreur Em en repr´esentant les vecteurs xj de S par

leur projection sur les m vecteurs propres orthonorm´es de leur matrice de covariance qui ont les plus grandes valeurs propres. Ces valeurs propres sont ´egales aux variances respectives des vecteurs xj selon ces directions. La PCA choisit donc de repr´esenter

les vecteurs xj de S selon les directions orthogonales de plus grande variance pour cet

ensemble : les directions principales.

En pratique, l’algorithme d’une PCA commence par calculer le vecteur moyen x des vecteurs xj de S, desquels il est ensuite soustrait. L’algorithme calcule alors la matrice

de covariance de ces vecteurs, ainsi que leurs vecteurs propres et leurs valeurs propres. Les vecteurs propres correspondant aux m plus grandes valeurs propres sont conserv´ees et les vecteurs xj de S y sont projet´es pour obtenir les vecteurs zj = (zj

1, ..., zmj ) dans

l’espace `a m dimensions. En r`egle g´en´erale, 3 ou 4 composantes principales sont suffi- santes pour rendre compte de plus de 90% de la variance de S. Une fois ces directions principales d´etermin´ees sur l’ensemble S, tout nouveau PA x propos´e y est ensuite syst´ematiquement projet´e.

3.2.5

Transform´ee en ondelettes

R´ecemment, plusieurs m´ethodes fond´ees sur la transform´ee en ondelettes des PAs ont ´et´e propos´ees (Letelier et Weber, 2000 ; Hulata et al., 2002 ; Quian Quiroga et al.,

2004). Le principe de ces m´ethodes est de d´ecomposer chaque PA en une somme finie d’ “ondelettes” et de ne garder qu’un sous-ensemble d’entre elles. Dans cette analyse, un PA est repr´esent´e par le vecteur dont les composantes sont les m coefficients des ondelettes de la d´ecomposition qui sont conserv´es. Cette section d´ecrit le principe g´en´eral de cette analyse. L’objectif n’est pas ici d’exposer tous les d´eveloppements math´ematiques de la th´eorie. Il s’agit plutˆot de comprendre en quoi la transform´ee en ondelettes des PAs peut ˆetre utile `a leur classification.

Transform´ee en ondelettes continue

Une ondelette est une fonction ψ(t), int´egrable et suffisamment oscillante pour ˆetre d’int´egrale nulle. L’analyse continue par ondelettes lui associe une famille de copies d’elle-mˆeme, translat´ees et dilat´ees :

ψa,b(t) = 1 √ aψ( t − b a ) (3.12)

Les param`etres a et b sont dits param`etres d’´echelle et de translation respectivement. La transform´ee en ondelettes continue d’une fonction de carr´e int´egrable f ∈ L2 est d´efinie par :

Wψf (a, b) =

Z +∞

−∞

ψ∗a,b(t)f (t)dt (3.13)

La transform´ee inverse repr´esente le signal f comme une superposition d’ondelettes translat´ees et dilat´ees :

f (t) = 1 Cψ Z +∞ a=0 Z +∞ b=−∞ Wψf (a, b)ψa,b(t) dadb a2 (3.14)

o`u Cψ ne d´epend que de l’ondelette ψ(t) et est donn´e par Cψ =

R+∞ 0 | ˆψ(ω)| ω dω, avec ˆ ψ(ω) =R+∞

−∞ ψ(t) exp(−iωt)dω la transform´ee de Fourier de ψ.

Transform´ee en ondelettes discr`ete

Tr`es souvent, c’est la transform´ee en ondelettes discr`ete du signal qui est utilis´ee. Les param`etres a et b prennent les valeurs discr`etes aj = 2−jet bj,k = 2−jk (j, k ∈ Z).

La famille d’ondelettes s’´ecrit alors : ψj,k(t) =

1 2j/2ψ(2

j

t − k) (3.15)

Cette famille forme une base orthonorm´ee de L2. La transform´ee en ondelettes dis-

cr`ete repr´esente la fonction f (un PA dans le cadre qui nous occupe) comme une com- binaison lin´eaire des fonctions ψj,k :

f (t) =X

j,k

o`u les coefficients cj,k sont donn´es, comme en 3.13, par :

cj,k =

Z +∞

−∞

ψj,k∗ (t)f (t)dt (3.17)

Les coefficients d’ondelettes cj,k fournissent donc une repr´esentation alternative de

la fonction f , sans perte d’information.

L’analyse en ondelettes fournit plusieurs choix possibles pour l’ondelette ψ (dite mother wavelength en Anglais), moyennant certaines contraintes math´ematiques (conti- nuit´e, support compact, moyenne nulle). C’est d’ailleurs l’enjeu de la transform´ee en ondelettes que de choisir une ondelette adapt´ee `a f pour qu’un minimum de coeffi- cients cj,k soient non nuls. Le signal f repr´esent´e par une seule variable ind´ependante,

le temps, est donc maintenant d´ecrit par une fonction de deux variables ind´ependantes, j et k. L’index j change le comportement de ψj,k dans l’espace des fr´equences, tandis

que k translate l’ondelette le long de l’axe des temps. S´election des coefficients cj,k

Une fois obtenue la d´ecomposition en ondelettes d’un ensemble S de PAs, un sous- ensemble de m coefficients cj,k est s´electionn´e. Ces coefficients caract´erisent les formes

des PAs `a diff´erentes ´echelles de fr´equences et `a diff´erents temps. Il s’agit de ne garder, pour repr´esenter un PA, que les quelques coefficients qui s´eparent le mieux les diff´e- rentes classes de PAs. De ce point de vue, les coefficients les plus discriminants doivent avoir une distribution multimodale sur l’ensemble S de PAs (plusieurs classes de PAs). La s´election des coefficients dont la distribution d´evie le plus d’une distribution nor- male (comme il est possible d’en juger par un test de Kolmogorov-Smirnov) s’av`ere particuli`erement pertinente (Quian Quiroga et al., 2004).

Fond´ees sur les principes d’analyse ci-dessus, les m´ethodes propos´ees dans le cadre du spike-sorting diff`erent selon le type de d´ecomposition en ondelettes effectu´ee (transfor- m´ee en ondelettes simple, Letelier et Weber, 2000 ; transform´ee en paquets d’ondelettes, Hulata et al., 2002), et selon le mode de s´election des coefficients pour la repr´esentation finale d’un PA (Quian Quiroga et al., 2004 ; Hulata et al., 2002). La tr`es grande capacit´e de cette m´ethode `a s´eparer les classes de PAs a ´et´e d´emontr´e par Quian Quiroga et al. (2004). Ces auteurs montrent que la s´eparation de trois classes de PAs de formes tr`es proches (en particulier de mˆeme amplitude) r´ealis´ees par les trois meilleurs coefficients d’ondelettes de leur s´election s´epare beaucoup mieux ces trois classes que ne le font les trois premi`eres composantes principales.