• Aucun résultat trouvé

L’un des probl`emes les plus difficiles du spike-sorting est la d´etermination du nombre de neurones (c’est-`a-dire, ici, du nombre de nuages) pr´esents dans les donn´ees. Toutes les m´ethodes de clustering expos´ees ci-dessus n´ecessitent une d´etermination a priori de ce nombre par l’exp´erimentateur, `a l’exception du superparamagnetic clustering, dont on a vu cependant la faiblesse `a cet ´egard. Les r´eseaux de neurones artificiels exigent mˆeme la construction d’un ensemble d’apprentissage de PAs enti`erement lab´elis´es. L’exp´erience de l’exp´erimentateur peut ˆetre un bon guide dans l’estimation du nombre de neurones. Cependant, il est plus prudent et plus satisfaisant de fonder quantitativement un tel choix.

Dans le cadre des mod`eles de m´elange ´evoqu´es, on proc`ede g´en´eralement `a un ajus- tement (fit ), par maximum de vraisemblance, des param`etres des mod`eles de m´elange

de diff´erentes dimensions, c’est-`a-dire comprenant diff´erents nombres de neurones (cet ajustement est le plus souvent r´ealis´e avec l’algorithme EM, voir section 3.3.4). On compare ensuite ces diff´erents mod`eles ajust´es. Les crit`eres de comparaison utilis´es sont g´en´eralement la vraisemblance du mod`ele ajust´e, p´enalis´ee pour sa dimension. On choisit alors le mod`ele optimal pour le crit`ere retenu. Deux crit`eres de comparaison de mod`eles sont couramment utilis´es : le Akaike Information Criterion (AIC) (Akaike, 1973) et le Bayesian Information Criterion (BIC)(Schwarz, 1978). Dans ce qui suit, MK

(K = K1, . . . , Kr) d´esigne un mod`ele de m´elange avec K composantes (i.e neurones) et

ˆ

θK les param`etres du maximum de vraisemblance de ce mod`ele, ajust´e sur les donn´ees

z.

Le crit`ere AIC

L’enjeu est de s´electionner le meilleur mod`ele approximant la vraie loi des donn´ees P0(z). Cette loi ne peut ´evidemment pas ˆetre d´etermin´ee ; il s’agit donc de choisir, parmi

les diff´erentes lois P (z | MK, ˆθK) = PMK(z), celle qui minimise une certaine mesure de

dissimilarit´e entre elle et P0, `a savoir la divergence de Kullback-Leibler :

KL(P0, PMK) = Z P0(z) ln( P0(z) PMK(z) )dz (3.31)

Dans cette approche, aucun des mod`eles compar´es ne contient P0 et le but est de

d´eterminer le mod`ele le plus proche de P0 au sens de la divergence de Kullback-Leibler.

Comme l’on d´esire s´electionner un mod`ele qui ait une bonne capacit´e pr´edictive, on choisit comme crit`ere de s´election la minimisation de la valeur moyenne de la quantit´e 3.31 pour des r´eplications ind´ependantes de ˜z (´emises selon la loi P0), c’est-`a-dire la

minimisation de son esp´erance par rapport `a la vraie loi P0 :

EP0[KL(P0, PMK)]

On peut r´e´ecrire la divergence de Kullback-Leibler 3.31 comme la diff´erence de deux termes, le premier ne d´ependant pas du mod`ele MK :

KL(P0, PMK) = Z P0(z) ln(P0(z))dz− Z P0(z) ln(PMK(z))dz = constante− Z P0(z) ln(PMK(z))dz

Le crit`ere `a minimiser se r´e´ecrit alors :

EP0[KL(P0, PMK)] = constante − EP0

Z

P0(z) ln(PMK(z))dz



(3.32) Akaike (1973) a montr´e que la quantit´e suivante ´etait un estimateur asymptotique- ment non biais´e du deuxi`eme terme du membre de droite, EP0− R P0(z) ln(PMK(z))dz :

AIC(MK) = − ln



P (z | MK, ˆθK)



+ ν(MK) (3.33)

Il s’agit donc de la log-vraisemblance du mod`ele MK ajust´e aux donn´ees z selon

le maximum de vraisemblance, p´enalis´ee par la dimension ν(MK) de ce mod`ele, c’est-

`

a-dire le nombre de ses param`etres libres. Le crit`ere utilis´e en pratique est souvent le double de 3.33.

Ainsi, la minimisation de ce crit`ere permet de d´eterminer le mod`ele MK0 qui mini-

mise, en moyenne, parmi tous les mod`eles en comp´etition {MK}, un estimateur de la

divergence de Kullback-Leibler du mod`ele `a la vraie loi.

Le crit`ere BIC

Ce crit`ere s’inscrit dans un contexte bay´esien : les mod`eles MK et ses param`etres θK

sont vus comme des variables al´eatoires et poss`edent une distribution a priori. On note P (MK) la distribution a priori de MK. Pour un mod`ele MK donn´e, la distribution a

priori de ses param`etres θK est not´ee P (θK | MK). Le crit`ere BIC cherche `a s´electionner

le mod`ele MK qui maximise la probabilit´e a posteriori P (MK | z) :

MKBIC = argmaxMKiP (MKi | z) (3.34)

BIC cherche donc `a s´electionner le mod`ele le plus vraisemblable au vu des donn´ees z. La formule de Bayes s’´ecrit :

P (MK | z) =

P (z | MK)P (MK)

P (z) (3.35)

On suppose, dans ce qui suit, que la loi a priori des mod`eles MKest non informative :

P (MK1) = P (MK2) = . . . = P (MKr) (3.36)

Dans cette hypoth`ese, aucun mod`ele n’est privil´egi´e et, d’apr`es 3.34 et 3.35, la recherche du meilleur mod`ele ne n´ecessite que le calcul de P (z | MK). Sous l’hypoth`ese

o`u n est suffisamment grand (i.e en r´egime normal pour les distributions a posteriori ). Un d´eveloppement limit´e du logarithme de cette distribution montre que (Lebarbier et Mary-Huard, 2004) : ln (P (z | MK)) ≈ ln  P (z | MK, ˆθK)  − ν(MK) 2 ln(n) (3.37)

o`u n est la taille de l’´echantillon de donn´ees z et ν(MK) la dimension du mod`ele MK.

Rappelons que le premier terme du membre de droite dans 3.37 est la log-vraisemblance du mod`ele MK ajust´e aux donn´ees z selon le maximum de vraisemblance. D’apr`es 3.35

et 3.36, maximiser la probabilit´e a posteriori P (MK | z) selon MK revient `a maximiser

3.37.

Le crit`ere BIC est ´egal `a l’approximation de −2 ln (P (z | MK)) et doit, de ce fait

ˆetre minimis´e (Schwarz, 1978) : BIC(MK) = −2 ln



P (z | MK, ˆθK)



+ ν(MK) ln(n) (3.38)

Ce crit`ere est ´etroitement li´e au facteur de Bayes, ´egalement utilis´e pour la com- paraison de mod`eles. Le facteur de Bayes B12 de deux mod`eles MK1 et MK2 est d´efini

par : B12= P (z | MK1) P (z | MK2) = P (MK1 | z) · P (MK2) P (MK2 | z) · P (MK1) = P (MK1 | z) P (MK2 | z) (3.39)

La troisi`eme ´egalit´e est valable sous l’hypoth`ese, faites ci-dessus, de probabilit´es a priori non informatives pour les mod`eles (aucun mod`ele privil´egi´e au d´epart). Lorsque B12 est sup´erieur (resp. inf´erieur) `a 1, ou son logarithme sup´erieur (resp. inf´erieur) `a 0,

le mod`ele MK1 (resp. MK2) est favoris´e. Lorsque n → ∞, on a (Kass et Raftery, 1995) :

−2 ln(B12) − (BIC(MK1) − BIC(MK2))

−2 ln(B12)

→ 0

Ainsi (BIC(MK1) − BIC(MK2)) peut ˆetre vu comme une approximation du loga-

rithme du facteur de Bayes, −2 ln(B12), des deux mod`eles.

Conclusion

Qualitativement, ces crit`eres s´electionnent les mod`eles qui r´ealisent les meilleurs compromis entre qualit´e de l’ajustement, assur´ee par le terme de vraisemblance, et parcimonie, assur´ee par ν(MK). Il est ´evident que plus la dimension ν du mod`ele est

grande (i.e plus le nombre de neurones du mod`ele est important), meilleur est son ajustement aux donn´ees z et plus grande est sa log-vraisemblance. Par cons´equent, une s´election fond´ee uniquement sur la qualit´e de l’ajustement privil´egie toujours le mod`ele de plus grande dimension, au risque que celui-ci soit surajust´e aux donn´ees particuli`eres z, c’est-`a-dire au bruit de ces donn´ees. Un tel mod`ele surajust´e a une tr`es mauvaise capacit´e pr´edictive et son ajustement `a d’autres donn´ees ˜z ´emises selon la mˆeme loi P0 sera mauvais. Il est donc intuitif de vouloir p´enaliser la qualit´e de l’ajustement

d’un mod`ele (la vraisemblance ou son logarithme) par sa dimension. Si l’accroissement de la vraisemblance apport´ee par le mod`ele MK+1 par rapport `a MK, i.e le gain en

ajustement aux donn´ees, n’est pas suffisant au regard du nombre suppl´ementaire de param`etres utilis´es, le mod`ele MK+1 est rejet´e au profit de MK.

Le terme de p´enalit´e n’est pas le mˆeme pour les deux crit`eres pr´esent´es. La p´enalisa- tion du BIC est en g´en´eral plus lourde que celle du AIC (ν(MK) ln(n) > 2ν(MK) pour

n ≥ 8). BIC a donc tendance `a privil´egier des mod`eles de plus petite dimension, plus parcimonieux, que AIC. En r`egle g´en´erale, le choix du crit`ere `a utiliser est d´elicat. Les r´esultats sur donn´ees simul´ees montrent que leurs performances pratiques sont fonction des donn´ees, en particulier de la complexit´e du vrai mod`ele (qui fait partie de la liste des mod`eles compar´es dans le cas de simulations) et des mod`eles candidats, ainsi que de la taille de l’´echantillon (Lebarbier et Mary-Huard, 2004). On peut retenir grossi`erement que le AIC est meilleur pour la s´election de mod`eles pr´edictifs, c’est-`a-dire dont l’ajus- tement reste bon pour d’autres ´echantillons ˜z ´emis selon la mˆeme loi que l’´echantillon z utilis´e pour ajuster les mod`eles. Le BIC est meilleur pour la s´election de mod`eles explicatifs, en particulier pour la s´election du vrai mod`ele de g´en´eration de z dans le cas de simulations.

Dans la pratique du spike-sorting, ces crit`eres n’apportent pas toujours de r´eponse d´efinitive satisfaisante, dans la mesure o`u la r´egion de leur minimum est souvent plate et couvre plusieurs nombres de neurones, souvent tr`es surestim´es d’ailleurs. Dans ce cas, c’est `a l’exp´erimentateur que revient le choix final du nombre de neurones.

3.6

Classification des PAs d’enregistrements ult´e-