D´ etermination du nombre de neurones - Une approche Monte Carlo par Chaînes de Markov pour la

L’un des problèmes les plus difficiles du spike-sorting est la détermination du nombre de neurones (c’est-à-dire, ici, du nombre de nuages) présents dans les données. Toutes les méthodes de clustering exposées ci-dessus nécessitent une détermination a priori de ce nombre par l’expérimentateur, à l’exception du superparamagnetic clustering, dont on a vu cependant la faiblesse à cet égard. Les réseaux de neurones artificiels exigent même la construction d’un ensemble d’apprentissage de PAs entièrement labélisés. L’expérience de l’expérimentateur peut être un bon guide dans l’estimation du nombre de neurones. Cependant, il est plus prudent et plus satisfaisant de fonder quantitativement un tel choix.

Dans le cadre des modèles de mélange évoqués, on procède généralement à un ajustement (fit ), par maximum de vraisemblance, des paramètres des modèles de mélange

de différentes dimensions, c’est-à-dire comprenant différents nombres de neurones (cet ajustement est le plus souvent réalisé avec l’algorithme EM, voir section 3.3.4). On compare ensuite ces différents modèles ajustés. Les critères de comparaison utilisés sont généralement la vraisemblance du modèle ajusté, pénalisée pour sa dimension. On choisit alors le modèle optimal pour le critère retenu. Deux critères de comparaison de modèles sont couramment utilisés : le Akaike Information Criterion (AIC) (Akaike, 1973) et le Bayesian Information Criterion (BIC)(Schwarz, 1978). Dans ce qui suit, MK

(K = K1, . . . , Kr) désigne un modèle de mélange avec K composantes (i.e neurones) et

θK les paramètres du maximum de vraisemblance de ce modèle, ajusté sur les données

Le crit`ere AIC

L’enjeu est de sélectionner le meilleur modèle approximant la vraie loi des données P0(z). Cette loi ne peut évidemment pas être déterminée ; il s’agit donc de choisir, parmi

les diff´erentes lois P (z | MK, ˆθK) = PMK(z), celle qui minimise une certaine mesure de

dissimilarit´e entre elle et P0, `a savoir la divergence de Kullback-Leibler :

KL(P0, PMK) = Z P0(z) ln( P0(z) PMK(z) )dz (3.31)

Dans cette approche, aucun des mod`eles compar´es ne contient P0 et le but est de

d´eterminer le mod`ele le plus proche de P0 au sens de la divergence de Kullback-Leibler.

Comme l’on désire sélectionner un modèle qui ait une bonne capacité prédictive, on choisit comme critère de sélection la minimisation de la valeur moyenne de la quantité 3.31 pour des réplications indépendantes de ˜z (émises selon la loi P0), c’est-à-dire la

minimisation de son esp´erance par rapport `a la vraie loi P0 :

EP0[KL(P0, PMK)]

On peut réécrire la divergence de Kullback-Leibler 3.31 comme la différence de deux termes, le premier ne dépendant pas du modèle MK :

KL(P0, PMK) = Z P0(z) ln(P0(z))dz− Z P0(z) ln(PMK(z))dz = constante− Z P0(z) ln(PMK(z))dz

Le critère à minimiser se réécrit alors :

EP0[KL(P0, PMK)] = constante − EP0

P0(z) ln(PMK(z))dz

(3.32) Akaike (1973) a montré que la quantité suivante était un estimateur asymptotique- ment non biaisé du deuxième terme du membre de droite, EP0− R P0(z) ln(PMK(z))dz :

AIC(MK) = − ln

P (z | MK, ˆθK)

+ ν(MK) (3.33)

Il s’agit donc de la log-vraisemblance du modèle MK ajusté aux données z selon

le maximum de vraisemblance, pénalisée par la dimension ν(MK) de ce modèle, c’est-

a-dire le nombre de ses paramètres libres. Le critère utilisé en pratique est souvent le double de 3.33.

Ainsi, la minimisation de ce critère permet de déterminer le modèle MK0 qui mini-

mise, en moyenne, parmi tous les mod`eles en comp´etition {MK}, un estimateur de la

divergence de Kullback-Leibler du mod`ele `a la vraie loi.

Le crit`ere BIC

Ce critère s’inscrit dans un contexte bayésien : les modèles MK et ses paramètres θK

sont vus comme des variables aléatoires et possèdent une distribution a priori. On note P (MK) la distribution a priori de MK. Pour un modèle MK donné, la distribution a

priori de ses paramètres θK est notée P (θK | MK). Le critère BIC cherche à sélectionner

le mod`ele MK qui maximise la probabilit´e a posteriori P (MK | z) :

MKBIC = argmaxM_KiP (MKi | z) (3.34)

BIC cherche donc à sélectionner le modèle le plus vraisemblable au vu des données z. La formule de Bayes s’écrit :

P (MK | z) =

P (z | MK)P (MK)

P (z) (3.35)

On suppose, dans ce qui suit, que la loi a priori des mod`eles MKest non informative :

P (MK1) = P (MK2) = . . . = P (MKr) (3.36)

Dans cette hypothèse, aucun modèle n’est privilégié et, d’après 3.34 et 3.35, la recherche du meilleur modèle ne nécessite que le calcul de P (z | MK). Sous l’hypothèse

où n est suffisamment grand (i.e en régime normal pour les distributions a posteriori ). Un développement limité du logarithme de cette distribution montre que (Lebarbier et Mary-Huard, 2004) : ln (P (z | MK)) ≈ ln P (z | MK, ˆθK) − ν(MK) 2 ln(n) (3.37)

où n est la taille de l’échantillon de données z et ν(MK) la dimension du modèle MK.

Rappelons que le premier terme du membre de droite dans 3.37 est la log-vraisemblance du modèle MK ajusté aux données z selon le maximum de vraisemblance. D’après 3.35

et 3.36, maximiser la probabilit´e a posteriori P (MK | z) selon MK revient `a maximiser

3.37.

Le critère BIC est égal à l’approximation de −2 ln (P (z | MK)) et doit, de ce fait

ˆetre minimis´e (Schwarz, 1978) : BIC(MK) = −2 ln

P (z | MK, ˆθK)

+ ν(MK) ln(n) (3.38)

Ce critère est étroitement lié au facteur de Bayes, également utilisé pour la comparaison de modèles. Le facteur de Bayes B12 de deux modèles MK1 et MK2 est défini

La troisième égalité est valable sous l’hypothèse, faites ci-dessus, de probabilités a priori non informatives pour les modèles (aucun modèle privilégié au départ). Lorsque B12 est supérieur (resp. inférieur) à 1, ou son logarithme supérieur (resp. inférieur) à 0,

le mod`ele MK1 (resp. MK2) est favoris´e. Lorsque n → ∞, on a (Kass et Raftery, 1995) :

−2 ln(B12) − (BIC(MK1) − BIC(MK2))

−2 ln(B12)

→ 0

Ainsi (BIC(MK1) − BIC(MK2)) peut ˆetre vu comme une approximation du loga-

rithme du facteur de Bayes, −2 ln(B12), des deux mod`eles.

Conclusion

Qualitativement, ces critères sélectionnent les modèles qui réalisent les meilleurs compromis entre qualité de l’ajustement, assurée par le terme de vraisemblance, et parcimonie, assurée par ν(MK). Il est évident que plus la dimension ν du modèle est

grande (i.e plus le nombre de neurones du modèle est important), meilleur est son ajustement aux données z et plus grande est sa log-vraisemblance. Par conséquent, une sélection fondée uniquement sur la qualité de l’ajustement privilégie toujours le modèle de plus grande dimension, au risque que celui-ci soit surajusté aux données particulières z, c’est-à-dire au bruit de ces données. Un tel modèle surajusté a une très mauvaise capacité prédictive et son ajustement à d’autres données ˜z émises selon la même loi P0 sera mauvais. Il est donc intuitif de vouloir pénaliser la qualité de l’ajustement

d’un modèle (la vraisemblance ou son logarithme) par sa dimension. Si l’accroissement de la vraisemblance apportée par le modèle MK+1 par rapport à MK, i.e le gain en

ajustement aux données, n’est pas suffisant au regard du nombre supplémentaire de paramètres utilisés, le modèle MK+1 est rejeté au profit de MK.

Le terme de pénalité n’est pas le même pour les deux critères présentés. La pénalisa- tion du BIC est en général plus lourde que celle du AIC (ν(MK) ln(n) > 2ν(MK) pour

n ≥ 8). BIC a donc tendance à privilégier des modèles de plus petite dimension, plus parcimonieux, que AIC. En règle générale, le choix du critère à utiliser est délicat. Les résultats sur données simulées montrent que leurs performances pratiques sont fonction des données, en particulier de la complexité du vrai modèle (qui fait partie de la liste des modèles comparés dans le cas de simulations) et des modèles candidats, ainsi que de la taille de l’échantillon (Lebarbier et Mary-Huard, 2004). On peut retenir grossièrement que le AIC est meilleur pour la sélection de modèles prédictifs, c’est-à-dire dont l’ajustement reste bon pour d’autres échantillons ˜z émis selon la même loi que l’échantillon z utilisé pour ajuster les modèles. Le BIC est meilleur pour la sélection de modèles explicatifs, en particulier pour la sélection du vrai modèle de génération de z dans le cas de simulations.

Dans la pratique du spike-sorting, ces critères n’apportent pas toujours de réponse définitive satisfaisante, dans la mesure où la région de leur minimum est souvent plate et couvre plusieurs nombres de neurones, souvent très surestimés d’ailleurs. Dans ce cas, c’est à l’expérimentateur que revient le choix final du nombre de neurones.

3.6 Classification des PAs d’enregistrements ult´e-

Dans le document Une approche Monte Carlo par Chaînes de Markov pour la classification des potentiels d'action. <br />Application à l'étude des corrélations d'activité des cellules de Purkinje. (Page 58-62)