• Aucun résultat trouvé

5.1 Caractériser une activité cérébrale

5.1.1 Prétraitements

5.1.1.1 Spécificités fréquentielles des tâches

Afin de concentrer l’analyse sur les fréquences d’intérêt, on a souvent recours à une transformation temps-fréquence dans le but de réduire les bruits extérieurs. De cette transformation T résultent les signaux filtrés spécifiques à des bandes de fréquences plus ou moins étroites

˜

x(t, f ) = T {x(t)} . (II.2)

Les systèmes d’acquisition fonctionnent généralement à des fréquences d’échantillonnage entre 100 et 1 KHz. Or les fréquences intéressantes (notamment pour l’imagerie motrice) de l’EEG se situent entre 5 et 35 Hz. On élimine donc la plupart du temps les composantes du signal en-dehors de cette bande (on veut notamment enlever les signaux dus aux alimentations électriques – 50 Hz en France). On peut pour ce faire utiliser des bancs de filtres à réponse impulsionnelle finie ou infinie1 hfj(t)

j∈[1 .. Nf] (Nf est le nombre de

bandes de fréquence considéré), auquel cas on a

∀i ∈ [1 .. Ns] ∀j ∈ [1 .. Nf] x˜i(t, fj) = hfj∗ xi (t), (II.3) où Ns est le nombre de capteurs. La conception du filtre hfj(t) devra alors prendre en compte les contraintes liées à l’application visée (Oppenheim et Schafer, 1989).

D’autres transformées temps-fréquence ont également été considérées pour nettoyer les signaux, parmi les multiples approches testées, les plus couramment employées ac-tuellement restent la transformée de Fourier à court terme et la transformée en onde-lettes (Mallat, 1999). Ces transformées peuvent s’écrire sous la forme d’un produit scalaire avec un ensemble de fonctions que l’on appelle atomes (vérifiant un ensemble de propriétés comme décrit dans Mallat (1999))

∀i ∈ [1 .. Ns] x˜i(t, f ) = hxi, ϕt,fi = Z

−∞

xi(u)ϕt,f(u − t)?du, (II.4)

et qui sont constitués d’un ensemble de fenêtres réelles et symétriques à support fini g(t) = g(−t) modulées à une fréquence spécifique dans le cas des atomes de fourier

ϕt,f(τ ) = e2iπf τg(τ − t), (II.5)

ou bien d’une dilatation/translation d’une fonction mère ψ ∈ L2(R) dans le cas des onde-lettes :

ϕt,s(τ ) =1 sψ(

τ − t

s ). (II.6)

5.1.1.2 Spécificités spatiales des tâches

Alors que l’on mesure le plus souvent un ensemble de signaux caractérisant l’activité cérébrale globale du cerveau, on sait que les tâches demandées au sujet peuvent être

Notons que l’utilisation d’un filtre à réponse impulsionnelle infinie nécessite moins de coefficients (donc moins

1

de retard) mais risque de modifier la phase du signal, rendant celle-ci impossible à utiliser par la suite. Il est cependant possible de limiter l’effet de la modification en phase en utilisant un filtre à phase minimale.

discriminées en utilisant seulement l’activité de quelques zones cérébrales. Or en raison de la conduction du volume, les mesures acquises sont un mélange de des activités des sources cérébrales. Afin de passer d’une activité global et générale du cerveau à une activité locale et spécifique aux tâches « cible », on utilise des méthodes multivariées de filtrage spatial.

5.1.1.2.1 Sélection de capteurs

Le moyen le plus simple d’effectuer un filtrage spatial est de sélectionner les élec-trodes. On estime savoir a priori l’emplacement des électrodes qui permettront le mieux d’observer une modification de l’activité cérébrale concomitante à la tâche, on observe donc uniquement celle-ci. Cette méthode a l’avantage de la simplicité, néanmoins, elle né-cessite la connaissance d’un expert capable de sélectionner quelques électrodes d’intérêt. Cette approche est assez risquée en raison de la variabilité des réponses cérébrales entre individus. En effet, il se peut qu’une électrode intéressante pour un individu ne le soit plus pour un autre. Enfin, cette méthode ne tient absolument pas compte du bruit au niveau des capteurs (on fait l’hypothèse qu’il est homogène sur l’ensemble des capteurs), et ne tient pas compte du fait qu’il vaut quelquefois mieux regarder une activité cérébrale à partir d’un capteur plus éloigné si les signaux qu’il capte son moins bruités que ceux acquis à l’aide d’un capteur « proche » mais qui serait très bruité. La méthode de sélec-tion d’une électrode a cependant été améliorée pour réaliser une sélecsélec-tion automatique des électrodes. Elle a ainsi été appliquée avec succès dans le cas du P300 (Rakotomamonjy et Guigue, 2008), ou encore dans le cas de l’utilisation des rythmes sensorimoteurs (Lal et al., 2004).

5.1.1.2.2 Laplacien

De manière plus générale, un filtrage spatial linéaire des signaux consiste à chercher un ensemble de L combinaisons linéaires des signaux qui permettent d’obtenir des taux de classification plus importants que dans le cas où on utilise directement les signaux provenant des capteurs. En raison de la linéarité de cette transformation, on peut l’écrire sous la forme

s(t) = WTx(t), (II.7)

où x(t) ∈ RNs, s(t) ∈ RL et W ∈ RNs×L. Il existe plusieurs méthodes pour trouver W . L’utilisation d’un filtre laplacien approché (l’approximation de la dérivée seconde consiste à enlever la moyenne des électrodes voisines) a par exemple permis une augmentation des performances dans le cas de l’imagerie motrice (McFarland et al., 1997). Une telle méthode est à la frontière entre le prétraitement (nettoyer les données) et le filtrage spatial (extraire les activités spécifiques aux tâches mentales « cibles »).

5.1.1.2.3 « Common Spatial Patterns »

Dans le cas où l’on dispose d’un jeu de données d’entraînement pour lequel les tâches théoriques réalisées par le sujet sont connues, on peut se tourner vers les méthodes d’apprentissage supervisées des filtres spatiaux. La plus utilisée dans le contexte des ICM est l’algorithme du CSP (« Common Spatial Pattern ») (Müller-Gerking et al., 1999 et Blankertz et al., 2008). L’idée de cet algorithme est d’exploiter de la meilleure manière possible les différences spatiales des activations liées à deux tâches distinctes (e.g. imagi-nation de la main droite et imagiimagi-nation de la main gauche). Notons alors Ω l’ensemble des essais qui sont réalisés lors d’une expérience ICM. Ω, de cardinal |Ω|, est composé d’un ensemble de tâches de la classe Ω+ de cardinal |Ω+| et d’un ensemble de tâches Ω de cardinal |Ω|, tels que |Ω+| + |Ω| = |Ω|. Pour chaque réalisation d’une tâche ω ∈ Ω (de

durée Lω), on définit la matrice de covariance estimée Cω ∈ RNs×Ns des signaux acquis pendant la réalisation de la tâche comme

Cω = 1 Lw

X

t∈ω

x(t)x(t)T. (II.8)

On peut alors définir la matrice de covariance relative à chacune des tâches comme

C+= 1 |Ω+| X ω∈Ω+ Cω, C= 1 |Ω| X ω∈Ω Cω. (II.9)

L’algorithme CSP cherche alors à diagonaliser conjointement C+ et C, i.e. à trouver W ∈ RNs×Ns ainsi que Λ+, Λ ∈ RNs×Ns diagonales telles que



WTC+W = Λ+

WTCW = Λ

, (II.10)

en contraignant de plus W (par normalisation) tel que Λ++ Λ = I. Mathématiquement, la condition II.10 consiste en une décomposition propre généralisée, i.e. visant à trouver les vecteurs w tels que

C+w = λCw. (II.11)

Remarque 1 (Diagonalisation simultanée de deux matrices). Comme C et C+sont des combinaisons linéaires de matrices de covariance, elles sont donc symétriques. Par conséquent, elles sont diagonalisables dans la même base W si et seulement si C et C+ commutent (voir le théorème 4.17 dans Schott (2005)).

L’équation II.10 est satisfaite pour W = [w1.. wNs], matrice des vecteurs w solutions deII.11. De plus, les éléments diagonaux de Λ+et Λsont respectivement λi,+= wTiC+wi

et λi,− = wTi Cwi. Notons alors la correspondance λ = λi,+i,−. Afin de comprendre l’effet de cet algorithme, il faut interpréter les valeurs λi,+ (respectivement λi,−) comme la variance du capteur virtuel créé par projection si(t) = wTixi(t) lorsque le sujet réalise une tâche de la classe Ω+ (respectivement Ω). Ainsi, lorsque λi,+ est proche de un, la variance du capteur virtuel associé est importante dans la condition positive et faible dans la condition négative. Enfin, il faut remarquer que la condition précédente fournit une base commune adaptée aux deux classes puisqu’elle permet une décorrélation des signaux. Le CSP peut aussi être vu en tant que modèle génératif. En effet, si l’on considère le modèle de mélange

x = As, s ∼ N (0, C+,−), (II.12)

où s suit une loi normale multivariée de moyenne nulle et de matrice de variance-covariance respectivement C+ et C. On a alors un modèle de sources non-stationnaires, et comme montré dansPham et Cardoso (2001), la diagonalisation simultanée de C+ et C fournit l’estimateur au sens du maximum de vraisemblance de W = (A−1)T. Nous reviendrons sur ce point dans la suite de cette thèse dans le cadre de l’extension du CSP au cas de paradigmes multi-classes (chapitre III). Le lecteur pourra constater que la formulation du CSP donnée ici est différente de la formulation originelle de Müller-Gerking et al. (1999). La vision initiale visait à interpréter le CSP du point de vue de la discrimination. L’algorithme consistait alors à former la matrice d’activités discriminatives Sd = C+− C

et la matrice d’activités communes Sc = C++C. L’idée était alors de tenter de maximiser la variance discriminante wTSdw tout en minimisant la variance commune wTScw. Cette

max

w∈RNs

wTSdw

wTScw. (II.13)

L’optimisation de ce critère mène alors à nouveau à une décomposition en valeurs propres généralisée. Et on montre (Blankertz et al., 2008) que ces trois formulations sont équiva-lentes. Cet algorithme fournit un ensemble de Nsvecteurs classés par ordre d’importance. On garde généralement L = 6 ou L = 8 d’entre eux par paires (premier et dernier vecteurs, deuxième et pénultième. . . ). Plusieurs extensions du CSP ont été développées depuis son introduction (Blankertz et al., 2008), afin notamment de prendre en compte les paradigmes à plus de deux classes, nous y reviendrons dans le chapitre III.

Afin d’illustrer l’effet du CSP, nous avons réalisé une simulation à partir de deux distri-butions normales de dimension deux et de matrices de covariance différentes. Les signaux originaux ainsi que les signaux après application de l’algorithme CSP sont représentés dans la figure II.12.

−3 −2 −1 0 1 2 3 −2 −1 0 1 2 x1((t)) x2 (( t )) −3 −2 −1 0 1 2 3 −2 −1 0 1 2 s1((t)) s2 (( t ))

Figure II.12 Exemple simulé à partir de deux lois normales, chacune en dimension deux.

A gauche, les tirages (500 points) représentant les valeurs mesurées au niveau des capteurs, et à droite, les activités des sources après application de l’algorithme CSP.

5.1.1.2.4 Séparation de sources

Il est également possible de trouver des pondérations des capteurs dans le cas où l’on n’a pas d’information à propos des tâches réalisées par le sujet (ou bien lorsqu’on ne pré-fère pas les utiliser). Le problème se pose alors dans les termes suivants : comment trouver des signaux utiles, les sources cérébrales, à partir de mélanges, les signaux mesurés au ni-veau des capteurs, de ceux-ci. Dans le cas où aucune information n’est connue a priori, ni sur les sources, ni sur le processus de mélange, cette situation est appelée Séparation Aveugle de Sources (SAS). La première solution à ce problème a été formalisée au début des années 80 (Hérault et Ans, 1984 et Hérault et al., 1985) en ne faisant qu’une seule hypothèse fondamentale : l’indépendance mutuelle des sources. Pour une vue complète et détaillée du problème de la séparation de source et des différentes méthodes qui per-mettent de la résoudre, on pourra se reporter aux livres récents (Jutten et Comon, 2007et Comon et Jutten, 2007). Dans le cas de l’EEG, trois principes fondamentaux permettent de restreindre le problème de la SAS (Congedo et al., 2008a) :

• Dans l’hypothèse où les dipôles électriques restent suffisamment fixes dans l’espace, il n’y a pas de retard entre l’activité d’un neurone et la mesure au niveau du scalp ;

• L’approximation quasi-statique est valide, par conséquent on peut négliger les termes de couplage électromagnétiques dans les équations de Maxwell ;

Pour les fréquences considérées (< 40 Hz), les effets capacitifs sont négligeables.

Ces trois considérations vont dans le sens du principe de superposition et permettent donc d’écrire le lien qui lie les sources cérébrales et les observations au niveau des capteurs sous la forme d’un mélange linéaire instantané1

x(t) = As(t). (II.14)

En utilisant alors le théorème de Darmois-Skitovic (Darmois, 1947), on montre qu’il est possible de retrouver s(t) en utilisant uniquement l’hypothèse d’indépendance mutuelle entre les sources uniquement si au plus une des sources suit une densité de probabilité gaussienne. Cependant, les sources estimées ne peuvent représenter les sources initiales qu’à une indétermination d’échelle (si (A, s(t)) est solution, alors ∀γ ∈ R (γ1A, γs(t)) est aussi solution) et une permutation près. Les méthodes basées sur l’indépendance pour résoudre le problème de la SAS sont des méthodes d’ACI (Analyse en Composantes Indé-pendantes). Leur principe commun est de proposer une mesure capable de rendre compte de l’indépendance entre les signaux (mesure directe de l’indépendance du type informa-tion mutuelle ou bien mesure approchée en utilisant les statistiques d’ordre supérieur par exemple) et de mettre en place une méthode d’optimisation capable de rendre les signaux

s(t) mutuellement indépendants. Parmi les plus connues et les plus utilisées en ICM, on

peut citer Infomax (Bell et Sejnowski, 1995) basée sur la maximisation de l’entropie, FastI-CA (Hyvärinen, 1999) qui vise à maximiser la non-gaussianité des signaux en utilisant une fonction auxiliaire non-linéaire, JADE (Souloumiac et Cardoso, 1991) qui est basée sur la minimisation des cumulants croisés d’ordre quatre.

Si les méthodes présentées jusqu’alors reposent sur l’hypothèse de sources iid (indépen-dantes et identiquement distribuées), c’est-à-dire qu’elles ne prennent pas en compte les re-lations temporelles entre les échantillons, plusieurs méthodes ont été mises au point (adres-sant alors le problème de la séparation semi-aveugles de sources) en levant l’hypothèse d’indépendance, i.e. le premier « i » (les sources sont alors supposées colorées ou tempo-rellement corrélées) ou encore l’hypothèse « id » auquel cas les sources deviennent non-stationnaires. Dans le premier cas, la méthode la plus utilisée dans l’analyse des signaux cérébraux est SOBI (Belouchrani et al., 1997) qui repose sur la diagonalisation conjointe de matrices de corrélation retardées. Le deuxième cas sera traité plus en détail dans lechapitre III.

Les différentes méthodes de séparation de sources ont été utilisées de manière intensive dans l’analyse des signaux cérébraux et plus particulièrement dans le contexte des ICMs. Leur utilité a été montrée pour nettoyer les données (Vigário et al., 2000) ou bien pour augmenter les performances de classification (Naeem et al., 2006). L’un des principaux problèmes de cette méthode est lié à l’interprétation des composantes trouvées : en effet, si dans le cas du CSP, les composantes sont classées et peuvent être facilement sélectionnées, l’étape de sélection des composantes est délicate dans le cas de la séparation de sources et on doit faire appel à des experts ou des critères extérieurs.

par la suite, nous supposerons que le nombre de capteurs est égal au nombre de sources cérébrales recherchées

1

afin de simplifier l’exposé. Ce cas est appelé déterminé. Notons qu’il est possible aussi de considérer les problèmes des mélanges sous- et sur-déterminés, i.e. respectivement les cas où l’on a plus (resp. moins) de sources que de capteurs. Ces deux cas imposent souvent d’utiliser des méthodes différentes en introduisant de nouveaux a priori.

5.1.1.2.5 Retour aux sources cérébrales « réelles »

Certains articles se sont intéressés à l’intérêt d’utiliser les méthodes de problème inverse afin d’effectuer un filtrage spatial. Ces approches sont fondées sur la connaissance des propriétés physiques du milieu de propagation et utilisent le fait que l’on connaît de manière approchée la fonction qui lie l’activité de chaque source neuronale à la mesure qui sera effectuée au niveau des capteurs. Par le principe de superposition exprimé plus haut, on sait que cette relation est linéaire et que, par conséquent, elle peut s’écrire sous la forme matricielle

x(t) = Gs(t). (II.15)

On appelle G la matrice de « Lead field » ; elle est caractéristique de la géométrie du problème (position des sources, des capteurs, caractéristiques du milieu de propagation). Dans ce cas, s(t) est de très grande dimension et l’estimation de s(t) à partir de G et des mesures au niveau des capteurs x(t) ne peut être réalisée que par l’introduction de contraintes a priori. En effet, lorsque la dimension de l’espace des sources est largement plus grande que la dimension des mesures au niveau des capteurs, le problème est très mal posé et G est non-inversible. Il faut alors employer des méthodes de régularisation afin de calculer bs(t) = Hx(t) ou bien H = f (G), estimations respectives des sources ou de la matrice inverse de la matrice de « leadfield ». Parmi les différentes techniques qui ont été utilisées, les plus courantes sont basées sur la minimisation de la norme L2 qui conduit à la pseudo-inverse de Moore-Penrose ou encore la norme L1 qui donne une solution plus parcimonieuse. Dans le contexte des ICMs, ces approches restent d’un emploi relativement marginal en raison de la lourdeur des méthodes numériques qu’elles nécessitent et du gain relativement mineur qu’elles engendrent (Congedo et al., 2006, Lotte, 2008, Besserve et al., 2008a etCongedo, 2006).

5.1.1.2.6 Autres méthodes de filtrage spatial

Outre les méthodes générales présentées jusqu’ici, il est également possible d’envisager des approches plus ciblées. Par exemple, xDAWN (Rivet et al., 2009 et Rivet et al., 2008) a été récemment proposée pour extraire les composantes les plus intéressantes (au sens de l’optimisation du rapport signal sur bruit) dans le cas des interfaces basées sur des réponses synchrones telles que le P300. D’autres critères ont également été utilisés, notamment pour débruiter les signaux (Boudet, 2008).