• Aucun résultat trouvé

L’approche la plus commune pour effectuer un étiquetage de séquence en présence de bruit est

d’abord de débruiter le signal par filtrage, puis de classifier les échantillons filtrés. Elle nécessite

cependant une connaissance a priori sur le bruit pour que le filtrage soit efficace.

Si l’on ne connaît pas les caractéristiques du bruit, la méthode précédente n’est pas applicable.

Cependant, les effets du bruit peuvent être pris en compte lors de la classification en utilisant

des fenêtre temporelles à la place des échantillons temporels. Une fenêtre temporelle est montrée

Figure 4.1, elle permet de prendre en compte le voisinage temporel d’un échantillon lors de sa

classification, ce qui permet au classifieur de s’adapter à du bruit convolutionnel qui a pour effet

de décaler les informations temporellement.

Cette section est organisée comme suit : dans la première partie, nous définissons le filtrage

temporel multidimensionnel et nous exprimons la classification d’échantillons filtrés. Nous

for-mulons ensuite la classification de fenêtre temporelle et discutons rapidement des algorithmes

d’apprentissage.

4.2.1 Filtrage numérique multidimensionnel

Pour atténuer le bruit contenu dans un signal X, on peut lui appliquer un filtre. Dans la

littérature, ce filtrage est souvent le même pour tous les canaux. Par exemple, [Pistohl 2008]

utilise un filtre de Savisky-Golay pour couper un bruit haute fréquence. Cependant, rien ne

préconise l’utilisation d’un filtre unique pour un débruitage optimal de l’ensemble des canaux.

Nous définissons donc un filtre à Réponse Impulsionnelle Finie (RIF), appliqué à X, que nous

notons FR

l×d

. Chaque colonne de la matriceF= [f

1

, . . . ,f

d

] contient les coefficientsf

v

R

l

du filtre RIF qui sera appliqué au canal v correspondant de X. Il est ainsi possible d’adapter

chaque filtre aux caractéristiques de chaque canal.

0 2 4 6 8 10 12 14 16 18 20 1 2 3 0 2 4 6 8 10 12 14 16 18 20 1 2 3

Figure 4.1: Matrice de signal X (en haut), matrice filtréeXe (en bas) et fenêtre temporelleX (en gris

clair) utilisée lors du filtrage en iavecn

0

= 0, d= 3 etf = 5.

Nous définissons le signal filtréXe comme :

e

X

i,v

=

f

X

u=1

F

u,v

X

i+1u+n0,v

=X

i,v

f

v

(4.2)

où la somme est une convolution unidimensionnelle de chaque canal par la colonne

correspon-dante deF. On utilise ici de manière abusive et par souci de lisibilité le symbolepour souligner

le fait que chaque canal est filtré de manière indépendante. Le paramètren

0

représente le retard

du filtre. Sin

0

= 0 alors le filtre est causal, et sin

0

=f /2 alors le filtre est non-causal et centré

sur l’échantillon courant. La Figure4.1montre un exemple de signalXet de signal filtréXe pour

un filtre causal.

Comme nous l’avons vu, un filtrage causal nécessite les échantillons temporels passés. Ceci

peut poser des problèmes d’effet de bord, que nous avons résolus dans nos simulations en fixant

les coefficients X

i,v

à zéro pour i≤0 et tous les canaux v.

4.2.2 Classification d’échantillons filtrés

Lorsque l’on dispose d’une informationa priori concernant le bruit, on peut utiliser un filtre

pour l’atténuer. Par exemple, pour les bruits haute fréquence, le filtre le plus commun est le

filtre moyenneur. Ce filtre est défini par F

v,u

= 1/f,v ∈ {1, . . . , f}et u∈ {1, . . . , d}. La taille

du filtre f permet de régler sa bande passante. Dans la suite du manuscrit, l’utilisation d’un

filtre moyenneur suivi d’un classifieur est désigné par acronyme Avg-SVM.

Une fois que le signal est filtré, il est possible d’apprendre un classifieur SVM des échantillons

filtrés en résolvant le problème d’apprentissage SVM (3.31) ou le problème dual (3.32). Notons

que le choix du paramètre p qui permet de mettre ou non le Hinge au carré dépend du cadre

d’utilisation. En effet, si l’on apprend un classifieur linéaire, il est intéressant d’avoir une fonction

objectif régulière, nous choisirons donc p = 2 [Chapelle 2007]. À l’inverse, dans un cadre non

linéaire à noyaux, le problème gagne à être optimisé dans le dual avec p = 1, car la solution

obtenue est plus parcimonieuse.

Noyau gaussien sur échantillons filtrés Le filtre peut être vu comme un paramètre du

noyau s’appliquant sur les échantillons non filtrés. Lorsque l’on utilise un noyau gaussien de

largeur de bande σ, la matrice noyauKe est définie par un terme général de la forme :

˜

K

i,j

= K(˜x

i

,x˜

j

) = exp ||x˜

i

x˜

j

||

2

2σ

2

!

= exp 1

2σ

2 d

X

v

((X

i,v

X

j,v

)f

v

)

2

!

= exp

−21

σ

2 d

X

v l

X

k

(X

i+n0k,v

X

j+n0k,v

)F

k,v

!

2

. (4.3)

Proposition 4.1. Quel que soit le filtrage RIF utilisé et différent de zéro, la matrice Ke est

définie positive si le noyau K(·,·) est défini positif.

Démonstration. Soit φune projection deX

dansX. Si K(·,·) est un noyau de X × X dansR,

alorsK

(·,·) =K(φ(·), φ(·)) est un noyau défini positif [Shawe-Taylor 2004]. Ici,φcorrespond à

un filtrage non nul, i.e. une pondération d’éléments de R

d

. Comme K(·,·) est un noyau défini

positif deR

d

dansR, alors le noyauK

(·,·) est lui aussi défini positif et la matriceKe est définie

positive.

Nous montrons dans la section expérimentale4.4 que Avg-SVM permet d’améliorer la

per-formance de décodage par rapport au classifieur d’échantillons non filtrés, en présence de bruit

haute fréquence. Le filtrage moyenneur étant un filtre passe-bas, cette approche n’est utile que

lorsque le bruit a des composantes hautes fréquences. En l’absence d’a priori sur le bruit, nous

proposons deux approches : la première consiste à apprendre des classifieurs sur une fenêtre

temporelle, c’est-à-dire à laisser au classifieur la tâche de gestion du bruit ; la seconde approche

consiste à apprendre conjointement le filtre et le classifieur à partir des données d’apprentissage,

c’est le filtrage vaste marge.

4.2.3 Classification de fenêtres temporelles

Il est possible de prendre en compte l’influence du bruit en associant aux échantillons leur

voisinage temporel. Ainsi, c’est le classifieur qui devra s’adapter aux bruits et aux caractéristiques

des signaux. Nous notons {X

i

}

i=1,...,n

l’ensemble des fenêtres temporelles de taille l extraites

avec un délai n

0

. Un exemple de fenêtre temporelle est disponible figure4.1. On y voit que les

exemples d’apprentissageX

i

∈R

d×l

sont maintenant des matrices contenant une concaténation

des échantillons temporels avoisinant le i

e

échantillon (X

i

= [x

i+n0

,x

i+n0−1

, . . . ,x

i+n0f

]

T

).

Une des limites de cette approche est l’augmentation de la dimensionnalité des exemples à

classifier. La complexité du problème est en effet multipliée parl par rapport à la classification

d’échantillons. Cette approche sera appelée Win-SVM dans la suite du manuscrit.

Win-SVM linéaire

Problème d’apprentissage Lorsque l’on apprend un classifieur SVM linéaire sur des fenêtres

temporelles, le problème peut être exprimé sous la forme d’un problème SVM sur les exemples

X

i

:

min

W,b

C

n

n

X

i

H(y

i

, f

W

(X

i

)) +1

2kWk

2F

(4.4)

kWk

2 F

=P

i,j

W

2

i,j

est la norme de Frobenius au carré deW,Cest un terme de régularisation,

etf

W

(X

i,·

) est la fonction de décision pour lai

e

fenêtre temporelle telle que :

f

W

(X

i

) = hW,X

i

i+b =

l

X

m=1 d

X

j=1

W

m,j

X

i+1−m+n0,j

+b (4.5)

avec WR

l×d

la matrice normale à l’hyperplan et b∈Rle biais.

Optimisation Comme nous avons affaire à un problème linéaire, il peut être vectorisé sans

perte de généralisation, ce qui permet d’utiliser les algorithmes existants d’optimisation de SVM

linéaire. De plus, en prenantp= 2, la fonction de coût devient différentiable et des algorithmes

efficaces comme celui de [Chapelle 2007] peuvent être utilisés. Cet algorithme, basé sur la

mé-thode de Newton, assure une convergence rapide vers le minimum. La complexité du problème

est O(nl

2

d

2

), c’est-à-dire quadratique par rapport à la dimension de la fenêtre.

Interprétation Un des intérêts de cette approche par fenêtrage est que la matrice W peut

être interprétée comme un filtrage vaste marge. On reconnaît en effet dans la fonction de décision

(4.5) une somme similaire à la convolution (4.2).

On peut se demander si la régularisation de Frobenius utilisée en (4.4) est la plus adaptée

au problème. Tout d’abord, ce type de régularisation traite tous les coefficients de la matrice

W de manière indépendante, la structure temporelle n’est donc pas prise en compte. Ensuite, la

norme de Frobenius au carré ne promeut pas la parcimonie, elle ne peut donc pas être utilisée

dans un cadre de sélection de canaux.

Fonction de décision non linéaire Nous avons traité dans cette section, les fonctions de

décision linéaires. Néanmoins, il est possible d’apprendre des classifieurs vaste marge non linéaires

sur des fenêtres temporelles. Nous avons également évalué dans nos expérimentations numériques

les performances de la classification SVM de fenêtres temporelles avec un noyau gaussien.

Comme, dans ce cas, une fonction non linéaire est apprise, elle ne peut plus être interprétée

comme un filtrage temporel. On est donc face à une prédiction de type « boite noire », ce qui

limite les applications en ICM où les méthodes interprétables sont préférées.

Win-SVM linéaire avec sélection de canaux

Dans certaines applications, il est intéressant de pouvoir sélectionner automatiquement les

canaux. Nous avons par exemple vu section 2.3.2 les avantages de la sélection de capteurs en

ICM : non seulement elle permet de réduire les coûts de mise en œuvre mais elle apporte

également des avantages en terme d’interprétabilité du classifieur. En effet, il devient possible

de retrouver les capteurs discriminants et donc les zones actives du cerveau lors de la tâche

mentale réalisée par le patient.

Régularisation par norme mixte Pour sélectionner automatiquement les canaux pertinents

lors de l’apprentissage du classifieur, nous proposons de régulariser le matrice W ((4.4)) en

utilisant une norme mixte

1

2. Cette régularisation, présentée section

3.1.3, est ici de la

forme :

Ω1

−2(

W) =

d

X

j l

X

i

W

i,j2

!

1 2

=

d

X

j

h

kW

.,j

k

2

(4.6)

avech(u) =u

12

la fonction racine carrée. Cette norme mixte agit comme une norme

2

sur chaque

canal alors que la norme

1

promeut une parcimonie sur les canaux. Le problème d’optimisation

qui en découle

min

W,b

C

n

n

X

i

H(y, f

W

(X

i,·

)) + Ω1

−2

(W) (4.7)

est, cette fois-ci, non régulier de par la non différentiabilité deu(·) en 0.

Optimisation Puisque la fonction de coût définie en (4.7) n’est pas différentiable, les méthodes

d’ordre 2 [Chapelle 2007] ne peuvent pas être mises en œuvre. Nous proposons d’utiliser les

algorithmes de gradient accéléré décrits en annexe A.1.1. Les conditions de convergence sont

respectées car pour p = 2, le premier terme de l’équation (4.7) est convexe et a un gradient

lipschitzien [Steinwart 2008]. De plus, le second terme est lui aussi convexe et son opérateur

proximal fourni en (A.9) est simple à calculer. Nous avons choisi dans nos expérimentations

numériques d’utiliser l’algorithme FISTA proposé par [Beck 2009].