L’approche la plus commune pour effectuer un étiquetage de séquence en présence de bruit est
d’abord de débruiter le signal par filtrage, puis de classifier les échantillons filtrés. Elle nécessite
cependant une connaissance a priori sur le bruit pour que le filtrage soit efficace.
Si l’on ne connaît pas les caractéristiques du bruit, la méthode précédente n’est pas applicable.
Cependant, les effets du bruit peuvent être pris en compte lors de la classification en utilisant
des fenêtre temporelles à la place des échantillons temporels. Une fenêtre temporelle est montrée
Figure 4.1, elle permet de prendre en compte le voisinage temporel d’un échantillon lors de sa
classification, ce qui permet au classifieur de s’adapter à du bruit convolutionnel qui a pour effet
de décaler les informations temporellement.
Cette section est organisée comme suit : dans la première partie, nous définissons le filtrage
temporel multidimensionnel et nous exprimons la classification d’échantillons filtrés. Nous
for-mulons ensuite la classification de fenêtre temporelle et discutons rapidement des algorithmes
d’apprentissage.
4.2.1 Filtrage numérique multidimensionnel
Pour atténuer le bruit contenu dans un signal X, on peut lui appliquer un filtre. Dans la
littérature, ce filtrage est souvent le même pour tous les canaux. Par exemple, [Pistohl 2008]
utilise un filtre de Savisky-Golay pour couper un bruit haute fréquence. Cependant, rien ne
préconise l’utilisation d’un filtre unique pour un débruitage optimal de l’ensemble des canaux.
Nous définissons donc un filtre à Réponse Impulsionnelle Finie (RIF), appliqué à X, que nous
notons F∈R
l×d. Chaque colonne de la matriceF= [f
1, . . . ,f
d] contient les coefficientsf
v∈R
ldu filtre RIF qui sera appliqué au canal v correspondant de X. Il est ainsi possible d’adapter
chaque filtre aux caractéristiques de chaque canal.
0 2 4 6 8 10 12 14 16 18 20 1 2 3 0 2 4 6 8 10 12 14 16 18 20 1 2 3
Figure 4.1: Matrice de signal X (en haut), matrice filtréeXe (en bas) et fenêtre temporelleX (en gris
clair) utilisée lors du filtrage en iavecn
0= 0, d= 3 etf = 5.
Nous définissons le signal filtréXe comme :
e
X
i,v=
fX
u=1F
u,vX
i+1−u+n0,v=X
i,v∗f
v(4.2)
où la somme est une convolution unidimensionnelle de chaque canal par la colonne
correspon-dante deF. On utilise ici de manière abusive et par souci de lisibilité le symbole∗pour souligner
le fait que chaque canal est filtré de manière indépendante. Le paramètren
0représente le retard
du filtre. Sin
0= 0 alors le filtre est causal, et sin
0=f /2 alors le filtre est non-causal et centré
sur l’échantillon courant. La Figure4.1montre un exemple de signalXet de signal filtréXe pour
un filtre causal.
Comme nous l’avons vu, un filtrage causal nécessite les échantillons temporels passés. Ceci
peut poser des problèmes d’effet de bord, que nous avons résolus dans nos simulations en fixant
les coefficients X
i,và zéro pour i≤0 et tous les canaux v.
4.2.2 Classification d’échantillons filtrés
Lorsque l’on dispose d’une informationa priori concernant le bruit, on peut utiliser un filtre
pour l’atténuer. Par exemple, pour les bruits haute fréquence, le filtre le plus commun est le
filtre moyenneur. Ce filtre est défini par F
v,u= 1/f,∀v ∈ {1, . . . , f}et u∈ {1, . . . , d}. La taille
du filtre f permet de régler sa bande passante. Dans la suite du manuscrit, l’utilisation d’un
filtre moyenneur suivi d’un classifieur est désigné par acronyme Avg-SVM.
Une fois que le signal est filtré, il est possible d’apprendre un classifieur SVM des échantillons
filtrés en résolvant le problème d’apprentissage SVM (3.31) ou le problème dual (3.32). Notons
que le choix du paramètre p qui permet de mettre ou non le Hinge au carré dépend du cadre
d’utilisation. En effet, si l’on apprend un classifieur linéaire, il est intéressant d’avoir une fonction
objectif régulière, nous choisirons donc p = 2 [Chapelle 2007]. À l’inverse, dans un cadre non
linéaire à noyaux, le problème gagne à être optimisé dans le dual avec p = 1, car la solution
obtenue est plus parcimonieuse.
Noyau gaussien sur échantillons filtrés Le filtre peut être vu comme un paramètre du
noyau s’appliquant sur les échantillons non filtrés. Lorsque l’on utilise un noyau gaussien de
largeur de bande σ, la matrice noyauKe est définie par un terme général de la forme :
˜
K
i,j= K(˜x
i,x˜
j) = exp −||x˜
i−x˜
j||
22σ
2!
= exp − 1
2σ
2 dX
v((X
i,v−X
j,v)∗f
v)
2!
= exp
−21
σ
2 dX
v lX
k(X
i+n0−k,v−X
j+n0−k,v)F
k,v!
2
. (4.3)
Proposition 4.1. Quel que soit le filtrage RIF utilisé et différent de zéro, la matrice Ke est
définie positive si le noyau K(·,·) est défini positif.
Démonstration. Soit φune projection deX
′dansX. Si K(·,·) est un noyau de X × X dansR,
alorsK
′(·,·) =K(φ(·), φ(·)) est un noyau défini positif [Shawe-Taylor 2004]. Ici,φcorrespond à
un filtrage non nul, i.e. une pondération d’éléments de R
d. Comme K(·,·) est un noyau défini
positif deR
ddansR, alors le noyauK
′(·,·) est lui aussi défini positif et la matriceKe est définie
positive.
Nous montrons dans la section expérimentale4.4 que Avg-SVM permet d’améliorer la
per-formance de décodage par rapport au classifieur d’échantillons non filtrés, en présence de bruit
haute fréquence. Le filtrage moyenneur étant un filtre passe-bas, cette approche n’est utile que
lorsque le bruit a des composantes hautes fréquences. En l’absence d’a priori sur le bruit, nous
proposons deux approches : la première consiste à apprendre des classifieurs sur une fenêtre
temporelle, c’est-à-dire à laisser au classifieur la tâche de gestion du bruit ; la seconde approche
consiste à apprendre conjointement le filtre et le classifieur à partir des données d’apprentissage,
c’est le filtrage vaste marge.
4.2.3 Classification de fenêtres temporelles
Il est possible de prendre en compte l’influence du bruit en associant aux échantillons leur
voisinage temporel. Ainsi, c’est le classifieur qui devra s’adapter aux bruits et aux caractéristiques
des signaux. Nous notons {X
i}
i=1,...,nl’ensemble des fenêtres temporelles de taille l extraites
avec un délai n
0. Un exemple de fenêtre temporelle est disponible figure4.1. On y voit que les
exemples d’apprentissageX
i∈R
d×lsont maintenant des matrices contenant une concaténation
des échantillons temporels avoisinant le i
eéchantillon (X
i= [x
i+n0,x
i+n0−1, . . . ,x
i+n0−f]
T).
Une des limites de cette approche est l’augmentation de la dimensionnalité des exemples à
classifier. La complexité du problème est en effet multipliée parl par rapport à la classification
d’échantillons. Cette approche sera appelée Win-SVM dans la suite du manuscrit.
Win-SVM linéaire
Problème d’apprentissage Lorsque l’on apprend un classifieur SVM linéaire sur des fenêtres
temporelles, le problème peut être exprimé sous la forme d’un problème SVM sur les exemples
X
i:
min
W,bC
n
nX
iH(y
i, f
W(X
i)) +1
2kWk
2F(4.4)
oùkWk
2 F=P
i,jW
2i,j
est la norme de Frobenius au carré deW,Cest un terme de régularisation,
etf
W(X
i,·) est la fonction de décision pour lai
efenêtre temporelle telle que :
f
W(X
i) = hW,X
ii+b =
lX
m=1 dX
j=1W
m,jX
i+1−m+n0,j+b (4.5)
avec W∈R
l×dla matrice normale à l’hyperplan et b∈Rle biais.
Optimisation Comme nous avons affaire à un problème linéaire, il peut être vectorisé sans
perte de généralisation, ce qui permet d’utiliser les algorithmes existants d’optimisation de SVM
linéaire. De plus, en prenantp= 2, la fonction de coût devient différentiable et des algorithmes
efficaces comme celui de [Chapelle 2007] peuvent être utilisés. Cet algorithme, basé sur la
mé-thode de Newton, assure une convergence rapide vers le minimum. La complexité du problème
est O(nl
2d
2), c’est-à-dire quadratique par rapport à la dimension de la fenêtre.
Interprétation Un des intérêts de cette approche par fenêtrage est que la matrice W peut
être interprétée comme un filtrage vaste marge. On reconnaît en effet dans la fonction de décision
(4.5) une somme similaire à la convolution (4.2).
On peut se demander si la régularisation de Frobenius utilisée en (4.4) est la plus adaptée
au problème. Tout d’abord, ce type de régularisation traite tous les coefficients de la matrice
W de manière indépendante, la structure temporelle n’est donc pas prise en compte. Ensuite, la
norme de Frobenius au carré ne promeut pas la parcimonie, elle ne peut donc pas être utilisée
dans un cadre de sélection de canaux.
Fonction de décision non linéaire Nous avons traité dans cette section, les fonctions de
décision linéaires. Néanmoins, il est possible d’apprendre des classifieurs vaste marge non linéaires
sur des fenêtres temporelles. Nous avons également évalué dans nos expérimentations numériques
les performances de la classification SVM de fenêtres temporelles avec un noyau gaussien.
Comme, dans ce cas, une fonction non linéaire est apprise, elle ne peut plus être interprétée
comme un filtrage temporel. On est donc face à une prédiction de type « boite noire », ce qui
limite les applications en ICM où les méthodes interprétables sont préférées.
Win-SVM linéaire avec sélection de canaux
Dans certaines applications, il est intéressant de pouvoir sélectionner automatiquement les
canaux. Nous avons par exemple vu section 2.3.2 les avantages de la sélection de capteurs en
ICM : non seulement elle permet de réduire les coûts de mise en œuvre mais elle apporte
également des avantages en terme d’interprétabilité du classifieur. En effet, il devient possible
de retrouver les capteurs discriminants et donc les zones actives du cerveau lors de la tâche
mentale réalisée par le patient.
Régularisation par norme mixte Pour sélectionner automatiquement les canaux pertinents
lors de l’apprentissage du classifieur, nous proposons de régulariser le matrice W ((4.4)) en
utilisant une norme mixte ℓ
1−ℓ
2. Cette régularisation, présentée section3.1.3, est ici de la
forme :
Ω1
−2(W) =
dX
j lX
iW
i,j2!
1 2=
dX
jh
kW
.,jk
2(4.6)
avech(u) =u
12la fonction racine carrée. Cette norme mixte agit comme une normeℓ
2sur chaque
canal alors que la normeℓ
1promeut une parcimonie sur les canaux. Le problème d’optimisation
qui en découle
min
W,bC
n
nX
iH(y, f
W(X
i,·)) + Ω1
−2(W) (4.7)
est, cette fois-ci, non régulier de par la non différentiabilité deu(·) en 0.
Optimisation Puisque la fonction de coût définie en (4.7) n’est pas différentiable, les méthodes
d’ordre 2 [Chapelle 2007] ne peuvent pas être mises en œuvre. Nous proposons d’utiliser les
algorithmes de gradient accéléré décrits en annexe A.1.1. Les conditions de convergence sont
respectées car pour p = 2, le premier terme de l’équation (4.7) est convexe et a un gradient
lipschitzien [Steinwart 2008]. De plus, le second terme est lui aussi convexe et son opérateur
proximal fourni en (A.9) est simple à calculer. Nous avons choisi dans nos expérimentations
numériques d’utiliser l’algorithme FISTA proposé par [Beck 2009].
Dans le document
Apprentissage statistique pour le signal: applications aux interfaces cerveau-machine
(Page 76-80)