Classiﬁcation d’échantillons

0 2 4 6 8 10 12 14 16 18 20 1 2 3 0 2 4 6 8 10 12 14 16 18 20 1 2 3

_i₊_n₀₋_k,v

_j₊_n₀₋_k,v

2. Cette régularisation, présentée section

L’approche la plus commune pour eﬀectuer un étiquetage de séquence en présence de bruit est

d’abord de débruiter le signal par filtrage, puis de classifier les échantillons filtrés. Elle nécessite

cependant une connaissance a priori sur le bruit pour que le ﬁltrage soit eﬃcace.

Si l’on ne connaît pas les caractéristiques du bruit, la méthode précédente n’est pas applicable.

Cependant, les eﬀets du bruit peuvent être pris en compte lors de la classiﬁcation en utilisant

des fenêtre temporelles à la place des échantillons temporels. Une fenêtre temporelle est montrée

Figure 4.1, elle permet de prendre en compte le voisinage temporel d’un échantillon lors de sa

classification, ce qui permet au classifieur de s’adapter à du bruit convolutionnel qui a pour effet

de décaler les informations temporellement.

Cette section est organisée comme suit : dans la première partie, nous déﬁnissons le ﬁltrage

temporel multidimensionnel et nous exprimons la classiﬁcation d’échantillons ﬁltrés. Nous

for-mulons ensuite la classiﬁcation de fenêtre temporelle et discutons rapidement des algorithmes

d’apprentissage.

4.2.1 Filtrage numérique multidimensionnel

Pour atténuer le bruit contenu dans un signal X, on peut lui appliquer un ﬁltre. Dans la

littérature, ce ﬁltrage est souvent le même pour tous les canaux. Par exemple, [Pistohl 2008]

utilise un ﬁltre de Savisky-Golay pour couper un bruit haute fréquence. Cependant, rien ne

préconise l’utilisation d’un ﬁltre unique pour un débruitage optimal de l’ensemble des canaux.

Nous déﬁnissons donc un ﬁltre à Réponse Impulsionnelle Finie (RIF), appliqué à X, que nous

notons F∈R

. Chaque colonne de la matriceF= [f

, . . . ,f

] contient les coeﬃcientsf

∈R

du ﬁltre RIF qui sera appliqué au canal v correspondant de X. Il est ainsi possible d’adapter

chaque ﬁltre aux caractéristiques de chaque canal.

Figure 4.1: Matrice de signal X (en haut), matrice ﬁltréeXe (en bas) et fenêtre temporelleX (en gris

clair) utilisée lors du ﬁltrage en iavecn

= 0, d= 3 etf = 5.

Nous déﬁnissons le signal ﬁltréXe comme :

e

X

=

X

F

X

=X

∗f

(4.2)

où la somme est une convolution unidimensionnelle de chaque canal par la colonne

correspon-dante deF. On utilise ici de manière abusive et par souci de lisibilité le symbole∗pour souligner

le fait que chaque canal est ﬁltré de manière indépendante. Le paramètren

représente le retard

du ﬁltre. Sin

= 0 alors le ﬁltre est causal, et sin

=f /2 alors le ﬁltre est non-causal et centré

sur l’échantillon courant. La Figure4.1montre un exemple de signalXet de signal ﬁltréXe pour

un ﬁltre causal.

Comme nous l’avons vu, un ﬁltrage causal nécessite les échantillons temporels passés. Ceci

peut poser des problèmes d’eﬀet de bord, que nous avons résolus dans nos simulations en ﬁxant

les coeﬃcients X

à zéro pour i≤0 et tous les canaux v.

4.2.2 Classiﬁcation d’échantillons ﬁltrés

Lorsque l’on dispose d’une informationa priori concernant le bruit, on peut utiliser un ﬁltre

pour l’atténuer. Par exemple, pour les bruits haute fréquence, le ﬁltre le plus commun est le

filtre moyenneur. Ce filtre est défini par F

= 1/f,∀v ∈ {1, . . . , f}et u∈ {1, . . . , d}. La taille

du ﬁltre f permet de régler sa bande passante. Dans la suite du manuscrit, l’utilisation d’un

ﬁltre moyenneur suivi d’un classiﬁeur est désigné par acronyme Avg-SVM.

Une fois que le signal est ﬁltré, il est possible d’apprendre un classiﬁeur SVM des échantillons

ﬁltrés en résolvant le problème d’apprentissage SVM (3.31) ou le problème dual (3.32). Notons

que le choix du paramètre p qui permet de mettre ou non le Hinge au carré dépend du cadre

d’utilisation. En eﬀet, si l’on apprend un classiﬁeur linéaire, il est intéressant d’avoir une fonction

objectif régulière, nous choisirons donc p = 2 [Chapelle 2007]. À l’inverse, dans un cadre non

linéaire à noyaux, le problème gagne à être optimisé dans le dual avec p = 1, car la solution

obtenue est plus parcimonieuse.

Noyau gaussien sur échantillons filtrés Le ﬁltre peut être vu comme un paramètre du

noyau s’appliquant sur les échantillons non ﬁltrés. Lorsque l’on utilise un noyau gaussien de

largeur de bande σ, la matrice noyauKe est déﬁnie par un terme général de la forme :

˜

K

= K(˜x

,x˜

) = exp −||x˜

−x˜

||

2σ

!

= exp − 1

notons F_∈R

_∈R

∗^f

correspon-dante deF. On utilise ici de manière abusive et par souci de lisibilité le symbole_∗pour souligner

) = exp ₋^||^x^˜

⁻^x^˜

^||

= exp ₋ ¹

)_∗f

−₂¹

déﬁnie positive si le noyau K(_·,·) est déﬁni positif.

Démonstration. Soit φune projection de_X

dans_X. Si K(_·,·) est un noyau de _{X × X} dansR,

(_·,·) =K(φ(_·), φ(_·)) est un noyau déﬁni positif [Shawe-Taylor 2004]. Ici,φcorrespond à

. Comme K(_·,·) est un noyau déﬁni

(_·,·) est lui aussi déﬁni positif et la matriceKe est déﬁnie

des signaux. Nous notons _{X