• Aucun résultat trouvé

4.4 Expérimentations numériques

4.4.1 Données simulées

Le but de ces expérimentations est de tester la performance des diverses approches dans le cas

où les signaux sont corrompus par une convolution et du bruit additif. Nous voulons aussi illustrer

le comportement des différentes méthodes en terme de pondération/sélection de canaux. Nous

distinguons dans nos expérimentations les problèmes linéairement et non linéairement séparables,

car certaines méthodes ne sont applicables que pour des fonctions de décision linéaires.

Génération des données

La génération des données simulées se fait en plusieurs étapes, illustrées Figure4.2 :

1. Une séquence d’étiquettesyest générée. La longueur des régions d’étiquette constante suit

une loi uniforme entre 30 et 40 échantillons temporels.

2. Cette séquence est utilisée comme un signal discriminant pour obtenir les deux canaux

d’un signal multidimensionnel.

3. On applique ensuite aux deux canaux une convolution sous la forme d’un déphasage tiré

sur l’intervalle [τ, τ], différent pour chaque canal, suivi d’un filtre moyenneur causal de

Méthode Définition

SVM SVM classique sur les échantillons.

Avg-SVM SVM sur des échantillons filtrés par un filtre moyenneur (cf. section4.2.2).

GMM Mélange de gaussiennes pour chaque classe apprises avec un algorithme

EM. La classification se fait par maximum de vraisemblance.

WinSVM Classification d’une fenêtre d’échantillons temporels (cf .section4.2.3).

SWinSVM

Classification d’une fenêtre d’échantillons temporels avec sélection de

ca-naux (cf. section4.2.3).

KF-SVM Kernel FilterSVM, Filtrage Vaste Marge (cf. section5.1.1).

SKF-SVM Kernel FilterSVM avec sélection de canaux (cf. section4.3.4).

KF-GMM Mélange de gaussiennes sur des échantillons filtrés. Le filtre est appris en

utilisant KF-SVM.

WinGMKL

∗∗

Apprentissage de noyaux multiples proposé par [Varma 2009] pour de la

sélection de caractéristiques, appliqué sur une fenêtre temporelle.

seulement pour le cas linéaire.

∗∗

seulement pour le cas non linéaire.

Tableau4.1: Liste des méthodes utilisées dans nos expérimentations.

taille m.

4. Du bruit additif gaussien d’écart type σ

b

est ajouté aux signaux.

5. Des canaux contenant uniquement du bruit gaussien sont ajoutés aux deux canaux

discri-minants pour un total de dcanaux.

Selon le type de problème, les données correspondent soit à un problème linéaire impliquant

deux gaussiennes, soit à un problème plus complexe de type ou-exclusif construit autour de 4

gaussiennes (Figure 4.3).

Méthodologie

Méthodes comparées Nous avons comparé de multiples méthodes de classification

d’échan-tillons temporels ou de fenêtres. Ces méthodes sont listées dans le Tableau 6.1a. La plupart de

ces méthodes ont été introduites dans les sections précédentes. Nous noterons tout de même la

présence de KF-GMM qui consiste à apprendre un classifieur à base de mélange de gaussiennes

sur les échantillons filtrés par le filtre appris par KF-SVM. Cette méthode a été ajoutée pour

illustrer la capacité de notre filtrage à être utilisé en tant que pré-traitement pour d’autres

méthodes de classification.

Paramètres des données simulées La taille ndes signaux générés est de 1000 échantillons

en apprentissage et validation et de 10000 en test. Pour avoir une comparaison juste avec

Avg-SVM, nous avons choisi l = 11 etn

0

= 5, ce qui correspond à un bon filtre moyenneur centré

sur l’échantillon courant (et donc non-causal). Nous avons fixé l’écart-type du bruit gaussien à

σ

b

= 3 et le délai maximal à τ = 5.

Validation et comparaison Les paramètres de régularisation de chaque méthode ont été

sélectionnés en évaluant les performances sur l’ ensemble de validation. Chaque expérimentation

a été répétée 10 fois avec des tirages différents et les erreurs de test ont été moyennées. Un test

de signe de Wilcoxon avec un risque α de 5% a été mis en œuvre pour vérifier la différence

statistique entre les taux d’erreur de test pour chaque méthode. L’erreur de test affichée est le

−2 0 2 −2 0 2 0 200 400 600 Canal 1 Classe 1 Canal 2 −2 0 2 −2 0 2 0 200 400 600 Canal 1 Classe 2 Canal 2

(a) Données de test simulées (err=0.404)

−2 0 2 −2 0 2 0 500 1000 Canal 1 Classe 1 Canal 2 −2 0 2 −2 0 2 0 500 1000 Canal 1 Classe 2 Canal 2

(b) Filtrage vaste marge KF-SVM (err=0.044)

Figure 4.4: Histogramme bivarié (a) pour des données simulées avec (σ

n

= 1, τ = 5) et (b) pour ces

mêmes données filtrées à l’aide du filtre obtenu par KF-SVM (gauche pour la classe 1 et droite pour la

classe 2)

0 5 10 15 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

Taille du bruit convolutionnel m

Taux d’erreur pour différentes tailles m du bruit convolutionnel dans le cas linéaire

SVM Avg−SVM KF−SVM SKF−SVM GMM KF−GMM WinSVM SWin−SVM

(a) Problème linéaire

1 2 3 4 5 6 7 8 9 10 0.32 0.34 0.36 0.38 0.4 0.42 0.44 0.46 0.48 0.5

Taille du bruit convolutionnel m

Taux d’erreur pour différentes tailles m du bruit convolutionnel dans le cas non−linéaire SVM Avg−SVM KF−SVM SKF−SVM GMM KF−GMM WinSVM WinGMKL

(b) Problème non linéaire

Figure 4.5: Erreur de test pour différentes longueurs de bruits convolutionnelm

rapport entre le nombre d’échantillons mal étiquetés et le nombre total d’échantillons dans le

signal de test.

Illustration du filtrage vaste marge

Tout d’abord, nous illustrons ici le comportement du filtrage vaste marge sur un exemple

simple (σ

n

= 1, τ = 5). La Figure 4.4 présente l’histogramme bivarié de la projection des

échantillons de chaque classe sur les deux canaux discriminants. On note sur la Figure 4.4aun

fort recouvrement entre les densités de probabilité des échantillons de chaque classe, dû au bruit

gaussien et au déphasage. Mais lorsque le filtrage vaste marge est appliqué au signal (Figure

4.4b), les classes sont mieux séparées et leur recouvrement est réduit (erreur de 4% au lieu de

40%).

Performances en test

Les résultats en taux d’erreur de test sont disponibles Figure4.5pour les problèmes linéaires

et non linéaires. Dans le cas linéaire, (Figure4.5a) nous pouvons voir que toutes les méthodes par

fenêtrage ont de meilleures performances. La méthode la plus performante est SWinSVM, suivie

de près par SKF-SVM, les deux méthodes étant statistiquement équivalentes (test de Wilcoxon).

Ces deux approches permettent d’effectuer une sélection de canaux ce qui peut expliquer leurs

0 5 10 15 20 25 30 0.32 0.34 0.36 0.38 0.4 0.42 0.44 0.46 0.48 0.5 Taille l du filtre

Taux d’erreur pour différentes tailles de filtre l dans la cas non−linéaire

SVM Avg−SVM KF−SVM

Figure4.6: Erreur de test pour différentes longueurs de filtrel dans le cas non linéaire

bons résultats en généralisation. WinSVM a des performances équivalentes à KF-SVM, ce qui

est consistent avec les résultats préliminaires de [Flamary 2010b] dans des problèmes de faible

dimension. De par la nature gaussienne du problème, on voit que KF-GMM permet une meilleure

généralisation que KF-SVM.

Pour le problème non linéaire (Figure 4.5b), les tests statistiques montrent la supériorité

des méthodes de filtrage vaste marge (KF-SVM, SKF-SVM et KF-GMM) en terme de

géné-ralisation. Cette fois-ci, la sélection de canaux est intéressante, principalement lorsque le bruit

convolutionnel est important. Les meilleurs résultats sont obtenus par KF-GMM car c’est le

mo-dèle qui correspond aux données après débruitage. Il est également intéressant de noter que les

méthodes avec filtrage, même avec un filtre moyenneur, sont plus performantes que WinGMKL.

Sélection de la longueur des filtres

La longueur des filtres l est un paramètre important qu’il convient de sélectionner. Une

approche pour sélectionner la longueur des filtres est d’utiliser des connaissancesa priori sur les

données. Par exemple, il semble logique d’utiliser un filtrage long lorsque les étiquettes changent

lentement de manière à pouvoir mieux éliminer le bruit. Il est aussi possible de sélectionner l

par validation croisée au prix d’un allongement des temps de calculs.

Sur la Figure 4.6 nous visualisons l’impact sur les performances de AvgSVM et KF-SVM

de la longueur des filtres avec un bruit convolutionnel de taille m = 5. Nous pouvons voir que

KF-SVM a des performances bien meilleures que le filtre moyenneur simple, notamment à partir

de l = 10. De plus, la région correspondant aux meilleures performances est beaucoup plus

large pour KF-SVM, ce qui montre que la méthode est moins sensible à ce paramètre et valide

les suppositions faites section 4.3.4. La figure suggère que l’on peut choisir une valeur pour l

simplement en déterminant la longueur du filtre qui mène aux meilleures performances pour

Avg-SVM.