• Aucun résultat trouvé

Etude de performance et analyse des résultats de la méthode proposée

Chapitre 4: EN-ReliefF nouvelle méthode de sélection d'attributs

4.6 Analyse et simulations

4.6.4 Etude de performance et analyse des résultats de la méthode proposée

a) Application sur des signaux simulés :

Dans cette partie pour vérifier la performance de EN-ReliefF et analyser ses résultats, on fixe le nombre d'attributs à 4 où trois attributs sont non pertinents et ne changent pas entre les classes et un seul attribut est pertinent et varie suivant la classe. Les trois attributs invariants sont des bruits qui suivent une distribution normale standard N(0,1). L'attribut variant suit une distribution normale avec une différence de moyennes ρ entre classe 1 et classe 2 (voir Figure 4.10).

Si la méthode combinée EN-ReliefF est efficace, il faut qu'elle choisisse cet attribut variant a4. On change ρ et pour chaque valeur on estime l'erreur en utilisant EN-ReliefF. Pour une valeur donnée de ρ, l'erreur est définie par le nombre relatif de fois au cours de 50 essais pour lesquels EN-ReliefF n'a pas réussi à choisir l'attribut variant. La Figure 4.11 montre l'erreur en fonction de ρ. Lorsque ρ augmente, c.-à-d. lorsque l'attribut devient plus important pour différencier les classes, l'erreur diminue, c.-à-d. la possibilité que EN-ReliefF ne choisisse pas cet attribut diminue. Ce qui implique une bonne performance de la technique proposée pour la sélection des attributs. A noter que pour ρ=0 l'erreur est très proche de la valeur 3 4⁄ , ce qui est normal puisque dans ce cas la sélection correspond à un tirage aléatoire.

85

Figure 4.10 Les attributs a1, a2, a3 et a4 sur les deux classes.

Figure 4.11 Erreur en fonction de ρ.

err

eu

86

b) Application sur des signaux réels :

Dans cette partie, nous étudions la performance de l'approche proposée sur les signaux réels décrits et présentés dans le chapitre 3.

Nous appliquons cette technique sur un signal vibratoire acquis à vitesse constante pour deux états (normal et défectueux). 27 attributs sont extraits : skewness, kurtosis, MPF, coefficient de dissymétrie, kurtosis fréquentiel, fréquence médiane, fréquence pic, entropie, 5*MPF, 10 énergies relatives des bandes de fréquences et 8 déciles. EN-ReliefF choisit trois des énergies relatives des bandes de fréquences. Pour bien illustrer les résultats on applique de nouveau l'approche proposée EN-ReliefF sur les mêmes signaux réels mais on extrait cette fois 19 attributs : skewness, kurtosis, MPF, coefficient de dissymétrie, kurtosis fréquentiel, fréquence médiane, fréquence pic, entropie, 5*MPF, 10 énergies relatives des bandes de fréquences. Les mêmes attributs (que dans le cas de 27 attributs) sont alors choisis.

Pour analyser la classification après sélection des attributs en utilisant la technique proposée EN-ReliefF, on calcule la matrice de confusion pour 70 observations (signaux), on divise le nombre d'observations erronées par le nombre total d'observations. Les Tableau 4.3 et Tableau 4.4 montrent respectivement les matrices de confusion en moyenne calculées en utilisant tous les attributs mentionnés précédemment c.-à-d. sans sélection et en utilisant seulement les attributs choisis par EN-ReliefF.

Tableau 4.3: Matrice de confusion en moyenne sans sélection des attributs.

Classe prédite 1(normal) 2(défectueux) C la ss e r ée lle 1 21 14 2 7 28

87

Tableau 4.4: Matrice de confusion en moyenne après sélection des attributs (EN-ReliefF, knn et k=10). Classe prédite 1(normal) 2(défectueux) C la ss e r ée lle 1 33 2 2 2 33

Le Tableau 4.5 montre l'erreur de classification moyenne en utilisant tous les attributs mentionnés précédemment et en utilisant seulement les attributs choisis par EN-ReliefF. Les classifieurs utilisés sont un classifieur basé sur les k plus proches voisins (knn) avec k = 10 et une machine à vecteurs support (SVM). Les résultats du SVM sont estimés par validation croisée.

Tableau 4.5: Comparaison de l'erreur de classification en utilisant deux classifieurs différents. Classifieur Erreur sans sélection des attributs

(Tous les attributs utilisés)

Erreur après sélection des attributs (EN-ReliefF)

Knn 0.3000 0.0571

SVM 0.0067(C=1;σ=3) 0.0133(C=3;σ=7)

Nous pouvons en déduire que EN-ReliefF est une méthode de sélection des attributs efficace qui n'induit pas de perte significative de performance de classification dans ce cas.

c) Stabilité de la méthode proposée EN-ReliefF :

Dans cette section, nous étudions la stabilité de la méthode proposée EN-ReliefF pour la sélection des attributs.

c.1) Stabilité en utilisant les signaux simulés :

Dans la première expérience on utilise les signaux simulés SIM1 dont la génération a été décrite dans le chapitre 3. Chaque classe comporte 50 signaux. On extrait cinq attributs de ces 100 signaux : MPF, Cd, Ca, Fmed, pf. On applique l'algorithme EN-ReliefF sur ces signaux avec six attributs

88

(X, MPF, Cd, Ca, Fmed, pf); X est un attribut indifférent (bruit). On répète 500 fois la sélection des attributs en utilisant la méthode EN-ReliefF. Des résultats similaires sont obtenus pour les 500 fois. EN-ReliefF choisit toujours MPF et Cd. Ceci montre une grande stabilité dans le processus de sélection des attributs.

Dans la deuxième expérience on génère 50 fois les signaux simulés SIM1. Chaque classe comporte 50 signaux. Considérons que δ est la distance entre les fréquences centrales des filtres des deux classes.

On extrait cinq attributs de ces 100 signaux : MPF, Cd, Ca, Fmed, pf. On applique l'algorithme EN-ReliefF sur ces signaux avec six attributs (X, MPF, Cd, Ca, Fmed, pf); où X est un attribut indifférent (bruit).

La sélection des attributs est répétée 50 fois pour chaque valeur de δ en utilisant la méthode EN-ReliefF. Pour chaque cas deux attributs sont sélectionnés.

Le Tableau 4.6 indique, pour chaque valeur de δ, le nombre de fois où chaque attribut est choisi. Il est à noter que lorsque δ = 0, ce qui signifie que les deux classes se confondent, les deux attributs à sélectionner sont choisis d'une façon aléatoire et EN-ReliefF n'est pas stable. Lorsque la distance entre les fréquences centrales des deux classes de signaux δ augmente, la stabilité de EN-ReliefF augmente.

Tableau 4.6: Nombre de fois où chaque attribut est choisi (50 essais).

δ X MPF Cd Ca Fmed pf 0 25 15 16 17 18 9 0.05 0 50 1 0 48 1 0.1 0 50 28 0 0 22 0.15 0 50 16 0 0 34 0.2 0 50 33 0 0 17 0.25 0 50 37 0 0 13 0.3 0 50 46 0 0 4

89

La Figure 4.12 montre respectivement les valeurs prises par les attributs X, MPF, Cd, Ca, Fmed et pf respectivement parmi les 100 signaux des deux classes. Les 50 premiers échantillons de chaque courbe représentent les valeurs de l'attribut pour la classe 1 et les 50 points suivants sont les valeurs de l'attribut pour la classe 2.

Nous pouvons remarquer que les résultats obtenus par EN-ReliefF confirment les informations déduites à partir des courbes illustrés à la Figure 4.12. En effet, MPF est l'attribut le plus important et ceci est bien évident comme la différence entre les valeurs de cet attribut dans la classe 1 et celles de la classe 2 est important. MPF et Fmed sont corrélés et comme EN-ReliefF supprime les attributs redondants, Fmed n'est pas choisi par cette méthode même si c'est un attribut important qui est sensible à la classe.

Figure 4.12 les six attributs parmi les deux classes (classe1:1...50, classe2:51...100) pour δ=0.3

La Figure 4.13 montre la variation de l'erreur de classification après la sélection des attributs en utilisant EN-Relief en fonction de δ. Le classifieur utilisé est un classifieur des k plus proches voisins (Knn) avec k = 10.

90

Nous constatons que lorsque la distance entre les fréquences centrales des deux classes de signaux δ augmente l'erreur de classification diminue, ce qui est très logique.

La Figure 4.14 montre la variation de l'erreur de classification sans sélection des attributs en fonction de δ. Le classifieur utilisé est le classifieur des k plus proches voisins (Knn) avec k = 10. Nous remarquons de même que lorsque la distance entre les fréquences centrales des deux classes de signaux δ augmente l'erreur de classification diminue.

Il convient de noter que les deux courbes des erreurs de classification avec sélection des attributs par EN-ReliefF et sans sélection des attributs sont quasi identiques. Ceci indique que la nouvelle technique de sélection des attributs EN-ReliefF conserve la même erreur de classification mais avec un nombre d'attributs plus petit donc EN-ReliefF conduit à réduire le temps de calcul.

91

Figure 4.14 Erreur de classification sans sélection en fonction de δ (distance entre les classes).

Dans cette partie, on utilise 400 signaux simulés SIM2 dont la génération a été décrite dans le chapitre 3.

On extrait cinq attributs de ces 400 signaux : MPF, Cd, Ca, Fmed, pf. On applique l'algorithme EN-ReliefF sur ces signaux avec six attributs (X, MPF, Cd, Ca, Fmed, pf); où X est un attribut indifférent (bruit).

La sélection des attributs est répétée 50 fois pour chaque valeur de dm (différence entre les moyennes des distributions normales des fréquences de coupure basses des deux classes) en utilisant la méthode EN-ReliefF. A chaque fois il est demandé que deux attributs soient choisis.

Tableau 4.7 montre pour chaque valeur de dm le nombre de fois où chaque attribut est choisi. Il faut noter que lorsque dm = 0, ce qui implique que les deux classes de signaux se confondent, les deux attributs à sélectionner sont choisis d'une façon aléatoire et EN-ReliefF n'est pas stable. Lorsque la distance entre les moyennes des distributions des deux classes dm augmente la stabilité de EN-ReliefF augmente. Les résultats de sélection des attributs obtenus sont très logiques comme

92

MPF et Ca sont les attributs les plus importants. MPF et Fmed sont corrélés, comme EN-ReliefF enlève les attributs redondants alors Fmed n'est pas choisi.

Tableau 4.7: Nombre de fois parmi 50 essais chaque attribut est choisi en fonction de dm.

dm x MPF Cd Ca Fmed pf 0 18 21 14 20 14 13 0.05 8 32 8 29 1 22 0.1 2 38 8 46 0 6 0.15 1 43 1 48 0 7 0.2 0 46 8 44 0 2 0.25 0 50 1 46 0 3

c.2) Stabilité en utilisant les signaux réels:

Dans cette dernière partie, nous testons la stabilité de la méthode EN-ReliefF sur des signaux réels dans les circonstances expliquées précédemment. Ce sont les mêmes signaux réels que ceux décrits dans le chapitre 3 (cf. section 3.4.3). Pour étudier la stabilité de la technique proposée EN-ReliefF sur un signal réel, on l'applique sur un signal vibratoire acquis à vitesse constante pour deux états (normal et défectueux). 27 caractéristiques sont extraites : skewness, kurtosis, MPF, coefficient de dissymétrie, kurtosis fréquentiel, fréquence médiane, fréquence pic, entropie, 5 * MPF, dix énergies relatives des bandes de fréquences, huit déciles. On répète la sélection des attributs 500 fois sur les mêmes signaux en utilisant la méthode EN-ReliefF. On obtient toujours les mêmes résultats pour les 500 tests. EN-ReliefF choisit toujours les même trois énergies relatives des bandes de fréquences. Ceci montre une grande stabilité dans le processus de sélection des attributs dans le cas des signaux réels.

93

4.7 Conclusion

De nombreuses techniques de sélection des attributs existent, mais chaque méthode présente un ou plusieurs inconvénients. Par exemple, la méthode de sélection des attributs Relief-F est rapide mais elle présente l'inconvénient de ne pas enlever les attributs redondants. Dans ce chapitre, nous avons proposé une nouvelle technique EN-ReliefF pour une meilleure sélection des attributs. Nous avons fait la simulation d'un algorithme qui extrait, à partir des données obtenues par l'algorithme EN, les attributs corrélés et les regroupe en ensembles. La simulation de la nouvelle technique EN-ReliefF a été faite. Les résultats de cette approche sur des signaux simulés et des signaux réels ont montré qu'elle est très efficace, elle améliore la méthode Relief-F par la suppression des attributs redondants et permet d'atteindre de très bonnes performances de classification. Ensuite, nous avons étudié la stabilité de cette méthode de sélection des attributs. Les expériences montrent que EN-ReliefF a une grande stabilité dans la sélection des attributs soit en appliquant cette méthode sur des signaux simulés ou réels issus d'une machine tournante comme cette méthode choisit toujours les mêmes attributs. En outre, l'erreur de classification après sélection par EN-ReliefF diminue lorsque la distance entre les fréquences centrales des signaux de deux classes augmente. Et donc pour l'ensemble des expériences réalisées, EN-ReliefF est une bonne méthode de sélection des attributs qui ne provoque pas d'augmentation de l'erreur de classification et présente une bonne stabilité de sélection. Dans le chapitre suivant, on propose une nouvelle méthode de sélection des attributs à base de réseaux de neurones.

94

Chapitre 5: Nouvelle méthode de sélection d'attributs

Documents relatifs