• Aucun résultat trouvé

CHAPITRE 5 RÉSULTATS

5.2 Évaluation des cartes de contrôle basées sur la BOZ

5.2.2 Application à un cas réel : base de données de SPAM

Dans cette section, les cartes de contrôle basées sur les limites de la BOZ sont appliquées à la base de données SPAM et comparées aux cartes d’Hotelling.

— Description de la base de données

Cette base de données ne reflète pas un processus de fabrication, mais le concept en reste proche. Les paramètres machines sont équivalents aux variables représentant le nombre d’ap- paritions de catégories de mots. Les classes non-spam, spam sont équivalentes aux classes d’observations fonctionnelles et défauts. La base de données de SPAM E-mail a été créée par Mark Hopkins et al. et offerte par George Forman . La base de données a été utilisée pour des objectifs de classification. Les spams inclus dans la base de données proviennent de post- master et d’individus expéditeurs de spam. Les non-spams sont des e-mails professionnels ou personnels. Ces données sont utiles si nous désirons développer un filtre de courriels. Cette base de données contient 4601 observations dont 39.4% représentent des spams. Elle inclut 58 attributs dont 57 sont continues et 1 variable binaire qui indique la classe du courriel (spam ou non spam). Les attributs sont résumés dans le tableau 5.3.

La base de données est répartie en un sous-ensemble d’apprentissage de 1300 et un sous- ensemble de test de 1500 choisies aléatoirement. Les observations restantes n’ont pas été utilisées.

— Présentation des cartes de contrôle pour la base SPAM

Pour développer les cartes de contrôle de la base de données de SPAM, les étapes expliquées dans le chapitre 4 sont suivies. Parmi les 57 variables, 50 sont choisies selon le critère de séparation ou de dépendance. L’ordre basé sur les données fonctionnelles avec le critère de dépendance permet d’éliminer les variables V 2, V 19, V 34, V 46, V 50 et V 56.

Cependant, l’ordre basé sur le critère de séparation élimine les variables suivantes V 4, V 6, V 17, V 20, V 48, V 55 et V 56.

Pour en choisir un seul critère sur lequel la conception des cartes est basée, nous visualisons les données obtenues selon les 2 ordres proposés.

La figure 5.12 visualise les données SPAM ordonnées selon le critère de dépendance et de séparation. Les 2 critères d’arrangement donnent des résultats comparables au niveau de la visualisation des relations entre les variables, ainsi qu’au niveau de la séparation des données. L’ordre gardé est celui basé sur la séparation des données. La validation croisée en fonction des données d’apprentissage fonctionnelles et défaut a permis de définir les paramètres de la carte BOZ comme suit :

Tableau 5.3 Description des données de la base de SPAM. Attributs Nombre et type Description Intervalle V 1, .., V 48 48, réels pourcentage de mots dans le courriel, un mot est un ensemble de caractère al- phanumérique [0, 100] V 49, .., V 54 6, réels pourcentage de caractère CHAR dans le courriel, un mot est un ensemble de caractère al- phanumérique [0, 100] V 55 1, réel longueur moyenne de séquence continue lettres en majuscules 1 V 56 1, entier longueur de la plus longue sé- quence conti- nue lettres en majuscules [1, ...]

V 57 1, entier nombre total

de lettre ma- juscule

[1, ...]

la matrice de projection.

— Les limites des segments de fonctionnement sont définies à une distance c = 0 des minimum et maximums des segments de fonctionnement

— Les zones vides sont considérées lorsque leur largeur dépassent le seuil s = 0.05 — Les limites des zones vides sont définies en réduisant leurs largeurs d’une distance

e = 0.005

Vu que les segments de données ne sont pas très bien séparables, nous choisissons de visualiser les segments avec les polygones colorés. Ainsi, la distinction entre les zones qui contiennent un seul segment et les zones qui contiennent plusieurs segments superposés est plus facile.

Figure 5.12 Données SPAM ordonnées avec le critère de séparation (figure en haut) et le critère de dépendance (figure de dessous).

Un segment est, ainsi, plus clair à limiter et à distinguer. Vu le nombre important de données de test, la classification des observations en données fonctionnelles et dérives a été faite automatiquement. Les cartes de contrôle sont utilisées pour diagnostiquer les défauts détectés (ou au moins certaines).

Un exemple de cartes développées est illustré dans la figure 5.13 Les limites de contrôle ne sont pas très lisses. De plus, beaucoup de zones vides apparaissent à l’intérieur de la BOZ. Au départ, une première analyse des cartes nous a poussés à penser que nous devons enlever les valeurs aberrantes des données d’apprentissage. Essayant de faire ceci, environ 20% des données allaient être supprimées. Ainsi, toutes les données sont gardées pour conception des cartes. Les cartes sont toujours celles avec des zones vides. Certaines zones de la BOZ incluent une seule valeur par observation. De plus avec ces données, nous avons obtenu des cartes avec des segments de fonctionnement plus ou moins superposés. En effet, il y a une région qui regroupe les 3 segments et quelques petites régions généralement proches des limites de la BOZ ou uniquement un segment apparaît. Par exemple entre les attributs V35

et V32 uniquement, pour les valeurs hautes, uniquement la couleur verte apparaît. Le fait

que les limites ne soient pas lisses et que les segments ne soient pas trop distinguables est dû au fait que les attributs ne sont pas parfaitement dépendants et que les données ne sont pas séparables. Toutefois, ce fait n’empêche pas la classification des données. Pour classer

Figure 5.13 Exemple de carte de contrôle BOZ avec les données SPAM.

les nouvelles observations, nous nous fions aux quelques zones fonctionnelles séparables, aux limites de la BOZ et aux zones vides de la BOZ. Dans la section 5.2.2, les cartes BOZ des données SPAM sont évaluées et comparées aux cartes d’Hotelling.

— Évaluation de la carte de contrôle de SPAM

La carte proposée appliquée à la base de données de SPAM est évaluée et comparée à la carte de Hotelling. Le taux de classification correcte, le taux de détection de défauts et le taux de fausses alarmes sont déterminées pour 2 types de cartes. Le tableau 5.4 résume ces taux de classification.

Tableau 5.4 Résultats de classification des données SPAM avec les cartes BOZ et la carte d’Hotelling.

Hotelling outil proposé

Taux de classifica- tion correct 69.3% 76% Taux de détection de défaut 66.8% 77.3% Taux de fausses alarmes 71.8% 74.7%

Le tableau 5.4 montre que les cartes BOZ donnent un meilleur taux de classification que les cartes d’Hotelling. En général, les cartes BOZ améliorent la classification des nouvelles obser- vations de plus que 6%. De plus, elles génèrent 3% de moins de fausses alarmes et permet de détecter 77.3% des défauts comparés à 66.8% détectées avec les cartes d’Hotelling. Ce qui est, également, intéressant a remarquer est que les cartes BOZ garantissent un certain équilibre entre le taux de détection de défauts et le taux de classification des points fonctionnels. En

conclusion, les résultats donnés par la carte de contrôle BOZ sont meilleurs que ceux des cartes de contrôle de référence. Le diagnostic étant impossible avec les cartes de Hotelling, il est fait uniquement avec les cartes BOZ. Le diagnostic des dérives montre que les défauts sont principalement dus à des dépassements des limites supérieures ou à un passage dans les zones vides au niveau des variables V1, V2 et V44.

5.3 Comparaison de la performance de la carte BOZ avec la carte d’Hotelling