• Aucun résultat trouvé

Les indicateurs qui permettent de mesurer la qualité d’un classifieur peuvent être calculés à partir d’une matrice de confusion. Soit M un modèle généré par le classifieur et

t un nouveau jeu de test. La matrice de confusion MC présente dans ses lignes les valeurs réelles de l’attribut cible pour toutes les instances du jeu de test (i.e. l’attribut cible est

la classe du cas) et dans ses colonnes les valeurs prédites de ce dernier. Le principe de la matrice de confusion est de compter le nombre de fois où des cas de la classe A ont été rangées dans la classe B. La matrice de confusion peut être représentée à travers quatre types de réponses :

Vrais Positifs (VP) (en anglais appelés "True Positives") : représentent les

éle-ments étiquetés positifs qui sont correctement prédits.

Vrais Négatifs (VN) (en anglais appelés "True Negatives") : représentent les

éléments étiquetés négatifs qui sont correctement prédits.

Faux Positifs (FP) (en anglais appelés "False Positives") : représentent les

élé-ments étiquetés négatifs qui sont mal prédits.

Faux Négatifs (FN) (en anglais appelés "False Negatives") : représentent les

éléments étiquetés positifs qui sont mal prédits.

Dans le cas d’un classifieur binaire c’est à dire un classifieur qui prédit seulement deux classes : la première contient des données étiquetées positifs et la deuxième contient des données étiquetées négatifs, on obtient cette matrice de confusion présentée dans la figure 41.

Figure 41 – Matrice de confusion pour un calssifieur binaire.

Un classifieur parfait aurait une matrice de confusion diagonale c’est à dire qu’il n’au-rait que des VP et des VN.

Une matrice de confusion multi-classes permet d’évaluer plus que deux classes. L’éva-luation de chaque classe se fait en indiquant le nombre de prédictions correctes et incor-rectes. Les métriques utilisées pour une classification multi-classes sont les mêmes que

dans une classification binaire. En effet, pour chaque classe (Ci), il suffit de regrouper toutes les autres classes dans une seconde classe (Cj) et de représenter les informations

V PCi , F NCi, F PCi et le V NCi pour la première classe par rapport à Cj. Pour notre système de diagnostic qui permet de distinguer 11 classes décrites précédemment, une illustration de V PN, F NN, F PN et V NNpour la classe N est présentée dans la figure 42 et pour la classe F2 est présentée dans la figure 43.

Figure 42 – Illustration de V PN, F NN, F PN et V NN pour la classe N.

Figure 43 – Illustration de V PF2, F NF2, F PF2 et V NF2 pour la classe F2.

Bien que la matrice de confusion nous donne beaucoup d’informations sur la qualité du système de classification, nous pouvons ainsi calculer d’autres métriques plus concises comme la "Précision" (en anglais "precision"), le "Rappel" (en anglais "recall"), le score

F-mesure (en anglais "F1 score"), le "taux de bonne classification" (en anglais "average ac-curacy"), etc. Dans notre étude, nous adoptons le taux de bonne classification, la précision

et le rappel comme des mesures de performances. En effet, le taux de bonne classification nous informe sur le taux de bonne détection de fautes, la précision nous permet d’étudier

le taux des prédictions positives et le rappel nous indique le taux d’observations positives ayant été correctement détectées par le classifieur. Pour une classification multi-classes, ces mesures sont décrites à travers ces équations.

P récisioni : Mesure le nombre de cas que le classificateur a correctement assigné à la classe Ci divisé par le nombre de cas attribués à cette classe.

Précisioni= VPi

VPi+ FPi (V.1)

Rappeli (ou Sensibilité) = Mesure la proportion de cas correctement affectés à la classe Ci divisée par le nombre de cas appartenant à cette classe.

Rappeli= VPi

VPi+ FNi (V.2)

Pour calculer la précision et le rappel moyen de toutes les classes, nous pou-vons utiliser soit une macro-moyenne ou une micro-moyenne. La macro-moyenne consiste à calculer la précision ou le rappel pour chaque classe puis à calculer la moyenne des classes [Sokolova and Lapalme (2009)]. La micro-moyenne fait le calcul global de la précision ou du rappel sur l’ensemble des classes. Dans notre étude, nous avons choisi de calculer la macro-moyenne de la précision (notée PrecisionM) et la macro-moyenne du rappel (notée RappelM) car pour le calcul de ces mesures finales, toutes les classes ont le même poids. Elles sont décrites respectivement à travers les équations V.3 et V.4.

PrecisionM = Pl i=1 VPi VPi+FPi l (V.3) RappelM= Pl i=1 VPi VPi+FNi l (V.4)

avec l est le nombre de classes.

Average Accuracy (AC) : Mesure le taux de bonne classification. Elle est intro-duite dans cette équation :

AC =

Pl

i=1VPi+FNVPii+VN+FPii+VNi

Couverture : C’est une mesure que nous introduisons afin de mesurer le taux de bonne classification en prenant en compte le nombre de cas non identifiés puisque

AC calcule le taux de bonne classification en prenant en compte le nombre de

cas mal classés. La couverture est définie comme suit :

Couverture = 1 − Nnid

N (V.6)

avec N est le nombre de cas de la base et Nnidest le nombre de cas non identifiés.

2 Résultats

Afin d’estimer la fiabilité de notre système et vérifier la stabilité des résultats obtenus, nous avons utilisé une validation croisée stratifiée de 10 folds. Les tests sont effectués sur un processeur 4 cœurs avec 32 GO de RAM. La méthode proposée a été répétée

10 000 fois pour effectuer les expérimentations décrites ci-dessous. Dans cette section,

nous présentons comment définir le "seuil de décision" et ensuite nous donnons le taux de bonne classification de notre approche ainsi que l’influence du nombre de K cas à prendre en compte pour la construction de la solution et l’indice de dissimilarité choisie sur la performance obtenue.