• Aucun résultat trouvé

3.3 Démarche de classication

3.3.5 Mesures statistique pour évaluer les performances des classieurs (Courbe ROC, Vali-

Évaluer les performances d'une méthode de classication (classieur) est un enjeu de grande importance car ses performances sont utilisées pour l'apprentissage et la classication des données. Dans cette partie le principe de deux méthodes pour évaluer les performances des classieurs vont être présentées. Elles s'agissent des courbes ROC et la validation croisée.

a) Courbe ROC

Une Courbe ROC (Receiver Operating Characteristics) [101] est utilisée comme une technique pour vi-sualiser, organiser et sélectionner les classieurs en fonction de leurs performances. La courbe ROC a d'abord été utilisé dans la théorie de détection du signal pour représenter le compromis entre le taux de réussite et le taux de fausses alarmes. La courbe ROC est largement étudiée et appliquée dans le diagnostic médical depuis les années 1970.

Spackman [102] a été l'un des premiers chercheurs à avoir adopté les courbes ROC dans l'apprentissage automatique. Il a montré que les courbes ROC pouvaient être utilisées pour évaluer et comparer diérents algorithmes. Au cours des dernières années, l'utilisation des courbes ROC dans la recherche sur l'apprentissage automatique a augmenté parce que cette méthode graphique est simple et donne un bon indicateur pour évaluer la performance en classication. L'aire sous la courbe ROC, en abrégé AUC (Area Under Curve), fournit une valeur scalaire représentant la performance des courbes ROC décrites en deux dimensions. Un bref aperçu du principe de la courbe ROC et de ses caractéristiques est donné ci-dessous.

Pour introduire le principe des courbes ROC, prenons le cas d'un problème de classication en utilisant seulement deux classes. Formellement, chaque instance I est mappée à un élément de l'ensemble {p, n} des étiquettes de classes positives et négatives. Pour distinguer les instances prédites des instances réelles, les étiquettes {p0, n0}ont été utilisées pour les classes produites par le modèle. Étant donné un classieur et une

Tableau 3.8  Matrice de confusion pour un problème de classication à deux classes. Vérité

p n

Décision p'n' Faux Négatif Vrai NégatifVrai Positif Faux Positif instance, il y a quatre résultats possibles :

 Vrai Positive (VP) : si l'instance est positive et est classée comme positive.  Faux Positive (FP) : si l'instance est négative et est classée comme positive.  Vrai Négative (VN) : si l'instance est négative et est classée comme négative.  Faux Négative (FN) : si l'instance est négative et est classée comme positive.

En considérant un classieur et un ensemble d'instances (l'ensemble de test), les résultats de la classica-tion sont représentés dans une matrice de confusion (Tableau 3.8). A partir de cette matrice, il est possible de déduire plusieurs mesures traditionnelles de la performance en classication :

 Taux de vrais positifs (TVP) = (nombre de VP)/ (nombre totale des instances positives).  Taux de faux positifs (TVP) = (nombre de FP)/ (nombre totale des instances positives).  Précision = (nombre de VP+VN)/ (nombre totale des instances positives et négatives).  Sensibilité = (nombre de VP)/ (nombre de VP + nombre de FN).

 Spécicité = (nombre de VN)/ (nombre de VN + nombre de FP).

L'utilisation des méthodes scalaires, comme la précision, engendre une vue trop particulière de la per-formance du classieur parce qu'elles sont sensibles à la disproportion des classes. Ces méthodes exploitent dans le calcul les éléments correctement identiés par le classieur (VP et VN) sans la prise en compte des éléments mal identiés (FP et FN). En revanche, la courbe ROC utilise des mesures normalisées par les populations des classes : le TVP et le TFP. La courbe ROC est un graphe bidimensionnel où l'évolution du TVP (représenté sur l'axe des Y) est donnée en fonction du TFP (représenté sur l'axe des X). La gure 3.10 donne un exemple des courbes ROC de deux classieurs A et B. Le classieur A est meilleur que B puisque pour un taux de FP donné, son taux de VP est supérieur de celui de B.

Comparer la performance de deux classieurs équivaut à comparer deux courbes, ce qui n'est pas évident. En eet, selon l'espace sous la courbe ROC, la performance des classieurs peut varier car une zone d'espace peut être meilleure qu'une autre. Pour cette raison, il est préférable de réduire la courbe ROC à une valeur scalaire an de faciliter la comparaison entre classieurs [103105]. La valeur scalaire qui est généralement extraite de la courbe ROC est l'AUC. Dans le cas le plus simple, pour un classieur binaire, cette zone est dénie par la région située entre la courbe ROC et deux segments. Le premier est déni par les 2 points (0,0), (1,0) et le second par les 2 points (1,0), (1,1).

TFP 1 0.8 0.6 0.4 0.2 0 TVP 0 0.2 0.4 0.6 0.8 1 A B Parfait Aléatoire

Figure 3.10  Courbe ROC pour les classieurs : A, B , parfait et aléatoire. le classieur A est meilleur par rapport à B.

L'AUC est devenue une meilleure alternative à la précision pour évaluer un classieurs. L'AUC est équiva-lente à la probabilité qu'un classieur donne un meilleur rang à un élément positif par rapport à un élément négatif, tous deux choisis au hasard dans l'ensemble de données. Le classieur parfait possède une AUC égale à 1 et le classieur aléatoire possède une AUC égale à 0,5. Le but est d'approcher au classieur parfait, donc à une AUC égale à 1. Dans la gure 1, l'AUC du classieur A est plus grande que celle du classieur B. Donc, le classieur A est considéré comme ayant la meilleure performance.

b) Validation croisée

La validation croisée [106] est une méthode statistique d'évaluation et de comparaison des algorithmes d'apprentissage automatique en divisant les données en deux segments : l'un utilisé pour l'apprentissage du modèle et l'autre utilisé pour la validation du modèle. Dans la validation croisée, les ensembles d'apprentissage et de validation doivent se croiser dans des tours successifs de telle sorte que chaque point de données a une chance d'être validé. La forme de base de la validation croisée est la validation à k segments k −foldCross− validation. Les autres formes de validation croisée sont des cas spéciaux de la forme de base, par exemple la validation  Leave − one − outcrossvalidation.

Dans la validation croisée k − fold, les données sont d'abord divisées en k segments de taille égale. Par la suite, k itérations d'apprentissage et de validation sont eectuées de telle sorte qu'à chaque itération un segment diérent des données est retenu pour la validation alors que k−1 segments restants sont utilisés pour l'apprentissage. Dans l'apprentissage automatique, la validation croisée avec (k = 10) est la plus fréquente.

La validation croisée est utilisée pour évaluer ou comparer les algorithmes de classication comme suit : dans chaque itération, un ou plusieurs algorithmes de classication utilisent des k − 1 segments de données pour l'apprentissage en suite les modèles sont invités à faire des prédictions sur les données dans le segment de validation. La performance de chaque algorithme de classication sur chaque segment peut être suivie en utilisant une métrique de performance prédéterminée comme la précision ou l'AUC.

On note que cette méthode est très utile pour faire tourner et évaluer les algorithmes d'apprentissage dans le cas où on se dispose d'un nombre faible d'échantillon d'apprentissage.