• Aucun résultat trouvé

3.2 Crit`eres d’´evaluation des mod`eles de classification

3.2.1 Taxonomies et notations

3.2.1.1 Taxonomies

Plusieurs crit`eres d’´evaluation sont ´etablis dans la litt´erature, on peut citer entre autres certaines cat´egories principales :

1. Crit`eres bas´es sur la pr´ecision, comme par exemple : taux de bonnes classifica-tions, pr´ecision, rappel, F-mesure, crit`eres bas´es sur une courbe ROC, analyses du tableau de confusion. Ce sont les crit`eres principaux et les plus couramment utilis´es.

2. Crit`eres bas´es sur l’entropie, comme par exemple l’entropie crois´ee, le crit`ere propos´e par Kononenko et Bratko [88], la mesure de divergence dirig´ee, la

mesure de r´ecompense d’information, le gain d’entropie [48, 18], la mesure d’´evaluation propos´ee par Ben Amor et al. [10].

3. Complexit´e du classifieur (par exemple longueur maximale, nombre de nœuds, nombre de feuilles dans le cas d’un arbre de d´ecision).

4. Interpr´etabilit´e du mod`ele de classification. Ce crit`ere est assez subjectif. Les techniques d’arbres de d´ecision sont r´eput´ees pour leur interpr´etabilit´e. Un classifieur simple est souvent plus interpr´etable.

5. Vitesse : `a la fois le temps n´ecessaire pour la construction du classifieur et pour classer un exemple.

6. Robustesse : la sensibilit´e de la m´ethode par rapport `a des modifications mi-neures de la base d’apprentissage. Cette capacit´e permet de r´esister au bruit pr´esent dans les donn´ees.

7. Capacit´e de passage `a l’´echelle.

Parmi ces crit`eres, les 5 premiers concernent les mod`eles de classification. Les 3 derniers concernent les m´ethodes de construction de mod`eles. Le cinqui`eme crit`ere concerne `a la fois les m´ethodes de construction de mod`eles et les mod`eles eux-mˆemes. En statistique, pour l’´evaluation d’un mod`ele, on s’int´eresse plutˆot aux 3 premiers crit`eres. Entre autres, le crit`ere d’information bay´esien BIC (Bayesian Information Criterion) et le crit`ere d’information AIC d’Akaike (Akaike Information Criterion) sont souvent utilis´es mais plutˆot pour l’´evaluation de la capacit´e de description des donn´ees d’un mod`ele statistique. Ces crit`eres sont une combinaison de la qualit´e d’ajustement (estim´ee par une mesure statistique comme le χ2 sur la base d’appren-tissage) et la complexit´e d’un mod`ele. Ainsi, ils permettent d’arbitrer entre com-plexit´e et qualit´e d’ajustement dans la s´election de mod`eles sachant que, en g´en´eral, il existe un compromis entre la complexit´e et la qualit´e du mod`ele statistique. En particulier, Ritschard et Zighed [136, 137] ont propos´e d’adapter ces mesures au cas des arbres de d´ecision. Ritschard [135] a remarqu´e que l’arbre correspondant `a un BIC minimum assure en moyenne le meilleur taux de bonnes classifications.

Une liste compl`ete des mesures avec leurs descriptions, ainsi que l’´etude empirique de ces mesures se trouvent, entre autres, dans les travaux de Caruana [31, 32, 33].

Dans [33], les mesures d’´evaluation sont class´ees en 3 cat´egories selon la mani`ere d’interpr´eter des r´esultats obtenus, sachant que cette taxonomie ne couvre pas les mˆemes crit`eres que la pr´ec´edente :

1. Mesures li´ees `a un seuil (threshold metric) : pour cette cat´egorie de mesures, on ne s’int´eresse qu’`a savoir si la valeur donn´ee par le classifieur est inf´erieure ou sup´erieure `a un seuil fix´e. Il n’est pas important de savoir si cette valeur est proche du seuil ou pas. Toutes les mesures qui sont calcul´ees apr`es avoir compar´e la valeur donn´ee par le classifieur et le seuil appartiennent `a cette cat´egorie, y compris la plupart des mesures recens´ees ici : la pr´ecision, lift mesure, taux de vrais positifs, le coefficient de corr´elation,...

2. Mesures li´ees `a un ordonnancement (rank metrics) : dans le cas `a deux classes, positive et n´egative, on s’int´eresse `a savoir comment les cas positifs sont or-donn´es avant les cas n´egatifs mais pas directement `a la valeur donn´ee par le

3.2 Crit`eres d’´evaluation des mod`eles de classification 97 classifieur. L’AUC (Area Under the Curve) et la pr´ecision moyenne sont dans cette cat´egorie. Cette cat´egorie est largement utilis´ee en recherche d’informa-tion.

3. Mesures li´ees `a des probabilit´es : ces mesures prennent en compte telles quelles les valeurs num´eriques fournies par un classifieur. Ces valeurs sont interpr´et´ees comme les probabilit´es que l’exemple appartienne `a une classe. L’erreur carr´ee et l’entropie crois´ee sont dans cette cat´egorie.

Pour chaque cat´egorie de classifieurs, un ensemble de crit`eres propres est d´efini. Ces crit`eres sont sp´ecifiques `a la cat´egorie en question et servent `a comparer les classifieurs de la mˆeme cat´egorie. Par exemple, dans [63] les crit`eres suivants pour les arbres de d´ecision sont ´etablis :

1. Taux de bonnes classifications sur les nouveaux exemples (`a maximiser) 2. Nombre de r`egles (nombre de feuilles) (`a minimiser)

3. Nombre de nœuds (`a minimiser)

4. Nombre de pr´e-conditions dans les r`egles (`a minimiser)

5. Nombre moyen d’exemples support´es par une r`egle (`a maximiser) 6. Nombre moyen de tests par exemple (`a minimiser).

Parmi ces crit`eres, le dernier influence directement la vitesse de classement. Les deuxi`eme, troisi`eme et quatri`eme sont des mesures sur la taille des arbres. Les rap-ports entre ces crit`eres ont ´et´e ´etudi´es. Dans plusieurs cas, l’interpr´etabilit´e et la sensibilit´e bas´ees sur une analyse g´eom´etrique des arbres de d´ecision sont consid´e-r´ees [8]. Pour des arbres de d´ecision flous, on peut aussi ´evaluer le volume de l’espace flou et le gain de performance par rapport `a des m´ethodes classiques.

3.2.1.2 Notations

Dans ce chapitre, on utilise les notations suivantes. Soit ξT = {e1, e2, ..., eN} l’ensemble des exemples qui forment la base de test. Supposons qu’un exemple e appartienne `a la classe e(C) de l’ensemble des classes C = {C1, C2, .., Cn}. Si n = 2, pour simplifier, on parle de classe positive (C2) et de classe n´egative (C1). Ces deux classes sont ´etiquet´ees respectivement par 1 et 0 si on pr´ef`ere des valeurs num´eriques pour les classes.

Dans le cas de classification probabiliste, chaque exemple est associ´e `a une dis-tribution de probabilit´e (PC1(e), PC2(e), .., PCn(e)), dans laquelle PCi(e) est la pro-babilit´e que l’exemple e appartienne `a la classe Ci. C’est la cible du classifieur. La distribution de probabilit´e pour un exemple e qui appartient `a une classe unique e(C) est sous la forme (0, .., 1, .., 0), o`u 1 correspond `a la classe e(C).

Supposons que, a priori, la probabilit´e qu’un exemple e appartienne `a la classe C de C soit Pe(C). Aussi, a priori, la distribution originale de probabilit´e est :

Cette distribution de probabilit´e est estim´ee `a partir des connaissances a priori (sans regarder la base de test) comme la fr´equence de chaque classe dans la base d’apprentissage.

Supposons que, a posteriori, le classifieur retourne la probabilit´e P

e(C) qu’un exemple e soit dans la classe C. Aussi, a posteriori, la distribution pr´edite de proba-bilit´e est (P

e(C1), P

e(C2), .., P e(Cn)).

Jusqu’ici, on a alors trois distributions de probabilit´e (PC1(e), PC2(e), .., PCn(e)), (Pe(C1), Pe(C2), .., Pe(Cn)) et (P

e(C1), P

e(C2), .., P

e(Cn)). Pour avoir une id´ee sur la pr´ecision de la classification (c’est-`a-dire la coh´erence entre la distribution pr´edite et la distribution originale), il suffit de comparer la premi`ere et la troisi`eme distri-butions. Il est souhaitable qu’elles soient identiques. Pour ´evaluer la contribution de l’algorithme d’apprentissage sur l’identification de la classe des exemples, il faut prendre en compte la deuxi`eme distribution.

Dans le cas `a deux classes, un classifieur donne une valeur num´erique entre 0 (classe n´egative ou classe C1) et 1 (classe positive ou classe C2). Cette valeur est la probabilit´e, selon le classifieur, que cet exemple soit dans la classe positive, autrement dit c’est P

e(C2). On a :

Pe(C1) = 1 − Pe(C2) Grˆace `a ce lien, on parle donc souvent de P

e(C2) au lieu de (P

e(C1), P e(C2)). Avec une distribution de probabilit´e comme r´esultat de classification, si l’on souhaite obtenir une seule classe, on doit choisir la classe la plus probable. Dans ce choix, on peut ´eventuellement int´egrer d’autres facteurs tels que le coˆut d’erreur. Par exemple, dans le cas `a deux classes, on fixe un seuil s. Si P

e(C2) ≥ s alors la classe pr´edite est positive ; sinon la classe pr´edite est n´egative. s est choisi selon le probl`eme pos´e. Plus s est grand, plus on est prudent (car le coˆut d’erreur est plus important) pour d´ecider si un exemple appartient `a la classe positive. Dans plusieurs cas o`u les coˆuts d’erreur sont identiques ou inconnus pour tous les exemples, s est fix´e `a 0.5. h hh hh hh hh hh hh hh hh h Classe r´eelle Classe pr´edite C1 C2 ... Cn C1 N11 N12 ... N1n C2 N21 N22 ... N2n ... ... ... ... ... Cn Nn1 Nn2 ... Nnn

Tab.3.1 – Matrice de confusion

On consid`ere le cas le plus simple o`u chaque exemple appartient `a une seule classe et le r´esultat fourni par le classifieur est trait´e de mani`ere `a ce qu’on obtienne une seule classe. Dans ce cas, la matrice de confusion contient des informations sur la classification r´eelle et la classification pr´edite faite par un mod`ele de classification. Il s’agit d’une table de contingence confrontant les classes pr´edites (colonnes) et les

3.2 Crit`eres d’´evaluation des mod`eles de classification 99 classes d´esir´ees (lignes) pour les exemples de la base de test. Dans le tableau 3.1, Nij

est le nombre d’exemples de la classe Ci class´es dans la classe Cj. La performance d’un mod`ele de classification est g´en´eralement ´evalu´ee en se basant sur les informa-tions figurant dans cette matrice. En r´eduisant cette matrice poss´edant n2 nombres `a une seule valeur num´erique pour ´evaluer la performance d’un classifieur, on perd la richesse d’information donn´ee par la matrice. Mais cela est n´ecessaire, car d’une part cela donne une information plus synth´etique et plus visuelle, et d’autre part cela sert `a la comparaison entre les classifieurs. Il est donc n´ecessaire de caract´eriser les mesures d’´evaluation et de concevoir un ensemble de mesures qui s’adaptent au mieux au probl`eme de classification consid´er´e.

Dans la suite, nous ´etablissons un ´etat de l’art des mesures d’´evaluation. D’abord, un survol rapide des mesures d’´evaluation principales est pr´esent´e. Ensuite, nous nous concentrons sur des crit`eres provenant de la th´eorie de l’information.