• Aucun résultat trouvé

Mesures bas´ees sur la th´eorie de l’information

3.2 Crit`eres d’´evaluation des mod`eles de classification

3.2.3 Mesures bas´ees sur la th´eorie de l’information

En plus des mesures universelles qui peuvent ˆetre appliqu´ees dans plusieurs ap-plications, il y a des mesures sp´ecifiques `a un domaine donn´e. Par exemple, SLQ (Slac Q-Score) a ´et´e d´evelopp´e pour certains probl`emes de physique des particules [31]. Cependant, dans le cadre de cette th`ese, on ne s’int´eressera pas `a cette cat´egorie de mesures.

La plupart des mesures cit´ees ci-dessus, sauf le coefficient Kappa, ´evaluent la relation entre les classes pr´edites et les classes r´eelles des exemples d’une base de test en ne s’appuyant que sur des informations obtenues post´erieurement (information conditionnelle d’un classifieur) et ne prennent pas en compte les caract´eristiques du probl`eme consid´er´e (information ant´erieure). La difficult´e de chaque probl`eme n’est pas prise en compte lors de l’´evaluation du r´esultat. Toutefois, la caract´erisation d’une base de donn´ees en apprentissage est elle-mˆeme un probl`eme majeur, voir par exemple [73]. Nous ne creusons pas cette probl´ematique dans le cadre de cette th`ese. Le r´esultat obtenu est ainsi biais´e par la complexit´e du probl`eme. Si un probl`eme est « facile » il y a plus de chances qu’un exemple soit correctement class´e. Aussi, avec moins d’effort, on obtient un bon r´esultat. En regardant seulement le r´esultat de classification, on n’a aucune id´ee pr´ecise sur le succ`es du classifieur. Cela rend impossible de comparer les r´esultats obtenus avec des probl`emes diff´erents.

3.2.3 Mesures bas´ees sur la th´eorie de l’information

Dans la suite de cette section, les crit`eres bas´es sur la th´eorie de l’information pour l’´evaluation de classifieurs sont pr´esent´es et formalis´es sous un formalisme com-mun. La plupart de ces mesures sont propos´ees pour la classification probabiliste et elles prennent la classification classique (la cible est une classe et le classifieur affecte une classe unique `a un exemple) en cas particulier. Elles ´evaluent habituellement la coh´erence entre la distribution de probabilit´e pr´edite par le mod`ele de classification et la distribution de probabilit´e r´eelle pour chaque exemple puis les agr`egent sur l’ensemble des exemples pour obtenir l’´evaluation globale.

La mesure bas´ee sur l’entropie crois´ee est d´ecrite dans [31] pour le cas `a deux classes : n´egative (C1) et positive (C2). Elle mesure combien les valeurs pr´edites sont proches de la valeur r´eelle. Dans le cas simple, pour tout exemple e on a soit PC1(e) = 1 et PC2(e) = 0, soit PC1(e) = 0 et PC2(e) = 1. Rappelons que la probabilit´e pr´edite est P

e(C2) qui indique la probabilit´e que l’exemple soit dans la classe C2 - classe positive. ´Evidemment, si PC1(e) = 1 et PC2(e) = 0 c’est-`a-dire que l’exemple est dans la classe C1, une petite probabilit´e P

e(C2) est pr´ef´er´ee. Dans le cas contraire, une grande probabilit´e P

pour un exemple e est d´efinie par :

entropie-crois´ee(e) = −PC1(e) log P

e(C1) − PC2(e) log P e(C2)

L’entropie crois´ee pour une base de test est d´efinie comme la somme des entropies crois´ees de tous les exemples de la base.

entropie-crois´ee(ξT) =

N

X

i=1

entropie-crois´ee(ei)

Pour rendre ind´ependante l’entropie crois´ee de la taille de la base de test, l’entropie crois´ee moyenne est d´efinie par la somme des entropies crois´ees pour chaque exemple divis´ee par le nombre d’exemples dans la base de test.

entropie-crois´ee-moyenne(ξT) =

PN

i=1entropie-crois´ee(ei) N

La mesure de divergence dirig´ee de Kullback-Leibler est ´egalement utilis´ee. Elle mesure la distance de Kullback-Leibler entre la distribution de probabilit´e pr´edite et la distribution de probabilit´e r´eelle pour un exemple.

dKL((PC1(e), .., PCn(e)), (Pe(C1), .., Pe(Cn))) =

n

X

i=1

PCi(e) log PCi(e) P

e(Ci)

Dans le cas `a deux classes o`u la distribution de probabilit´e (PC1(e), PC2(e)) prend comme valeur l’une des deux distributions (1,0) et (0,1), la divergence dirig´ee se r´eduit `a l’entropie crois´ee :

entropie-crois´ee(e) = −PC1(e) log Pe(C1) − PC2(e) log Pe(C2) = Pe(C2) log Pe(C2) P e(C2) + Pe(C1) log Pe(C1) P e(C1) avec comme convention : 0 log 0 = 0.

Un inconv´enient des mesures ci-dessus est que leurs valeurs sont infinies quand un exemple est compl`etement mal classifi´e, comme par exemple lorsque la distribution r´eelle est (1, 0) et la distribution pr´edite est (0, 1). D’ailleurs, elles ne tiennent pas compte de la distribution de probabilit´e a priori.

Dans [9, 10], les auteurs montrent un autre inconv´enient de cette mesure. Consi-d´erons le cas non r´eduit `a 2 classes, o`u chaque exemple a une seule classe r´eelle. Consid´erons un exemple e, sans perte de g´en´eralisation, on peut supposer qu’il ap-partient `a la classe C1. La cible est donc la distribution (1, 0, 0, ..., 0). La mesure de divergence entre cette distribution et une autre ne d´epend que de sa premi`ere valeur et les autres valeurs sont totalement ignor´ees. Par exemple :

dKL((1, 0, 0, 0), (0.7, 0.1, 0.1, 0.1)) = dKL((1, 0, 0, 0), (0.7, 0.3, 0, 0))

Ce n’est pas une propri´et´e int´eressante car tous les ´el´ements de la distribution devraient ˆetre pris en compte. Une fonction de mesure, intitul´ee IC, prenant en

3.2 Crit`eres d’´evaluation des mod`eles de classification 107 param`etre une distribution de probabilit´e (P

e(C1), .., P

e(Cn)) pour ´evaluer l’efficacit´e d’une classification de l’exemple e est propos´ee [10] et d´efinie comme suit :

IC(Pe(C1), .., Pe(Cn)) = Pe(C1) − ε

n

X

i=2

Pe(Ci) log Pe(Ci)

o`u ε est suffisament petite. Les couples (P

e(C1),Pn i=2P

e(Ci) log P

e(Ci)) sont ordonn´es lexicographiquement. Cependant, cette mesure n’est pas pratique `a cause de la pr´esence d’une valeur suffisament petite.

Une mesure de r´ecompense (information reward measure) est propos´ee dans [90]. Elle est appliqu´ee dans le cas o`u chaque exemple e n’appartient qu’`a une seule classe e(C). Dans la classification binaire, pour chaque exemple, la r´ecompense est d´efinie comme :

r´ecompense(e) = 1 + log Pe(e(C)) Elle est de 1 si la classification est correcte (P

e(e(C)) = 1), 0 pour l’ignorance compl`ete (P

e(e(C)) = 0.5) et elle est n´egative si P

e(e(C)) < 0.5. Comme la distance de Kullback-Leibler, la r´ecompense ne tient pas compte des caract´eristiques des probl`emes, en particulier de la distribution a priori des classes.

Par une autre approche, Kononenko et Bratko [88] ont propos´e une mesure qui tient compte explicitement des probabilit´es a priori des classes. Cette propri´et´e in-t´eressante est conserv´ee dans les mesures bas´ees sur la capacit´e de discrimination qui sont pr´esent´ees dans les sections suivantes. Les auteurs ont sugg´er´e d’´evaluer la quantit´e d’information gagn´ee ou perdue dans la classification de chaque exemple, puis dans la classification de tous les exemples de la base de test. A priori, la quantit´e d’information n´ecessaire pour confirmer que e est dans la classe C est : − log Pe(C). De fa¸con analogue, la quantit´e d’information n´ecessaire pour d´ecider correctement que e n’appartient pas `a la classe C est : − log(1 − Pe(C)). A poste-riori, si P

e(e(C)) ≥ Pe(e(C)) alors la probabilit´e de la classe e(C) change dans la «bonne direction » . On est alors en pr´esence d’un gain d’information :

− log Pe(e(C)) + log Pe(e(C)) Si P

e(e(C)) < Pe(e(C)) alors la probabilit´e de la classe e(C) change dans la «mauvaise direction » . On est alors en pr´esence d’une perte d’information :

− log(1 − Pe(e(C))) + log(1 − Pe(e(C)))

Le score final est la diff´erence entre la quantit´e d’information gagn´ee et la quantit´e d’information perdue sur tous les exemples de la base de test. Il peut ˆetre normalis´e en divisant par le nombre d’exemples de la base de test.

3.3 Crit`eres bas´es sur des mesures de