• Aucun résultat trouvé

Crit`eres bas´es sur des mesures de discrimination

Les algorithmes d’apprentissage essaient d’extraire le plus possible d’informa-tions « int´eressantes » de la base d’apprentissage pour construire un classifieur et l’utiliser ensuite pour classifier de nouveaux exemples. Le classifieur doit discriminer tous les exemples par leurs classes. Ainsi il induit une partition de l’ensemble des exemples. Nous proposons d’´evaluer la capacit´e de discrimination du classifieur en analysant l’ad´equation entre la partition produite par le classifieur et la partition naturelle produite par les vraies classes. Comme le crit`ere bas´e sur la th´eorie de l’information propos´e par Kononenko et Bratko [88], les crit`eres bas´es sur la mesure de discrimination tiennent compte de la diff´erence entre l’information fournie par le classifieur (a posteriori) et l’information disponible sur la base de test (a priori). Par contre, nous consid´erons directement la distribution de probabilit´e sur l’ensemble des exemples au lieu de celle de chaque individu.

Soit ξT C l’ensemble des exemples dans la base de tests ξT qui appartiennent `a la classe C et ξT C′ l’ensemble des exemples dans ξT qui sont classifi´es dans la classe C. Dans la suite de ce chapitre, pour simplifier, on enl`eve T dans la notation des sous-ensembles li´es `a la base de test.

La m´ethode propos´ee ´evalue l’ad´equation entre deux partitions : {ξC1, ξC2, .., ξCn} et {ξC′

1, ξC′ 2, .., ξC′

n}.

Supposons que le classifieur M soit induit `a partir de ξ et qu’il classifie tous les exemples de la base de test ξT. M ´etiquette chaque exemple e de ξT par une classe de C. Ainsi, M introduit un nouvel attribut fM : pour chaque exemple de ξT, l’attribut prend comme valeur la classe affect´ee `a l’exemple par M (cf. tableau 3.3).

Exemple Classe r´eelle A1 A2 ... AK fM1 fM2 e1 e1(C) v11* v12 ... v1K C11 C12 e2 e2(C) v21 v22 ... v2K C21 C22 ... ... ... ... ... ... ... ... eN eN(C) vN1 vN1 ... vN K CN1 CN2

Tab.3.3 – R´esultat de la classification par deux classifieurs : M1 et M2 * vik = ei(Ak) la valeur pour l’attribut Ak de l’exemple ei.

Comme nous l’avons expliqu´e dans le chapitre 1 (voir aussi [107, 131]), une quan-tit´e valid´ee par le mod`ele hi´erarchique peut servir `a mesurer la capacit´e de discrimi-nation d’un attribut, en particulier le nouvel attribut fM. Ainsi, elle peut mesurer la capacit´e de discrimination du classifieur M . La mesure de la capacit´e de discrimi-nation de M consiste ´egalement en 3 niveaux.

3.3 Crit`eres bas´es sur des mesures de discrimination 109

Niveau F : Le niveau F concerne les mesures de l’ad´equation entre l’ensemble

des exemples de la classe Ci et l’ensemble des exemples classifi´es dans la classe Cj. Elles sont not´ees par : F (ξC′

j, ξCi). Chacune prend sa valeur minimale quand l’en-semble des exemples classifi´es dans la classe Cj est un sous-ensemble d’exemples de la classe Ci, et elle prend sa valeur maximale quand aucun exemple de la classe Ci

n’est classifi´e dans la classe Cj.

Niveau G : Le niveau G concerne les fonctions agr´egeant des fonctions du

ni-veau F pour mesurer la quantit´e d’information apport´ee en classifiant des exemples dans la classe Cj. Elles sont not´ees par : G(ξC′

j, {ξC1, ξC2, .., ξCn}). Chacune prend sa valeur minimale quand il existe une classe Ci satisfaisant : l’ensemble des exemples classifi´es dans la classe Cj est un sous-ensemble d’ensembles des exemples de la classe Ci, autrement dit, tous les exemples classifi´es dans la classe Cj n’appartiennent effec-tivement qu’`a une seule classe Ci (par exemple dans le cas de classification id´eale). Une G-fonction prend sa valeur maximale quand les ad´equations entre l’ensemble des exemples classifi´es dans la classe Cj et chacun des ensembles des exemples d’une mˆeme classe sont identiques.

Niveau H : Le niveau H concerne les fonctions agr´egeant des fonctions du

niveau G pour mesurer la capacit´e de discrimination du mod`ele M par rapport `a des classes de C. Elles sont not´ees : H({ξC′

1, ξC′ 2, .., ξC′

n}, {ξC1, ξC2, .., ξCn}).

Cette fonction mesure l’inad´equation entre les deux partitions : celle par le clas-sifieur et celle par les classes des exemples. Plus la valeur pour la H-fonction est petite, plus les deux partitions sont ad´equates. Quand H = 0, les deux partitions sont identiques.

Dans la suite, nous ´etablissons un crit`ere d’´evaluation bas´e sur l’entropie de Shan-non, une mesure de discrimination, pour illustrer les arguments pr´esent´es ci-dessus. Notons qu’on peut ´evidement ´etablir des crit`eres bas´es sur d’autres mesures de dis-crimination que celle de Shannon.

Niveau F : F (ξC′ j, ξCi) = − logCi∩ ξC j| |ξC′ j| = − log P (Ci|C j) o`u p(Ci|C

j) est la probabilit´e qu’un exemple classifi´e dans la classe Cj soit de la classe Ci et |.| est la cardinalit´e d’un ensemble.

Niveau G : G(ξC′ j, {ξC1, ξC2, .., ξCn}) = n X i=1Ci∩ ξC′ j| |ξC′ j| F (ξCj, ξCi) = − n X i=1Ci∩ ξC′ j| |ξC′ j| logCi∩ ξC′ j| |ξC′ j| = − n X i=1 P (Ci|C j) log P (Ci|C j) = I(ξC′ j)

C’est l’entropie par rapport aux vraies classes du sous-ensemble des exemples clas-sifi´es dans la classe Cj.

Niveau H : H({ξC′ 1, .., ξC′ n}, {ξC1, .., ξCn}) = n X j=1C′ j| |ξT|G(ξCj, {ξC1, .., ξCn}) = n X j=1 P (Cj)I(ξC′ j) = I(ξT|M ) o`u P (C

j) est la probabilit´e qu’un exemple soit classifi´e dans la classe Cj et I(ξT|M ) est l’entropie de la base de test conditionn´ee par le classifieur M .

On note : I(ξT) l’entropie de la base de test ξT : I(ξT) = I(P1, P2, .., Pn) = −

n

X

i=1

Pilog Pi

o`u Pi est la probabilit´e qu’un exemple de ξT soit dans la classe Ci.

La formule suivante permet d’estimer la quantit´e d’information apport´ee par M : △I(M, ξT) = I(ξT) − I(ξT|M )

On a :

0 ≤ △I(M, ξT) ≤ I(ξT)

Dans le processus d’apprentissage automatique, les algorithmes essaient de se renseigner autant que possible sur la base d’apprentissage. L’information obtenue `a travers un tel processus permet de construire un classifieur. Ainsi on peut ima-giner que le classifieur est un conteneur d’informations. Par cons´equent, la formule ci-dessus mesure combien d’informations de la base de test sont stock´ees dans le clas-sifieur. Autrement dit, elle mesure la partie de l’information n´ecessaire pour d´ecrire la base de test gagn´ee par l’apprentissage sur les exemples de la base d’apprentissage.

3.4 Propri´et´es additionnelles 111