Crit`eres bas´es sur des mesures de discrimination

Les algorithmes d’apprentissage essaient d’extraire le plus possible d’informa-tions « intéressantes » de la base d’apprentissage pour construire un classifieur et l’utiliser ensuite pour classifier de nouveaux exemples. Le classifieur doit discriminer tous les exemples par leurs classes. Ainsi il induit une partition de l’ensemble des exemples. Nous proposons d’évaluer la capacité de discrimination du classifieur en analysant l’adéquation entre la partition produite par le classifieur et la partition naturelle produite par les vraies classes. Comme le critère basé sur la théorie de l’information proposé par Kononenko et Bratko [88], les critères basés sur la mesure de discrimination tiennent compte de la différence entre l’information fournie par le classifieur (a posteriori) et l’information disponible sur la base de test (a priori). Par contre, nous considérons directement la distribution de probabilité sur l’ensemble des exemples au lieu de celle de chaque individu.

Soit ξT C l’ensemble des exemples dans la base de tests ξT qui appartiennent à la classe C et ξT C′ l’ensemble des exemples dans ξT qui sont classifiés dans la classe C. Dans la suite de ce chapitre, pour simplifier, on enlève T dans la notation des sous-ensembles liés à la base de test.

La méthode proposée évalue l’adéquation entre deux partitions : {ξC1, ξC2, .., ξCn} et {ξC′

1, ξC′ 2, .., ξC′

n}.

Supposons que le classifieur M soit induit à partir de ξ et qu’il classifie tous les exemples de la base de test ξT. M étiquette chaque exemple e de ξT par une classe de C. Ainsi, M introduit un nouvel attribut fM : pour chaque exemple de ξT, l’attribut prend comme valeur la classe affectée à l’exemple par M (cf. tableau 3.3).

Exemple Classe r´eelle A1 A2 ... AK fM1 fM2 e1 e1(C) v11^* v12 ... v1K C11 C12 e2 e2(C) v21 v22 ... v2K C21 C22 ... ... ... ... ... ... ... ... eN eN(C) vN1 vN1 ... vN K CN1 CN2

Tab.3.3 – R´esultat de la classification par deux classifieurs : M1 et M2 * vik = ei(Ak) la valeur pour l’attribut Ak de l’exemple ei.

Comme nous l’avons expliqué dans le chapitre 1 (voir aussi [107, 131]), une quan-tité validée par le modèle hiérarchique peut servir à mesurer la capacité de discrimi-nation d’un attribut, en particulier le nouvel attribut fM. Ainsi, elle peut mesurer la capacité de discrimination du classifieur M . La mesure de la capacité de discrimi-nation de M consiste également en 3 niveaux.

3.3 Crit`eres bas´es sur des mesures de discrimination 109

Niveau F : Le niveau F concerne les mesures de l’ad´equation entre l’ensemble

des exemples de la classe Ci et l’ensemble des exemples classifi´es dans la classe Cj. Elles sont not´ees par : F (ξC′

j, ξCi). Chacune prend sa valeur minimale quand l’en-semble des exemples classifi´es dans la classe Cj est un sous-ensemble d’exemples de la classe Ci, et elle prend sa valeur maximale quand aucun exemple de la classe Ci

n’est classifi´e dans la classe Cj.

Niveau G : Le niveau G concerne les fonctions agr´egeant des fonctions du

ni-veau F pour mesurer la quantité d’information apportée en classifiant des exemples dans la classe Cj. Elles sont notées par : G(ξC′

j, {ξC1, ξC2, .., ξCn}). Chacune prend sa valeur minimale quand il existe une classe Ci satisfaisant : l’ensemble des exemples classifiés dans la classe Cj est un sous-ensemble d’ensembles des exemples de la classe Ci, autrement dit, tous les exemples classifiés dans la classe Cj n’appartiennent effec-tivement qu’à une seule classe Ci (par exemple dans le cas de classification idéale). Une G-fonction prend sa valeur maximale quand les adéquations entre l’ensemble des exemples classifiés dans la classe Cj et chacun des ensembles des exemples d’une même classe sont identiques.

Niveau H : Le niveau H concerne les fonctions agr´egeant des fonctions du

niveau G pour mesurer la capacité de discrimination du modèle M par rapport à des classes de C. Elles sont notées : H({ξC′

1, ξC′ 2, .., ξC′

n}, {ξC1, ξC2, .., ξCn}).

Cette fonction mesure l’inad´equation entre les deux partitions : celle par le clas-sifieur et celle par les classes des exemples. Plus la valeur pour la H-fonction est petite, plus les deux partitions sont ad´equates. Quand H = 0, les deux partitions sont identiques.

Dans la suite, nous établissons un critère d’évaluation basé sur l’entropie de Shan-non, une mesure de discrimination, pour illustrer les arguments présentés ci-dessus. Notons qu’on peut évidement établir des critères basés sur d’autres mesures de dis-crimination que celle de Shannon.

Niveau F : F (ξC′ j, ξCi) = − log^|ξ^Cⁱ^{∩ ξ}^C ′ j| |ξC′ j| ^{= − log P (C}ⁱ^|C ′ j) o`u p(Ci|C′

j) est la probabilité qu’un exemple classifié dans la classe Cj soit de la classe Ci et |.| est la cardinalité d’un ensemble.

Niveau G : G(ξC′ j, {ξC1, ξC2, .., ξCn}) = n X i=1 |ξCi∩ ξC′ j| |ξC′ j| ^{F (ξ}^Cj^′, ξCi) = − n X i=1 |ξCi∩ ξC′ j| |ξC′ j| ^log |ξCi∩ ξC′ j| |ξC′ j| = − n X i=1 P (Ci|C′ j) log P (Ci|C′ j) = I(ξC′ j)

C’est l’entropie par rapport aux vraies classes du sous-ensemble des exemples clas-sifi´es dans la classe Cj.

Niveau H : H({ξC′ 1, .., ξC′ n}, {ξC1, .., ξCn}) = n X j=1 |ξC′ j| |ξT|^G(ξ^Cj^′, {ξC1, .., ξCn}) = n X j=1 P (C_j^′)I(ξC′ j) = I(ξT|M ) o`u P (C′

j) est la probabilité qu’un exemple soit classifié dans la classe Cj et I(ξT|M ) est l’entropie de la base de test conditionnée par le classifieur M .

On note : I(ξT) l’entropie de la base de test ξT : I(ξT) = I(P1, P2, .., Pn) = −

i=1

Pilog Pi

o`u Pi est la probabilit´e qu’un exemple de ξT soit dans la classe Ci.

La formule suivante permet d’estimer la quantit´e d’information apport´ee par M : △I(M, ξT) = I(ξT) − I(ξT|M )

On a :

0 ≤ △I(M, ξT) ≤ I(ξT)

Dans le processus d’apprentissage automatique, les algorithmes essaient de se renseigner autant que possible sur la base d’apprentissage. L’information obtenue à travers un tel processus permet de construire un classifieur. Ainsi on peut ima-giner que le classifieur est un conteneur d’informations. Par conséquent, la formule ci-dessus mesure combien d’informations de la base de test sont stockées dans le clas-sifieur. Autrement dit, elle mesure la partie de l’information nécessaire pour décrire la base de test gagnée par l’apprentissage sur les exemples de la base d’apprentissage.

3.4 Propri´et´es additionnelles 111

Dans le document Mesures de discrimination et leurs applications en apprentissage inductif (Page 125-128)