• Aucun résultat trouvé

2.3 S´election du meilleur attribut

2.3.3 Exp´erimentations

Des exp´erimentations ont ´et´e men´ees avec plusieurs bases de donn´ees pour valider l’utilisation de diff´erentes entropies introduites et valid´ees th´eoriquement dans le chapitre 1. Ce sont les mesures d’entropie de Dar´oczy (Type 1, 2, 3) et les mesures d’entropie de R´enyi (Type 1, 2, 3). Le syst`eme DTGen (pr´esent´e dans l’annexe) a ´et´e utilis´e pour construire des arbres de d´ecision avec diff´erentes entropies et leurs formules conditionnelles associ´ees.

Le protocole d’exp´erimentation est d´ecrit comme suit. Il sera repris plus tard dans d’autres exp´erimentations.

Soit une base de donn´ees. Dans la premi`ere ´etape, une s´election d’exemples est r´ealis´ee pour partitionner cette base en deux parties, l’une sert de base d’apprentis-sage et l’autre sert de base de test :

1. Partitionner des exemples de la base initiale par leurs classes. On obtient des ensembles d’exemples par classe.

2. Choisir al´eatoirement `a partir de chaque ensemble 50% des exemples.

3. Regrouper tous les exemples choisis dans l’´etape pr´ec´edente pour former la base d’apprentissage. Ainsi, la base d’apprentissage contient 50% des exemples de chaque classe.

4. Regrouper tous les restes pour former la base de test.

Dans la deuxi`eme ´etape, DTGen construit un arbre de d´ecision `a partir de la base d’apprentissage et l’utilise ensuite pour classer les exemples de la base de test. Avant la s´election du meilleur attribut, les attributs num´eriques sont discr´etis´es par la m´ethode qui minimise l’entropie de Shannon que nous ´evoquons dans la section 2.4. Le taux de bonnes classifications et les autres indices d’´evaluation sont calcul´es, en particulier la profondeur et le nombre de feuilles. La profondeur maximale, la pro-fondeur minimale correspondent respectivement au nombre maximal et au nombre minimal de questions `a poser pour identifier la classe d’un exemple. La profon-deur moyenne est la longueur moyenne de la racine aux feuilles. Une autre m´ethode d’agr´egation consid´er´ee est de pond´erer la hauteur moyenne par la probabilit´e a priori qu’un exemple suive chaque chemin. Cette probabilit´e est estim´ee par la base d’apprentissage. Elle est d´efinie comme le nombre moyen de questions n´ecessaires quand l’arbre est utilis´e pour classer les exemples de la base d’apprentissage. Dans le cas o`u la base d’apprentissage a la mˆeme distribution des classes que la base de test, ce nombre moyen de questions est valable pour la base de test.

2.3 S´election du meilleur attribut 61 L’exp´erimentation d´ecrite ci-dessus est r´ep´et´ee plusieurs fois (8 fois pour notre exp´erimentation) sur une mˆeme base d’exemples initiale. `A la fin, les r´esultats de tous les tests sur la base sont agr´eg´es pour obtenir le r´esultat final sur la base en question. Base de donn´ees #ex em p le s # at tr ib u ts # cl as se s Distribution % cl as se m a j. Iris 150 4 3 3 × 33.3% 33.3 Balance scale 625 4 3 46.8% + 46.8% + 7.4% 46.8 E. coli 336 7 8 42.6% + 22.9% + 15.5% + ... 42.6 Glass identification 214 10 7 35.5% + 32.7% + 13.5% + ... 35.5 Ionosphere 351 34 2 64.2% + 35.8% 64.2 Liver-disorders 345 6 2 58.0% + 42.0% 58.0

Pima Indians diabetes 768 8 2 65.1% + 34.9% 65.1

Wine recognition 178 13 3 39.9%+ 33.1% + 27% 39.9

Waveform 300 21 3 3 × 33.3% 33.3

Tab. 2.1 – Description des bases de donn´ees d’UCI utilis´ees

Les exp´erimentations effectu´ees dans les diff´erentes parties de la th`ese ont ´et´e men´ees avec des bases d’UCI [113], `a l’exception de la base « Waveform » obtenue par un g´en´erateur automatique [27]. Quelques caract´eristiques de ces bases, en par-ticulier le nombre d’exemples, le nombre d’attributs, la distribution des classes et la proportion (en pourcentage) des exemples de la classe majoritaire sont d´ecrites dans le tableau 2.1. Ces caract´eristiques donnent une id´ee sur la difficult´e des bases diff´erentes.

Les figures de 2.2 `a 2.7 montrent le taux moyen de bonnes classifications, le nombre de feuilles et la profondeur obtenus sur toutes les bases en faisant varier le coefficient β de 0 `a 50. Les valeurs sont choisies de mani`ere repr´esentative. L’entropie de Shannon ne d´epend pas de la valeur de β, sur les figures, elle est donc repr´esent´ee par une ligne horizontale. Sur les courbes, chaque point repr´esente un indice de plu-sieurs bases moyenn´ees en fonction de l’entropie et du β lui correspondant. Dans les figures, les l´egendes « R´enyi i » , « Daroczy i » (i = 1, 2, 3) correspondent respecti-vement `a l’entropie conditionnelle de R´enyi de Type i et de l’entropie conditionnelle de Dar´oczy de Type i.

Globalement, les r´esultats montrent que les taux de bonnes classifications obtenus par les entropies conditionnelles de R´enyi et celles de Dar´oczy sont l´eg`erement diff´e-rents du r´esultat obtenu avec l’entropie conditionnelle de Shannon. L’´ecart maximal est g´en´eralement inf´erieur `a 2%. Dans les cas extrˆemes quand β s’approche de 0 ou β = 50, cet ´ecart monte jusqu’`a environ 4%. Avec certaines valeurs β entre 2,5 et 6, l’entropie de Dar´oczy de Type 1 donne un taux de bonnes classifications l´eg`erement

Fig. 2.2 – Taux de bonnes classifications moyenn´e sur diff´erentes bases, β ∈ (0, 50]

2.3 S´election du meilleur attribut 63

Fig. 2.4 – Profondeur minimale moyenn´ee sur diff´erentes bases, β ∈ (0, 50]

Fig.2.6 – Profondeur moyenne des arbres moyenn´ee sur diff´erentes bases, β ∈ (0, 50]

Fig.2.7 – Profondeur moyenne pond´er´ee par les nombres d’exemples correspondant `a chaque feuille, moyenn´ee sur diff´erentes bases, β ∈ (0, 50]

2.3 S´election du meilleur attribut 65 meilleur que celui de l’entropie conditionnelle de Shannon. Dans les autres cas, la mesure de Shannon conduit `a des r´esultats l´eg`erement sup´erieurs.

Sur la figure 2.2, on constate une tendance tr`es nette : quand β varie de 0 `a 1, le taux de bonnes classifications augmente pour toutes les mesures. Lorsque β d´epasse 1, le taux de bonnes classifications a tendance de se d´egrader l´eg`erement sauf dans le cas de l’entropie conditionnelle de Dar´oczy de Type 1. Avec cette derni`ere, le taux de bonnes classifications augmente jusqu’`a ce que β = 5, puis il commence `a diminuer. La diminution est relativement nette quand β est grand.

Les arbres obtenus avec des petites valeurs de β ont g´en´eralement plus de feuilles (figure 2.3). Le nombre de feuilles diminue quand β tend vers 1. La diminution la plus forte correspond `a l’entropie conditionnelle de R´enyi de Type 2. Quand β > 1 aug-mente, l’entropie conditionnelle de R´enyi de Type 2 et l’entropie conditionnelle de Dar´oczy de Type 2 poss`edent le mˆeme comportement : elles entraˆınent une augmen-tation du nombre de feuilles. Dans l’intervalle [1, 5], quand β augmente, l’entropie conditionnelle de R´enyi de Type 1 entraˆıne une augmentation forte du nombre de feuilles. Au del`a de cet intervalle, ce nombre devient assez stable. L’entropie condi-tionnelle de Dar´oczy de Type 1 n’entraˆıne pas d’augmentation significative jusqu’`a ce que β = 10. Ensuite, avec cette mesure le nombre de feuilles augmente avec β. Les comportements des mesures de Type 3 sont similaires : ils sont assez stables apr`es une l´eg`ere augmentation quand β est un peu sup´erieur `a 1.

Par contre, la profondeur minimale devient faible dans le cas o`u β s’approche de 0 (figure 2.4). Elle augmente selon β et devient stable quand β > 3 except´e pour les entropies conditionnelles de Type 1. Si l’entropie de R´enyi de Type 1 devient stable un peu plus tˆot que les autres, l’augmentation de β dans la formule de l’entropie conditionnelle de Dar´oczy de Type 1 entraˆıne une diminution de la profondeur mini-male. Cette diminution est relativement significative et la profondeur moyenne tend vers 1.

La variation de la profondeur moyenne (figure 2.6 et figure 2.7) et maximale (fi-gure 2.5) est diff´erente de celle de la profondeur minimale. Ces indices de profondeurs ont le mˆeme comportement. Elles d´ecroissent assez rapidement quand β varie de 0 `a 1. Plus tard, elles deviennent plutˆot stables sauf pour les entropies conditionnelles de Type 1. Quand β augmente `a partir de 1, on observe une augmentation de la profondeur des arbres lorsque l’entropie de R´enyi de Type 1 est utilis´ee. Ensuite, `a partir de β = 4.5 avec la mˆeme mesure, la profondeur ne change plus beaucoup. Lorsque β est grand, les arbres construits par l’entropie de Dar´oczy de Type 1 de-viennent relativement profonds. Les arbres sont ainsi tr`es d´es´equilibr´es dans ce cas car la profondeur minimale est faible avec la mˆeme mesure.

Pour caract´eriser de mani`ere plus fine ces comportements, nous faisons varier le coefficient β de 0 `a 10 avec un pas plus petit : 0.1. Les figures 2.8 et 2.9 montrent le taux moyen de bonnes classifications et la profondeur moyenne obtenus sur un ensemble r´eduit de 5 bases : « Iris » , « E. coli » , « Wine » « Pima Indians Dia-betes » et « Waveform » . Pour souligner l’apport des mesures de discrimination, une exp´erimentation avec une s´election al´eatoire du meilleur attribut `a chaque it´eration a ´et´e men´ee. S’il est al´eatoirement choisi, le taux de bonnes classifications (75.15%)

Fig. 2.8 – Taux de bonnes classifications moyenn´e sur 5 bases, β ∈ (0, 10]

2.4 Discr´etisation des attributs num´eriques 67