• Aucun résultat trouvé

Evaluation de discr´etisation et mesure d’´equilibre

2.4 Discr´etisation des attributs num´eriques

2.4.3 Evaluation de discr´etisation et mesure d’´equilibre

L’´evaluation de la qualit´e d’une discr´etisation s’appuie sur plusieurs crit`eres com-prenant `a la fois des crit`eres objectifs et des crit`eres subjectifs :

1. L’homog´en´eit´e des classes des exemples dont les valeurs de l’attribut `a dis-cr´etiser se trouvent dans un mˆeme intervalle (´evalu´e par la mesure CAIM par exemple [91]) : il est pr´ef´erable que ces exemples appartiennent `a une seule classe.

2. Le nombre d’intervalles : un petit nombre d’intervalles est pr´ef´er´e. Cela permet de simplifier les donn´ees et en particulier de r´eduire la taille (le nombre de feuilles, la profondeur) de l’arbre obtenu.

3. La performance du mod`ele de classification obtenu : le r´esultat de la discr´e-tisation sert ensuite au processus d’apprentissage. La performance du mod`ele de classification obtenu constitue ainsi un indice raisonnable de performance de la discr´etisation. Cette approche est plutˆot pragmatique

4. Crit`ere subjectif : la discr´etisation doit ˆetre ad´equate, c’est-`a-dire repr´esenter et caract´eriser le mieux possible la nature des donn´ees. Elle doit conserver l’influence de l’attribut sur la classe de l’exemple. On ´evalue ´egalement l’in-terpr´etabilit´e et la s´emantique de la discr´etisation. Ce type de crit`eres non objectifs est utilis´e par certains auteurs [169].

En fonction des probl`emes `a r´esoudre, un ou quelques crit`eres particuliers sont plus int´eressants que d’autres. Dans certaines applications r´eelles, des arbres ´equili-br´es sont pr´ef´er´es car des nombres similaires de tests sont n´ecessaires pour identifier la classe des exemples. Tandis que dans certains autres, une r´eponse rapide sur une classe particuli`ere est pr´ef´er´ee. En particulier dans les probl`emes m´edicaux o`u la classe des maladies graves doit ˆetre identifi´ee aussi tˆot que possible. ´Evidemment, la discr´etisation influence la forme de l’arbre obtenu. Nous souhaitons alors ´etudier dans la suite le comportement des mesures d’entropie dans la discr´etisation. Pour cela, nous nous proposons d’´etudier l’´equilibre d’une discr´etisation binaire. Cette ´etude permet de consid´erer et de choisir la mesure qui favorise un type particulier d’arbres de d´ecision donn´es : ´equilibr´e, non-´equilibr´e. Pour cela, une mesure d’´equilibre est introduite.

Consid´erons le cas `a deux classes. Nous proposons de d´efinir la mesure d’´equilibre E d’une discr´etisation D comme suit :

E(D) = max n1

n2

,n2 n1



o`u n1 et n2 sont respectivement le nombre de valeurs dans l’intervalle 1 (`a gauche) et l’intervalle 2 (`a droite) du point de coupure.

On a : E(D) ≥ 1. Si n1 ≥ n2, E est une fonction croissante selon n1

n2. Quand n1+n2 = n est fix´e, E est une fonction croissante selon n1−n2. Plus une discr´etisation a une mesure d’´equilibre proche de 1, plus les nombres d’exemples dans les deux parties sont similaires. Il est probable que cela conduit `a un arbre de d´ecision ´equilibr´e au sens de la profondeur. En g´en´eral, une discr´etisation ayant une faible mesure d’´equilibre est pr´ef´er´ee.

Une exp´erimentation, qui a ´et´e men´ee avec cette mesure d’´equilibre, est pr´esent´ee dans la section suivante.

2.4.4 Exp´erimentations

L’exp´erimentation men´ee dans cette section a pour but d’illustrer l’utilisation de la mesure d’´equilibre d’une discr´etisation binaire pr´esent´ee ci-dessus et de montrer comment diff´erentes mesures de discrimination se comportent dans un processus de discr´etisation. Les mesures consid´er´ees sont les entropies conditionnelles de R´enyi,

2.4 Discr´etisation des attributs num´eriques 73

Fig. 2.10 – Mesures d’´equilibre moyennes des partitions avec les entropies condi-tionnelles en grande ´echelle, β ∈ (0, 50]

celles de Dar´oczy et l’entropie conditionnelle de Shannon. La base de donn´ees « Wa-veform » [27] a ´et´e utilis´ee. Elle se compose de 3 classes, chacune contenant 100 exemples. Chaque exemple est d´ecrit par 21 attributs num´eriques. `A partir de la base initiale, `a chaque fois, une classe est ´elimin´ee pour obtenir 3 bases, chacune ne contenant que 200 exemples, r´epartis en seulement 2 classes. Les attributs de chacune des 3 bases sont discr´etis´es. Au total, 63 discr´etisations ont ´et´e r´ealis´ees (3 bases, 21 attributs chacune).

A chaque fois, les entropies conditionnelles de R´enyi, celles de Dar´oczy et celle de Shannon avec diff´erentes valeurs du coefficient β sont utilis´ees pour identifier le point de coupure de l’attribut num´erique en question. Une fois le point de coupure trouv´e, la mesure d’´equilibre de la discr´etisation est calcul´ee. Enfin les statistiques telles que la valeur moyenne, la valeur maximale, la valeur minimale, et la valeur m´ediane des mesures d’´equilibre selon chacune des entropies conditionnelles sont moyenn´ees sur l’ensemble des discr´etisations.

Les figures 2.10 et 2.11 pr´esentent les r´esultats obtenus. Les courbes avec β variant de 0 `a 50 sont dessin´ees dans la figure 2.10. Dans cette figure, la ligne horizontale d’ordonn´ee 7.85 correspond `a l’entropie conditionnelle de Shannon qui ne d´epend pas de β. Pour faciliter la visualisation, la figure 2.11 pr´esente le mˆeme r´esultat mais sur une petite ´echelle de l’ordonn´ee. Les courbes correspondant `a l’entropie conditionnelle de Shannon et celle de Dar´oczy d´epassent le cadre de cette figure.

A l’exception de l’entropie conditionnelle de Dar´oczy de Type 1, les mesures d’´equilibre correspondant `a chaque entropie conditionnelle sont d´ecroissantes selon

Fig. 2.11 – Mesures d’´equilibre moyennes des partitions avec les entropies condi-tionnelles en petite ´echelle, β ∈ (0, 12]

β. La d´ecroissance est tr`es rapide lorsque β est proche de 0. Lors du passage `a la valeur 1 de β, il y a un changement tr`es fort pour les mesures de Type 2 : la mesure d’´equilibre passe de 28 pour β = 0.95 `a 2.2 pour β = 1.05. Pour le Type 2 et de Type 3, les mesures de mˆeme type ont un comportement tr`es similaire. Avec les entropies de Type 2, lorsque β > 2.5, les partitions tendent vers un ´equilibre parfait (le degr´e d’´equilibre tend vers 1) o`u le point de coupure d´ecoupe le domaine d’attribut en deux intervalles dont chacun contient le mˆeme nombre de valeurs. Tandis qu’avec les mˆemes valeurs de β, les partitions issues des entropies conditionnelles de Type 3 ont une mesure d’´equilibre proche de 1.5.

Lorsque β s’approche de 0, les partitions sont tr`es d´es´equilibr´ees. Les points de coupure se trouvent souvent proches des extr´emit´es du domaine d’attributs, ainsi seuls quelques exemples `a une extr´emit´e sont regroup´es. La strat´egie est plutˆot d’ob-tenir un petit intervalle `a l’extr´emit´e du domaine qui contient des valeurs d’attributs des exemples d’une mˆeme classe. Ces remarques s’accordent bien avec le r´esultat d´e-crit dans la figure 2.4, o`u les mesures entropies conditionnelles correspondant `a la petite valeur de β entraˆınent la cr´eation rapide de la premi`ere feuille.

Le comportement des entropies de Type 2 peut ˆetre interpr´et´e par leur pond´era-tion :

I(ξ|D) = Pβ(A ∈ d1)Iβ(ξ|A ∈ d1) + Pβ(A ∈ d2)Iβ(ξ|A ∈ d2)

o`u Pβ(A ∈ d1) + Pβ(A ∈ d2) = 1. Pour minimiser cette quantit´e, quand β est assez grand, il favorise Pβ(A ∈ d1) ≃ Pβ(A ∈ d2) et quand β est proche de 0, il favorise min(Pβ(A ∈ d1), Pβ(A ∈ d2)) = 0.

2.5 Utilisation des sous-ensembles flous dans la construction des arbres 75