• Aucun résultat trouvé

Affectation d’un individu classique (de premier ordre) . 114

Dans le document The DART-Europe E-theses Portal (Page 127-136)

3.4 Le module de test et de validation de SyrTree

3.4.1 Affectation d’un individu classique (de premier ordre) . 114

Un individu classique est d´ecrit par des variables nominales ou continues. La probl´ematique dans ce cas est de savoir comment appliquer les tests binaires utilisant des variables symboliques (histogrammes et intervalles) sur des variables classiques ? Nous r´epondons `a cette question dans ce qui suit.

3.4.1.1 Cas o `u la variable de d´ecoupage est un histogramme Dans ce cas le test binaire est sous la forme :

Si

varexp>freqdecoup ∗ moddecoup

Alors noeudfils droit Sinon noeudfils gauche

Afin d’affecter un individu classique `a l’un des deux nœuds fils, nous avons traduit ce test sous le format d’un test sur une variable classique. Cette traduction d´epend de la nature de l’histogramme :

• Si c’est un histogramme nominal modal (c’est-`a-dire que les modalit´es sont des valeurs nominales) alors le test sera traduit en :

Si

varexpIn{moddecoup}

Alors noeudfils droit Sinon noeudfils gauche

3 Nouvelle m´ethode d’arbres de d´ecision symbolique : SyrTree 115

• Si c’est un histogramme ordinal (c’est-`a-dire que les modalit´es sont des intervalles), le test sera traduit en :

Si

varexp ∈ intervdecoup

Alors noeudfils droit Sinon noeudfils gauche

o `u

Soit l’ensemble de test extrait des donn´ees des Iris de Fisher repr´esent´e par le tableau 3.15. Dans cet exemple nous allons ´etudi´e les deux types d’histogrammes en variable de d´ecoupage. Dans chaque cas, nous pr´esentons un exemple d’arbre de d´ecision, l’application de la traduction des questions et les r´esultat de l’affectation des individus de test aux diff´erentes arbres de d´ecisions.

SepalLength Hist3 SepalLength disc Species Caf f arbre1 Caf f arbre2

5.1 A setosa setosa setosa

Tableau 3.15 – ensemble de test d’un arbre de d´ecision dans le cas o `u la variable `a expliquer est un histogramme.

Cas o `u la variable de d´ecoupage est un histogramme nominal modal : Soit l’arbre de d´ecision construit sur les donn´ees des ”Iris” repr´esent´e par la figure 3.12.

Cet arbre a ´et´e construit en prenant la classe ”Species” comme variable `a expliquer et l’histogramme ”SepalLength disc” comme variable explicative.

La traduction des deux questions binaires de l’arbre de la figure 3.12 donne :

• Pour le d´ecoupage de la racine : Si

SepalLength disc > 0.78 ∗ A

Alors Caf f = ”setosa” Sinon noeudf g

m Si

SepalLength disc IN {A}

Alors Caf f = ”setosa” Sinon noeudf g

• Pour le d´ecoupage du fils gauche de la racine : Si

SepalLength disc > 0.46 ∗ C

Alors Caf f = ”virginica”

Sinon Caf f = ”versicolor”

m Si

SepalLength disc IN {C}

Alors Caf f = ”virginica”

Sinon Caf f = ”versicolor”

Les r´esultats de l’affectation de cet arbre sur les donn´ees de test sont repr´esent´es par la quatri`eme colonne ”Caf f arbre1” du tableau 3.15.

FIGURE3.12 – Arbre de d´ecision sur les donn´ees de Fisher en utilisant l’histogramme de SepalLength discr´etis´e comme variable explicative.

Cas o `u la variable de d´ecoupage est un histogramme ordinal : Soit l’arbre de d´ecision repr´esent´e par la figure 3.13. Il a ´et´e construit sur les donn´ees des Iris de Fisher en prenant la classe ”Species” comme variable `a expliquer et la variable histogramme ordinal ”SepalLength Hist3 comme variable `a expliquer.

La traduction des deux questions binaires de cet arbre nous donne :

• Pour le d´ecoupage de la racine : Si

SepalLength Hist3 > (0.78∗ <5.45)

Alors Caf f = ”setosa” Sinon noeudf g

m Si

SepalLength Hist3 ≤ {5.45}

Alors Caf f = ”setosa” Sinon noeudf g

3 Nouvelle m´ethode d’arbres de d´ecision symbolique : SyrTree 117

• Pour le d´ecoupage du fils gauche de la racine : Si

SepalLength Hist3 > (0.46∗ > 6.15)

Alors Caf f = ”virginica”

Sinon Caf f = ”versicolor”

m Si

SepalLength Hist3 > 6.15

Alors Caf f = ”virginica”

Sinon Caf f = ”versicolor”

Les r´esultats de l’affectation de cet arbre sur les donn´ees de test sont repr´esent´es par la quatri`eme colonne ”Caf f arbre2” du tableau 3.15.

FIGURE 3.13 – Arbre de d´ecision sur les donn´ees des Iris en utilisant l’histogramme SepalLength Hist3 comme variable explicative.

3.4.1.2 Cas o `u la variable de d´ecoupage est un intervalle Dans ce cas la question binaire est sous la forme :

Si

varexp≤valdecoup

Alors noeudfils gauche Sinon noeudfils droit

Cette question binaire poss`ede la mˆeme forme que celle d’une variable explicative continue donc aucune traduction `a faire pour l’affectation d’un individu classique.

3.4.2 Affectation d’individus symboliques (de deuxi`eme ordre)

Dans ce cas les individus de test sont d´ecrits par des variables symboliques et nous devons r´epondre `a deux questions :

1. Quel est le r´esultat d’une question de d´ecoupage binaire ? La r´eponse `a cette question d´epend du type de la variable explicative.

2. Est-ce une bonne affectation ou non ? La r´eponse `a cette question d´epend du type de la variable `a expliquer dans le fichier de test.

3.4.2.1 Quel est le r´esultat d’une question de d´ecoupage binaire ? a. Cas d’une variable explicative nominale

Dans ce cas la question binaire est sous la forme : Si

varexp=mdecoup

Alors noeudfils gauche Sinon noeudfils droit Si dans le fichier de testvarexp est une variable nominale, il n’y a aucun probl`eme et il suffit de comparer sa valeur `a celle de la modalit´e de d´ecoupage. Cependant, si cette variable est un histogramme, il faut comparer la modalit´e de d´ecoupage `a la modalit´e majoritaire de l’histogramme (la modalit´e de la fr´equence maximale). Dans ce cas la question binaire peut ˆetre traduite de cette fac¸on :

Si

mmax(varexp) =mdecoup

Alors noeudfils gauche Sinon noeudfils droit o `ummax: la modalit´e ayant la fr´equence maximale devarexp. Cette fr´equence doit ˆetre strictement sup´erieure `a la moyenne.

Tableau 3.16 – R´esultat du test d’une question binaire issue du d´ecoupage d’une variable nominale sur une variable histogramme.

Soit l’ensemble de test repr´esent´e par le tableau 3.16. Nous voulons tester l’arbre repr´esent´e par la figure 3.11 sur cet ensemble. Cet arbre propose une seule question binaire :

Si

X=A

Alors classeaf f =B Sinon classeaf f =R

3 Nouvelle m´ethode d’arbres de d´ecision symbolique : SyrTree 119 Comme dans l’ensemble de test X est un histogramme, il faut comparer les modalit´es majoritaires des diff´erentes valeurs de X `a ”A”. Par exemple, pour le premier individu mmax (X) = B6=A donc sa classe d’affectation sera ´egale `a R. De la mˆeme fac¸on nous calculons les classes d’affectation des autres individus de test. Le r´esultat est repr´esent´e dans la troisi`eme colonne du tableau 3.16.

b. Cas o `u la variable explicative est continue ou intervalle Dans ce cas la question binaire est sous la forme :

Si

varexp≤valdecoup

Alors noeudfils gauche Sinon noeudfils droit

Nous distinguons deux cas :

• varexpest une variable continue dans le fichier de test : dans ce cas, il n’y a aucun probl`eme et il suffit de comparer sa valeur `a celle du seuil de d´ecoupagevaldecoup.

• varexpest de type intervalle : dans ce cas, il faut comparer la valeur de d´ecoupage

`a la moyenne de l’intervalle. La question binaire peut ˆetre traduite de cette fac¸on : Si

moy(varexp)≤valdecoup

Alors noeudfils gauche Sinon noeudfils droit

o `u

moy(varexp) = valmax−val2 min;

valmax (respectivement valmin) repr´esente la borne maximale (respective-ment minimale) de l’intervalle.

Tableau 3.17 – R´esultats d’une question issue d’une variable explicative continue appliqu´ee `a une variable intervalle.

Soit l’ensemble de test repr´esent´e par le tableau 3.17. Nous voulons tester l’arbre repr´esent´e par la figure 3.10 sur cet ensemble. Cet arbre propose une seule r`egle de d´ecision :

Si

X≤2.5

Alors Classeaf f =B Sinon Classeaf f =R

Comme l’ensemble de test X est un intervalle, nous devons comparer les moyennes des diff´erentes valeurs de X `a 2.5. Par exemple, pour le premier individumoy(X) = 0.5, puisque0.5 ≤ 2.5donc sa classe d’affectation sera ´egale `a B. De la mˆeme fac¸on nous calculons les classes d’affectation des autres individus de test. Le r´esultat est repr´esent´e dans la troisi`eme colonne du tableau 3.17.

c. Cas d’une variable explicative histogramme Dans ce cas le test binaire est sous la forme : Si

varexp≤freqdecoup ∗ moddecoup

Alors noeudfils gauche Sinon noeudfils droit

Suivant le type devarexpdans le fichier de test, nous distinguons deux cas possibles :

• Sivarexpest une variable nominale ou continue : la transformation du test sera la mˆeme que lorsque nous affectons des individus classiques.

• Sivarexpest un histogramme : dans ce cas il suffit de comparer la fr´equence de moddecoupde l’individu `a la fr´equence de d´ecoupage pour savoir `a quel nœud fils sera affect´e l’individu de test.

3.4.2.2 Est-ce une bonne affectation ou non ?

Dans le cas o `u nous testons l’arbre sur un ensemble d’individus symboliques (ou de second ordre), la d´ecision concernant la justesse de l’affectation d´epend du type de la variable `a expliquer dans le fichier de test :

• Si la variable `a pr´edire est le concept symbolique ou de type nominal : nous consid´erons que l’affectation est bonne si la classe d’affectation est ´egale `a la valeur de la variable `a expliquer de l’individu de test.

• Si la variable `a pr´edire est de type histogramme : nous consid´erons que l’affectation est bonne si l’histogramme d´ecrivant le nœud terminal d’affectation est le plus proche de la valeur de l’histogramme de l’individu de test parmi toutes les valeurs des nœuds terminaux de l’arbre. En d’autres termes :

SiD(var´aexp(indtest), histo(ndaf f)) =min{ndster}

D

varaexp´ (indtest), histo(nd) Alors laf f ectation est bonne.

3 Nouvelle m´ethode d’arbres de d´ecision symbolique : SyrTree 121 avec

D : est la distance euclidienne entre deux histogrammes,

varaexp´ : repr´esente la valeur de la variable `a expliquer de l’individu de test, histo(ndaf f): repr´esente l’histogramme moyen d´ecrivant le nœud

d’affecta-tion,

{ndster}: repr´esente l’ensemble des nœuds terminaux de l’arbre,

et histo(nd) : repr´esente l’histogramme d´ecrivant un nœud terminal de l’arbre.

Exemple d’application

Soit l’ensemble de test repr´esent´e par le tableau 3.18. Nous voulons tester l’arbre repr´esent´e par la figure 3.11 sur cet ensemble. Cet arbre propose une seule r`egle de d´ecision :

Si(X =A) Alors Classeaf f =B(0.05∗R,0.9∗B,0.005∗V) Sinon Classeaf f =R(0.667∗R,0.333∗V)

Notre objectif est d’estimer si on a une bonne affectation ou non, dans le cas o `u la variable `a pr´edire est de type histogramme dans le fichier de test.

Pour savoir si les affectations sont bonnes ou pas il suffit de calculer pour chaque cas les distances entre la valeur de Y et les histogrammes d´ecrivant les deux nœuds terminaux de l’arbre.

• Pour le premier individu de test :Y1 = 1(0.7)2(0.3).

D(Y1, Caf f1) = (|0.7 − 0.667| + |0.3 − 0| + |0 − 0.333|)/3 = 0.325 = D(Y1, histo(nd2))

D(Y1, histo(nd1)) = (|0.7−0.05|+|0.3−0.05|+|0−0.9|)/3 = 0.6

PuisqueD(Y1, Caf f1) = min(D(y1, histo(ndi)))donc nous consid´erons l’affecta-tion de cet individu de test comme ´etant une bonne affectal’affecta-tion.

• Pour le deuxi`eme individu de test :Y2 = 1(0.1)2(0.8)3(0.1).

D(Y2, Caf f2) = (|0.1 − 0.05| + |0.8 − 0.9| + |0.1 − 0.05|)/3 = 0.067 = D(Y2, histo(nd1))

D(Y2, histo(nd2)) = (|0.1−0.667|+|0.8−0|+|0.1−0.333|)/3 = 0.533

PuisqueD(Y2, Caf f2) = min(D(Y2, histo(ndi)))donc nous consid´erons l’affecta-tion de cet individu de test comme ´etant une bonne affectal’affecta-tion.

• Pour le troisi`eme individu de test :Y3= 2(0.6)3(0.4).

D(Y3, Caf f3) = (|0 − 0.667| + |0.6 − 0| + |0.4 − 0.333|)/3 = 0.467 = D(Y3, histo(nd2))

D(Y3, histo(nd1)) = (|0−0.05|+|0.4−0.05|+|0.6−0.9|)/3 = 0.233

PuisqueD(Y1, Caf f1) 6= min(D(y1, histo(ndi)))donc nous consid´erons l’affecta-tion de cet individu de test comme ´etant une erreur d’affectal’affecta-tion.

conc Y X

Concept Histogram Histogram Classe affectation Bonne

- 1 :R,2 :B,3 :V 1 :A,2 :B,3 :C affectation

1 1(0,7)2(0.3) 2(0.75)3(0.25 R (0.667*R, 0.333*V) Oui 2 1(0.1)2(0.8)3(0.1) 1(1) B(0.05*R, 0.9*B,0.005*V) Oui 3 2(0,6)3(0.4) 1(0.5)2(0.5) R(0.667*R, 0.333*V) Non Tableau 3.18 – Exemple de donn´ees de test o `u la variable `a pr´edire est de type histogramme. Calcul et v´erification de la classe d’affectation.

4 Strat´egies de construction d’arbres `a partir de donn´ees classiques en utilisant SyrTree

Afin de construire un arbre de d´ecision symbolique `a partir de donn´ees classiques nous avons mis en places deux strat´egies :

• La premi`ere consiste `a construire l’arbre en partant du fichier symbolique d´ecrivant la variable `a expliquer. C’est-`a-dire que le fichier symbolique en entr´ee de SyrTree aura la variable `a expliquer comme classe symbolique.

• La deuxi`eme strat´egie est bas´ee sur deux ´etapes : (i) appliquer une m´ethode de classification symbolique non supervis´ee aux donn´ees initiales, (ii) prendre le r´esultat de cette classification comme entr´ee pour notre m´ethode. Dans ce cas la variable `a expliquer sera sous la forme d’un histogramme.

4 Strat´egies de construction d’arbres en utilisant SyrTree 123 Pour l’application de ces deux strat´egies un pr´e-traitement sur les donn´ees classiques initiales est n´ecessaire. Il concerne la conversion des variables continues en histogrammes les plus discriminants en utilisantHistSyret la classification des donn´ees en utilisantClustSyr. La figure 3.14 pr´esente un sch´ema r´esumant les diff´erentes ´etapes et outils n´ecessaires pour l’application des deux strat´egies. Dans ce qui suit nous les d´ecrivons en s’appuyant sur des exemples d’applications.

4.1 Strat´egie 1 : la construction des arbres sur les classes d’individus

Dans le document The DART-Europe E-theses Portal (Page 127-136)