• Aucun résultat trouvé

R´eduction du nombre de modalit´es des histogrammes

3.3 Les cas d’utilisation d’HistSyr

3.3.2 R´eduction du nombre de modalit´es des histogrammes

La r´eduction du nombre de modalit´es d’une variable histogramme est faite sur des donn´ees symboliques d´ecrites par des histogrammes avec un nombre important de modalit´es. Une telle manipulation peut ˆetre utile dans plusieurs domaines de

FIGURE 2.9 – Exemple d’utilisation d’HistSyr sur les donn´ees de Fisher avec 3 modalit´es.

data mining comme l’analyse de donn´ees textuelles ”text mining”, l’analyse des s´eries temporelles, etc. L’objectif cette op´eration consiste `a chercher parmi les m modalit´es d’une variable histogramme les k modalit´es les plus discriminantes pour chaque classe.

3.3.2.1 La m´ethode de r´eduction du nombre de modalit´es d’un histogramme en

utilisant HistSyr

Pour cette op´eration nous nous sommes inspir´es du principe de cr´eation d’histogrammes d’HistSyr. Sauf qu’au lieu d’´evaluer la diff´erence entre toutes les fr´equences de toutes les modalit´es d’une variable histogramme, nous attribuons un score `a chaque modalit´e pour chaque classe. Ensuite, nous s´electionnons les k modalit´es qui ont le plus grand score par classe. L’´equation 2.5 donne l’expression du score d’une modalit´e j d’un histogramme d´ecrivant la classe i.

Score = 100 × mod(i, j) nc − 1

nc X

l=1, l6=i

absmod(i, j) − mod(l, j) (2.5)

avec nc : le nombre de classes d’individus.

mod(i, j) : la fr´equence de la modalit´e j de l’histogramme d´ecrivant la classe d’individu i.

Apr`es le calcul du score de chaque modalit´e et la s´election des k modalit´es les plus discriminantes, un nouveau fichier symbolique est cr´e´e. Dans ce cas l’utilisateur peut choisir entre :

• Supprimer toutes les autres modalit´es (celles class´ees de k+1 `a m) et construire des histogrammes ne contenant que les modalit´es retenues. Les fr´equences des modalit´es s´electionn´ees sont calcul´ees en divisant les fr´equences initiales par la somme des fr´equences des modalit´es s´electionn´ees. Nous utilisons la fonction mod1 pour calculer ces nouvelles fr´equences.

mod1(i, j) =

mod(i, j) P

k∈Mselmod(i, k)

(2.6) avec Msel: repr´esente l’ensemble des modalit´es s´electionn´ees.

• Ajouter une autre modalit´e nomm´ee ”other” regroupant toutes les modalit´es non retenues. Dans ce cas, les fr´equences finales des modalit´es s´electionn´ees sont ´egales aux fr´equences initiales. La fr´equence de la modalit´e ”other” est calcul´e en utilisant l’´equation 2.7.

mod(i, other) = 1 − X k∈Msel

mod(i, k) (2.7)

• Supprimer toutes les modalit´es non retenues et construire des histogrammes avec des fr´equences pond´er´ees par la valeur du score de chaque modalit´e. Dans ce cas nous utilisons la formule de mod2pour calculer les nouvelles fr´equences.

mod2(i, j) = P Score(j, i) k∈MselScore(k, i)

(2.8)

3.3.2.2 Exemple d’ex´ecution de la m´ethode de r´eduction du nombre de modalit´es

d’une variable histogramme

´Etant donn´e le fichier symbolique repr´esent´e par le tableau 2.11 d´ecrivant trois classes d’individus (C1, C2 et C3) par une variable histogramme de 15 modalit´es. Notre but est d’appliquer ”HistSyr” pour r´eduire `a 3 le nombre de modalit´es de la variable histogramme.

Afin de r´eduire le nombre de modalit´es des histogrammes d´ecrivant chaque classe `a 3 par histogramme, nous appliquons de la m´ethode de r´eduction du nombre de modalit´e d’HistSyr. Cette m´ethode se compose de trois ´etapes :

1. Calcul des scores des diff´erentes modalit´es des histogrammes d´ecrivant chaque classe d’individus. Dans cet exemple, nous avons trois classes d’individus C1, C2 et C3.

• Pour la classe d’individus C1 : score(A, C1) = 100 × mod(C1, A)

3 − 1

X

l = 1, l 6= i3|mod(C1, A) − mod(l, A)|

=

100 × mod(C1, A) ×|mod(C1, A) − mod(C2, A)| + |mod(C1, A) − mod(C3, A)| 2

= 100 × 0.05 × (|0.05 − 01| + |0.05 − 0.1|) 2

= 0.25

De la mˆeme fac¸on, nous avons calcul´e le score de chaque modalit´e pour la classe d’individus C1. Ce r´esultat est r´esum´e dans le tableau ci-dessous. • Pour la classe d’individus C2 : apr`es le calcul des scores des diff´erentes

modalit´es, de la mˆeme mani`ere que pour C1, nous obtenons le tableau ci- dessous.

• Pour la classe d’individus C3 : apr`es le calcul des scores des diff´erentes modalit´es, nous obtenons le tableau ci-dessous.

2. La s´election des trois meilleures modalit´es par classe : `a partir des trois tableaux repr´esentant les scores pour les trois classes nous obtenons :

• Msel(C1) = {G, L, O} • Msel(C2) = {B, E, N } • Msel(C3) = {E, K, M }

3. La pr´esentation du r´esultat suivant le choix de l’utilisateur :

• Choix 1 : Utiliser les modalit´es retenues en recalculant leurs fr´equences. Dans ce cas le r´esultat de la r´eduction du nombre des modalit´es de notre exemple de 15 `a 3 modalit´e par classe est repr´esent´e par la premi`ere colonne du tableau 2.12.

• Choix 2 : Utiliser des fr´equences en se basant sur le score des modalit´es retenues. La deuxi`eme colonne du tableau 2.12 illustre le r´esultat obtenu. • Choix 3 : l’ajout d’une modalit´e ”Other” repr´esentant toutes les modalit´es

non s´electionn´ees. La troisi`eme colonne du tableau 2.12 repr´esente le r´esultat obtenu.

Le r´esultat obtenu peut ˆetre v´erifi´e en utilisant l’outil HistSyr. Pour cela nous avons introduit le fichier symbolique de notre exemple `a HistSyr en sp´ecifiant le nombre de modalit´es souhait´es ainsi que la m´ethode de calcul des fr´equences. La figure 2.10 repr´esente la description du fichier symbolique r´esultat de l’application d’HistSyr et sa repr´esentation graphique obtenue en utilisant TabSyr (voir 4.2.1 du premier chapitre 1).

(a) Fichier symbolique r´esultat de la r´eduction du nombre de modalit´es `a 3 par histogramme.

(b) Visualisation graphique du fichier r´esultat.

FIGURE 2.10 – Pr´esentation du r´esultat de la r´eduction du nombre de modalit´es en utilisant HistSyr pour le calcul et TabSyr pour la visualisation.

3.3.2.3 Exemple d’application : donn´ees issues d’un corpus de documents issus

d’appels t´el´ephoniques [56]

Cet exemple est issue d’une ´etude r´ealis´ee `a Syrokko1. Dans cette ´etude [56], les donn´ees initiales repr´esentent un corpus de documents issus de la transcription de conversations t´el´ephoniques du service client d’EDF. L’objectif de l’´etude est de trouver les th´ematiques des conversations sans utiliser aucune analyse lexicale. HistSyr a ´et´e utilis´e pour s´electionner les mots caract´eristiques de chaque classe de mots. Dans cette ´etape, les donn´ees initiales sont repr´esent´ees sous la forme d’un fichier symbolique (.syr) d´ecrivant la classe ”lema clust 80”. Ce dernier repr´esente 80 classes de mots d´ecrites par une variable histogramme ”lema” ayant 2258 modalit´es (voir la figure 2.11). Dans le but d’attribuer un th`eme `a chaque classe de mots, nous avons utilis´es ”HistSyr” (avec un k =15) pour r´eduire le nombre de mots repr´esentatifs de chaque

classe de mots. La figure 2.12 repr´esente le r´esultat obtenu apr`es cette r´eduction. En utilisant ce fichier r´esultat et l’outil ”NetSyr”, nous avons pu identifier 20 classes de mots repr´esentant des th`emes bien sp´ecifiques [56].

FIGURE2.11 – Extrait du fichier initial issu de l’´etude du corpus textuel.

FIGURE 2.12 – Extrait du fichier r´esultat de la r´eduction du nombre de modalit´es d´ecrivant les classes de mots en utilisant HistSyr, issu de l’´etude du corpus textuel.

3.4 HistSyr Vs autres m´ethodes de discr´etisation

Afin d’´evaluer la qualit´e des histogrammes r´esultats de la conversion de variables continues en utilisant HistSyr, nous les avons compar´es aux histogrammes construits en utilisant des m´ethodes de discr´etisation classiques. Ces histogrammes sont obtenus en suivant cet enchaˆınement ”variable continue” → ”variable nominale” → ”variable histogramme”.

Cette comparaison a ´et´e faite sur deux types de bases de donn´ees : le premier ´etant des donn´ees issues du r´epertoire UCI[13] ; alors que le deuxi`eme repr´esente des donn´ees de certains clients de Syrokko.