• Aucun résultat trouvé

5.4 Regroupement de mots pour la classification de documents

5.4.8 Etude exp´erimentale

Objectifs de l’´etude

Deux objectifs sont vis´es dans cette ´etude, le premier concerne une avanc´ee dans le domaine de la Recherche d’Information, le second porte sur l’ensemble du sujet abord´e dans cette th`ese.

D’un point de vue RI, on cherche `a valider l’hypoth`ese selon laquelle, la construction de groupes non-disjoints de mots plutˆot que de groupes disjoints, permettrait de mieux d´ecrire les documents, dans une perspective de classification supervis´ee. Pour cela, nous observerons, sur une mˆeme m´ethode de r´eduction (ici DDOC), l’influence des intersections sur le r´esultat final de la classification. Sur la m´ethode DDOC, nous ferons varier le fuzzifier f pour augmenter ou diminuer l’importance des multi-affectations.

Plus g´en´eralement, cette ´etude dans le domaine de la RI est le contexte id´eal pour l’´evaluation de l’algorithme de clustering PoBOC, pr´esent´e dans le chapitre 2. En effet, les relations s´emantiques complexes qu’entretiennent entre eux les objets textuels, font de ce type de donn´ees une cible appropri´ee pour montrer l’int´erˆet des m´ethodes de cluste-ring produisant des clusters non-disjoints. L’algorithme PoBOC sera alors compar´e, via la m´ethode DDOC, `a deux algorithmes traditionnels de regroupement en classes disjointes : une approche hi´erarchique et une approche par partitionnement `a travers les m´ethodes ADC et ITDC respectivement.

Notons que pour ces exp´erimentations, nous ´evaluerons de fa¸con indirecte la qualit´e des algorithmes de clustering, en observant la performance du classifieur na¨ıf de Bayes sur diff´erents sch´emas de repr´esentation des documents.

Pr´esentation des corpus

Nous utilisons deux corpus classiques, faisant r´ef´erence dans le domaine de la classifi-cation de documents : le corpus 20Newsgroup [104] et le corpus Reuters-2157825.

20Newsgroup est un corpus constitu´e de 18941 articles. Il s’agit d’´echanges entre per-sonnes dans le cadre d’un forum de discussions26. Les documents sont organis´es autour de 20 th´ematiques (groupes de discussions) qui constituent alors les 20 classes `a apprendre. Deux sous-corpus sont pr´ed´efinis : l’ensemble des documents d’entraˆınement (60%) et de

25www.research.att.com/∼lewis/reuters21578.html

30 40 50 60 70 80 0 5 10 15 20 25 30 35 40

Taux de bonne classification (en %)

Proportion d’intersections (en %) k=8 k=12 k=14 k=22 k=36 k=82 k=232 70 72 74 76 78 80 82 84 0 5 10 15 20 25 30 35 40

Taux de bonne classification (en %)

Proportions d’intersections (en %) k=5 k=6 k=7 k=9 k=12 k=14 k=18 k=36 k=58 k=76

Fig. 5.8 – ´Evaluation de l’influence de la proportion d’intersections entre clusters, sur la performance du classifieur. Corpus Newsgroup (gauche) et Reuters (droite).

test (40%). A partir du corpus d’entraˆınement, 22183 mots sont extraits par stemmati-sation et suppression des mots vides (utilistemmati-sation d’une stoplist) et des mots apparaissant dans moins de trois documents.

Le corpus Reuters-21578 se divise en 9603 documents pour l’ensemble d’entraˆınement et 3299 documents tests, en utilisant la collection modifi´ee “ModApte” [6]. Ces documents sont organis´es autour de 118 classes non-exclusives (un document peut ˆetre ´etiquet´e par plusieurs classes diff´erentes). Par un processus similaire au pr´ec´edent, 7680 mots sont extraits du corpus d’entraˆınement.

Calcul de la performance des classifieurs

Nous nous pla¸cons dans le cas d’une classification binaire simple, c’est `a dire que, pour chaque document test d `a classer, nous retenons la classe d’appartenance la plus probable c, calcul´ee par le classifieur na¨ıf de Bayes :

c(d) = arg max

i=1...m

p(ci|d)

Si cette classe correspond `a l’´etiquette (ou l’une des ´etiquettes) propos´ee(s) pour ce docu-ment, on le consid`ere bien class´e. La performance du classifieur est alors quantifi´ee par le rapport du nombre de documents bien class´es sur le nombre total de documents tests.

L’´evaluation est effectu´ee sur une ex´ecution, en utilisant le d´ecoupage pr´e-d´efini des ensembles d’entraˆınement et de test. Pr´ecisons que les param`etres du classifieur de Bayes

sont appris sur les corpus d’entraˆınement uniquement, puis ´evalu´es sur les corpus de test. Il en va de mˆeme pour l’´etape de clustering supervis´ee bas´ee sur des mesures li´ees aux distributions des mots sur les classes (divergence de KL, fonction objective de ITDC, etc.). Influence des intersections entre groupes de mots

Sur les deux corpus on observe l’influence des intersections entre clusters sur les perfor-mances du classifieur induit (figure 5.8). Les “proportions d’intersections” sont calcul´ees sur le pseudo-partitionnement finalW du vocabulaire initial V :

Int(W) = X

Wj∈W

|Wj|

|V | − 1

Pour f = 0, le sch´ema de partitionnement obtenu est strict doncP

Wj∈W|Wj| = |V | et la proportion d’intersections est nulle. Lorsque f augmente, cet indice augmente ´egalement. On observe sur la figure 5.8 que la tendance g´en´erale des trac´es, est identique sur les deux corpus, `a savoir une am´elioration du classifieur lorsqu’on autorise jusqu’`a 10% `a 20% d’intersections, puis une d´egradation de ses performances, au del`a de 30%. On note ´egalement que les am´eliorations indiqu´ees sont plus importantes pour des sch´emas constitu´es de peu de clusters (jusqu’`a 20 clusters) et disparaissent progressivement lorsque le nombre de clusters augmente.

On d´eduit de cette premi`ere ´etude, que le pseudo-partitionnement du vocabulaire est particuli`erement indiqu´e lorsque l’on souhaite d´ecrire l’ensemble des documents avec peu d’attributs. D’autre part, il existe certaines conditions `a v´erifier pour que les intersections entre clusters influencent positivement la description des documents, et donc indirecte-ment la performance du classifieur. Ces conditions portent notamindirecte-ment sur la proportion d’intersections autoris´ees. Empiriquement, les exp´eriences r´ealis´ees sur les deux corpus s’accordent sur une proportion comprise entre 10% et 20%. Cet intervale de valeurs est globalement respect´e pour le param´etrage f = 0.3 sur le corpus Newsgroup et f = 0.2 sur le corpus Reuters. Nous retenons donc ces deux param`etres, pour comparer DDOC avec ADC et ITDC, dans l’exp´erience suivante.

Comparaison des m´ethodes ADC, ITDC et DDOC

La seconde exp´erience permet de comparer la m´ethode DDOC avec les deux autres approches de r´eduction pr´esent´ees : ADC (clustering hi´erarchique) et ITDC (clustering par partitionnement). Cette comparaison est effectu´ee dans des configurations identiques (nombre de clusters, corpus d’entraˆınement, de test, vocabulaire et classifieur identiques). La diff´erence concerne alors l’approche utilis´ee pour parvenir `a un partitionnement appro-pri´e du vocabulaire.

Les r´esultats de cette ´etude sont pr´esent´es dans les diagrammes de la figure 5.9. Sur le corpus Newsgroup (diagramme de gauche), on observe une performance sensiblement meilleure pour la m´ethode que nous proposons, particuli`erement pour un nombre de clus-ters limit´e (jusqu’`a 36 clusclus-ters). C’est en partie sur ce corpus que la m´ethode ITDC est ´evalu´ee dans [42]. On observe effectivement, que le regroupement agglom´eratif pro-pos´e par ADC est l´eg`erement moins pertinent que le partitionnement obtenu par ITDC.

                        ! #"$%&'() *+, -.,, /1024356789:;7 <= >? @A BC D DA E F =G G H IH E= J HC D KA D L M

N O P Q R S TVU TWO TYX NZQ P[X R\Q TYS]P ^4_ ^`a^ ^^ ^ba^ c _ c `a^ c ^ c ba^ b_ b`a^ b^ bba^ d _ d `a^ d ^ d ba^ eef!g#hijklmn o+e,g pq,e,g

rtsuv4wxyz{|;y }~ ‚ ƒ„ … …‚ † ‡~ˆ ˆ ‰ Š‰ †~ ‹ ‰„ … Œ‚ …  Ž

Fig. 5.9 – ´Evaluation de la m´ethode DDOC, comparativement aux m´ethodes ADC et ITDC sur les deux corpus : Newsgroup (gauche) et Reuters (droite).

En revanche, sur le corpus Reuters (diagramme de droite), la m´ethode ITDC est nette-ment moins performante que les deux autres approches27. Sur ce mˆeme corpus, le pseudo-partitionnement propos´e par l’algorithme PoBOC est r´eellement performant, toujours pour des valeurs de k (nombre de groupes) limit´ees.

Par l’´etude d´ecrite dans cette section (5.4), nous avons propos´e une avanc´ee dans le domaine de la recherche d’information, en pr´esentant la m´ethode DDOC permettant de r´eduire l’espace de description des documents par un pseudo-partitionnement du voca-bulaire. Les exp´erimentations effectu´ees donnent des r´esultats encourageants, mais de-vront ˆetre compl´et´ees, en utilisant par exemple, d’autres syst`emes de classification (SVM, arbres de d´ecision, etc.) ainsi que des mesures d’´evaluation plus pr´ecises (e.g. micro/macro pr´ecision et rappel). Une ´etude devra ´egalement porter sur la recherche voire l’ajustement automatique du param`etre f .

Plus g´en´eralement, ce travail nous a permi de confirmer l’hypoth`ese supportant ce chapitre, `a savoir qu’il est pertinent d’organiser les donn´ees textuelles en classes non-disjointes. Par la mˆeme occasion, l’algorithme PoBOC a pu, une nouvelle fois ˆetre ´evalu´e avec succ`es.