Etude exp´erimentale - Regroupement de mots pour la classification de documents

5.4 Regroupement de mots pour la classification de documents

5.4.8 Etude exp´erimentale

Objectifs de l’´etude

Deux objectifs sont visés dans cette étude, le premier concerne une avancée dans le domaine de la Recherche d’Information, le second porte sur l’ensemble du sujet abordé dans cette thèse.

D’un point de vue RI, on cherche à valider l’hypothèse selon laquelle, la construction de groupes non-disjoints de mots plutôt que de groupes disjoints, permettrait de mieux décrire les documents, dans une perspective de classification supervisée. Pour cela, nous observerons, sur une même méthode de réduction (ici DDOC), l’influence des intersections sur le résultat final de la classification. Sur la méthode DDOC, nous ferons varier le fuzzifier f pour augmenter ou diminuer l’importance des multi-affectations.

Plus généralement, cette étude dans le domaine de la RI est le contexte idéal pour l’évaluation de l’algorithme de clustering PoBOC, présenté dans le chapitre 2. En effet, les relations sémantiques complexes qu’entretiennent entre eux les objets textuels, font de ce type de données une cible appropriée pour montrer l’intérêt des méthodes de cluste-ring produisant des clusters non-disjoints. L’algorithme PoBOC sera alors comparé, via la méthode DDOC, à deux algorithmes traditionnels de regroupement en classes disjointes : une approche hiérarchique et une approche par partitionnement à travers les méthodes ADC et ITDC respectivement.

Notons que pour ces expérimentations, nous évaluerons de fa¸con indirecte la qualité des algorithmes de clustering, en observant la performance du classifieur na¨ıf de Bayes sur différents schémas de représentation des documents.

Pr´esentation des corpus

Nous utilisons deux corpus classiques, faisant r´ef´erence dans le domaine de la classifi-cation de documents : le corpus 20Newsgroup [104] et le corpus Reuters-21578²⁵.

20Newsgroup est un corpus constitué de 18941 articles. Il s’agit d’échanges entre per-sonnes dans le cadre d’un forum de discussions26. Les documents sont organisés autour de 20 thématiques (groupes de discussions) qui constituent alors les 20 classes à apprendre. Deux sous-corpus sont prédéfinis : l’ensemble des documents d’entraˆınement (60%) et de

25www.research.att.com/∼lewis/reuters21578.html

30 40 50 60 70 80 0 5 10 15 20 25 30 35 40

Taux de bonne classification (en %)

Proportion d’intersections (en %) k=8 k=12 k=14 k=22 k=36 k=82 k=232 70 72 74 76 78 80 82 84 0 5 10 15 20 25 30 35 40

Taux de bonne classification (en %)

Proportions d’intersections (en %) k=5 k=6 k=7 k=9 k=12 k=14 k=18 k=36 k=58 k=76

Fig. 5.8 – ´Evaluation de l’influence de la proportion d’intersections entre clusters, sur la performance du classifieur. Corpus Newsgroup (gauche) et Reuters (droite).

test (40%). A partir du corpus d’entraˆınement, 22183 mots sont extraits par stemmati-sation et suppression des mots vides (utilistemmati-sation d’une stoplist) et des mots apparaissant dans moins de trois documents.

Le corpus Reuters-21578 se divise en 9603 documents pour l’ensemble d’entraˆınement et 3299 documents tests, en utilisant la collection modifiée “ModApte” [6]. Ces documents sont organisés autour de 118 classes non-exclusives (un document peut être étiqueté par plusieurs classes différentes). Par un processus similaire au précédent, 7680 mots sont extraits du corpus d’entraˆınement.

Calcul de la performance des classifieurs

Nous nous pla¸cons dans le cas d’une classification binaire simple, c’est à dire que, pour chaque document test d à classer, nous retenons la classe d’appartenance la plus probable c^∗, calculée par le classifieur na¨ıf de Bayes :

c^∗(d) = arg max

i=1...m

p(c_i|d)

Si cette classe correspond à l’étiquette (ou l’une des étiquettes) proposée(s) pour ce docu-ment, on le considère bien classé. La performance du classifieur est alors quantifiée par le rapport du nombre de documents bien classés sur le nombre total de documents tests.

L’évaluation est effectuée sur une exécution, en utilisant le découpage pré-défini des ensembles d’entraˆınement et de test. Précisons que les paramètres du classifieur de Bayes

sont appris sur les corpus d’entraˆınement uniquement, puis évalués sur les corpus de test. Il en va de même pour l’étape de clustering supervisée basée sur des mesures liées aux distributions des mots sur les classes (divergence de KL, fonction objective de ITDC, etc.). Influence des intersections entre groupes de mots

Sur les deux corpus on observe l’influence des intersections entre clusters sur les perfor-mances du classifieur induit (figure 5.8). Les “proportions d’intersections” sont calcul´ees sur le pseudo-partitionnement finalW du vocabulaire initial V :

Int(W) = X

Wj∈W

|Wj|

|V | ^{− 1}

Pour f = 0, le sch´ema de partitionnement obtenu est strict doncP

Wj∈W|Wj| = |V | et la proportion d’intersections est nulle. Lorsque f augmente, cet indice augmente également. On observe sur la figure 5.8 que la tendance générale des tracés, est identique sur les deux corpus, à savoir une amélioration du classifieur lorsqu’on autorise jusqu’à 10% à 20% d’intersections, puis une dégradation de ses performances, au delà de 30%. On note également que les améliorations indiquées sont plus importantes pour des schémas constitués de peu de clusters (jusqu’à 20 clusters) et disparaissent progressivement lorsque le nombre de clusters augmente.

On déduit de cette première étude, que le pseudo-partitionnement du vocabulaire est particulièrement indiqué lorsque l’on souhaite décrire l’ensemble des documents avec peu d’attributs. D’autre part, il existe certaines conditions à vérifier pour que les intersections entre clusters influencent positivement la description des documents, et donc indirecte-ment la performance du classifieur. Ces conditions portent notamindirecte-ment sur la proportion d’intersections autorisées. Empiriquement, les expériences réalisées sur les deux corpus s’accordent sur une proportion comprise entre 10% et 20%. Cet intervale de valeurs est globalement respecté pour le paramétrage f = 0.3 sur le corpus Newsgroup et f = 0.2 sur le corpus Reuters. Nous retenons donc ces deux paramètres, pour comparer DDOC avec ADC et ITDC, dans l’expérience suivante.

Comparaison des m´ethodes ADC, ITDC et DDOC

La seconde expérience permet de comparer la méthode DDOC avec les deux autres approches de réduction présentées : ADC (clustering hiérarchique) et ITDC (clustering par partitionnement). Cette comparaison est effectuée dans des configurations identiques (nombre de clusters, corpus d’entraˆınement, de test, vocabulaire et classifieur identiques). La différence concerne alors l’approche utilisée pour parvenir à un partitionnement appro-prié du vocabulaire.

Les résultats de cette étude sont présentés dans les diagrammes de la figure 5.9. Sur le corpus Newsgroup (diagramme de gauche), on observe une performance sensiblement meilleure pour la méthode que nous proposons, particulièrement pour un nombre de clus-ters limité (jusqu’à 36 clusclus-ters). C’est en partie sur ce corpus que la méthode ITDC est évaluée dans [42]. On observe effectivement, que le regroupement agglomératif pro-posé par ADC est légèrement moins pertinent que le partitionnement obtenu par ITDC.

! #"$%&'() *+, -.,, /1024356789:;7 <= >? @A BC D DA E F =G G H IH E= J HC D KA D L M

N O P Q R S TVU TWO TYX NZQ P[X R\Q TYS]P ^4_ ^à^ ^^ ^ba^ c _ c à^ c ^ c ba^ b_ bà^ b^ bba^ d _ d à^ d ^ d ba^ eef!g#hijklmn o+e,g pq,e,g

rtsuv4wxyz{|;y }~ ~ ~

Fig. 5.9 – Évaluation de la méthode DDOC, comparativement aux méthodes ADC et ITDC sur les deux corpus : Newsgroup (gauche) et Reuters (droite).

En revanche, sur le corpus Reuters (diagramme de droite), la méthode ITDC est nette-ment moins performante que les deux autres approches²⁷. Sur ce même corpus, le pseudo-partitionnement proposé par l’algorithme PoBOC est réellement performant, toujours pour des valeurs de k (nombre de groupes) limitées.

Par l’étude décrite dans cette section (5.4), nous avons proposé une avancée dans le domaine de la recherche d’information, en présentant la méthode DDOC permettant de réduire l’espace de description des documents par un pseudo-partitionnement du voca-bulaire. Les expérimentations effectuées donnent des résultats encourageants, mais de-vront être complétées, en utilisant par exemple, d’autres systèmes de classification (SVM, arbres de décision, etc.) ainsi que des mesures d’évaluation plus précises (e.g. micro/macro précision et rappel). Une étude devra également porter sur la recherche voire l’ajustement automatique du paramètre f .

Plus généralement, ce travail nous a permi de confirmer l’hypothèse supportant ce chapitre, à savoir qu’il est pertinent d’organiser les données textuelles en classes non-disjointes. Par la même occasion, l’algorithme PoBOC a pu, une nouvelle fois être évalué avec succès.

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 171-174)