R´eduction de la dimension de l’espace de description des documents 146

5.4 Regroupement de mots pour la classification de documents

5.4.3 R´eduction de la dimension de l’espace de description des documents 146

P^µ= ^vp vp + f p ^; ^R^˜ µ= ^vp vp + f n • macro-pr´ecision/rappel : ˜ P^M = Pm i=1Pi m ^; ^R^˜ M = Pm i=1Ri m

D’autres critères combinant les notions de précision et de rappel sont proposés ; il s’agit par exemple de la recherche du point d’équilibre (Break-even point) [6] ou de la F_β-mesure [181].

Classification semi-automatique : Chaque document est étiqueté par une ou plusieurs classes et le classifieur renvoie, pour un document test donné, une liste de scores. Pour tenir compte de ces valeurs, [189] propose la mesure de précision moyenne sur 11 points (Eleven-point average precision). Cette mesure considère 11 “seuils” (0.0, 0.1, . . . , 1.0) et calcule pour chacun de ces seuils, la précision et le rappel des classifications binaires, issues des listes de scores seuillées.

5.4.3 R´eduction de la dimension de l’espace de description des

docu-ments

Par s´election d’un sous-ensemble d’attributs ´

Etant donné un ensemble d’attributs (ou descripteurs) V , la réduction de la dimension de l’espace de description, peut être effectuée par sélection d’un sous-ensemble V⁰ ⊂ V . On recherche alors le plus petit sous-espace V0, contenant l’information suffisante sur les documents, pour aboutir à un classifieur au moins aussi performant dans V⁰ que dans V . La recherche de ce sous-ensemble optimal V⁰ est effectuée sur les données d’entraˆınement ; il s’agit d’un problème NP-complet (l’espace des hypothèses correspond à l’ensemble des partiesP(V )). Cette recherche est donc généralement guidée par des mesures de pertinence sur les attributs de V (ici les mots du vocabulaire).

Le seuil de fréquence de documents [189], par exemple, est fondé sur l’hypothèse que les mots rares (apparaˆıssant dans peu de documents) sont peu utiles ou peu influents dans la prédiction des catégories (classes de documents). Il s’agit alors de calculer, pour chaque mot w de V , le rapport Nw(D)/|D|, où D désigne le corpus d’entraˆınement et Nw(D), le nombre de documents contenant w dans D. Seuls les mots apparaˆıssant dans le plus grand nombre de documents sont retenus. Notons que l’utilisation de ce critère, suppose une étape préalable de suppression des mots non pertinents (mots vides) comme nous l’avons précisé dans la section précédente.

La mesure du χ2[161], ´evalue la d´ependance entre un mot w et une classe de documents ci. Pour cela, le calcul suivant compare les proportions de documents contenant w ou ne contenant pas w (w), dans la classe c_i ou dans les documents des autres classes (c_i) :

χ²(w, c_i) = |D|.[p(w, ci).p(w, c_i)− p(w, ci).p(w, c_i)]² p(w).p(w).p(c_i).p(c_i)

Dans cette définition, p(w, c_i), par exemple, désigne la probabilité que, pour un document aléatoire d, le mot w n’occurre pas dans d et d appartient à la classe ci. Ces probabilités sont estimées sur le corpus d’entraˆınement D. Deux configurations sont ensuite possibles pour évaluer l’indépendance de w par rapport à l’ensemble des classes :

χ²(w) = m X i=1 p(c_i).χ²(w, c_i) (moyenne pond´er´ee) χ²_max(w) = max i χ²(w, ci) (maximum)

Les mots selectionnés sont ceux qui sont les moins indépendants des classes (valeurs élevées pour ces mesures).

De nombreuses autres mesures utilisent des comparaisons proches de celles présentées dans la mesure du χ². On peut noter par exemple, le facteur d’association DIA [62], le gain d’information [111] ou encore l’information mutuelle [105]. Sur les expérimentations effectuées, ces mesures permettent de réduire la dimension de l’espace jusqu’à un facteur 100, sans perte, voire avec un léger gain de performance sur la classification.

On oppose aux méthodes de sélection d’attributs, les méthodes d’extraction d’attributs, dont les deux techniques à suivre font partie.

Par reparam´etrage de l’espace

Le re-paramétrage de l’espace des attributs consiste à définir un nouvel ensemble d’at-tributs, chaque nouvel attribut étant une combinaison linéaire des attributs initiaux. Cette méthode, mieux connue sous le nom de Latent Semantic Indexing (LSI) [38] dans le cadre de l’application à la classification de documents, est basée sur une décomposition en va-leurs propres, de la matrice (documents×mots). La réduction de la dimension de l’espace est réalisée par sélection des plus grandes valeurs propres.

Cette méthode est reconnue pour être particulièrement adaptée au traitement de cer-taines particularités liées à la langue naturelle, comme par exemple les synonymes. En effet, deux mots synonymes correspondent à deux dimensions différentes dans l’espace initial alors qu’ils ont un comportement similaire dans le nouvel espace de plus faible di-mension. Ainsi, des documents ayant peu de mots en commun peuvent être très similaires dans le nouvel espace, pour peu que des mots synonymes apparaissent dans ces documents.

Finalement, cette méthode est une manière de découvrir la structure sémantique latente (cachée) du vocabulaire.

La capacité de LSI à réduire la dimension de l’espace de description des documents, est supérieure aux approches par sélection d’attributs. Cependant, les nouvelles dimensions extraites sont difficilement interprétables.

Récemment, T. Hofmann proposait une alternative davantage formelle : le modèle génératif pLSI (probabilistic Latent Semantic Indexing) [85]. L’approche pLSI considère que chaque mot est généré par un thème et chaque thème est modélisé par une loi multino-miale, dont les paramètres sont approximés par l’algorithme EM. On peut alors considérer qu’un document est généré par un mélange de lois de probabilités (différents thèmes). Ce dernier point est intéréssant car, contrairement à la plupart des approches d’indexation, la méthode pLSI ne fixe pas le document comme unité thématique de base et prend en compte le fait qu’un document puisse faire référence à plusieurs thèmes.

Par regroupement des attributs

Une dernière technique de réduction de l’espace, consiste à regrouper les attributs similaires, de fa¸con à utiliser les groupes de mots plutôt que les mots eux-mêmes comme dimensions de l’espace. Cette technique se place donc dans la continuité de notre chapitre, puisqu’il s’agit de construire des groupes de mots sémantiquement proches.

La méthode de réduction de l’espace par regroupement d’attributs nécessite de définir une mesure de similarité “sémantique” puis de choisir un algorithme de clustering appro-prié. Lewis [111] est le premier à utiliser des groupes de mots pour classer des documents. En utilisant une mesure de similarité basée sur une connaissance extérieure (WordNet) puis en construisant des paires de mots réciproquement proches, les résultats obtenus sont inférieurs à ceux obtenus sans réduction de l’espace. Une seconde tentative [112], utilisant une mesure de similarité basée sur la notion de cooccurrence dans les documents d’en-traˆınement, couplée d’un algorithme de clustering hiérarchique, n’apportera toujours pas d’amélioration significative.

En revanche, l’utilisation d’un algorithme de “clustering supervisé” permet une réduction très importante de la dimension de l’espace (d’un facteur supérieur à 10,000), en conservant, voire en améliorant, les performances du classifieur. Les systèmes ADC (Ag-glomerative Distributional Clustering) [7] et ITDC (Information-Theoretic Divisive Clus-tering) [42] utilisent tous deux une mesure de similarité basée sur l’analyse des distribu-tions des mots sur les classes de documents, dans le corpus d’entraˆınement. L’utilisation des étiquettes de classe, à ce stade du processus, justifie le terme de clustering “super-visé”. En revanche, ces deux méthodes divergent sur l’algorithme de clustering utilisé ; le système ADC utilise un algorithme agglomératif hiérarchique tandis que ITDC procède par partitionnement. Comme nous l’étudierons dans la suite, ces deux algorithmes sont des adaptations incrémentales d’algorithmes traditionnels. L’incrémentalité est indispensable, dans cette application où le nombre d’objets à traiter est très grand.

Nous avons montré dans les sections précédentes, que l’organisation de mots en groupes non-disjoints convient particulièrement aux données textuelles. Nous avons donc des rai-sons de penser que ce type de schéma de classification pourrait convenir, voire améliorer l’étape de réduction de l’espace de description des documents.

Nous choisissons de considérer le cadre de la classification par l’algorithme na¨ıf de Bayes, que nous présentons dans la prochaine section. Nous préciserons ensuite les systèmes

ADC et ITDC, sur lesquels nous comparerons notre approche de clustering avec re-couvrements. Cette dernière sera présentée immédiatement après. Enfin, nous propose-rons une première série d’expérimentations sur les deux corpus 20Newsgroup [104] et Reuters-21578¹⁸, traditionnellement utilisés comme corpus de référence pour l’évaluation de systèmes de classification automatique de documents.

Dans la suite, nous utilisons les notations suivantes : le corpus d’entraˆınement est noté D = {d1, . . . , d_n}, le vocabulaire extrait de D est noté V = {w1, . . . , w_l} et C = {c1, . . . , c_m} correspond aux classes (étiquettes des documents). Enfin, N(wt, d_i) désigne le nombre d’occurrences du mot w_t dans le document d_i.

5.4.4 Le classifieur na¨ıf de Bayes pour la classification de documents

Classification `a partir de mots

Le classifieur na¨ıf de Bayes est connu pour ses performances en classification auto-matique de documents [156]. Ce classifieur consiste à apprendre un modèle de génération de documents pour chaque classe. Ces modèles sont définis par les distributions p(d_i|cj) exprimant le probabilité a priori que le document di soit généré par la classe cj (5.1).

p(d_i|cj) = p(|di|) ^Y

{wt∈di}

p(w_t|cj) (5.1)

Cette expression est obtenue sous l’hypothèse d’indépendance entre les mots (notament sur l’ordre d’apparition des mots), correspondant ici à l’hypothèse “na¨ıve” de Bayes. On sait que cette hypothèse n’est pas vérifiée, cependant les études précédentes montrent qu’en pratique, les performances du classifieur na¨ıf de Bayes pour la classification de documents restent bonnes sous cette hypothèse d’indépendance [49]. Dans l’équation (5.1), p(w_t|cj) est estimée sur le corpus d’entraˆınement via la règle de succession de Laplace (5.2) :

p(w_t|cj)≈ 1 + X {di∈cj} N (wt, di) l + X {ws∈V } X {di∈cj} N (w_s, d_i) ^(5.2)

Pour classer un nouveau document d, on observe la probabilité a priori p(c_j|d). Ainsi, la classe prédite pour le document d sera celle qui maximize cette probabilité, calculée par la règle de Bayes (5.3) :

p(c_j|d) = ^p(c^j^)p(d^|c^j⁾

p(d) ^(5.3)

Par étapes succéssives de transformations et simplifications mathématiques19 sur l’équation (5.3), le classifieur de Bayes peut être reformulé ainsi :

c^∗(d) = arg max j=1...m log p(c_j) |d| ⁺ X {wt∈V } p(w_t|d) log p(wt|cj) (5.4) Dans cette dernière équation, p(cj) est donnée par le rapport du nombre de documents étiquetés c_j dans D sur le nombre de documents dans D.

18http ://www.research.att.com/∼lewis/reuters21578.html 19Pour plus de d´etails, voir [42]

Classification `a partir de groupes de mots

Dans le cadre du regroupement de mots, on note W = {W1, . . . , W_p} le résultat d’un processus de clustering sur le vocabulaire V , tel que chaque cluster W_iest un sous ensemble de V et l’union de tous les clusters deW est égale à V . Les equations (5.1) et (5.4) doivent être modifiées en rempla¸cant w par W puisque les documents ne sont plus caractérisés par des mots mais par des groupes de mots. Les expressions p(W_s|cj) et p(W_s|d) sont définies par les équations suivantes, dans le cas classique d’un regroupement en clusters disjoints (on dit aussi queW est une partition stricte de V ) :

p(Ws|cj) = X {di∈cj} N (W_s, d_i) X {Wk∈W} X {di∈cj} N (W_k, d_i) ^; ^p(W^s|d) = ^{N (W}^s^{, d)} |d| ^(5.5) o`u N (W_k, d) = P

{wt∈Wk}N (wt, d). Dans notre étude ce modèle doit être adapté au cas de clusters non-disjoints (ou pseudo partition). Nous présentons cette adaptation en section 5.4.7.

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 159-163)