• Aucun résultat trouvé

R´eduction de la dimension de l’espace de description des documents 146

5.4 Regroupement de mots pour la classification de documents

5.4.3 R´eduction de la dimension de l’espace de description des documents 146

Pµ= vp vp + f p ; R˜ µ= vp vp + f n • macro-pr´ecision/rappel : ˜ PM = Pm i=1Pi m ; R˜ M = Pm i=1Ri m

D’autres crit`eres combinant les notions de pr´ecision et de rappel sont propos´es ; il s’agit par exemple de la recherche du point d’´equilibre (Break-even point) [6] ou de la Fβ-mesure [181].

Classification semi-automatique : Chaque document est ´etiquet´e par une ou plusieurs classes et le classifieur renvoie, pour un document test donn´e, une liste de scores. Pour tenir compte de ces valeurs, [189] propose la mesure de pr´ecision moyenne sur 11 points (Eleven-point average precision). Cette mesure consid`ere 11 “seuils” (0.0, 0.1, . . . , 1.0) et calcule pour chacun de ces seuils, la pr´ecision et le rappel des classifications binaires, issues des listes de scores seuill´ees.

5.4.3 R´eduction de la dimension de l’espace de description des

docu-ments

Par s´election d’un sous-ensemble d’attributs ´

Etant donn´e un ensemble d’attributs (ou descripteurs) V , la r´eduction de la dimension de l’espace de description, peut ˆetre effectu´ee par s´election d’un sous-ensemble V0 ⊂ V . On recherche alors le plus petit sous-espace V0, contenant l’information suffisante sur les documents, pour aboutir `a un classifieur au moins aussi performant dans V0 que dans V . La recherche de ce sous-ensemble optimal V0 est effectu´ee sur les donn´ees d’entraˆınement ; il s’agit d’un probl`eme NP-complet (l’espace des hypoth`eses correspond `a l’ensemble des partiesP(V )). Cette recherche est donc g´en´eralement guid´ee par des mesures de pertinence sur les attributs de V (ici les mots du vocabulaire).

Le seuil de fr´equence de documents [189], par exemple, est fond´e sur l’hypoth`ese que les mots rares (apparaˆıssant dans peu de documents) sont peu utiles ou peu influents dans la pr´ediction des cat´egories (classes de documents). Il s’agit alors de calculer, pour chaque mot w de V , le rapport Nw(D)/|D|, o`u D d´esigne le corpus d’entraˆınement et Nw(D), le nombre de documents contenant w dans D. Seuls les mots apparaˆıssant dans le plus grand nombre de documents sont retenus. Notons que l’utilisation de ce crit`ere, suppose une ´etape pr´ealable de suppression des mots non pertinents (mots vides) comme nous l’avons pr´ecis´e dans la section pr´ec´edente.

La mesure du χ2[161], ´evalue la d´ependance entre un mot w et une classe de documents ci. Pour cela, le calcul suivant compare les proportions de documents contenant w ou ne contenant pas w (w), dans la classe ci ou dans les documents des autres classes (ci) :

χ2(w, ci) = |D|.[p(w, ci).p(w, ci)− p(w, ci).p(w, ci)]2 p(w).p(w).p(ci).p(ci)

Dans cette d´efinition, p(w, ci), par exemple, d´esigne la probabilit´e que, pour un document al´eatoire d, le mot w n’occurre pas dans d et d appartient `a la classe ci. Ces probabilit´es sont estim´ees sur le corpus d’entraˆınement D. Deux configurations sont ensuite possibles pour ´evaluer l’ind´ependance de w par rapport `a l’ensemble des classes :

χ2(w) = m X i=1 p(ci).χ2(w, ci) (moyenne pond´er´ee) χ2max(w) = max i χ2(w, ci) (maximum)

Les mots selectionn´es sont ceux qui sont les moins ind´ependants des classes (valeurs ´elev´ees pour ces mesures).

De nombreuses autres mesures utilisent des comparaisons proches de celles pr´esent´ees dans la mesure du χ2. On peut noter par exemple, le facteur d’association DIA [62], le gain d’information [111] ou encore l’information mutuelle [105]. Sur les exp´erimentations effectu´ees, ces mesures permettent de r´eduire la dimension de l’espace jusqu’`a un facteur 100, sans perte, voire avec un l´eger gain de performance sur la classification.

On oppose aux m´ethodes de s´election d’attributs, les m´ethodes d’extraction d’attributs, dont les deux techniques `a suivre font partie.

Par reparam´etrage de l’espace

Le re-param´etrage de l’espace des attributs consiste `a d´efinir un nouvel ensemble d’at-tributs, chaque nouvel attribut ´etant une combinaison lin´eaire des attributs initiaux. Cette m´ethode, mieux connue sous le nom de Latent Semantic Indexing (LSI) [38] dans le cadre de l’application `a la classification de documents, est bas´ee sur une d´ecomposition en va-leurs propres, de la matrice (documents×mots). La r´eduction de la dimension de l’espace est r´ealis´ee par s´election des plus grandes valeurs propres.

Cette m´ethode est reconnue pour ˆetre particuli`erement adapt´ee au traitement de cer-taines particularit´es li´ees `a la langue naturelle, comme par exemple les synonymes. En effet, deux mots synonymes correspondent `a deux dimensions diff´erentes dans l’espace initial alors qu’ils ont un comportement similaire dans le nouvel espace de plus faible di-mension. Ainsi, des documents ayant peu de mots en commun peuvent ˆetre tr`es similaires dans le nouvel espace, pour peu que des mots synonymes apparaissent dans ces documents.

Finalement, cette m´ethode est une mani`ere de d´ecouvrir la structure s´emantique latente (cach´ee) du vocabulaire.

La capacit´e de LSI `a r´eduire la dimension de l’espace de description des documents, est sup´erieure aux approches par s´election d’attributs. Cependant, les nouvelles dimensions extraites sont difficilement interpr´etables.

R´ecemment, T. Hofmann proposait une alternative davantage formelle : le mod`ele g´en´eratif pLSI (probabilistic Latent Semantic Indexing) [85]. L’approche pLSI consid`ere que chaque mot est g´en´er´e par un th`eme et chaque th`eme est mod´elis´e par une loi multino-miale, dont les param`etres sont approxim´es par l’algorithme EM. On peut alors consid´erer qu’un document est g´en´er´e par un m´elange de lois de probabilit´es (diff´erents th`emes). Ce dernier point est int´er´essant car, contrairement `a la plupart des approches d’indexation, la m´ethode pLSI ne fixe pas le document comme unit´e th´ematique de base et prend en compte le fait qu’un document puisse faire r´ef´erence `a plusieurs th`emes.

Par regroupement des attributs

Une derni`ere technique de r´eduction de l’espace, consiste `a regrouper les attributs similaires, de fa¸con `a utiliser les groupes de mots plutˆot que les mots eux-mˆemes comme dimensions de l’espace. Cette technique se place donc dans la continuit´e de notre chapitre, puisqu’il s’agit de construire des groupes de mots s´emantiquement proches.

La m´ethode de r´eduction de l’espace par regroupement d’attributs n´ecessite de d´efinir une mesure de similarit´e “s´emantique” puis de choisir un algorithme de clustering appro-pri´e. Lewis [111] est le premier `a utiliser des groupes de mots pour classer des documents. En utilisant une mesure de similarit´e bas´ee sur une connaissance ext´erieure (WordNet) puis en construisant des paires de mots r´eciproquement proches, les r´esultats obtenus sont inf´erieurs `a ceux obtenus sans r´eduction de l’espace. Une seconde tentative [112], utilisant une mesure de similarit´e bas´ee sur la notion de cooccurrence dans les documents d’en-traˆınement, coupl´ee d’un algorithme de clustering hi´erarchique, n’apportera toujours pas d’am´elioration significative.

En revanche, l’utilisation d’un algorithme de “clustering supervis´e” permet une r´eduction tr`es importante de la dimension de l’espace (d’un facteur sup´erieur `a 10,000), en conservant, voire en am´eliorant, les performances du classifieur. Les syst`emes ADC (Ag-glomerative Distributional Clustering) [7] et ITDC (Information-Theoretic Divisive Clus-tering) [42] utilisent tous deux une mesure de similarit´e bas´ee sur l’analyse des distribu-tions des mots sur les classes de documents, dans le corpus d’entraˆınement. L’utilisation des ´etiquettes de classe, `a ce stade du processus, justifie le terme de clustering “super-vis´e”. En revanche, ces deux m´ethodes divergent sur l’algorithme de clustering utilis´e ; le syst`eme ADC utilise un algorithme agglom´eratif hi´erarchique tandis que ITDC proc`ede par partitionnement. Comme nous l’´etudierons dans la suite, ces deux algorithmes sont des adaptations incr´ementales d’algorithmes traditionnels. L’incr´ementalit´e est indispensable, dans cette application o`u le nombre d’objets `a traiter est tr`es grand.

Nous avons montr´e dans les sections pr´ec´edentes, que l’organisation de mots en groupes non-disjoints convient particuli`erement aux donn´ees textuelles. Nous avons donc des rai-sons de penser que ce type de sch´ema de classification pourrait convenir, voire am´eliorer l’´etape de r´eduction de l’espace de description des documents.

Nous choisissons de consid´erer le cadre de la classification par l’algorithme na¨ıf de Bayes, que nous pr´esentons dans la prochaine section. Nous pr´eciserons ensuite les syst`emes

ADC et ITDC, sur lesquels nous comparerons notre approche de clustering avec re-couvrements. Cette derni`ere sera pr´esent´ee imm´ediatement apr`es. Enfin, nous propose-rons une premi`ere s´erie d’exp´erimentations sur les deux corpus 20Newsgroup [104] et Reuters-2157818, traditionnellement utilis´es comme corpus de r´ef´erence pour l’´evaluation de syst`emes de classification automatique de documents.

Dans la suite, nous utilisons les notations suivantes : le corpus d’entraˆınement est not´e D = {d1, . . . , dn}, le vocabulaire extrait de D est not´e V = {w1, . . . , wl} et C = {c1, . . . , cm} correspond aux classes (´etiquettes des documents). Enfin, N(wt, di) d´esigne le nombre d’occurrences du mot wt dans le document di.

5.4.4 Le classifieur na¨ıf de Bayes pour la classification de documents

Classification `a partir de mots

Le classifieur na¨ıf de Bayes est connu pour ses performances en classification auto-matique de documents [156]. Ce classifieur consiste `a apprendre un mod`ele de g´en´eration de documents pour chaque classe. Ces mod`eles sont d´efinis par les distributions p(di|cj) exprimant le probabilit´e a priori que le document di soit g´en´er´e par la classe cj (5.1).

p(di|cj) = p(|di|) Y

{wt∈di}

p(wt|cj) (5.1)

Cette expression est obtenue sous l’hypoth`ese d’ind´ependance entre les mots (notament sur l’ordre d’apparition des mots), correspondant ici `a l’hypoth`ese “na¨ıve” de Bayes. On sait que cette hypoth`ese n’est pas v´erifi´ee, cependant les ´etudes pr´ec´edentes montrent qu’en pratique, les performances du classifieur na¨ıf de Bayes pour la classification de documents restent bonnes sous cette hypoth`ese d’ind´ependance [49]. Dans l’´equation (5.1), p(wt|cj) est estim´ee sur le corpus d’entraˆınement via la r`egle de succession de Laplace (5.2) :

p(wt|cj)≈ 1 + X {di∈cj} N (wt, di) l + X {ws∈V } X {di∈cj} N (ws, di) (5.2)

Pour classer un nouveau document d, on observe la probabilit´e a priori p(cj|d). Ainsi, la classe pr´edite pour le document d sera celle qui maximize cette probabilit´e, calcul´ee par la r`egle de Bayes (5.3) :

p(cj|d) = p(cj)p(d|cj)

p(d) (5.3)

Par ´etapes succ´essives de transformations et simplifications math´ematiques19 sur l’´equation (5.3), le classifieur de Bayes peut ˆetre reformul´e ainsi :

c(d) = arg max j=1...m log p(cj) |d| + X {wt∈V } p(wt|d) log p(wt|cj) (5.4) Dans cette derni`ere ´equation, p(cj) est donn´ee par le rapport du nombre de documents ´etiquet´es cj dans D sur le nombre de documents dans D.

18http ://www.research.att.com/∼lewis/reuters21578.html 19Pour plus de d´etails, voir [42]

Classification `a partir de groupes de mots

Dans le cadre du regroupement de mots, on note W = {W1, . . . , Wp} le r´esultat d’un processus de clustering sur le vocabulaire V , tel que chaque cluster Wiest un sous ensemble de V et l’union de tous les clusters deW est ´egale `a V . Les equations (5.1) et (5.4) doivent ˆetre modifi´ees en rempla¸cant w par W puisque les documents ne sont plus caract´eris´es par des mots mais par des groupes de mots. Les expressions p(Ws|cj) et p(Ws|d) sont d´efinies par les ´equations suivantes, dans le cas classique d’un regroupement en clusters disjoints (on dit aussi queW est une partition stricte de V ) :

p(Ws|cj) = X {di∈cj} N (Ws, di) X {Wk∈W} X {di∈cj} N (Wk, di) ; p(Ws|d) = N (Ws, d) |d| (5.5) o`u N (Wk, d) = P

{wt∈Wk}N (wt, d). Dans notre ´etude ce mod`ele doit ˆetre adapt´e au cas de clusters non-disjoints (ou pseudo partition). Nous pr´esentons cette adaptation en section 5.4.7.