• Aucun résultat trouvé

Exp´erimentations sur l’indice de proximit´e contextuelle

5.2 Mesure de similarit´e et donn´ees textuelles

5.2.6 Exp´erimentations sur l’indice de proximit´e contextuelle

Construction d’un jeu de donn´ees test

L’´evaluation de l’indice de proximit´e contextuelle que nous venons de d´efinir, n´ecessiterait le recours `a un expert. Cependant, cette tˆache reste difficile, mˆeme pour un expert, car tr`es impr´ecise. En effet, il ne s’agit pas de confirmer ou non l’existence d’une relation (´eventuellement typ´ee), mais de donner un avis sur un ensemble de valeurs, qu’il est difficile d’appr´ehender dans son ensemble.

Nous allons contourner ce probl`eme en collectant un ensemble de mots, dont les contextes d’utilisation peuvent servir de base de r´ef´erence et ˆetre assimil´es `a l’expert. Notre exp´erience repose sur deux hypoth`eses, jug´ees raisonnables : on consid`ere que les membres du comit´e de programme d’une grande conf´erence ou d’un journal sont parmi les meilleurs experts du domaine consid´er´e ; nous supposons enfin que les mots-cl´es choisis par l’auteur d’un article de recherche sont repr´esentatifs du contenu de ce papier. A partir de ces deux hypoth`eses, nous collectons un ensemble de mots-cl´es d’articles de recherche, et consid´erons que les mots issus d’un mˆeme domaine (repr´esent´e par une conf´erence ou un journal) sont plus similaires, au sens de l’indice de proximit´e contextuelle, que les mots provenant de domaines de recherche diff´erents.

Un ensemble de 38 mots-cl´es provenant d’articles scientifiques publi´es dans trois conf´erences ou journaux internationaux sont choisis arbitrairement. Les trois domaines sont :

Ressources du Langage : il s’agit de 11 mots-cl´es provenant d’articles publi´es `a l’oc-casion de la conf´erence LREC’2000 (2nd International Conference on Language Re-sources and Evaluation). La liste de ces mots est donn´ee dans le tableau 5.3.

Annotation Guidelines, Bracketed Corpus, Chinese Language Processing, Quality Control, Combining Systems, Machine Learning, Tagging,

Knowledge-Rich NLP, Multilingual Corpora, Parallel Corpora, POS Tagging. Tab. 5.3 – Les 11 mots-cl´es du domaine Ressources du Langage.

Web Mondial : ce domaine est repr´esent´e par 13 mots-cl´es, rencontr´es dans des publi-cations de la 11`eme conf´erence internationale sur le Web Mondial (11th International World Wide Web Conference, WWW’2002). Ces mots sont r´epertori´es dans le ta-bleau 5.4.

6www.yahoo.com 7www.google.com 8www.alltheweb.com

Content Distribution Networks, Data Consistency, Data Dissemination, Dynamic Data, HTTP, Leases, Protocol Design, Pull, Push, Scalability, TCP Splice, Web Proxy, World Wide Web.

Tab. 5.4 – Les 13 mots-cl´es du domaine Web Mondial.

Intelligence Artificielle : le dernier ensemble de mots-cl´es est issu des articles publi´es dans la revue d’Intelligence Artificielle Journal of Japanese Society for Artificial Intelligence (JSAI’1997). le tableau 5.5 pr´esente les 14 mots-cl´es retenus pour ce domaine.

Classification Rule, Macro Rule, Concept Learning, Constructive Induction, Colored Digraph, Logic Programming, Problem Solving, Program Transformation, Unfolding, Control of Computation, Natural Language Processing, Ill-Formedness, Robust Parsing, Integration.

Tab. 5.5 – Les 14 mots-cl´es du domaine Intelligence Artificielle.

Notons qu’il n’y a pas de restriction concernant la forme et la g´en´eralit´e des mots-cl´es : certains mots sont des unit´es polylexicales (Content Distribution Networks), d’autres sont monolexicales (Tagging) ; ils peuvent ˆetre assez g´en´eraux (Push, integration, etc.) ou au contraire sp´ecifiques (HTTP).

´

Evaluation de l’indice

A partir de cet ensemble de mots-cl´es (not´e V ), l’´evaluation d’une mesure de proximit´e entre mots consiste `a comparer les valeurs de proximit´e pour les paires de mots d’un mˆeme domaine, avec les valeurs obtenues pour des paires de mots de domaines diff´erents.

Les mesures compar´ees sont les suivantes :

– les indices Icooc., bas´es sur les cooccurrences uniquement : la mesure d’information mutuelle (IM ), la m´ethode des mots associ´es (ISDOC), le coefficient de Dice (IDice), la mesure de Jaccard (J),

– les indices Icont. de proximit´e contextuelle associ´es aux quatre indices pr´ec´edents. Toutes ces mesures sont ´evalu´ees en utilisant le moteur de recherche Altavista.

Les matrices de proximit´e correspondant `a chacun de ces huit indices, sont pr´esent´ees dans la figure 5.1. Les matrices indic´ees (a) correspondent aux indices Icooc.et les matrices indic´ees (b) `a l’indice Icont.associ´e. Les couples (1,2,3, et 4) correspondent respectivement aux indices IM , ISDOC, IDice et J. Par exemple, la matrice (3.a) contient les valeurs {IDice(wi, wj)}wi,wj∈V obtenues par le calcul suivant :

IDice(wi, wj) = 2.hits(wi, wj) hits(wi) + hits(wj)

La matrice (3.b) contient les valeurs de l’indice de proximit´e contextuelle associ´e `a IDice, {Icont.(−→w

i, −w

j)}wi,wj∈V (cf. section 5.2.5).

Dans les matrices, les mots-cl´es sont organis´es par domaine, constituant des blocs sur la diagonale. Les cases gris´ees correspondent aux valeurs de proximit´e ´elev´ees9 dans le cas

(1.a)IM (1.b)Icont.(IM )

(2.a)ISDOC (2.b)Icont.(ISDOC)

(3.a)IDice (3.b)Icont.(IDice)

(4.a)J (4.b)Icont.(J)

Fig. 5.1 – Matrices de proximit´e obtenues sur les 38 mots-cl´es : (a) indices de proximit´e bas´es sur les cooccurrences, (b) indices de proximit´e contextuelle.

des matrices indic´ees (a), et aux coefficients positifs pour les matrices (b). Une mesure pertinente devrait alors permettre de visualiser les trois blocs de cellules gris´ees, associ´es aux trois domaines.

On observe tout d’abord que les matrices de droite (indic´ees b.) permettent de mieux d´egager les trois blocs, comparativement aux matrices de gauche (indic´ees a.), en particu-lier pour le premier bloc (LREC). Ceci valide de mani`ere globale, l’indice Icont. que nous proposons. Il semble en effet, que l’analyse des vecteurs contextuels produise un indice plus pertinent que l’observation des cooccurrences uniquement.

Les paires de matrices 2, 3 et 4 sont, visuellement assez semblables ; un bloc corres-pondant aux mots du domaine (LREC) est retrouv´e, alors que les deux autres domaines apparaissent moins distinctement. La matrice de proximit´e contextuelle associ´ee `a la me-sure d’information mutuelle (matrice 1.b), est incontestablement la plus r´ev´elatrice de l’organisation des mots en trois domaines ; ces trois domaines sont distinctement observ´es, et on note que certains mots semblent communs `a plusieurs domaines. Cette derni`ere observation entretient l’id´ee que l’organisation de donn´ees en groupes non-disjoints est particuli`erement adapt´ee au traitement d’objets textuels, et notamment au traitement des mots.

Apr`es avoir propos´e puis valid´e empiriquement un indice de proximit´e contextuelle entre mots, nous choisissons d’utiliser cet indice pour la tˆache d’organisation des mots en classes contextuelles. Dans ce qui suit, nous utiliserons le jeu de donn´ees test ´etabli, ainsi que l’indice Icont. associ´e `a la mesure d’information mutuelle, pour ´evaluer l’algorithme de regroupement PoBOC.