Exp´erimentations sur l’indice de proximit´e contextuelle

5.2 Mesure de similarit´e et donn´ees textuelles

5.2.6 Exp´erimentations sur l’indice de proximit´e contextuelle

Construction d’un jeu de donn´ees test

L’évaluation de l’indice de proximité contextuelle que nous venons de définir, nécessiterait le recours à un expert. Cependant, cette tâche reste difficile, même pour un expert, car très imprécise. En effet, il ne s’agit pas de confirmer ou non l’existence d’une relation (éventuellement typée), mais de donner un avis sur un ensemble de valeurs, qu’il est difficile d’appréhender dans son ensemble.

Nous allons contourner ce problème en collectant un ensemble de mots, dont les contextes d’utilisation peuvent servir de base de référence et être assimilés à l’expert. Notre expérience repose sur deux hypothèses, jugées raisonnables : on considère que les membres du comité de programme d’une grande conférence ou d’un journal sont parmi les meilleurs experts du domaine considéré ; nous supposons enfin que les mots-clés choisis par l’auteur d’un article de recherche sont représentatifs du contenu de ce papier. A partir de ces deux hypothèses, nous collectons un ensemble de mots-clés d’articles de recherche, et considérons que les mots issus d’un même domaine (représenté par une conférence ou un journal) sont plus similaires, au sens de l’indice de proximité contextuelle, que les mots provenant de domaines de recherche différents.

Un ensemble de 38 mots-clés provenant d’articles scientifiques publiés dans trois conférences ou journaux internationaux sont choisis arbitrairement. Les trois domaines sont :

Ressources du Langage : il s’agit de 11 mots-clés provenant d’articles publiés à l’oc-casion de la conférence LREC’2000 (2nd International Conference on Language Re-sources and Evaluation). La liste de ces mots est donnée dans le tableau 5.3.

Annotation Guidelines, Bracketed Corpus, Chinese Language Processing, Quality Control, Combining Systems, Machine Learning, Tagging,

Knowledge-Rich NLP, Multilingual Corpora, Parallel Corpora, POS Tagging. Tab. 5.3 – Les 11 mots-cl´es du domaine Ressources du Langage.

Web Mondial : ce domaine est représenté par 13 mots-clés, rencontrés dans des publi-cations de la 11ème conférence internationale sur le Web Mondial (11th International World Wide Web Conference, WWW’2002). Ces mots sont répertoriés dans le ta-bleau 5.4.

6www.yahoo.com 7www.google.com 8www.alltheweb.com

Content Distribution Networks, Data Consistency, Data Dissemination, Dynamic Data, HTTP, Leases, Protocol Design, Pull, Push, Scalability, TCP Splice, Web Proxy, World Wide Web.

Tab. 5.4 – Les 13 mots-cl´es du domaine Web Mondial.

Intelligence Artificielle : le dernier ensemble de mots-clés est issu des articles publiés dans la revue d’Intelligence Artificielle Journal of Japanese Society for Artificial Intelligence (JSAI’1997). le tableau 5.5 présente les 14 mots-clés retenus pour ce domaine.

Classification Rule, Macro Rule, Concept Learning, Constructive Induction, Colored Digraph, Logic Programming, Problem Solving, Program Transformation, Unfolding, Control of Computation, Natural Language Processing, Ill-Formedness, Robust Parsing, Integration.

Tab. 5.5 – Les 14 mots-cl´es du domaine Intelligence Artificielle.

Notons qu’il n’y a pas de restriction concernant la forme et la généralité des mots-clés : certains mots sont des unités polylexicales (Content Distribution Networks), d’autres sont monolexicales (Tagging) ; ils peuvent être assez généraux (Push, integration, etc.) ou au contraire spécifiques (HTTP).

Evaluation de l’indice

A partir de cet ensemble de mots-clés (noté V ), l’évaluation d’une mesure de proximité entre mots consiste à comparer les valeurs de proximité pour les paires de mots d’un même domaine, avec les valeurs obtenues pour des paires de mots de domaines différents.

Les mesures compar´ees sont les suivantes :

– les indices I_cooc., basés sur les cooccurrences uniquement : la mesure d’information mutuelle (IM ), la méthode des mots associés (ISDOC), le coefficient de Dice (IDice), la mesure de Jaccard (J),

– les indices I_cont. de proximité contextuelle associés aux quatre indices précédents. Toutes ces mesures sont évaluées en utilisant le moteur de recherche Altavista.

Les matrices de proximité correspondant à chacun de ces huit indices, sont présentées dans la figure 5.1. Les matrices indicées (a) correspondent aux indices I_cooc.et les matrices indicées (b) à l’indice Icont.associé. Les couples (1,2,3, et 4) correspondent respectivement aux indices IM , I_SDOC, I_Dice et J. Par exemple, la matrice (3.a) contient les valeurs {IDice(w_i, w_j)}wi,wj∈V obtenues par le calcul suivant :

I_Dice(w_i, w_j) = ^2.hits(wⁱ^{, w}^j⁾ hits(w_i) + hits(w_j)

La matrice (3.b) contient les valeurs de l’indice de proximité contextuelle associé à I_Dice, {Icont.(−→_w

i, −_w→

j)}wi,wj∈V (cf. section 5.2.5).

Dans les matrices, les mots-clés sont organisés par domaine, constituant des blocs sur la diagonale. Les cases grisées correspondent aux valeurs de proximité élevées9 dans le cas

(1.a)IM (1.b)I_cont.(IM )

(2.a)I_SDOC (2.b)I_cont.(I_SDOC)

(3.a)I_Dice (3.b)I_cont.(I_Dice)

(4.a)J (4.b)I_cont.(J)

Fig. 5.1 – Matrices de proximité obtenues sur les 38 mots-clés : (a) indices de proximité basés sur les cooccurrences, (b) indices de proximité contextuelle.

des matrices indicées (a), et aux coefficients positifs pour les matrices (b). Une mesure pertinente devrait alors permettre de visualiser les trois blocs de cellules grisées, associés aux trois domaines.

On observe tout d’abord que les matrices de droite (indicées b.) permettent de mieux dégager les trois blocs, comparativement aux matrices de gauche (indicées a.), en particu-lier pour le premier bloc (LREC). Ceci valide de manière globale, l’indice I_cont. que nous proposons. Il semble en effet, que l’analyse des vecteurs contextuels produise un indice plus pertinent que l’observation des cooccurrences uniquement.

Les paires de matrices 2, 3 et 4 sont, visuellement assez semblables ; un bloc corres-pondant aux mots du domaine (LREC) est retrouvé, alors que les deux autres domaines apparaissent moins distinctement. La matrice de proximité contextuelle associée à la me-sure d’information mutuelle (matrice 1.b), est incontestablement la plus révélatrice de l’organisation des mots en trois domaines ; ces trois domaines sont distinctement observés, et on note que certains mots semblent communs à plusieurs domaines. Cette dernière observation entretient l’idée que l’organisation de données en groupes non-disjoints est particulièrement adaptée au traitement d’objets textuels, et notamment au traitement des mots.

Après avoir proposé puis validé empiriquement un indice de proximité contextuelle entre mots, nous choisissons d’utiliser cet indice pour la tâche d’organisation des mots en classes contextuelles. Dans ce qui suit, nous utiliserons le jeu de données test établi, ainsi que l’indice I_cont. associé à la mesure d’information mutuelle, pour évaluer l’algorithme de regroupement PoBOC.

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 147-150)