Analyse des comparaisons - Application à la comparaison de ressources lexicales

3.5 Application à la comparaison de ressources lexicales

3.5.2 Analyse des comparaisons

Pour comparer ces réseaux, la première étape est de les réduire à leur ensemble de sommets communs. En effet les couvertures lexicales des ressources ne sont pas identiques. Un certain nombre de mots ne sont présents que dans l’un des deux graphes. Le tableau 3.4 donne les valeurs de GED, GU D et GU C pour les six paires de graphes comparées. Le cardinal de l’ensemble des sommets communs est aussi donné.

On observe que ROB et LAR sont relativement distants comparés avec GED, ils n’ont de fait qu’un peu plus de la moitié de leurs arêtes en commun. Cela est surprenant pour ces deux ressources d’origine similaire, mais le point intéressant est que le score GU D est très faible. Effectivement, comme l’indique GU C, le coût des conflits entre les deux graphes est faible. C’est-à-dire les arêtes présentes dans l’un et non dans l’autre des graphes, sont formées de sommets proches dans les deux graphes.

Les valeurs observées entre ROG et PWN sont différentes. L’accord mesuré avec GED est en effet très important, et il ne varie pas énormément avec GU D. Ces deux ressources ont donc peu d’arêtes en commun, et ces arêtes sont coûteuses à ajouter. Le contexte et la méthode de création de ces deux ressources expliquent certainement ces différences.

Table 3.4 – Valeurs de GED et de GU C entre différentes paires de réseaux de

synonymie.GU D et GU C sont calculés avec des marches aléatoires de temps t = 4.

Graphes |Va∩ Vb| GED GU D GU C ROB /LAR A 4809 0.45 0.11 0.24 N 10881 0.48 0.15 0.32 V 4973 0.48 0.13 0.28 ROG/ PWN A 6853 0.87 0.79 0.91 N 16576 0.89 0.84 0.95 V 5459 0.85 0.70 0.82 0.0 0.2 0.4 0.6 0.8 1.0 coût d'ajout 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Nombre de paires ROB.V LAR.V

(a) ROB face à LAR pour les verbes

0.0 0.2 0.4 0.6 0.8 1.0 coût d'ajout 0 2000 4000 6000 8000 10000 12000 14000 Nombre de paires ROG.V PWN.V

(b) ROG face à PWN pour les verbes Figure 3.4 – Distributions des coûts d’ajout (calculés avec la confluence) des paires

de sommets en conflit.Les coûts sont calculés avec des marches aléatoires de temps t = 4.

Pour comprendre plus en détail ces comparaisons la figure 3.4 présente l’histogramme de répartition du coût des arêtes manquantes dans l’un ou l’autre des graphes. Pour dix intervalles de coût, les barres verticales indiquent le nombre d’arêtes ayant un coût d’ajout dans cet intervalle. Chaque histogramme (d’une cou- leur donnée) indique donc la répartition des paires de sommets manquantes dans l’un ou l’autre des graphes en fonction de leur coût d’ajout. Les résultats sont pré- sentés pour les graphes entre verbes, les histogrammes sont très similaires pour les autres parties du discours.

On vérifie bien qu’une large part des paires en désaccord entre ROBet LAR ont un coût d’ajout faible (< 0.3). Dans les deux cas un certain nombre de paires ont un coût entre 0.95 et 1. Ce sont les paires de sommets réellement en désaccord. Entre

ROGetPWN, la majorité des paires sont dans ce cas. Mais on observe aussi qu’entre

ROBetLAR, il existe un nombre significatif de paires dans ce cas. Une large part de ces fortes dissimilarités viennent de paires de sommets non-connectés dans l’un des deux graphes.

3.6 Conclusion du chapitre

Nous avons dans ce chapitre introduit une méthode de comparaison de graphes partageant le même ensemble de sommets. Cette méthode est robuste dans le sens où deux graphes n’ayant aucune arête en commun mais tels que les sommets sont proches de la même manière dans chacun d’eux seront considérés comme similaires alors qu’une mesure basée simplement sur le nombre d’arêtes communes les indique- rait comme complètement dissemblables. Deux graphes ayant exactement les mêmes clusters mais construits par des arêtes en partie différentes sont typiquement dans ce cas. Notre méthode généralise une distance d’édition entre graphes en calculant les coûts d’édition à partir de la mesure de confluence définie au chapitre précédent. Le comportement de la méthode est vérifié sur différentes configurations de graphes aléatoires. Et une application pour comparer des réseaux de synonymie est présentée. Cette application permet en particulier de montrer que certains graphes de synonymie ayant environ seulement la moitié de leurs arêtes en commun, sont pourtant très proches.

Différentes pistes de travaux futurs sont envisageables. Tout d’abord, l’évaluation de la méthode peut être étendue à des graphes artificiels plus réalistes. En particulier il serait intéressant d’étudier le comportement de GU D sur des graphes artificiels présentant un recouvrement entre les clusters ou une distribution des degrés plus hétérogène. Par exemple en utilisant le modèle LFR [Lancichinetti et al., 2008].

Aussi, d’autres mesures de similarité peuvent être utilisées pour calculer les coûts d’édition. La confluence a l’avantage d’avoir une complexité raisonnable et d’être normalisée par rapport à un null model. Mais l’utilisation de certaines méthodes globales (le PageRank personnalisé par exemple) permettrait d’être plus robuste sur des graphes peu denses. En effet deux sommets peuvent avoir un score de confluence nul sur un graphe peu dense, uniquement parce qu’ils ne sont connectés que par des chemins « trop longs » par rapport à la longueur des marches aléatoires utilisées.

Aussi il est envisageable d’utiliser une méthode de clustering pour évaluer les coûts d’ajout. Mais plusieurs problèmes se posent alors. Tout d’abord si le graphe est « trop » dense alors les méthodes de clustering ont tendance à ne faire qu’un seul cluster, les sommets deviennent alors tous similaires ce qui n’est pas souhaitable. Enfin un second problème est que la plupart des méthodes de clustering ne gèrent pas de recouvrement. Et donc un sommet présent dans deux clusters ne sera similaire qu’avec les sommets d’un seul de ces clusters.

Enfin l’application sur les réseaux lexicaux peut être poursuivie de plusieurs ma- nières. Il est possible d’utiliser notre méthode pour évaluer des ressources lexicales construites automatiquement. En effet il est possible que deux ressources ayant une même valeur de GED par rapport à un étalon aient des valeurs de GU D très diffé- rentes. La méthode peut aussi être employée pour détecter les « zones » réellement différentes entre deux ressources, permettant ainsi de guider une analyse d’erreur.

Aussi la méthode de fusion que nous avons présentée pourrait être employée. Il est possible notamment d’imaginer évaluer cette méthode de fusion sur une tâche don- née. Il s’agirait de mesurer si un système de traitement automatique du langage (TAL) donne de meilleurs résultats en utilisant directement l’union ou l’intersection de deux graphes ou en utilisant le graphe fusionné avec notre méthode.

Chapitre 4

Enrichissement semi-automatique

de réseaux lexicaux

Nous proposons dans ce chapitre un système endogène et semi-automatique d’enrichissement de ressources lexicales. Ce système repose sur une mesure de similarité entre sommets d’un graphe, semblable à celles introduites au chapitre2.

Les ressources lexicales sémantiques sont nécessaires pour beaucoup de systèmes de traitement automatique du langage naturel (TAL). Pour autant alors que le traitement de l’anglais est doté deWordNet [Fellbaum,1998], de l’Université de Prince- ton (ci-après notéPWN), ressource éprouvée depuis de nombreuses années, plusieurs langues telles que le français ne bénéficient encore d’aucune ressource de qualité satisfaisante. « We desperately need linguistic resources ! » écritSekine[2010], souli- gnant qu’il n’est pas réaliste de penser qu’une seule institution pourra développer des ressources à large échelle, qu’une collaboration est donc nécessaire et que partager les ressources est crucial. La première difficulté s’opposant à la construction de telles ressources découle des modalités de développement et du compromis coût/qualité qui en résulte. Recourir à des experts pour construire manuellement des ressources coûte cher. Par ailleurs, on ne peut préjuger de la qualité des ressources construites automatiquement (donc bruitées), qui devraient être validées par des experts, ce qui ramène au problème initial. Enfin, dans le cas où le recours à la validation par des experts est envisageable, la mise en place d’une mesure d’accord entre ces experts est problématique. C’est à partir de ce constat que nous développons un système semi-automatique d’enrichissement de réseaux lexicaux. Ce système permet de lis- ter des « candidats synonymes » pour chaque mot d’une ressource en construction. Le contributeur peut alors valider ou invalider ces candidats. L’ajout de liens de synonymie à la ressource est ainsi accéléré, car elle se résume maintenant en une simple validation par l’utilisateur. Ce système peut soit permettre d’accélérer une construction collaborative, soit assister des lexicographes afin de réduire le coût d’élaboration d’une ressource. Nous explorons ici la première piste en présentant

une mise en œuvre du système sur le dictionnaire collaboratif Wiktionary.

Après avoir décrit, en section 4.1, les tentatives antérieures de construction de ressources et dressé un inventaire des différentes méthodes d’extraction de relations lexico-sémantiques, nous nous intéresserons tout particulièrement aux difficul- tés liées à l’évaluation des ressources. Nous présentons, en section 4.2, de nouvelles tendances fondées sur l’édition collaborative qui constitue une piste intéressante pour la construction de ressource. Dans ce cadre, Wiktionary, un dictionnaire libre disponible en ligne, nous paraît être une clé pour régler simultanément le problème du coût de développement et, dans une certaine mesure, celui de l’évaluation. Nous présentons, en section 4.3, un processus d’enrichissement semi-automatique visant à densifier les réseaux de synonymie extraits de cette ressource. Nous mesurons l’impact de l’utilisation de différentes sources de données sur ce processus en section 4.3.3. Enfin en section 4.4, nous présentons Wisigoth une implémentation de notre système.

Notons que ce travail a été présenté dans les publications suivantes : [Sajous et al., 2011a,b], et deux étapes intermédiaires ont auparavant été publiées dans : [Navarro et al., 2009; Sajous et al.,2010].

4.1 Ressources lexicales, construction et évalua-

tion

PWN est probablement le seul projet de construction d’une ressource lexicale sémantique à connaître un tel succès et à être aussi largement utilisé. D’autres projets suscités par cette réussite, tels qu’EuroWordNet [Vossen, 1998] et BalkaNet [Tu- fis, 2000], prévoyaient une couverture moins ambitieuse. Malheureusement, ces ressources se sont figées dès la fin de leur développement initial (alors que PWN conti- nue d’évoluer). Jacquin et al. [2007] ont pointé les faiblesses de la partie française d’EuroWordNetet ont proposé des méthodes automatiques pour ajouter des relations manquantes. Ces méthodes, comme celles que nous énumérons en section4.1.1, bien qu’intéressantes, nécessiteraient une validation manuelle par des experts (donc coû- teuse) pour produire une ressource fiable.

Les problèmes de temps et coût de développement, ainsi que de disponibilité des ressources, sont de plus en plus pris en compte : en linguistique de corpus, par exemple, une méthode « AGILE », empruntée à la gestion de projets, a été proposée parVoormann et Gut [2008] pour permettre simultanément de maximiser la taille d’un corpus et de ses annotations tout en réduisant le temps et le coût de son développement. Brunello [2009] s’est intéressé au problème de disponibilité et propose une méthode pour construire des corpus libres en recourant au web et aux méta-données qui identifient des pages web sous licence libre.

Dans le document Métrologie des graphes de terrain, application à la construction de ressources lexicales et à la recherche d'information (Page 107-113)