• Aucun résultat trouvé

Pour une ergonomie cognitive des dictionnaires électroniques

N/A
N/A
Protected

Academic year: 2022

Partager "Pour une ergonomie cognitive des dictionnaires électroniques"

Copied!
25
0
0

Texte intégral

(1)

des dictionnaires électroniques

Bruno Gaume* — Karine Duvignau**

* IRIT, UPS

118, route de Narbonne F-31062 Toulouse cedex 4 gaume@irit.fr

** Lab. Jacques Lordat 5, allées A. Machado F-31058 Toulouse cedex 1 duvignau@univ-tlse2.fr

RÉSUMÉ. Nous confrontons une approche linguistique/psycholinguistique de l’organisation du lexique mental avec une approche mathématique/informatique de l’organisation « implicite » du lexique dans les dictionnaires considérés comme des graphes et dont la structure est de type réseau petit monde hiérarchique. Cette double étude a pour objectif de montrer que si la structure implicite du lexique dans les dictionnaires de langue, mise au jour mathématiquement, est en adéquation avec le mode de catégorisation chez les jeunes enfants (2-4 ans), alors les grands graphes de dictionnaires pourront conquérir le statut de véritables

« artéfacts cognitifs » ce qui ouvre la voie à des perspectives de recherches prometteuses et des applications novatrices pour les documents électroniques.

ABSTRACT. We compare a linguistic/psycholinguistic approach of the organisation of the mental lexicon with a computational approach of the implicit lexical organisation in dictionaries taken as graphs and whose structure is a « small world ». This double approach aims at showing that if the implicit structure of dictionaries, mathematically identified, is adequate with the way young children categorise, then those graphs might be considered as

« cognitive artefacts ». This may lead to novel applications as well as to promising researches

MOTS-CLÉS : synonymie intra/inter domaine, proxemie, similarite, lexique des verbes, small worlds.

KEYWORDS: intra/inter domain synonymy, proxemy, similarity, verbs lexicon, small worlds.

(2)

1. Introduction

Selon le principe d’adéquation psychologique de Dik (Dik, 1991) une théorie linguistique devrait être « compatible avec les résultats de la recherche psycholinguistique sur l’acquisition, le traitement, la production, l’interprétation et la mémorisation d’expressions linguistiques ». Dans cette optique, nous postulons qu’élaborer des dictionnaires électroniques en s’appuyant sur une théorie linguistique qui s’avère être en adéquation avec des processus d’acquisition précoce du lexique, leur confèrera un caractère ergonomique et devrait ainsi améliorer leur utilisabilité. Notre démarche se rapproche de celle mise en œuvre initialement dans la conception de WordNet qui cherche à prendre en compte la représentation du lexique mental des locuteurs (Fellbaum, 1999). Dans cet article, nous focalisons notre attention sur l’organisation du lexique des verbes à travers l’analyse d’énoncés à pivot verbal qui sont de type métaphorique. Ces énoncés nous semblent particulièrement intéressants en ce qu’ils renvoient à un mode de structuration du lexique non pris en compte actuellement : la cohyponymie interdomaines (vs intradomaines) qui se fonde sur une compétence analogique (Duvignau, 2002).

Dans ce cadre, nous considérons que l’analogie est l’un des « principes d’ergonomie cognitive » qui façonne la dynamique de l’acquisition du lexique des verbes ainsi que l’organisation du lexique du locuteur adulte. Nous présentons, à cette fin, une étude d’énoncés de type métaphorique à pivot verbal1 (Duvignau et al., 2004). Ce type d’énoncé, qui consiste le plus souvent à rapprocher des éléments de domaines sémantiques distincts en les substituant l’un à l’autre, est encore considéré essentiellement comme déviant alors même qu’il peut constituer un garant linguistique de la flexibilité catégorielle introduite en psychologie (Piaget, 1945 ; Le Ny, 1979 ; Hofstadter, 1995) et révéler un mode de structuration précoce du lexique qui peut servir de socle à la constitution de dictionnaires électroniques. Notre hypothèse est que ces avancées peuvent avoir des répercussions importantes pour la communauté du TAL dans la mesure où il devrait y avoir une trace de cette structuration au sein même des dictionnaires. Cet article présente une méthode mathématique2 susceptible de révéler ces traces ainsi que les premiers résultats obtenus qui sont prometteurs. Le principe de ces méthodes est de tirer parti de la structure mathématique du réseau des renvois définitionnels entre verbes, structure tout à fait particulière dont la présence dans les dictionnaires est supposée dans (Watts et al., 1998), avérée par (Sigman et al., 2002) pour WordNet, puis affinée dans (Gaume et al., 2002) et exploitée dans le travail présenté ici. Il s’agit de construire une distance entre les éléments de la structure, ici les verbes, qui permette

1. Travaux financés par le projet « Structure et acquisition du lexique, l’analogie pour l’apprentissage des verbes » Programme CNRS : Ecole & Sciences cognitives http://dilan.irit.fr/

2. Travaux financés par le projet « DiLan, les dictionnaires de langue, des graphes aux propriétés topologico-sémantiques » Programme CNRS interdisciplinaire : Société de l’information, http://dilan.irit.fr/

(3)

d’envisager une organisation de leur sens selon un continuum sémantique. Nos premiers résultats, issus notamment de la confrontation de l’approche computationnelle du réseau des verbes avec l’approche linguistique des énoncés à pivot verbal produits à 2-4 ans militent en faveur d’un continuum sémantique, et ouvre une voie novatrice pour la constitution de dictionnaires ergonomiques.

Nous commencerons par présenter en section 2 une approche linguistique et psycholinguistique d’énoncés verbaux de type métaphorique produits par des enfants de 2-4 ans (« le livre est cassé »/le livre est déchiré) et des adultes, puis en section 3, une analyse mathématique du réseau sémantique que « tisse » le lexique des verbes à l’intérieur des dictionnaires. Enfin, en section 4, nous confronterons les résultats de ces deux approches pour en tirer à la section 5 des arguments visant à exploiter nos résultats pour une ergonomie cognitive des dictionnaires et, plus généralement, pour les documents électroniques.

2. Approche linguistique et psycholinguistique du lexique verbal : le rôle central de l’approximation sémantique par analogie

Comment procéder pour constituer un dictionnaire électronique qui soit en adéquation avec l’organisation du lexique mental ? L’une des voies qui nous semble particulièrement pertinente consiste à s’appuyer sur des processus mis à l’œuvre spontanément, non seulement durant la période-clé de la structuration du lexique entre 2 et 4 ans (Bassano, 1998) mais aussi à l’âge adulte, chez des locuteurs au lexique stabilisé. Considérant les productions spontanées des locuteurs comme un terrain d’observation qui manifeste à la surface du discours les mécanismes d’organisation du lexique, nous proposons de montrer l’apport d’énoncés à pivot verbal qui se caractérisent par une combinaison inhabituelle de termes sur le plan sémantique. Il s’agit de mettre au jour un mode d’organisation du lexique par proximité sémantique auquel renvoient les deux corpus considérés :

– Corpus A : 230 énoncés d’allure métaphorique à pivot verbal produits par des enfants entre 2 et 4 ans3 :

(1) « Tata, ton cœur y clignote » (Cyrielle 2 ans : la tête sur la poitrine de sa Tata)

(2) « je déshabille l’arbre » (Camille 2 ;8 ans : enlevant un bout d’écorce) (3) « les arbres y pondent des fruits » (Julie 2 ;11 ans : à propos d’un pommier) (4) « allez, allumes tes yeux ! » (Joane 3 ans : à un adulte qui a les yeux

fermés)

(5) « je le dégourdis un peu mon dessin » (Andréas 3 ;5 ans : défroissant un dessin)

3. Le corpus A est issu d’un recueil longitudinal chez un enfant (2-4;2 ans) et d’un recueil transversal chez 100 autres enfants (1;8 - 4 ans).

(4)

(6) « elle va mourir la maison..., on va la détruire » (Joane 3;5 ans : voyant la démolition d’une maison)

(7) « Maman a repassé tout ses cheveux ! » (Jonathan, 3;6 ans : sa maman d’ordinaire très frisée s’est fait lisser les cheveux)

(8) « ils ont accroché deux couleurs » (Joane 4 ;2 ans : au sujet d’un chewing- gum qui a deux couleurs)

L’enfant cherchant à communiquer un événement A [déchirer un livre] pour lequel il ne dispose pas de catégorie verbale constituée : 1) ferait une analogie avec un ancien événement B [casser un verre] déjà mémorisé avec une entrée lexicale

«casser» et 2) utilisant cette analogie, dirait « le livre est cassé » pour communiquer l’événement A.

– Corpus B : 357 énoncés métaphoriques à pivot verbal produits par des adultes, dans 9 ouvrages scientifiques à visée pédagogique

(9) « Les théories sont éphémères : elles ne meurent pas tout entières pourtant, et de chacune d’elles il reste quelque chose. » (Poincaré, 1902) : 26) (10) « Faudra-t-il chercher à raccommoder les principes ébréchés ? » (Poincaré,

1905) : 145)

(11) « Notre faiblesse nous oblige à découper en tranches l’univers » (Poincaré, 1908) : 77)

(12) « elle a inventé une série d’exercices destinés à “dérouiller” ce membre jusque-là pétrifié » (Sacks, 1973) : 163)

(13) « Les voyelles… sont plus aptes à “aimanter” l’attention de l’enfant » (Boysson-Bardiès, 1999) : 57)

(14) « Dans certaines situations, nous pouvons dompter l’ADN » (Kupiec et al., 2000) : 215 )

Le pédagogue cherchant à communiquer un événement A [catégoriser l’univers]

pour lequel il envisage la possibilité que son auditeur ne dispose pas de la catégorie verbale constituée : 1) ferait une analogie avec un autre événement B [découper en tranches un gigot] qu’il suppose facilement interprétable par ses interlocuteurs et 2) utilisant cette analogie, dirait « … découper en tranches l’univers » pour communiquer l’événement A.

Lorsque l’on examine les énoncés de ces deux corpus on observe qu’ils mettent au jour une organisation du lexique des verbes selon une proximité sémantique qui peut s’expliciter principalement en termes de cohyponymie interdomaines entre verbes. Ainsi, par exemple :

En (2) « déshabiller » (HUMAIN) est en relation de proximité sémantique = cohyponymie interdomaines avec « écorcer » (ARBORICULTURE) ;

En (3) « pondre » (ANIMAL) est en relation de proximité sémantique = cohyponymie interdomaines avec « produire » (ARBORICULTURE) ;

(5)

En (10) « raccommoder » (COUTURE) est en relation de proximité sémantique = cohyponymie interdomaines avec « réviser » (THEORIE) ;

En (11) « découper en tranches » (CUISINE) est en relation de proximité sémantique = cohyponymie interdomaines avec « catégoriser » (THEORIE).

De tels énoncés révèlent, selon nous, un mode d’organisation du lexique verbal tel que (nous renvoyons, en parallèle, au tableau qui suit) :

a) il existe des CONCEPTS d’action comme [DETERIORER] ou [REPARER] ; b) ces concepts véhiculent leur intension (l’essentiel de leur signification) à travers des expressions linguistiques variées ;

c) ces expressions linguistiques « réalisent » l’essentiel de la signification du CONCEPT dans des champs sémantiques différents qui renvoient à des types d’objets spécifiques (papier, voiture, maison) et, parfois, à des domaines d’activité particuliers (MECANIQUE, BATIMENT).

[CONCEPTS D’ACTIONS]

Objets

DOMAINE [DETERIORER] [REPARER]

verre, assiette, Casser, Briser, Ebrécher, Fêler, Recoller, Ressouder, livre, papier, Déchirer, Découper, Friper,

Froisser,

Scotcher, Recoller, Rénover,

bois, arbre, VEGETAL

Couper, Cisailler, Fendre, Tronçonner, Casser, Entailler,

Traiter,

vêtement, habit, COUTURE

Déchirer, Trouer, Découdre, Détériorer,

Rapiécer, Recoudre, Raccommoder, Repriser, corps, psychisme,

MEDECINE

Casser, Gercer, Blesser, Balafrer, Meurtrir, Démoraliser,

Bouleverser,

Soigner, Panser, Traiter, Médicamenter,

voiture, bus, MECANIQUE

Dysfonctionner, Accidenter, Cabosser, Esquinter, Endommager...

Réparer, Recarrosser, Remonter,

maison, immeuble, BATIMENT

Fissurer, Lézarder, Détruire, Délabrer,

Restaurer, Ravaler, Recrépir,

Tableau 1. Exemples de concepts d’actions : [DETERIORER] et [REPARER]

(6)

Tous ces verbes (comme « rescotcher », « soigner », « recarrosser »,

« recrépir »…) sont donc rattachés à un concept qui constitue pour chacun d’entre eux, un noyau de sens commun. De tels verbes constituent, de ce fait, des cohyponymes, dont on peut distinguer deux types :

– les cohyponymes intradomaine : « fissurer », « lézarder », « se délabrer » sont des cohyponymes intradomaine car ils relèvent d’un même domaine d’activité, à savoir le BATIMENT ;

– les cohyponymes interdomaines : « Fissurer » et « Meurtrir » sont des cohyponymes interdomaines car ils relèvent de domaines différents, respectivement le BATIMENT et la MEDECINE.

Le point commun de tous les hyponymes c’est leur potentialité à pouvoir exprimer la même idée en « intension ». C’est pourquoi, nous considérons qu’ils constituent tous des approximations sémantiques non seulement du concept mais aussi les uns par rapport aux autres : l’hyponyme « soigner » (MEDECINE) est en relation de proximité sémantique avec l’hyponyme « rapiécer » (COUTURE) et vice- versa.

On peut remarquer que cette organisation du lexique des verbes est proche de celle qui est présente dans les dictionnaires dits analogiques, à ceci près que dans le dictionnaire analogique, il n’est pas spécifié que » réparer » fonctionne comme un hyperonyme, ni donc que ses verbes dits analogues constituent des cohyponymes.

De plus, les champs sémantiques sont parfois fortement limités. Pour « réparer », par exemple, la dimension /corps/ n’est pas mentionnée et les verbes, « revigorer », ou « soigner » ne sont donc pas rapprochés de « réparer ».

Par-delà ces différences, il apparaît que la notion d’analogie peut être utilisée pour représenter la relation lexicale de cohyponymie que nous avons introduite.

Aussi pourrions-nous considérer qu’une analogie intradomaine marque une proximité sémantique entre deux verbes qui renvoie à un même domaine alors qu’une analogie interdomaines marque une proximité sémantique entre des verbes qui renvoient à des domaines sémantiques distincts.

L’avantage d’une telle dénomination terminologique tient au fait que la relation de cohyponymie est une relation lexicale qui concerne le système langue et consiste à rapprocher le sens de deux expressions linguistique alors que l’analogie est une notion hybride qui permet non seulement de désigner une relation sémantique, établie en langue entre deux expressions linguistiques, mais aussi un rapprochement entre deux événements du monde. C’est pourquoi nous pouvons utiliser la notion d’« approximation sémantique par analogie » non seulement pour qualifier les productions des adultes mais aussi celles des jeunes enfants qui n’en sont pas encore au stade d’opérer un rapprochement lexico-sémantique entre verbes mais qui mettent en rapport des événements du monde.

Au terme de la confrontation des productions d’enfants de 2-4 ans avec celles des adultes, il ressort qu’elles sont identiques du point de vue de la tension

(7)

sémantique qu’elles véhiculent et de la relation de proximité sémantique entre verbes qu’elles mettent au jour. Cette approche linguistique permet d’établir que les énoncés d’apprentis locuteurs en cours d’acquisition du lexique (corpus A) ainsi que les énoncés de locuteurs au lexique stabilisé (corpus B) constituent des approximations sémantiques qui jouent un rôle fondamental durant la période d’acquisition précoce du lexique puisqu’elles permettent à l’enfant de pallier sa situation de manque du mot. De plus, ces énoncés mettent au jour l’existence dans l’organisation du lexique d’une relation d’analogie ou cohyponymie entre verbes qui relèvent de domaines sémantiques différents. Ainsi, plutôt que de constituer simplement des énoncés déviants ou ordinaires ces approximations sémantiques sont

« remarquables » : elles manifestent à la surface du discours, l’existence, dans le système langue, d’une relation lexicale de « proximité sémantique » interdomaines entre verbes encore non institutionnalisée en linguistique. Nous allons maintenant présenter notre approche computationnelle de la proximité sémantique.

3. Approche computationnelle : la proxémie

Une théorie de la langue computationnellement utilisable doit pouvoir rendre compte et exploiter ses régularités statistiques, la plus connue de ces régularités étant la loi de Zipf qui exprime que la fréquence des mots décroît comme une loi de puissance (power law) de leur rang (Zipf, 1949). Néanmoins, malgré son universalité, cette loi ne fournit que peu d’éclairage quant à l’organisation structurelle du lexique. Des travaux récents en théorie des graphes, appliqués à l’exploration de corpus de textes et du réseau lexical WordNet, ont d’ores et déjà permis d’améliorer sensiblement cet état de fait (Ferrer et al., 2001 ; Sigman et al., 2002) en identifiant un type de structures déjà repéré par Watts (Watts, 1999) et Strogatz (Watts et al., 1998) dans de nombreux autres domaines (biologique, social, technique). Il apparaît que ces structures sont toutes de type « small worlds hiérarchiques » et à ce titre vérifient certaines propriétés statistiques (voir § 3.1).

L’approche computationnelle que nous présentons ici s’inscrit dans la continuation de ces travaux. Les nouveautés que nous apportons se situent a) dans l’éclairage linguistique et psycholinguistique novateur qui nous guide et nous sert de validation, b) dans le type d’objet d’investigation : les dictionnaires, et c) dans notre analyse de la structure de ces graphes qui aboutit à un modèle computationnel de proximité sémantique entre sommets (ici les sommets sont les verbes du français).

Dans (Resnik et al., 2000), une comparaison des performances des diverses modélisations de la similarité entre verbes4 avec des jugements humains sur la similarité sémantique entre verbes présentés par paires conclut à une bonne performance des approches dans leur domaine de compétence respectif. Néanmoins,

4. Fondées sur : des modèles taxonomiques à la WordNet, des modèles basés sur la distribution des cooccurrences et des semantic structure models basés sur la théorie des structures lexicales conceptuelles.

(8)

les auteurs constatent que toutes les modélisations de la similarité ne parviennent pas à rapprocher certaines paires de type métaphorique (Déshabiller/Eplucher) qui s’avèrent pourtant qualifiées d’assez proches par les locuteurs humains. Notre objectif est de développer une approche continue de la sémantique des verbes qui permette de dépasser cette limite.

Nous allons tout d’abord introduire à la section 3.1 la notion de « small worlds hiérarchiques », puis aux sections 3.2 et 3.3 présenter son application aux dictionnaires, ensuite à la section 3.4 exposer la distance que nous avons définie, et à la section 3.5 l’appliquer à la désambiguïsation, pour ensuite, à la section 4, confronter la distance sémantique obtenue avec les approximations sémantiques entre verbes du corpus A.

3.1. Les propriétés des graphes de terrain

Les graphes sont largement utilisés comme supports pour la représentation des connaissances dans (presque) toutes les sciences. Ayant débuté au dix-huitième siècle avec Léonard Euler, la théorie des graphes a pris un essor nouveau avec l’avènement de l’informatique, et connaît actuellement une nette accélération. En effet, les capacités de calcul des machines permettent aujourd’hui de traiter les grands graphes de données de terrain qui proviennent aussi bien des sciences humaines et sociales (réseaux d’accointances, réseaux économiques, réseaux géographiques, réseaux sémantiques, etc.) que des sciences de l’ingénieur (réseau internet, réseaux électriques…) et des sciences de la vie (réseaux de neurones, réseaux épidémiologiques, réseaux protéiques…). Ces graphes peuvent posséder jusqu’à plusieurs centaines de millions de sommets et plusieurs milliards d’arêtes. Il s’agit pour nous d’établir dans quelle mesure les diverses structures topologiques (d’un point de vue local et global) de ces « grands graphes de terrain » sont porteuses de « sens », en développant des méthodes efficaces capables d’extraire ce sens pour l’exploiter au mieux. Dans le but de proposer une plate-forme de ressources linguistiques pour le web sémantique et l’école nous nous sommes concentrés dans un premier temps sur les graphes d’origine linguistique (dictionnaires de langues, dictionnaires de synonymes ; thésaurus ; réseaux sémantiques ; grands corpus…), mais nos modèles et nos techniques ont vocation à être appliqués à la plupart des graphes de terrain issus de diverses sciences : sciences humaines et sociales, sciences de la vie, sciences et technologies de l’information et de la communication.

La plupart des « grands graphes de terrain » qui nous intéressent ici, bien que n’étant pas réguliers, ne ressemblent cependant pas aux graphes aléatoires. Les grands graphes de terrain possèdent à la fois une structure locale riche et une connectivité globale très « resserrée ». Cela signifie que ces graphes ont une topologie bien particulière, dans laquelle la relation entre structure locale et structure globale n’a rien à voir avec celle des graphes (aléatoires ou réguliers)

(9)

classiquement étudiée en théorie des graphes. Ceci explique l’intérêt considérable que ces résultats ont suscité dans les communautés scientifiques concernées. En effet, on peut penser que ces caractéristiques reflètent les propriétés spécifiques des systèmes dont ces grands graphes de terrain rendent compte, et donc que l’étude de leurs structures permettra une meilleure compréhension des phénomènes dont ils sont issus, mais aussi une meilleure exploitation des données ainsi représentées : traitement, modélisation, structuration, indexation, accès à l’information, classification, extraction de sens, visualisation…

Formellement, un graphe5 G = (V,E) est la donnée d’un ensemble V de sommets et d’un ensemble E de paires de sommets formant des arêtes, les éléments de E sont donc des sous-ensembles 2-éléments de V. Les sommets peuvent représenter des objets et les arêtes des relations de nature variée entre ces objets. On a l’habitude d’illustrer les graphes en représentant les sommets par des points et en rejoignant deux points par une ligne si les deux sommets correspondants forment une arête : les seules informations pertinentes dans une telle figure ne sont pas les informations d’ordre géométrique, (la forme des arêtes ou l’emplacement des points pourraient être tout autre, tout en représentant le même graphe) mais uniquement les informations d’ordre relationnel : les paires de sommets formant ou ne formant pas une arête.

Figure 1. G=(V,E) où V={1,2,3,4,5,6,7} et E={{1,2},{1,5},{2,5},{3,4},{5,7}}

Le fait que l’arête reliant deux sommets S1 et S2 soit présente dans G sera noté {S1,S2}∈E (on dit alors que S1 et S2 sont deux sommets voisins dans G), la notation S∈V indiquant simplement que S est un sommet de G. Pour tout entier naturel m≠0, un chemin de longueur m dans G est un (m+1)-uplet c = 〈S0,…,Sm〉 tel que

∀i,0≤i<m : {Si,Si+1}∈E, S0 en étant l’origine et Sm l’arrivée. Un graphe G = (V,E) est dit connexe si ∀x,y∈V, il existe un chemin 〈x,..., y〉 de longueur finie dans G. Le graphe de la figure 1 n’est donc pas connexe et sa plus grande partie connexe est le

5. Par souci de concision, nous ne considérons ici que les graphes simples non orientés, c’est- à-dire qu’entre 2 sommets, soit il n’y a pas lien, soit il n’y en a qu’un seul et il n’est pas orienté, (un lien entre 2 sommets est alors appelé arête).

7

6 5

4 3

2 1

1

7

6 5

4

3

2

(10)

sous-graphe formé par les sommets {1,2,5,7} avec les arêtes {{1,2},{1,5},{2,5},{5,7}}.

Les premières investigations concernant des graphes de grande taille moins réguliers6 que les graphes « de laboratoire » sont dues à (Erdos et al., 1960) qui ont introduit et étudié la notion de graphe aléatoire (un graphe aléatoire est construit en partant d’un ensemble de sommets isolés, puis en ajoutant aléatoirement un certains nombre déterminé d’arêtes entre ses sommets) en tant que modèle pour les graphes dits « de terrain » : graphes de grande taille (plusieurs milliers de sommets et d’arêtes) issus de la biochimie, de la biologie, de la technologie, de l’épidémiologie, de la sociologie, de la linguistique...

Depuis, des recherches récentes en théorie des graphes ont mis au jour un ensemble de caractéristiques statistiques que partagent la plupart des graphes de terrain ; ces caractéristiques définissent la classe des graphes de type hierarchical small worlds ou « réseaux petits mondes hiérarchiques ». Ainsi en va-t-il du réseau des interactions protéiques de certaines levures (Jeong et al., 2001), du réseau neuronal du ver Caenorhabditis elegans (Watts et al., 1998), du graphe d’internet (800 millions de sommets) (Barabasi et al., 2000), du graphe des appels téléphoniques d’une journée aux Etats-Unis (Abello et al., 1999), de graphes épidémiologiques (Ancel et al., 2001), du graphe des coauteurs scientifiques (Redner, 1998) ou des collaborations cinématographiques (Watts et al., 1998), ou bien de réseaux lexicaux tirés de WordNet (Sigman et al., 2002) ou encore des cooccurrences dans un corpus de textes (Ferrer et al., 2001)…

Ces graphes, comme la plupart des graphes de terrain, sont peu denses, c’est-à- dire qu’ils ont relativement peu d’arêtes au regard du nombre de leurs sommets.

Dans un graphe à n sommets, le nombre maximum d’arêtes possibles est de n(n-1)/2 c’est-à-dire de l’ordre de n2/2. En général le nombre d’arêtes des grands graphes de terrain est de l’ordre de n et non de n2. Par exemple, le graphe des collaborations cinématographiques7 possède 13 millions d’arêtes, ce qui peut paraître beaucoup, mais ce qui est très peu par rapport au carré du nombre de ses sommets (2250002 ≈ 5x1010).

Watts et Strogatz (Watts et al., 1998) proposent deux indicateurs pour caractériser un grand graphe G connexe8 et peu dense : son L et son C.

– L = moyenne des plus courts chemins entre deux sommets de G ;

6. Les graphes réguliers sont des graphes classiquement étudiés en théorie des graphes, tous leurs sommets ont le même degré d’incidence (le même nombre de voisins).

7. Les 225 000 acteurs du syndicat du cinéma américain en sont les sommets et il existe une arrête entre les sommets A et B si et seulement si les acteurs représentés par les sommets A et B ont joué dans un même film.

8. Quand un graphe non orienté n’est pas connexe on peut par exemple étudier séparément ses composantes connexes (dans un graphe non orienté la propriété ‘connexe’ est équivalente à ‘fortement connexe’).

(11)

– C = le taux de clustering ou d’agrégation, est défini de la manière suivante : supposons qu’un sommet S ait Ks voisins, alors il y a Ks(Ks-1)/2 arêtes au maximum qui peuvent exister entre ses Ks voisins (ce qui arrive quand chacun des voisins de S est connecté à tous les autres voisins de S). Soit As le nombre d’arêtes qu’il y a entre les voisins de S (ce nombre est donc nécessairement plus petit ou égal à Ks(Ks-1)/2).

Posons Cs = As/( Ks(Ks-1)/2) qui est donc pour tout sommet S inférieur ou égal à un.

Le C de G est la moyenne des Cs sur les sommets de G9. Le C d’un graphe est donc toujours compris entre 0 et 1. Plus le C d’un graphe est proche de 1, plus il forme des agrégats ou clusters (des zones denses en arêtes – « mes amis sont amis entre eux »). En appliquant ces critères à différents types de graphes ils constatent que :

1) les graphes de terrain ont tendance à avoir un L petit (en général il existe au moins un chemin très court entre deux sommets quelconques) ;

2) les graphes de terrain on tendance à avoir un grand C, ce qui reflète la tendance qu’ont deux voisins d’un même sommet à être connectés entre eux par une arête. Par exemple dans le World Wide Web10, deux pages qui sont liées à une même page ont une probabilité relativement élevée d’inclure des liens l’une vers l’autre ;

3) les graphes aléatoires ont un petit L. Lorsque l’on construit de manière aléatoire un graphe ayant une densité en arête comparable aux grands graphes de terrain, on obtient des graphes dont le L est petit ;

4) les graphes aléatoires ont un C faible : ils ne sont pas formés d’agrégats.

Dans un graphe aléatoire il n’y a aucune raison pour que les voisins d’un même sommet aient plus de chance d’être connectés que deux sommets quelconques, d’où leur faible tendance à former des agrégats.

Les points 1 à 4 peuvent être résumés par le tableau 2 :

à densité égale C Taux de clustering L Moyenne des chemins Graphes aléatoires C petit (pas d’agrégat) L petit (chemins courts) Graphes de terrain C grand (des agrégats) L petit (chemins courts)

Tableau 2. Graphes de terrains, et graphes aléatoires

9. Ceci est la définition du C d’un graphe qui fait actuellement référence, mais en fait il nous semble que cette définition, bien qu’allant dans la bonne direction, pose encore quelques problèmes : si le graphe en question possède un sommet S avec moins de 2 voisins, son C n’est pas défini (la définition induit alors une division par zéro). De plus, l’idée directrice serait de mesurer la tendance qu’a un graphe à former des cycles courts, or le C, tel que défini plus haut, mesure seulement la tendance à former des cycles de longueur 3.

10. Les sommets en sont les 800 millions de pages disponibles sur internet, et une arête est tracée entre A et B si un lien hypertexte vers la page B apparaît dans la page A ou un lien hypertexte vers la page A apparaît dans la page B.

(12)

Watts et Strogatz (Watts et al., 1998) proposent d’appeler small worlds11

« réseaux petits mondes » les graphes qui ont cette double caractéristique qu’ils identifient dans tous les graphes de terrain qu’ils observent, et dont ils postulent l’universalité.

Les graphes d’origine linguistique que nous étudions sont en effet de type réseaux petits mondes (graphes peu denses, présentant une structuration locale riche – un C fort – et une distance moyenne entre deux sommets très petite sur l’ensemble du graphe – un L faible).

Des travaux plus récents (Ravasz et al., 2003) montrent que la plupart des graphes réseaux petits mondes, dont les graphes d’origine linguistique, ont de plus une structure hiérarchique. La distribution des degrés d’incidence12 des sommets suit une loi de puissance power law, certains nœuds très peu nombreux ayant beaucoup plus de voisins que d’autres, eux-mêmes ayant plus de voisins que d’autres qui eux-mêmes… La probabilité P(k) qu’un sommet du graphe considéré ait k voisins décroît comme une loi de puissance P(k) = k (Barabasi et al., 1999 ; Kleinberg et al., 1999 ; Adamic, 1999 ; Huberman et al., 1999) où λ est une constante caractéristique du graphe, alors que dans le cas des graphes aléatoires, c’est une loi de Poisson qui est à l’œuvre.

Or, des travaux linguistiques et psycholinguistiques (Duvignau, 2002 ; Gaume, à paraître), qui mettent au jour une organisation du lexique des verbes par cohyponymie intra vs interdomaines à partir de l’analyse d’énoncés spontanés corroborent cette propriété supplémentaire. Nous pensons que l’aspect hiérarchique des dictionnaires (distribution des degrés d’incidence des sommets en loi de puissance) est une conséquence du rôle de l’hyperonymie associée à la polysémie de certains sommets, alors que le fort C (existence de zones denses en arêtes) reflète le rôle de la cohyponymie interdomaines (Duvignau, 2002 ; Duvignau, 2003). Par exemple le verbe « casser » se trouve dans de nombreuses définitions (« émietter »,

« fragmenter », « détériorer », « révoquer », « abroger »…) d’où la forte incidence du sommet « casser ». D’autre part, on constate qu’il existe de nombreux triangles par exemple : {casser, émietter, fragmenter}, {casser, révoquer, abroger}…, ce qui favorise les zones denses en arêtes et plus précisément un fort taux de clustering C. Ce sont ces zones denses en arêtes qui rapprochent les cohyponymes.

11. En écho au small world phenomenon (Milgram, 1967 ; Kochen,1989 ; Guare, 1990) qui ont étudié des graphes sociaux dans lesquels deux personnes A et B sont en relation dans le graphe si A entretient tel ou tel type de relation avec B (A connaît B, A est en contact régulier avec B, A a travaillé dans la même entreprise que B...). Ces graphes ont été popularisés par le slogan six degrees of separation (Guare, 1990) : pour certains de ces graphes à l’échelle de la planète la longueur moyenne du chemin entre deux humains est de l’ordre de 6, ce qui est peu sur plusieurs milliards d’humains/sommets.

12. Le degré d’incidence d’un sommet est son nombre de voisins.

(13)

Les grandeurs C et L qui caractérisent les réseaux petits mondes étant des mesures macroscopiques, nulle analyse fine ne peut en être tirée. En particulier, on ne trouve dans la littérature que peu de travaux visant à mettre au point une mesure locale du degré de clustering d’un couple de sommets mesurant à quel point ces deux sommets sont agrégés (ou apparentés) dans un réseau petit monde hiérarchique.

Nous pensons que les graphes d’origine linguistique, outre leur intérêt propre dans l’étude des grands corpus, peuvent aussi permettre de mieux comprendre les propriétés structurelles que les dictionnaires électroniques et les réseaux sémantiques13 devront non seulement refléter, mais surtout exploiter dans leur architecture et leur ergonomie tant pour l’apprentissage L1 ou L2, que la traduction automatique, le résumé automatique, l’aide à la rédaction, la fouille de données, la classification automatique, la terminologie, ou encore la visualisation du sens.

3.2. Les graphes lexicaux de relations sémantiques

A la suite des travaux de Watts et Strogatz, beaucoup d’articles sont parus où sont analysées les structures de différents graphes de terrain dans les domaines les plus divers (sciences sociales, sciences de la vie, sciences de l’ingénieur), mais les études de graphes d’origine linguistique restent très peu nombreuses.

Il existe plusieurs types de réseaux lexicaux, suivant la nature de la relation sémantique qui définit les arêtes du graphe (les sommets représentant les unités lexicales d’une langue – de quelques dizaines de milliers à quelques centaines de milliers d’éléments, suivant la langue et la couverture du corpus utilisé). Les trois principaux types de relations utilisées sont les suivantes :

– relations syntagmatiques, ou plutôt de cooccurrence ; on construit une arête entre deux mots si on les trouve dans un grand corpus au voisinage l’un de l’autre (typiquement à une distance maximale de deux/trois mots ou plus) cf. (Ide et al., 1990 ; Karov et al., 1998 ; Lebart et al., 1994) ;

– relations paradigmatiques, notamment de synonymie ; à partir de bases de données lexicales, comme le célèbre WordNet (Felbaum, 1999), on construit un graphe dans lequel deux sommets sont reliés par une arête si les mots correspondants entretiennent une relation synonymique (Ploux et al., 1998) [http://www.crisco. unicaen.fr.)] ;

– relations de « proximité sémantique » ; il s’agit de relations moins spécifiques qui peuvent prendre en compte à la fois l’axe paradigmatique et l’axe syntagmatique. Nous avons construit un graphe des verbes du français, en définissant les arêtes de la manière suivante : on construit une arête entre un verbe A

13. Ceci pouvant s’étendre aux bases de données de manière générale (représentation des connaissances, accès à l’information, stockage...).

(14)

et B si l’un est dans la définition de l’autre dans un dictionnaire général (voir section 3.5 pour le traitement de l’homonymie). Comme une entrée de dictionnaire général comporte souvent des définitions, des exemples, des synonymes, et même des antonymes, les arêtes sont alors étiquetées par le type de relation qu’elles représentent : on peut donc, selon les besoins, restreindre le graphe à certaines combinaisons de relations : syntagmatiques et/ou paradigmatiques et/ou même logico-sémantiques (Gaume et al., 2002).

Tous ces graphes sont à l’évidence de type réseaux petits mondes hiérarchiques (graphes peu denses, présentant une structuration locale riche et une distance moyenne très petite sur l’ensemble du graphe, ainsi qu’une structure hiérarchique).

Outre leur intérêt propre dans l’étude du lexique, ils peuvent donc aussi nous permettre de mieux comprendre les grands graphes de terrain dans leur ensemble.

3.3. Les graphes de dictionnaires

De manière générale, si les définitions d’un dictionnaire sont porteuses de sens, c’est au moins par le réseau qu’elles tissent entre les mots qui en sont les entrées.

L’idée d’exploiter ce réseau (considéré simplement comme une source textuelle structurée) a été appliquée par (Ide et al., 1990) à travers un réseau de neurones pour la désambiguïsation14. Notre propos est d’exploiter ce réseau de type petit monde en tirant parti de l’hypothèse selon laquelle les zones de densité fortes en arcs (les agrégats) identifient des zones de sens proches. Nous illustrons notre approche sur deux types de dictionnaires : un dictionnaire de langue, le Grand Robert15 et DicoSyn un dictionnaire de synonymes constitué de sept dictionnaires classiques (Bailly, Benac, Du Chazaud, Guizot, Lafaye, Larousse et Robert) dont ont été extraites les relations synonymiques16.

Les dictionnaires sont représentés par des graphes dont les sommets et les arêtes peuvent être définis de multiples façons. L’une d’entre elles consiste à prendre pour sommets du graphe les entrées du dictionnaire et d’admettre l’existence d’un arc d’un sommet A vers un sommet B si et seulement si l’entrée B apparaît dans la définition lemmatisée17 de l’entrée A (voir section 3.5 pour le traitement de

14. La reconnaissance du sens d’un mot parmi ceux donnés par exemple dans un dictionnaire, ou bien la distinction d’un mot parmi ses différents homographes.

15. Nous avons dû réaliser un important travail de saisie, de lemmatisation et de formatage en XML pour coder le graphe extrait du grand Robert.

16. Ce premier travail de fusion, effectué à l’Institut national de la langue française (aujourd’hui ATILF: http://zeus.inalf.fr/synonymes.htm) a produit une série de fichiers dont les données ont été regroupées et homogénéisées au sein du laboratoire CRISCO par un important travail de correction (par adjonctions ou suppressions de liens synonymiques) sur le fichier final.

17. Pour étiqueter et lemmatiser les définitions du dictionnaire nous avons utilisé Treetagger : http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

(15)

l’homonymie). C’est la position de départ que nous avons adoptée. En effet, cette seule procédure permet d’extraire d’un dictionnaire de langue, ce que dorénavant nous appellerons le graphe du dictionnaire en question.

Illustration autour du sommet ECORCER :

ÉCORCER [ekóRse] v. tr.; Dépouiller de son écorce (un arbre).

Décortiquer, peler (le grain, les fruits)

ÉCORCER [ekóRse] v. tr.; Dépouiller de son écorce (un arbre).

Décortiquer, peler (le grain, le fruit)

Figure 2. Définition de ÉCORCER (avant et après lemmatisation)– ROBERT

ECORCER FRUIT

GRAIN LE

PELER

ARBRE UN ECORCE

SON DE DEPOUILLER

DECORTIQUER

Figure 3. Extrait du graphe autour de ÉCORCER – ROBERT

En réitérant cette construction pour chacune des entrées du dictionnaire, on obtient le graphe de ce dictionnaire. Si l’on extrait de ce graphe le sous-graphe formé par les sommets qui sont des verbes, voici ce que nous obtenons « autour » du sommet dénoté par le verbe ECORCER :

D é p o u il le r Éc o rc e r

S é p a re r

D é c o rt iq u e r

P e le r

D é p ia u t e r

Éc o rc h e r

Ép lu c h e r N e t t o y e r

Figure 4. Extrait du graphe des verbes, autour de ÉCORCER – ROBERT

Les définitions de NETTOYER, SEPARER... renvoient à d’autres verbes absents de notre schéma pour des raisons de lisibilité (en poursuivant, on rencontrerait très rapidement tous les verbes du dictionnaire). Nous n’avons donc porté sur cette figure qu’une partie des voisins d’ordres 1, 2 et 3 d’ECORCER. Une

(16)

fois ce graphe orienté obtenu, nos algorithmes travaillent à partir de ce que nous appelons un graphe anonyme18 qui en est la version non orientée.

Les graphes ainsi obtenus sont des réseaux petits mondes typiques : par exemple, DicoSyn_Verbe (le graphe des verbes extraits de dicosyn : il existe une arête {A,B} si les verbes représentés par les sommets A et B sont donnés comme synonymes dans dicosyn) a 9 043 sommets, il a 50 948 arêtes, sur sa plus grande partie connexe (8 835 sommets) son L est égal à 4,1694 et son C est égal à 0,3186, c’est typiquement un petit monde. La courbe représentant la distribution des incidences de ses sommets (figure 6) est caractéristique des réseaux petits mondes hiérarchiques (Ravasz et al., 2003) (en log-log elle forme approximativement une droite).

Dans la section suivante, nous présentons la proximité sémantique entre verbes (appelée proxémie) que nous avons mise au point en définissant une distance entre sommets des graphes de dictionnaire. L’idée importante (contrairement aux méthodes classiques) est de calculer la distance entre deux sommets à partir de la globalité du graphe. Cela signifie que ne sont pas seulement pris en compte les voisins immédiats de deux sommets pour le calcul de leur distance, mais la totalité du graphe par le calcul préalable d’un indice de similarité faisant intervenir tout le graphe, et suivi d’un plongement du résultat dans Rn où n est le nombre de sommets du graphe. La deuxième étape est l’extraction de la structure du graphe à partir du tableau des distances, par une méthode classique de classification automatique sur ce tableau. C’est en appliquant cette méthode d’analyse aux dictionnaires que nous mettons au jour la structure de leurs graphes et « capturons » leurs propriétés topologico-sémantiques parmi lesquelles figure la proxémie qui organise dans un continuum l’hyperonymie, la cohyponymie intradomaine et la cohyponymie interdomaines.

Figure 5. Extrait du graphe anonyme des verbes, autour du sommet associé à

ÉCORCER – ROBERT

18. Nous l’appelons « graphe anonyme » pour insister sur le fait que nos algorithmes ne travaillent qu’à partir de cette seule structure. Par exemple, serait-il possible parmi plusieurs graphes anonymes de distinguer leurs origines (dictionnaire de langue, dictionnaire de synonymes, World Wide Web, réseau protéique…) ?

(17)

Figure 6. Courbe log-log de la distribution des incidences (DicoSyn_Verbe : 9 043 sommets)

3.4. La proxémie

PROX est une méthode stochastique pour l’étude de la structure des grands graphes de terrain de type petits mondes hiérarchiques. Cette méthode consiste à transformer un graphe en une chaîne de Markov dont les états sont les sommets du graphe en question. Des particules se « baladent » aléatoirement de sommets en sommets dans le graphe en empruntant les arêtes du graphe. Ce sont les dynamiques des trajectoires des particules qui nous donnent les propriétés structurelles des graphes étudiés (pour une présentation détaillée de PROX voir (Gaume, à paraître), pour les applications de PROX au TAL voir (Gaume et al., 2004a) et (Gaume et al., 2004b) pour la statistique.

PROX construit une mesure de similarité entre sommets d’un graphe, dont le but est de « rapprocher » les sommets d’une même zone dense en arêtes. En effet, nous faisons l’hypothèse que ces zones de densité fortes en arêtes identifient des zones de sens proches entre verbes.

1. Soit un Graphe à n sommets G=(V,E), on notera [G] la Matrice carrée nxn telle que pour tout r,s∈V, [G]r,s=1 si {r,s}∈E et [G]r,s=0 si {r,s}∉E; On appellera [G] la matrice d’adjacence de G.

2. Soit G=(V,E) un graphe réflexif19 à n sommets. Posons [Ĝ] la matrice nxn à coefficients réels positifs ou nuls définie par : ∀r,s∈V, [Ĝ]r,s=[G]r,s/∑x∈V{[G]r,x}.

19. Un graphe G=(V,E) est réflexif si et seulement si ∀r∈V, {r,r}∈E. Cette condition est pratique pour s’assurer que ∀r,s∈V, [G]r,s≥0, ce qui est nécessaire pour la définition mais en

(18)

Nous dirons que [Ĝ] est la matrice Markovienne du graphe G. Cette définition a bien un sens car ∀r,s∈V, [G]r,s≥0 et de plus si le graphe est réflexif, ∀r∈V, [G]r,r=1, donc ∑x∈V{[G]r,x}≠0.

3. Soit G=(V,E) un graphe réflexif à n sommets et [Ĝ] sa matrice Markovienne, ∀r,s∈V, et t∈N*, posons :

PROX(G,t,r,s)= [Ĝ t]r,s

[Ĝ] la matrice nxn est la matrice de transition de la chaîne de Markov homogène dont les états sont les sommets du graphe en question telle que la probabilité de passer d’un sommet r∈V à l’instant t vers un sommet s∈V à l’instant t+1 est égal à :

zéro si {r,s}∉E (s n’est pas un voisin de r)

1/D si {r,s}∈E et r a D voisins (s est un des D voisins de r) G est le graphe des transitions possibles de cette chaîne de Markov.

C’est-à-dire que ∀r,s∈V, ∀t∈N*, PROX(G,t,r,s)=[ Ĝ t]r,s est la probabilité que la particule en partant du sommet r à l’instant zéro soit à l’instant t sur le sommet s quand elle se déplace aléatoirement de sommets en sommets dans le graphe en empruntant les arêtes du graphe.

Si PROX(G,t,r,s)=[ Ĝ t]r,s>[ Ĝ t]r,u=PROX(G,t,r,u) cela veut donc dire que dans sa trajectoire, la particule en partant du sommet r a plus de chance d’être à l’instant t sur le sommet s que sur le sommet u, et c’est la structure du graphe qui détermine ces probabilités.

On définit la distance entre sommets en considérant [Ĝ t], la matrice nxn comme étant les coordonnées de n vecteurs dans un espace de dimension n, puis en calculant la distance euclidienne entre chaque paire de vecteurs : [D] la matrice nxn des distances est donc définie ainsi : [D]j,k=(∑1≤i≤n([Ĝ t]j,i-[ Ĝ t]k,i)2)½.

Ainsi, l’entrée de PROX est le graphe G et un nombre naturel t>0 et sa sortie en sont les matrices nxn [Ĝ t] et [D] : (G, t)Æ PROX Æ[ Ĝ t]Æ[D]

3.5. PROX pour la désambiguïsation de l’homonymie

Nous avons passé sous silence jusqu’à maintenant un problème pourtant fondamental en traitement automatique des langues : la désambiguïsation (Ide et al., 1990 ; Victorri et al.,1996).

Par exemple pour le français dans le dictionnaire Le Grand Robert il y a deux entrées distinctes pour « causer » :

pratique on peut s’en passer car c’est presque toujours le cas dans les réseaux petits mondes, et si ce n’est pas le cas on supprime les sommets sans voisin.

(19)

CAUSER_1 » être la cause de. - Amener, apporter, attirer, déclencher, entraîner, faire, motiver, occasionner, produire, provoquer, susciter. Causer un dommage.

Causer du scandale. L’orage a causé de graves dommages aux récoltes… »

CAUSER_2 « S’entretenir familièrement avec qqn. – Parler, converser, confabuler (vx), deviser, discuter. Nous causons ensemble. Causer avec qqn… »

Figure 7. Deux entrées de « CAUSER » – ROBERT

Aussi même si un locuteur du Français sait naturellement que dans la définition de « bavarder » :

BAVARDER « Parler beaucoup, longtemps ou parler ensemble de choses superficielles. - Parler; babiller, bavasser (fam.), cailleter, caqueter, causer, discourir, discuter, jaboter, jacasser, jaser, jaspiner (argot), lantiponner (vx), papoter, potiner.

Bavarder avec qqn... »

Figure 8. Définition de « BAVARDER » – ROBERT

le verbe « causer » fait référence à CAUSER_2, notre procédure de construction du graphe (voir section 3.3), quant à elle, ne peut désambiguïser. Aussi elle crée un sommet fictif CAUSER (qui n’est pas une entrée du dictionnaire puisqu’on n’y trouve seulement CAUSER_1 et CAUSER_2) et ajoute ensuite deux arêtes {CAUSER, CAUSER_1} et {CAUSER, CAUSER_2}. Quand « causer » est trouvé dans une définition d’un mot comme « bavarder », alors l’arête {BAVARDER, CAUSER} est ajoutée.

Figure 9. « CAUSER » sommet fictif Susciter Provoquer

Discuter

Parler

Causer_2

Causer_1 Bavarder Causer (sommet fictif)

(20)

Dans la figure 9 il y a bien sûr beaucoup d’arêtes et de sommets absents de notre schéma par souci de lisibilité. Les arêtes en pointillés {Discuter, Causer_2}, {Parler, Causer_2} sont dues au fait que « Discuter » et « Parler » sont dans la définition de

« Causer_2 » ainsi que les arêtes {Provoquer, Causer_1} et {Susciter, Causer_1}

qui sont dues au fait que « Provoquer » et « Susciter » sont dans la définition de

« Causer_1 ».

On applique ensuite PROX à ce graphe pour obtenir une matrice [Ĝ t] comme définie plus haut.

[Ĝ 3] Bavarder Parler Discuter causer Causer_1 Causer_2 Provoquer Susciter

Bavarder 0.3259 0.1659 0.1659 0.1890 0.0258 0.0759 0.0258 0.0258

parler 0.1244 0.3534 0.1542 0.1743 0.0231 0.1244 0.0231 0.0231

Discuter 0.1244 0.1542 0.3534 0.1743 0.0231 0.1244 0.0231 0.0231

Causer 0.0810 0.0996 0.0996 0.3795 0.0865 0.0810 0.0865 0.0865

Causer_1 0.0258 0.0308 0.0308 0.2017 0.3519 0.0258 0.1667 0.1667

Causer_2 0.0759 0.1659 0.1659 0.1890 0.0258 0.3259 0.0258 0.0258

Provoquer 0.0258 0.0308 0.0308 0.2017 0.1667 0.0258 0.3519 0.1667

Susciter 0.0258 0.0308 0.0308 0.2017 0.1667 0.0258 0.1667 0.3519

Tableau 3. pour t=3

Dans le tableau 3, nous pouvons observer que :

[Ĝ 3]Bavarder,Causer_1=0.0258<[ Ĝ 3]Bavarder,Causer_2=0.0759, ce qui est normal puisque la densité d’arc entre « Bavader » et « Causer_2 » est plus forte qu’entre

« Bavarder » et « Causer_1 » et c’est cela qui va nous permettre de désambiguïser : supposons qu’un verbe ait k homonymes, il y aura alors les sommets S, S1, S2,...,Sk

dans le graphe où S sera le sommet fictif. S’il y a une arête {A,S}, elle sera alors remplacée par l’arête {A,Si} où Si est tel que [Ĝ 3]A,Si=MAX0<z≤k{[ Ĝ 3]A,Sz}. On supprime ensuite tous les sommets fictifs du graphe pour obtenir ainsi un graphe désambiguïsé comme dans la figure 10 :

Figure 10. Graphe désambiguïsé

Susciter Provoquer

Discuter Parler

Causer_2

Causer_1 Bavarder

(21)

On applique alors une nouvelle fois PROX, mais à ce graphe désambiguïsé.

Exemple : liste des 100 sommets les plus proches du verbe ECORCER (du plus proche (similaire) au plus éloigné) calculée par PROX avec t=6, sur le graphe construit à partir du Grand Robert désambiguïsé.

[1 ECORCER, 2 DÉPOUILLER, 3 PELER, 4 TONDRE, 5 ÔTER, 6 ÉPLUCHER, 7 RASER, 8 DÉMUNIR, 9 DÉCORTIQUER, 10 ÉGORGER, 11 ÉCORCHER, 12 ÉCALER, 13 VOLER, 14 TAILLER, 15 RÂPER, 16 PLUMER, 17 GRATTER, 18 ENLEVER, 19 DÉSOSSER, 20 DÉPOSSÉDER, 21 COUPER, 22 BRETAUDER, 23 INCISER, 24 GEMMER, 25 DÉMASCLER, 26 BAGUER, 27 ÉVINCER, 28 ÉTRILLER, 29 ÉTRANGLER, 30 ÉPURER, 31 ÉMONDER, 32 ÉCAILLER, 33 ÉBRANCHER, 34 ÉBOURRER, 35 ÉBARBER, 36 TAMISER, 37 TAILLADER, 38 SPOLIER, 39 SEVRER, 40 SCRUTER, 41 SCARIFIER, 42 SALER, 43 SAIGNER, 44 SÉPOILER, 45 RÉVOQUER, 46 RUINER, 47 RETOURNER, 48 RETIRER, 49 RANÇONNER, 50 RAISONNER, 51 QUITTER, 52 PRIVER, 53 PILLER, 54 PERDRE, 55 OUVRIR, 56 NETTOYER, 57 MONDER, 58 MARQUER, 59 LIRE, 60 ISOLER, 61 GRUGER, 62 FUSILLER, 63 FRUSTRER, 64 FOUILLER, 65 FILOUTER, 66 FAUFILER, 67 FAUCHER, 68 EXPROPRIER, 69 EXAMINER, 70 ESTAMPER, 71 ESCROQUER, 72 ENTAMER, 73 ENTAILLER, 74 EFFEUILLER, 75 DÉVÊTIR, 76 DÉVELOPPER, 77 DÉVASTER, 78 DÉVALISER, 79 DÉTRÔNER, 80 DÉTROUSSER, 81 DÉSHÉRITER, 82 DÉSHABILLER, 83 DÉSENVELOPPER, 84 DÉSENCOMBRER, 85 DÉSAVANTAGER, 86 DÉROBER, 87 DÉPOURVOIR, 88 DÉPIAUTER, 89 DÉPECER, 90 DÉNUER, 91 DÉNUDER, 92 DÉNANTIR, 93 DÉMONÉTISER, 94 DÉGARNIR, 95 DÉGAGER, 96 DÉFEUILLER, 97 DÉFAIRE, 98 DÉCÉRÉBRER, 99 DÉCOURONNER, 100 DÉCHAUSSER,...]

Figure 11. Proxémie de ÉCORCER à partir de – DicoSyn–

Dans la figure 11, le nombre qui précède chaque verbe est son rang en fonction de sa proxémie à ECORCER.

On peut remarquer que le verbe DEPOUILLER qui apparaît en tête de liste (le plus proche de ECORCER d’après PROX) se présente comme un hyperonyme du verbe ECORCER.

4. Confrontation

La similarité calculée par l’algorithme PROX organise dans un continuum les notions d’hyperonymie, de cohyponymie intradomaine (par les sommets les plus similaires) et de cohyponymie interdomaines (par les sommets un peu moins similaires). L’introduction de la notion de « proxémie », qui recouvre ces trois notions, permet de souligner le glissement de sens continu qu’il y a d’un mot en relation synonymique (cohyponyme intradomaine) vers un mot en relation métaphorique (cohyponyme interdomaine) au fur et à mesure que la proxémie au mot de référence diminue.

De plus, les similarités ainsi calculées entre les mots sont en accord avec les approximations sémantiques produites par les jeunes enfants. Par exemple, l’énoncé spontané « je déshabille l’arbre » pour [j’écorce l’arbre], produit à 2 ans et demi, manifeste un rapprochement entre verbes qui valide notre modèle : DESHABILLER

(22)

est proche de ECORCER (c’est le 82e mot le plus proche de ECORCER – voir figure 11). Ce type d’analyse mené à partir des 230 approximations sémantiques produites par les jeunes enfants (1;8 ans à 4;2 ans) montre que la moyenne du rang du verbe dit par l’enfant (comme DESHABILLER) dans la proxémie du mot

« juste » (comme ECORCER) est de 239, (ce qui est peu sur les 10 860 verbes présents dans notre graphe). Si plutôt que de choisir le mot dit par l’enfant (déshabiller), le verbe était choisi équiprobablement sur les 10 860 verbes possibles dans le graphe, la moyenne de l’écart au mot juste (écorcer) serait de 5 430,5.

Une étude expérimentale sur 50 enfants (2 à 4 ans) et 100 adultes est actuellement en cours. Il s’agit de faire dénommer 17 actions sous forme de films vidéo et de mesurer l’écart calculé par PROX entre les réponses adultes et enfants.

L’analyse des premiers résultats confirme un écart faible selon PROX entre les réponses enfants et adultes, et nous permet aussi d’apprécier la dynamique de ces écarts qui est inversement proportionnelle à l’âge des enfants. Ces éléments viennent confirmer notre avancée : l’enfant cherchant à communiquer un événement A [ex : déchirer un livre] pour lequel il ne dispose pas de catégorie verbale constituée (1) ferait une analogie avec un ancien événement B [casser un verre] déjà mémorisé avec une entrée lexicale casser et (2) utilisant cette analogie, dirait « le livre est cassé » pour communiquer l’événement A. Puis l’enfant acquerrait progressivement les mots de moindre importance, affinant alors sa précision de désignation.

Sur la base de ces premiers résultats, nous postulons qu’élaborer des dictionnaires électroniques en s’appuyant sur une théorie linguistique de l’organisation sémantique du lexique qui s’avère être en adéquation avec des processus d’acquisition précoce du lexique et qui se retrouvent chez le locuteur adulte, leur conférera un caractère ergonomique. Cela devrait permettre d’améliorer leur utilisabilité en vue de mener une réflexion positive sur la normalisation des dictionnaires électroniques (Veronis, 2002a ; 2002b) à l’ère où le web tisse sa toile à travers les métissages linguistiques et conceptuels.

5. Conclusion

Ces premiers résultats sont prometteurs. D’une part, des travaux relevant de disciplines extrêmement variées sont à l’origine d’une hypothèse forte sur les propriétés de structures issues de l’observation du monde réel (réseaux petits mondes hiérarchique), et même si ces résultats restent encore non exhaustifs, il nous paraît nécessaire d’explorer cette voie plus avant, ces caractéristiques semblant être la signature de systèmes complexes, comme le sont le langage, et les systèmes cognitifs. D’autre part, la possibilité de disposer d’outils mathématiques et statistiques d’analyses fines de ces structures (proxémie), dont la taille et la complexité restreignent sensiblement la possibilité d’un traitement manuel, ouvre des perspectives intéressantes car susceptibles de permettre d’en exploiter les

(23)

propriétés de manière automatique. Nous proposons par exemple de développer un dictionnaire électronique « proxémique ». Un tel dictionnaire permettra de trouver un verbe comme « Ecorcer » sans le connaître en utilisant un verbe connu et analogue comme « Déshabiller » et un mot permettant de cerner le domaine comme

« Arbre ». En effet, si l’on regarde la définition de « Ecorcer » (figure 2) il y apparaît les mots « Ecorce », « Arbre », « Grain », « Fruit » qui, nous le pensons, se révéleront proches lorsque PROX aura été appliqué sur les substantifs. Ainsi parmi les verbes proches de « Déshabiller » qui sont eux-mêmes proches de « Arbre » on trouve :

DESHABILLER/ARBRE Æ baguer, décortiquer, démascler, entailler, écorcer, effeuiller, émonder, gemmer, inciser, tailler

6. Bibliographie

Adamic L. A., The small world Web, 1999.

http://www.hpl.hp.com/shl/papers/smallworld/smallworld.pdf

Abello J., Pardalos P.M., Resende M.G.C., « On maximum cliques problems in very large graphs », External memory algorithms, J. Abello and J. Vitter, Eds., DIMACS Series on Discrete Mathematics and Theoretical Computer Science, American Mathematical Society, vol. 50, 1999, p. 119-130, http://www.research.att.com/~mgcr/doc/vlclq.ps.Z Ancel L.W., Newman M. E. J, Martin M., Schrag S., « Applying Network Theory to

Epidemics: Control Measures for Outbreaks of "Mycoplasma pneumoniae", SFI Working Paper, n° 01-12-083, 2001, http://www.santafe.edu/sfi/publications/Working-Papers/01- 12-083.ps.gz

Barabasi A.-L., Albert R., Jeong H., Bianconi G., « Power-Law Distribution of the World Wide Web », Science 287 2115a (in Technical Comments), 2000, http://www.nd.edu/~networks/Papers/comments.pdf

Bassano D., « Premiers pas dans l’acquisition du lexique », Rééducation Orthophonique, 196, 1998, p. 117-127.

Boysson-Bardiès B., Comment la parole vient aux enfants, Odile Jacob, 1999.

Dik S., « Functional grammar » In F. Droste et J. Joseph. Linguistic theory and grammatical description, Amsterdam, Benjamins, 1991, p. 247-274.

Duvignau K., La métaphore berceau et enfant de la langue, Thèse de doctorat, Université de Toulouse, 2002.

Duvignau K., Gaume B., « Linguistic, Psycholinguistic and Computational Approaches to the Lexicon: For Early Verb-Learning. Journal of the European Society for the Study of Cognitive Systems, vol. 6 (1), 2004.

Duvignau K., « Métaphore verbale et approximation », Duvignau, Gasquet, Gaume (eds) Regards croisés sur l’analogie, Revue d’Intelligence Artificielle, vol. 17, n°5-6, Hermès Lavoisier, 2003, p. 869-881.

Références

Documents relatifs

• Une société pétrolière désire envoyer un maximum de pétrole via un réseau de pipelines entre un lieu a et un lieu b. • Combien de litres par heure pourra-t-elle faire passer

Théorème : propriété de la somme des degrés (lemme des poignées de main). La somme des degrés de tous les sommets d’un graphe est égale au double du nombre total

You may modify your copy or copies of the OpenContent or any portion of it, thus forming works based on the Content, and distribute such modifications or work under the terms of

la base de l’acception historiquement première, c’est-à-dire la première glose qui se présente dans l’article, ce qui aura pour inconvénient de connecter les sommets du

La mise en réseau par des interactions et des échanges d’une part, et la spécialisation socio-fonctionnelle des villes, d’autre part, sont deux aspects d’un même

[r]

Il décrit alors sa vision de la théorie « du petit monde » : « la manière la plus simple de formuler le problème du petit monde est &#34;quelle est la probabilité

• Une composante connexe d’un graphe est un sous ensemble maximal de sommets dont toutes les paires de sommets sont reliées par une chaîne. • Les composantes connexes d’un