• Aucun résultat trouvé

Composantes connexes analogues Sommaire

4.2 Délimitation de sous-graphes

L’exploration par raisonnement analogique des agrégats lexicaux de petite taille du RL-fr peut être réalisée à partir du dénombrement des sous-graphes qui le com-posent.

3Il est important de noter que certains des élements de ce profil pourraient être remis en cause par l’ajout d’un troisième sous-graphe mettant en jeu les mêmes connexions lexicales. Ainsi, si les descriptions des noms d’animaux tendent à contenir des FL de la familleMult, nous pouvons d’ores et déjà prévoir que cet élément disparaîtrait si la lexie chat1I.a entrait en jeu dans une telle configuration de connexions lexicales.

Diverses études ont été menées sur les types de sous-graphes existants et l’in-formation qu’ils véhiculent. Borgatti et al. (1990), qui s’intéressent à la notion de cohésion dans les réseaux sociaux, soulignent l’importance de la prise en compte du sujet d’étude dans le choix d’un modèle de sous-graphes à exploiter.

4.2.1 Cliques

Nous avons évoqué, au chapitre 2, les travaux de Ploux et Victorri (1998), qui proposent un traitement de la polysémie par délimitations d’espaces sémantiques à l’aide de dictionnaires de synonymes. Leur exploration se base sur la notion de clique, définit comme étant « un ensemble le plus grand possible de sommets [...] tous reliés deux à deux ». Le sous-graphe que nous avons construit autour du vocable

aboyerdans la figure 4.1 ne répond pas à cette définition, car les sommetschienI,

aboyerII etaboiementII ne sont pas reliés. Il comporte deux cliques4, présentées de manière dissociée dans la figure 4.3.

aboyer I chien I aboiement I aboyer II aboiement II S_1 Son S_0Son S_0 V_0 S_1 S_0 V_0

Fig. 4.3 : Clique lexicale

Bien que la première des deux cliques forme un ensemble de connexions lexi-cales pour lequel il semble intéressant d’établir un modèle, la seconde correspond simplement à un cas connu de FL inverses. De plus, ce découpage écarte la possibi-lité de s’intéresser à la coexistence d’une symétrie de dérivations syntaxiques entre les couples de lexies (aboyerI, aboiementI) et (aboyerII,aboiementII), d’une part, et d’une symétrie de dérivation métaphorique entre les couples (aboyerI,

aboyerII) et (aboiementI, aboiementII), d’autre part. Leur exploration ne ré-pond donc pas à notre besoin.

4.2.2 Communautés

Borgatti et al. (1990), Navarro et al. (2010) et Navarro (2013), pour leur part, concentrent leur attention sur la détection et l’analyse de communautés. De tels sous-graphes correspondent à des zones dont les sommets sont davantage connectés entre eux qu’au reste du graphe. Le sous-graphe que nous avons construit autour du vocable aboyer ne répond pas non plus à cette définition. Si nous observons, à

4Si nous ne comptabilisons ici que deux cliques, c’est que nous nous appuyons sur la définition de Ploux et Victorri (1998), qui, à la suite de Bron et Kerbosch (1973), considèrent qu’une clique ne peut être contenue dans aucune autre clique.

l’aide de la figure 4.4, la connectivité du seul sommet aboyerI dans son état ac-tuel5 dans le RL-fr, nous constatons qu’il est davantage connecté au reste du graphe qu’aux sommets qui nous intéressent, en gris.

Fig. 4.4 : Connectivité du sommet aboyerI

Nous pouvons cependant observer que si nous nous concentrons sur les seuls liens dérivationnels de cette figure (S1,S0,V0,Son, métaphore), le sommetaboyerIest davantage connecté aux sommets gris qu’au reste du graphe.

Sans effectuer de telle préselection d’arcs, nous émettons l’hypothèse que les com-munautés du RL-fr correspondent à des agrégats de grandes tailles, dont nous avons d’ores et déjà supposé qu’ils relevaient de champs sémantiques. Leur exploration ne répond pas à notre besoin immédiat et nous ne nous y intéresserons pas dans le cadre de nos expériences.

4.2.3 Motifs

Un troisième type de sous-graphes semble davantage correspondre à nos besoins. Il s’agit des motifs locaux. Tabourier (2010) définit ces motifs comme des « sous-graphes mettant en jeu un « petit » nombre de nœuds (typiquement≤5) – la taille du motif ». Il évoque leur exploitation dans le cadre de travaux sur les réseaux so-ciaux ainsi qu’en biologie et en génétique, parmi lesquels ceux d’Albert et Albert (2004), qui développent une méthode d’identification de patrons d’interactions entre protéines. Milo et al. (2002) et Milo et al. (2004) s’intéressent également à ces motifs. Dans la cadre d’une classification de graphes petit monde, ils comparent leurs sous-graphes de taille 3 et 4 à ceux de sous-graphes aléatoires afin de faire émerger les plus spécifiques. Ces motifs spécifiques sont alors considérés comme une caractéristique permettant de regrouper les graphes petit monde en « superfamilles » partageant la

5Cette connectivité a été obtenue à l’aide d’un outil de visualisation que nous avons développé pour l’équipe de lexicographes. Nous avons interrogé cet outil le 23 septembre 2014.

même structure locale.

Nous ferons, pour notre part, la distinction entre les sous-graphes, que nous consi-dérons comme des occurrences de motif et les motifs eux-mêmes, correspondant à un nombre et une répartition particulière d’arcs pour une taille donnée. Pour un graphe orienté simple, nous considérons donc que treize motifs de taille 3 existent, quel que soit le nombre d’occurrences de chacun d’entre eux. La figure 4.5 présente ces motifs. Pour un multigraphe orienté comme le RL-fr, les possibilités de nombre et d’organisation des arcs augmentent, ainsi que le nombre de motifs de chaque taille.

Fig. 4.5 : Motifs de taille 3 d’un graphe simple orienté

Le sous-graphe que nous avons construit autour du vocable aboyerest une oc-currence de motif de taille 5. Il comporte lui-même plusieurs ococ-currences de motifs de plus petite taille. La figure 4.6 fournit un exemple d’occurrence de chacun des deux motifs de taille 2 en présence. Le motif de gauche apparaît quatre fois — met-tant en jeu des sommets et des arcs différents — celui de droite deux fois. Comme nous l’avons évoqué pour les cliques, l’observation de sous-graphes à deux sommets ne nous apprend rien de nouveau sur les connexions lexicales du RL-fr.

aboyer I aboiement II aboyer I aboyer II

S_0

V_0 métaphore

Fig. 4.6 : Exemples d’occurrences de motifs de taille 2

La figure 4.7, page suivante, fournit un exemple d’occurrence de chacun des trois motifs de taille 3 en présence. Le motif en haut à gauche apparaît deux fois, celui en-dessous quatre et celui de droite une seule. Ce dernier est particulièrement inté-ressant : il correspond à la clique pour laquelle nous avons souligné l’intérêt d’établir un modèle.

Pour sa part, la figure 4.8 qui l’accompagne, fournit un exemple d’occurrence de chacun des trois motifs de taille 4 en présence. Le motif du haut apparaît deux fois, celui en bas à gauche une seule et celui en bas à droite deux. Les deux premiers exemples semblent particulièrement intéressants. Si les connexions lexicales qu’ils comportent s’avèrent être récurrentes dans le RL-fr, ils pourraient donner lieu à des modèles exploitables dans le cadre de travaux sur la polysémie régulière, tels que ceux menés par Barque (2008), Barque et Chaumartin (2009), Goossens (2011) et Sikora (2014).

chien I aboiement I aboiement II

aboyer I aboyer II aboiement II aboyer I

chien I aboiement I S0_Son S_1 métaphore métaphore S_0 V_0 S_1 Son S_0 S_0Son V_0 S_1

Fig. 4.7 : Exemples d’occurrences de motifs de taille 3

aboyer I chien I aboiement I aboyer II aboyer I aboiement I aboyer II aboiement II

chien I aboiement I aboiement II

S_1 Son S_0 S_0Son V_0 S_1 métaphore S_0 V_0 métaphore métaphore S_0 V_0 S0_Son S_1 métaphore aboyer II V_0 S_0

Fig. 4.8 : Exemples d’occurrences de motifs de taille 4

Le dénombrement des motifs d’un graphe n’est pas un problème algorithmique trivial. Les outils actuellement disponibles utilisent des méthodes gourmandes en temps d’exécution et en mémoire. Belderrar (2011) et Ribeiro (2011) proposent tous deux un panorama des algorithmes associés à ces méthodes. Tous ne sont pas adap-tés au cas des multigraphes orienadap-tés. De plus, certaines de leurs implémentations ne retournent pas les occurrences de motifs, mais des listes de fréquences et de spécifi-cités pour chacun des motifs possibles.

Dans le cadre de nos expériences, nous avons choisi d’utiliser les fonctionnalités dédiées aux motifs de la librairie pythongraph-tool6 développée par Peixoto (2014). Elles implémentent l’algorithme proposé par Wernicke (2006).

Ces expériences, comme l’analyse topologique du RL-fr présentée au chapitre 2 et l’ensemble des manipulations qui seront dorénavant évoquées, ont été réalisées sur des versions du RL-fr exportées de la base de données au format GraphML (Brandes et al., 2002).

Le temps d’exécution de l’algorithme de Wernicke dépend du nombre de som-mets et d’arcs du graphe explorés, ainsi que du degré moyen de ses somsom-mets, du nombre de motifs qu’il comporte et du nombre d’occurrences de chacun d’entre eux. Wernicke et Rasche (2006) annoncent un temps d’exécution de 10 secondes pour le

dénombrement et la mesure de spécificité des motifs de taille 5 du réseau E.COLI de Shen-Orr et al. (2002). Il s’agit d’un graphe orienté7 de 423 sommets et 519 arcs. Le degré moyen de ses sommets est de 1,2. Il comporte 1 433 502 sous-graphes de taille 5, correspondant à 83 motifs distincts.

Comme nous l’avons vu au chapitre 2, le RL-fr est un graphe bien plus étendu et complexe queE.COLI. Lors de nos expériences, le dénombrement de ses motifs et la collecte de leurs occurrences ont donc nécessité plusieurs heures d’exécution. Comme nous l’avons évoqué au chapitre 1, l’exploration automatique par raisonnement ana-logique pose également d’importants problèmes d’optimisation. Ces considérations informatiques nous ont amenée à dissocier les tâches de mise en place d’une procé-dure d’identification de configurations de dérivations lexicales par regroupement de microstructures analogues et d’application de cette procédure aux occurrences de motifs. Nous avons alors choisi de débuter nos expériences en exploitant les sous-graphes plus facilement accessibles que sont les composantes connexes.

4.2.4 Composantes connexes

Nous l’avons vu au cours du chapitre 2, le RL-fr n’est pas un graphe connexe dans son état actuel de développement. Le 14 août 2014, il était possible de le partition-ner en 12 987 composantes fortement connexes ou en 2 491 composantes faiblement connexes.

Nous avons émis l’hypothèse que les plus petites de ces composantes correspon-daient à des paradigmes sémantiques et qu’ils étaient liés à la création de lexies à la volée, comme cible de liens de FL et participant à la nomenclature indirectement induite que nous avons présenté au chapitre 2, section 2.1.3. Nous avons également supposé qu’un travail en profondeur d’au moins une lexie de ces paradigmes abou-tirait à son intégration à une composante de plus grande taille, à l’aide de liens de copolysémie et de FL syntagmatiques.

Contrairement aux occurrences de motifs, les composantes connexes, en tant que résultats d’une partition, comportent toutes des sommets distincts. Leur exploration limite donc les possibilités d’établir des configurations de dérivations lexicales, en limitant la participation de chaque lexie à un seul ensemble de connexions lexicales, le plus grand possible pour cette lexie.

La question s’est naturellement posée de savoir s’il était préférable d’explorer les composantes fortement ou faiblement connexes du RL-fr. Une étude préliminaire des conséquences d’un tel choix a alors été menée sur une version du RL-fr datant du 12 février 2014.

Le tableau 4.1 fournit quelques informations sur la topologie de la version du RL-fr utilisée. Nous pouvons y voir qu’il était alors partitionnable en 14 212 com-posantes fortement connexes ou en 4 497 comcom-posantes faiblement connexes. Nous avons effectué un regroupement des composantes de chacun de ces types, selon une méthode couplant les deux premières étapes de celle que nous décrivons dans la

sommets 21 754

arcs 40 977

composantes fortement connexes 14 212 composantes faiblement connexes 4 497

Tab. 4.1 : RL-fr du 12 février 2014

prochaine section. Afin de limiter le temps de cette analyse préliminaire, nous avons focalisé notre attention sur les groupes de composantes ne comportant aucun lien de FL des familles Syn,Anti et Contr, dont nous pensons qu’elles jouent un rôle par-ticulier dans l’organisation du lexique8. Pour les composantes fortement connexes, il s’agissait de 15 groupes entre lesquels se répartissaient 71 composantes. Pour les composantes faiblement connexes, il s’agissait de 24 groupes entre lesquels se ré-partissaient 100 composantes. Dès cette première observation, nous étions invitée à privilégier les composantes faiblement connexes : alors qu’elles étaient initialement moins nombreuses, elles aboutissaient à davantage de regroupements.

Nous avons ensuite observé en détail les groupes, afin de déterminer s’ils conte-naient ou non des composantes analogues. Là encore, les groupes de composantes faiblement connexes nous ont paru plus prometteurs. Alors que 22 d’entre eux conte-naient un ou plusieurs sous-groupes de composantes analogues, cela était le cas pour seulement 5 groupes de composantes fortement connexes. De plus, quatre des cas de connexions lexicales récurrentes observées étaient représentés, quel que soit le type de composantes sélectionnées.

Une partition en composantes faiblement connexes du RL-fr du 12 février 2014 permettait donc d’accéder à davantage de composantes analogues ne comportant aucun lien de FL des famillesSyn, Anti et Contr qu’une partition en composantes fortement connexes, tout en intégrant la quasi-totalité de celles observables dans cette dernière.

4.2.5 Données sélectionnées

À la suite de ces considérations, nous avons choisi de réaliser une expérience complète de regroupement de sous-graphes analogues à partir des composantes fai-blement connexes de la version du RL-fr du 10 mars 2014.

Le tableau 4.2 présente le pedigree de cette version. Nous pouvons y voir que le RL-fr était alors partitionnable en 4 311 composantes faiblement connexes.

Un peu plus de 60% de ses sommets n’avaient pas encore fait l’objet d’un travail lexicographique et 38% étaient en cours de traitement. Seuls 259 étaient en cours de validation et 4 étaient considérés comme disposant d’une description complète.

Les 42 626 arcs qui le composaient, pour leur part, se répartissent en 36 843 liens

sommets 21 992 coefficient d’agrégation 0,1327

arcs 42 626 Distribution des degrés entrants

degré sortant moyen 1,9383 a -2,3977

boucles 36 r2 0,9397

arcs multiples 577 Plus grande composante connexe

arcs symétriques 19 906 sommets 15 302

sommets isolés 3 226 arcs 38 274

composantes faiblement connexes 4 311 L 13,0402

Tab.4.2 : RL-fr du 10 mars 2014

de FL, 1 434 liens de copolysémie et 4 349 liens d’inclusion formelle. Afin de pouvoir prendre en compte ce typage, nous avons associé une étiquette à chaque arc.

• les liens de FL ont été étiquetés à l’aide du préfixe FL, suivi de l’identifiant unique de la FL dans la base de données du RL-fr : un lien de nominalisation

S0 devient ainsi FL21;

• les liens de copolysémie ont été étiquetés à l’aide du préfixeCP, suivi des iden-tifiants uniques des type et sous-type de copolysémie dans la base de données du RL-fr : un lien de métaphorecomme si devient ainsi CP1_4;

• les liens d’inclusion formelle ont été étiquetésPH.

Enfin, concernant les descriptions lexicographiques encapsulées dans les som-mets, nous avons observé que 201 d’entre elles ne faisaient mention d’aucune CG. Pas loin de la moitié contenait une étiquette sémantique, mais seulement 44% de ces associations étiquette-lexie disposaient d’un indice de confiance de 100%. Seul un petit tiers contenait une FP. Plus d’un tiers ne disposait d’aucun exemple et 45% en disposaient d’un seul.

Les données disponibles pour cette expérience sont donc plus riches en termes de relations et de descriptions lexicographiques que celles exploitées au chapitre 3. Elles constituent cependant toujours une représentation incomplète du lexique du français.

4.3 Regroupement des composantes analogues