• Aucun résultat trouvé

Motifs analogues Sommaire

5.2 Collecte de microstructures analogues

Le méthode de regroupement de microstructures analogues utilisée ici est très proche de celle présentée dans le chapitre 4. La substitution de sa première étape, le regroupement de structures isomorphes, par la collecte de motifs locaux a cependant nécéssité quelques adaptations.

5.2.1 Collecte de sous-graphes

Rapellons-le, le temps d’exécution du dénombrement et de la collecte des mo-tifs d’un graphe dépend à la fois de sa densité, du degré moyen de ses sommets, du nombre de motifs qu’il comporte et du nombre d’occurrences de chacun d’entre eux. De plus, les motifs de grande taille sont plus nombreux que les motifs de petite taille. Nous avons donc choisi de débuter notre exploration par le dénombrement et la collecte de motif de taille 3.

Comme nous l’avons annoncé au chapitre 4, nous avons utilisé pour cela les fonctionnalités dédiées aux motifs de la librairie python graph-tool développée par Peixoto (2014). Les occurrences d’un même motifs étant isomorphes, ce traitement vient remplacer la première étape présentée dans la section 4.3.2 du chapitre 4. Cherchant à établir un regroupement de sous-graphes, nous avons choisi de ne col-lecter que les motifs disposant d’un minimum de deux occurrences. Sur un Mac OS X 10.6.8, muni d’un processeur 3.6 GHz Intel Core i5 disposant d’une mémoire vive de 4 Go 1333 MHz DDR3, cette tâche a nécessité 4 heures, 45 minutes et 15 secondes.

À l’issue de ce traitement, nous disposions de 291 596 sous-graphes répartis en 162 groupes. Cela signifie que 162 motifs apparaissaient plus d’une fois dans le RL-fr sans lien d’inclusion formelle du 6 mai 20142.

Seuls 29% de ces groupes de sous-graphes isomorphes ne comportaient que deux occurrences, tandis que près de 10% en comportait plus de mille. La figure 5.1 pré-sente la structure des cinq motifs le plus fréquents avec, de gauche à droite, 118 381, 49 145, 35 205, 27 482 et 16 567 occurrences.

Fig. 5.1 : Motifs 3 les plus fréquents du RL-fr sans lien d’inclusion formelle Chaque sommet du graphe initial se trouvait impliqué dans différentes occur-rences de motifs. Nous avons ainsi observé que les 18 groupes isomorphes ne com-portant que deux occurrences, composés de 36 sous-graphes et par conséquent de 108 sommets, ne concernaient que 62 lexies distinctes.

5.2.2 Sélection de connexions lexicales

Nous avons ensuite procédé à la comparaison des connexions lexicales en jeu dans chacun des ensembles de sous-graphes isomorphes. Cette étape, réalisée en 16 mi-nutes et 13 secondes, a abouti à la création de 26 394 groupes de 2 à 3 547 sous-graphes. Au total, 278 301 sous-graphes étaient encore présents, correspondant à 139 motifs distincts.

Nous avons alors décidé de réduire cette masse de données. D’une part, nous souhaitions diminuer le temps de traitement nécessaire à la comparaison par simi-larité de descriptions lexicographiques. D’autre part, nous voulions aboutir à un ensemble de classes analogues qu’il soit possible d’analyser manuellement en détail pour vérifier les hypothèses restées en suspens à l’issue de l’expérience du chapitre 4. Dans un premier temps, nous avons choisi d’exclure de ces groupes tous ceux qui mettaient en jeu au moins une FL des familles Syn, Anti et Contr, dont nos observations précédentes avaient mis en avant le comportement particulier. Nous avons ainsi obtenu une sous-sélection de 173 508 sous-graphes, correspondant à 80 motifs distincts et répartis en 17 871 groupes. Chacun de ces groupes comportait entre deux et 2 767 sous-graphes.

Dans un second temps, nous avons poursuivi la réduction de notre champ d’ob-servation en écartant l’ensemble des sous-graphes composés de seulement deux arcs. Nous pensions alors que les sous-graphes mettant en jeu davantage de liens de dé-rivations étaient plus intéressants. De plus, ce critère nous permettait d’aboutir au nombre raisonnable de 5 391 groupes, correspondant à 19 motifs et comportant de

2Parallèlement à la collecte décrite ici, nous avons observé que 416 motifs de taille 3 apparais-saient au moins une fois dans cette version du RL-fr privée de liens d’inclusion formelle.

deux à 240 sous-graphes. Nous disposions alors d’un total de 24 967 sous-graphes3.

5.2.3 Comparaison de descriptions lexicographiques

Nous avons vu dans le chapitre 2, section 2.2.2, que la valeur d’application d’une FL est un ensemble et qu’il existe autant de liens de FL que de lexies contenues dans cet ensemble. Ainsi, Magn(aboyerI) = {furieusementI; férocement} correspond à deux liens distincts :aboyerI →furieusementI etaboyerI → férocement.

La lexie aboyerI étant par ailleurs liée à la lexie aboiementI par des re-lations de nominalisation et de verbalisation, nous pouvons prévoir que les deux sous-graphes présentés dans la figure 5.2 aient été collectés comme occurrences d’un même motif et conservés par similarité de Relations.

aboyer I aboiement I furieusement I aboyer I aboiement I férocement S_0 V_0 Magn S_0 V_0 Magn

Fig. 5.2 : Sous-graphes comportant deux sommets identiques

Un tel couple de sous-graphes, s’il relève bien d’une même configuration de déri-vations lexicales, ne nous apprend rien de plus qu’une simple consultation du RL-fr. Nous avons donc décidé d’ajouter un critère supplémentaire à la procédure de re-groupement des sous-graphes par similarité d’Attributs présentée au chapitre 4, section 4.3.4.

Lors de la comparaison de deux sous-graphes, le nombre de lexies distinctes en jeu dans les similarités d’Attributs complètes est comptabilisé. S’il est inférieur à 6, cela signifie soit que les deux sous-graphes partagent des lexies, soit qu’au moins une lexie de l’un des sous-graphes est en jeu dans plus d’une des trois mesures de simi-larité d’Attributs complète obtenues. Dans les deux cas, le couple n’est pas conservé. Le reste de la procédure est identique à celle que nous avons précédemment présentée. Chaque sommet est associé à un ensemble d’Attributs, constitué de la manière suivante :

• un Attribut rendant compte de sa méta-pdd ;

• autant d’Attributs FLout que de familles de FL en jeu dans l’ensemble de ses liens de FL sortants ;

• autant d’Attributs FLin que de familles de FL en jeu dans l’ensemble de ses liens de FL entrants ;

3Soulignons que ce nombre de sous-graphes correspond à près de 115 fois plus que la quantité obtenue à l’issue de la même étape dans le cadre de l’expérience détaillée dans le chapitre 4.

• un Attribut rendant compte du rapport arithmétique entre le nombre de liens entrants et le nombre de liens sortants, valant out+ en cas de supériorité numérique des liens sortants, in+ en cas de supériorité numérique des liens entrants ou in=out en cas d’égalité.

La pertinence du premier de ces Attributs ayant déjà été expérimentée, nous entendons ici vérifier celle des suivants. Il s’agira de déterminer s’ils entrent en jeu dans la distinction de classes analogiques et si les discriminations qu’ils opèrent sont pertinentes.