Principes de catégorisation des noms du LST

Chapitre 4 Catégorisations distributionnelles automatiques

4.3 Principes de catégorisation des noms du LST

Nos deux expérimentations, utilisant la méthode des prototypes et les treillis de Galois, partent des principes de la classification distributionnelle, détaillés dans la section 4.2. Nous nous appuyons sur les informations lexico-syntaxiques issues du corpus pour représenter et regrouper les noms du LST. Cette approche distributionnelle, comme le rappelle Geeraerts (2009, p. 166), permet de faire le lien entre sémantique et syntaxe en regroupant des ensembles lexicaux sémantiquement homogènes sur la base de leurs propriétés syntagmatiques.

La définition des critères permettant de sélectionner les relations lexico-syntaxiques influe ainsi grandement sur la qualité des regroupements. Tutin (2007c) constate d’ailleurs que la difficulté de la sémantique distributionnelle automatique est que certaines associations ne sont pas pertinentes sémantiquement alors qu’elles sont statistiquement importantes, et que la désambiguïsation des éléments analysés et/ou de leurs cooccurrents est nécessaire à la bonne exploitation de cette combinatoire. Or, nous ne pouvons procéder à la désambiguïsation sémantique intégrale de notre corpus et devons donc gérer ces difficultés.

4 Nous envisageons dans de futurs travaux une expérimentation de comparaison des profils combinatoires entre substantifs déadjectivaux et leurs correspondants adjectivaux, et entre substantifs déverbaux et leurs correspondants verbaux.

À celles-ci s’ajoute la taille de notre corpus d’analyse qui, avec 5 millions de mots, peut être considéré comme modeste5 pour les tâches d’analyse distributionnelle (Fabre et al., 2014). La constitution de gros corpus en langue de spécialité est cependant complexe, l’accessibilité à de nombreux textes l’étant également, spécialement en français pour les textes scientifiques.

Une autre difficulté se situe au niveau de certaines relations lexico-syntaxiques (nous en présentons un exemple section 4.6.3 avec la préposition

selon). Le rapprochement entre les mots se fait alors sur deux acceptions différentes d’une même relation et conduit à des regroupements peu satisfaisants. Girault (2008) soulève également ce problème de la polysémie pour, d’une part les unités lexicales à classer, et d’autre part les attributs les représentant.

Malgré ces difficultés, la classification automatique offre l’avantage d’un gain de temps précieux lorsque les résultats sont exploitables, et s’ils ne le sont pas, permet d’en identifier les raisons : définition trop stricte ou trop large des critères, taille du corpus, qualité de l’analyse syntaxique, etc. Selon Bouaud, Habert, Nazarenko, & Zweigenbaum, « construire des catégories sémantiques pour une langue de spécialité est un travail laborieux » (2000, p. 278), et le recours à des techniques de traitement automatique permet de guider les linguistes lors de la réalisation de ces catégories.

Nous voyons donc l’intérêt de développer une méthode pour la reproduction d’une telle ressource à partir d’autres corpus. De plus, outre leur utilisation dans la phase d’évaluation de notre classification manuelle, ces méthodes peuvent s’avérer utiles dans le cadre de la maintenance et de la mise à jour de notre ressource du LST.

La tâche d’acquisition automatique de classes sémantiques basée sur corpus a ainsi été de nombreuses fois explorée. La méthodologie la plus couramment employée, et que nous reprenons, implique une première phase d’extraction des cooccurrents des éléments à classer, pour ensuite comparer ces ensembles (ou profil combinatoire, que nous détaillons section 4.4) afin de rapprocher les éléments partageant un maximum de propriété.

5 En comparaison des 2 milliards de mots du corpus ukWaC ou des 380 millions de mots du corpus AQUAINT 2.

La classification automatique peut se baser sur des critères de niveaux différents : les métadonnées des articles, les annotations en parties textuelles, les informations morphologiques, les dépendances, etc. Dans la continuité de nos traitements précédents, nous nous situons au niveau des informations lexico-syntaxiques, i.e les relations de dépendance avec des lemmes-catégories, que nous filtrerons et hiérarchiserons selon les critères explicités ci-après. La méthode que nous appelons par prototype inclut également des critères de distribution textuelle : grâce à l’annotation en parties textuelles, nous calculons la partie textuelle dans laquelle la fréquence relative du mot est minimale, ainsi que celle pour laquelle la fréquence est maximale. Certaines unités lexicales étant spécifiquement mobilisées6 dans les introductions (objectif), notes de bas de page (article) ou les conclusions (résultat), nous souhaitons intégrer cette propriété dans la mesure où elle peut permettre le regroupement d’unités lexicales sémantiquement proche.

Les méthodes d’analyse distributionnelle automatique peuvent également différer selon la sélection des contextes pris en compte et selon les métriques utilisées pour la comparaison de contextes. Nous opérons également une sélection des relations lexico-syntaxiques mais retenons également les colligations, ou relations syntaxiques avec des mots grammaticaux. Observons pour illustrer ce point l’analyse syntaxique de la séquence « Méthodes de la classification ».

6 Ces fréquences par parties textuelles peuvent également être observées à l’aide de l’interface ScienQuest.

Nous pouvons constater, dans l’illustration ci-dessus, que le lemme-catégorie

classification-NOM aura potentiellement comme attributs les relations lexico-syntaxiques suivantes :

1. le_det#determ : le nom classification est gouverneur dans la relation de détermination avec le dépendant la de la catégorie déterminant ;

2. de_prep#prepobj : le nom classification est gouverneur dans la relation prépositionnelle avec le dépendant de de la catégorie préposition ;

3. méthode_nom#~u3_de_nmod : le nom classification est dépendant dans la

relation modifieur de nom prépositionnel avec le gouverneur méthodes de la catégorie nom.

Dans le document Identification et analyse linguistique du lexique scientifique transdisciplinaire. Approche outillée sur un corpus d'articles de recherche en SHS (Page 190-193)