• Aucun résultat trouvé

Chapitre 3 Classification sémantique du LST nominal

3.3 Méthodologie des traitements sémantiques du LST

3.3.2 Classification des acceptions des noms du LST

3.3.2.3 Regroupement des acceptions

Nous présentons ici l’étape de classification sémantique du lexique nominal transdisciplinaire. Il nous faut cependant rapidement aborder l’aspect transcatégoriel des traitements et de la ressource. Les mots reliés morphologiquement (par exemple analyse et analyser), et renvoyant à une acception similaire, seront identifiés manuellement et mis en correspondance. Nous présenterons dans la partie 3.3.3 le travail fait sur l’harmonisation des classes et sous-classes sémantiques au niveau des différentes catégories traitées. Ainsi, au niveau des liens lexicaux présents dans notre lexique des noms, un mot sera en relation avec les autres membres de sa sous-classe, ceux de sa classe, et éventuellement mis en correspondance avec un mot d’une catégorie différente (verbe, adjectif ou adverbe), ou un autre nom53.

53 Ainsi, méthode et méthodologie sont deux noms reliés morphologiquement partageant la même sous-classe {objet_scientifique/méthode}. À l’inverse, différence et différenciation ne partagent pas de traits sémantiques, et ont pour sous-classes respectives {relation/opposition} et {processus/inclusion_séparation}).

La complexité de la phase de classification ne relève pas exclusivement du caractère abstrait du lexique étudié et de la subjectivité inhérente à ce type de tâche. Ainsi, comme « le lexique n’est pas cette mosaïque parfaite où chaque item lexical trouverait sa “place” » (Delbecque, 2006, p. 68), la recherche d’une taxonomie unifiée est intrinsèquement complexe. Huyghe (2015, p. 6) le confirme en expliquant que « les différents types nominaux ne peuvent donc coexister dans une structure unique partitionnée en classes complémentaires ».

Nous avons également pu observer que cette complexité à classer des mots est d’autant plus grande que la fréquence des éléments à classer est faible. Ainsi, quel que soit le type de modèle distributionnel envisagé, les mots ayant peu d’occurrences dans le corpus d’analyse se révèlent difficile à traiter étant donné le nombre limité de propriétés lexico-syntaxiques extraites automatiquement. Tanguy et al. (2015) relèvent d’ailleurs que la fréquence est le paramètre le plus important dans la qualité de la classification, suivi par la catégorie syntaxique du mot cible.

Nous nous basons une nouvelle fois sur les données issues du corpus pour ce travail de regroupement. Les concordances et les profils combinatoires nous permettent d’identifier les constructions privilégiées communes aux mots sémantiquement proches. Le Lexicoscope permet l’identification de verbes que nous utilisons dans nos critères de classe et autorise également la comparaison des profils de plusieurs mots. Le recours à cet outil participe de notre approche de linguistique outillée, dans laquelle nous tirons parti du corpus arboré pour accéder aux usages du LST pour le genre de l’écrit scientifique, ainsi que nous pouvons l’observer dans l’illustration ci-dessous.

L’illustration ci-dessus offre un aperçu des lexicogrammes issus du

Lexicoscope pour les noms approche et démarche. Les cooccurrents sont ordonnés, par défaut, par valeur décroissante du rapport de vraisemblance (LLR). Nous pouvons ainsi observer que ces deux noms, appartenant à la même sous-classe {objet scientifique/méthode} partagent un certain nombre de propriétés distributionnelles statistiquement significatives :

ils sont dépendants dans la relation objet du verbe adopter ;

ils sont dépendants dans la relation objet profond du verbe fonder54;

ils sont dépendants dans la relation objet du verbe proposer.

Les lexicogrammes facilitent ainsi l’identification de propriétés lexico-syntaxiques communes, à la base des regroupements en classes et sous-classes sémantiques.

L’outil permet de trier ces cooccurrences syntaxiques par fréquence de l’association ou du cooccurrent, par la valeur de la dispersion (nombre de

sous-54 Cette relation correspond aux constructions passives telles : Cette approche/démarche est fondée sur…

corpus dans lesquels la cooccurrence est présente). Ce dernier critère permet ainsi de s’assurer de la transdisciplinarité de la relation et donc de prendre en compte dans le profil seulement des cooccurrences effectivement transdisciplinaires.

Ainsi, parmi les cooccurrents du nom approche se trouve l’adjectif paysagère

(au rang 7 selon le calcul du LLR). Or, la dispersion de cette association est de 1 puisque l’ensemble des occurrences concerne le sous-corpus de géographie.

Les tests peuvent être du type : tout élément de la classe X peut être sujet/objet du verbe V. Cette propriété sur la nature des verbes cooccurrant avec les éléments d’une classe particulière est d’ailleurs mise en avant par Le Pesant & Mathieu-Colas (1998). Nous reprenons ce principe en le subordonnant aux données issues du corpus : les cooccurrences lexico-syntaxiques insérées dans les tests doivent apparaître dans les profils combinatoires et/ou les concordances des éléments de la classe. Ces tests peuvent alors prendre la forme d’une relation syntaxique binaire nom-verbe, de patrons morpho-syntaxiques (par exemple Dét N de SN pour {déterminant}) ou de routines plus complexes (X est considéré

comme Dét N de Y pour {objet_scientifique/représentation}).

Si un mot correspond à la définition donnée pour la classe et répond positivement au(x) test(s) associé(s), il appartient alors à la classe en question. Nous avons également ajouté une définition de la classe consistant le plus fréquemment en une courte phrase reprenant l’étiquette sémantique, ou en une liste de membres prototypiques. Les sous-classes sont définies de la même façon. Un élément doit alors satisfaire aux définitions et aux critères de la classe et de la sous-classe pour être intégré à cette dernière.

Ainsi la classe {espace} sera définie par la périphrase ‘espace concret ou milieu abstrait ainsi que par le test se situer dans (semblable au test de repérage rappelé par (Huyghe, 2015)), ses sous-classes étant définies comme suit :

{espace/domaine} : ‘zone, partie d’un espace, d’un milieu’ ;

Le N s’étend / Dans le N cadre, champ, domaine, territoire→ ;

{espace/limite} : ‘limites définissant un espace donné’;

Le N délimite l’espace contour, frontière, limite→ ;

Localiser le N / Au N de centre, extérieur, niveau, position→ ;

{espace/orientation} : ‘sens, direction dans un espace donné’;

Aller vers un N / s’orienter selon un N axe, direction, sens, voie→ . Nous tenons également compte des relations sémantiques de synonymie et d’antonymie présentes dans le DEM afin d’assurer davantage la cohérence de la classification. En effet, en plus des rubriques de domaine et de construction, nous prenons en compte la rubrique Sens, renvoyant à une courte définition, constituée régulièrement par une liste de quasi-synonymes.

Si un nom du LST a pour quasi-synonyme un autre nom du LST dans cette rubrique, nous nous assurons dans la mesure du possible de leur co-présence dans une même sous-classe. Ainsi, le nom expansion a pour valeur dans la rubrique

Sens du DEM : « accroissement, augmentation ». Ces quasi-synonymes sont inclus dans la même classe que l’acception (associée à un lemme) qu’ils définissent.

Nous nous assurons ainsi d’une certaine cohérence dans notre classification, en mettant en regard la constitution des classes et les informations sémantiques issues du DEM, notamment dans les rubriques de domaine, de construction et de sens, comme l’illustre le tableau suivant.

Nom Sens (DEM) Sous-classe

accroissement ‘augmentation’ {amélioration_augmentation}

amélioration ‘progrès’ {amélioration_augmentation}

augmentation ‘accroissement’ {amélioration_augmentation} développement ‘croissance’ {amélioration_augmentation} expansion ‘accroissement,

augmentation’

{amélioration_augmentation}

extension ‘allongement’ {amélioration_augmentation}

multiplication ‘accroissement’ {amélioration_augmentation}

Tableau 3.4: Éléments de la classe {processus évolutif/amélioration_augmentation}

Ce travail visant à assurer la cohérence de notre typologie n’a pas pour but de pouvoir proposer, à des fins didactiques, un ensemble de co-hyponymes

mutuellement substituables lors d’exercice de production ou de compréhension écrite. Ce faisant, nous nous exposerions au risque de circularité, contre-productif pour tout type d’application didactique. De même, nous ne considérons pas que les courtes gloses associées aux différentes acceptions du LST soient adaptées à des applications didactiques, qui demanderaient alors des définitions plus fines. L’intérêt didactique de la ressource sémantique du LST repose plus sur la typologie en elle-même, au travers des ensembles de co-hyponymes définis par les classes et sous-classes.

Un dernier filtrage des acceptions est finalement effectué, dans le but de faciliter de futurs traitements. Ainsi, si un mot comporte plusieurs acceptions renvoyant à une même sous-classe sémantique, nous ne gardons qu’une acception, la plus générique. Ceci nous permet d’éviter d’introduire une ambiguïté en plus lors de l’extraction de routines. Ainsi, lorsque nous extrayons une routine sémantico-rhétorique, les traits de sous-classes présents dans la routine représentent d’une certaine manière un paradigme lexical. Par exemple, si nous considérons le test d’appartenance de la sous-classe {espace/localisation}, localiser le N’. Ce test peut s’apparenter aux routines que nous souhaitons identifier. L’élément ‘N’ peut alors se réaliser par l’un des éléments de cette sous-classe, à savoir pôle, rang, source, niveau, etc. Si un de ces lemmes avait plus d’une acception appartenant à cette sous-classe, nous ne saurions distinguer quelle acception s’inscrit effectivement dans cette routine. En choisissant de se restreindre à une acception par lemme par sous-classe, nous nous assurons de pouvoir faire le lien entre une routine et les acceptions potentiellement mobilisées dans cette routine. De plus, au niveau du traitement sémantique du LST, il nous semble judicieux d’adopter une telle granularité, afin de ne pas avoir à gérer une trop grande quantité de classes et sous-classes. En outre, dans la perspective d’une application didactique, une granularité trop fine serait peu exploitable par les apprenants.

Cependant, la distinction, pour un même lemme, d’acceptions proches appartenant à la même sous-classe, peut s’avérer utile en vue d’applications didactiques intégrant par exemple un accès à une définition. Notre but immédiat étant ici d’élaborer une classification favorisant le repérage et l’extraction de routines, nous ne gardons alors qu’une seule entrée, correspondant (comme expliqué page 142 avec l’exemple de cadre) à l’acception la plus générique. Ainsi,

parmi les acceptions de matériau dans le DEM, deux entrées correspondent à des sens transdisciplinaires effectivement présents dans notre corpus :

matière pour fabrication ;

matière de base pour documentation.

Ces deux acceptions sont associées à la sous-classe {objet_scientifique/donnée}.

Les applications ultérieures de notre classification guident ainsi sa constitution.

Ces différents critères de filtrage d’acceptions, ainsi que la méthodologie de classification, ont été définis pour l’ensemble des catégories des mots simples du LST afin de s’assurer de l’homogénéité transcatégorielle de la ressource.