• Aucun résultat trouvé

Chapitre 2 Identification des mots simples du LST

2.1 Cadre et objectifs de l’extraction du LST

2.2.1 Constitution et annotation des corpus...55 2.2.1.1 Corpus d’analyse...56 2.2.1.2 Corpus de contraste...60 2.2.1.3 Analyse syntaxique des corpus...63 2.2.1.3.1 Dépendances syntaxiques...64 2.2.1.3.2 Post-traitements syntaxiques...66 2.2.2 Procédure d’extraction du LST...71 2.2.2.1 Application des critères statistiques...71 2.2.2.1.1 Fréquence et spécificité...72 2.2.2.1.2 Transdisciplinarité et répartition...74 2.2.2.1.3 Limites des critères statistiques...74 2.2.2.2 Validation manuelle des candidats-LST...80 2.2.2.2.1 Jugement et recontextualisation...81 2.2.2.2.2 Accords inter-annotateurs...89 2.2.3 Effets du corpus et des mesures dans l’extraction du LST...99 2.2.3.1 Méthode par répartition et spécificité...99 2.2.3.2 Comparaison de méthodes et corpus...104 2.2.3.2.1 Effets du corpus d’analyse...105 2.2.3.2.2 Effets des mesures...107 2.3 Conclusion : Nécessités d’une approche semi-automatique...110

2.1 Cadre et objectifs de l’extraction du LST

Nous présentons dans ce chapitre la mise en place de notre méthode d’extraction du LST, dont le but est la constitution d’une liste de mots simples du LST, pour l’ensemble des catégories pleines. L’extraction du LST repose sur des traitements automatiques, pour fournir une première liste de candidats-LST, et est validée manuellement afin d’aboutir à une ressource de qualité, correspondant à nos besoins.

Nous avons présenté dans le chapitre précédent notre objet d’étude, le LST en nous situant dans une approche de linguistique de corpus outillée. Une telle approche nécessite l’utilisation et/ou l’élaboration de ressources et outils que nous détaillons dans le présent chapitre. La première ressource à constituer est notre corpus de travail. Ayant défini le LST comme un lexique de genre, ce corpus d’analyse se doit de représenter le genre scientifique objet de nos travaux, à savoir les articles en SHS. Le fait de définir le LST comme associé à ce genre implique sa sous-représentation dans d’autres genres, que nous représentons dans nos travaux par un corpus de contraste diversifié de grande taille. Les différents traitements que nous mettons en place pour l’extraction et la caractérisation du LST nécessitent de pouvoir interroger un corpus annoté en dépendances, comme nous le justifions section 2.2.1.3. En effet, nous tirons parti des informations de cooccurrences et de relations syntaxiques pour caractériser les éléments du LST.

Nous avons précédemment défini pour le LST des propriétés linguistiques : il est spécifique au genre scientifique et traverse les disciplines des SHS. À l’instar de Drouin et Paquot, nous partons de ces propriétés pour définir des critères lexicométriques afin de mettre en place une méthode d’extraction semi-automatique du LST, basée sur les critères de spécificité (ou sur-représentativité) et de répartition (pour juger de la transdisciplinarité).

Le processus se déroule en trois phases principales. Dans un premier temps, nous procédons à la constitution et à l’annotation des corpus nécessaires à nos traitements. Dans un deuxième temps, nous effectuons une extraction automatique de mots répondant aux critères du LST. Enfin, à la vue des résultats générés, nous mettons en place une phase de validation manuelle de ces

candidats-LST. Cette dernière étape est nécessaire pour filtrer des éléments n’appartenant pas au LST mais dont les propriétés ne permettent pas de l’en distinguer automatiquement.

Nous commençons ainsi par la constitution de deux corpus : un corpus d’analyse et un corpus de contraste (section 2.2.1). Le premier définit l’ensemble multidisciplinaire, donc le genre, duquel nous cherchons à extraire le lexique spécifique. Le second sert de base pour calculer la surreprésentation des éléments du LST dans le corpus d’analyse, pareillement aux travaux de Drouin (2007) ou Simpson-Vlach & Ellis (2010). Ce corpus de contraste représente ainsi la « langue générale » par opposition à la langue spécialisée de l’écrit scientifique. L’analyse syntaxique en dépendance que nous effectuons pour ces deux corpus autorise alors les traitements de la seconde étape.

Dans un second temps, l’extraction automatique d’éléments lexicaux candidats-LST est basée sur des critères statistiques (spécificité et transdisciplinarité) et sur les résultats de l’analyse des corpus (section 2.2.2). Ces résultats sont également utilisés pour la troisième phase. Les informations sur les cooccurrents syntaxiques permettent aux évaluateurs une recontextualisation des éléments lexicaux candidats-LST.

La méthode d’extraction se conclut par une phase de validation manuelle, qui fait appel à plusieurs juges experts dans le domaine de l’écrit scientifique (section 2.2.2.2). La mise en place de cette étape finale est motivée par l’objectif d’élaborer une ressource de qualité, adaptée aux applications du LST que nous avons présentées dans le chapitre précédent. Le concours des juges nous a permis d’éliminer le bruit produit par les traitements automatiques et de juger de l’acception effectivement transdisciplinaire des candidats-LST. Afin d’estimer la fiabilité des jugements et la pertinence de la ressource, nous avons procédé au calcul de l’accord inter-annotateurs, et avons ainsi mesuré la difficulté à circonscrire notre objet d’étude.

Ces différents traitements ont été guidés par les applications que nous projetons pour le LST. Ainsi, par son utilisation dans des traitements d’indexation automatique en termes1, le LST doit être issu d’un corpus représentant les futurs

1 Ces traitements s’inscrivent dans le cadre du projet TermITH, comme détaillé dans la section 1.1.1.

textes indexés. Le corpus d’analyse est donc constitué d’articles de recherche en SHS, champ scientifique où le lexique présente un fort degré d’ambiguïté entre la langue générale et la langue terminologique de spécialité. Il en est ainsi de profit,

marché, mot, santé, solidarité, loisir, mots de la langue générale ayant une ou

plusieurs acceptions terminologiques2 en sociologie, psychologie, linguistique, économie. Le corpus de contraste répond au besoin d’identifier les éléments lexicaux absents, ou peu présents, dans d’autres genres que l’écrit scientifique. Cette sur-représentation du LST dans les articles en SHS est d’ailleurs la preuve de son utilité dans l’extraction terminologique. En isolant ainsi le lexique spécifiquement mobilisé dans ce contexte, nous nous assurons également de proposer une ressource lexicale adaptée pour l’aide à la rédaction scientifique. Les difficultés rencontrées par les apprenants et natifs dans la rédaction scientifique concernent ainsi ce lexique particulier et les constructions dans lesquels il s’inscrit (Hatier & Yan, à paraître).

La phase de validation manuelle participe des mêmes préoccupations. D’une part, les perspectives didactiques, présentées section 1.1.2, imposent une vérification manuelle de la ressource, qui permettra la réalisation d’exercices et/ou de cours ciblés sur ces éléments essentiels à l’organisation du discours scientifique. D’autre part, au niveau des processus d’indexation, le fait de disposer d’une ressource validée manuellement, enrichie ultérieurement aux niveaux sémantique et syntaxique, assure une meilleure détection des termes, comme le montrent Jacquey et al. (2013). Ces différents objectifs ont ainsi motivé plusieurs choix méthodologiques que nous abordons dans la partie suivante.

2.2 Extraction semi-automatique du LST : ressources et