Traitement automatique du langage naturel

Chapitre 2. Méthodologie

2.3 Analyse des données de remerciements

2.3.1 Traitement automatique du langage naturel

Les méthodes utilisées en traitement automatique du langage naturel proviennent de la linguistique, de l’informatique et de l’intelligence artificielle (Jurafsky et Martin, 2009). Notre objectif n’est donc pas ici de dresser un portrait exhaustif de ce champ de recherche, mais plutôt de brièvement présenter la méthode utilisée pour analyser le contenu des remerciements.

Afin d’identifier et de distinguer les individus remerciés et les types de contributions mentionnées dans les remerciements, l’analyse linguistique effectuée dans le cadre de ce projet se concentre sur les entités nommées pour les individus remerciés et sur les syntagmes nominaux pour les contributions reconnues.

Extraction des entités nommées9

De façon générale, les entités nommées désignent les noms propres qui réfèrent aux personnes, aux organisations (institutions, compagnies, organismes de financement) et aux lieux (villes, provinces, régions et pays). Dans le cadre de notre projet de recherche, seuls les noms de personnes référant à des individus ont été retenus. Les noms de personnes figurant dans le nom d’entités collectives ont donc été enlevés (p. ex. Fondation Marie Curie). Afin d’extraire les individus remerciés des textes des remerciements, nous avons

utilisé le module Stanford Named Entity Recognizer (NER) (Finkel et al., 2005) du Natural Language ToolKit (Bird, Klein et Loper, 2009). Le Stanford NER permet d’identifier les séquences de mots qui référent à un nom propre et d’y apposer une étiquette selon les trois classes suivantes : personne, organisation et lieu. Il est à noter que cet outil est développé et testé pour une performance maximale sur les textes rédigés en anglais. La performance de l’algorithme pour les entités nommées dans d’autres langues peut donc s’en voir réduite. Toutefois, le Stanford NER demeure un des systèmes d’identification d’entités nommées, disponibles en libre accès, les plus robustes et efficaces (Ratinov et Roth, 2009).

La liste des entités nommées extraites des remerciements a ensuite été nettoyée afin d’en éliminer les entités non-humaines. Ce nettoyage s’est fait en plusieurs étapes. D’abord, les noms incomplets ont été enlevés (i.e. les entités contenant uniquement un prénom, un nom de famille, ou une initiale) afin de conserver seulement les entités composées d’au moins une initiale et un nom de famille. Afin d’éliminer les noms ne référant pas à des personnes, les noms de famille contenu dans notre liste d’entités nommées ont été comparés à une liste de noms de famille validés comme appartenant à des personnes, c’est-à-dire la liste de tous les noms de famille d’auteurs apparaissant sur une publication indexées dans WoS pour la période 1900 à 2016. Cette liste de 2 649 212 noms de famille distincts a donc été utilisée comme liste de référence pour valider les noms de famille de notre liste d’entités nommées. Une entité nommée pour laquelle il n’y aurait aucune correspondance avec cette liste de référence serait donc considérée comme ne référant pas à une personne et éliminée. Par la suite, un nettoyage manuel a été effectué afin d’éliminer toutes entités nommées restantes qui ne réfèraient pas à un individu (comme dans le cas de noms de bourses, de fondations, d’organisations ou d’institutions). Finalement, les remerciements incluent souvent le nom d’un ou de plusieurs auteurs signant l’article duquel le remerciement a été extrait. Afin d’éviter les faux positifs et de compter ces auteurs comme des remerciés, nous avons enlevé les noms d’auteurs se désignant eux- même dans les remerciements d’un article spécique de notre liste d’entités nommées. Lorsqu’un ou plusieurs noms extraits des remerciements d’un article X correspondait au nom d’un des auteurs (première initiale et nom de famille) de ce même article, ce nom a été enlevé de la liste des remerciés provenant de cet article spécifique, tel qu’illustré par l’exemple suivant :

Article X

Auteurs: J. Zhang, X. Feng et Y. Xu

Remerciement: « Jinsong Zhang, Xiao Feng, and Yong Xu contributed equally to this work. The authors would like to thank Xiang Zhou for data collection and Li Yu for data processing. »

Liste d’entités nommées extraites pour l’article X: Jinsong Zhang, Xiao Feng, Yong Xu, Xiang Zhou et Li Yu.

Liste de remerciés nettoyée pour l’article X: Xiang Zhou et Li Yu

Extraction des syntagmes nominaux10

Les syntagmes nominaux sont des groupes de mots centrés sur un nom donné et qui, avec zéro ou plusieurs constituants de diverses catégories syntaxiques, exercent la même fonction grammaticale que les noms simples; un exemple serait le syntagme nominal « financial support » par rapport au nom simple « support ».

Plusieurs étapes de prétraitement linguistique ont été nécessaires pour extraire efficacement les syntagmes nominaux des courts textes de remerciements. Tout d’abord, le texte des remerciements extrait du champ Funding Text a été segmenté en mots à l’aide du Penn TreeBank Tokenizer (Marcus, Marcinkiewicz, Santorini, 1993; Marcus et al., 1994) du Natural Language ToolKit (Bird, Klein et Loper, 2009). Afin d’identifier les noms communs présents dans le corpus, chaque texte de remerciements a ensuite été analysé morphologiquement et syntaxiquement en utilisant le Stanford Log-Linear Part- of-Speech (POS) Tagger (Toutanova et Manning, 2000; Toutanova et al., 2003).

En ce qui concerne l’identification et l’extraction des syntagmes nominaux, de nombreux outils sont actuellement disponibles puisque la caractérisation des syntagmes nominaux demeure un domaine actif de recherche en linguistique. La segmentation des syntagmes nominaux a été ici implémentée à l’aide d’une version modifiée de l’ensemble de règles grammaticales pour l’extraction de mots-clés conçu par Kim et al. (2010). Cet ensemble se compose de deux règles. La première vise à détecter les composantes nominales d’un syntagme nominal, allant d’un seul nom, tel que « funding », à une

séquence de noms ou encore d’adjectifs se terminant par un nom, comme dans le « seismic measurement open access software package ». La deuxième règle vise à fusionner toutes paires de composantes nominales consécutives identifiées par la première règle et séparées par toute préposition ou conjonction de coordination (« of », « for », « with », « in », « if », etc.), comme dans l’extrait « technical assistance in bacterial challenge experiment degeneration ». Cependant, telle que formulée par Kim et al. (2010), cette deuxième règle ne permet qu’une seule fusion, ce qui empêche l’identification complète de syntagmes formés de plus de deux composantes nominales tels que « strategy for gene discovery in schizophrenia » ou « coating of functionalized polysaccharide with embedded nanoparticles ». Afin d’extraire correctement de tels syntagmes nominaux, la deuxième règle de Kim et al. a été modifiée afin de permettre la fusion multiple de ce type de composantes.

Afin de nettoyer la liste des syntagmes nominaux extraits, nous avons d’abord éliminé tous ceux ne contenant qu’une référence à un numéro de financement. Les syntagmes nominaux composés d’une seule lettre ont également été éliminés. Puis, pour chaque syntagme nominal extrait, un score de fréquence a été généré en fonction du nombre d’occurrences du syntagme nominal dans le corpus. Afin d’augmenter l’efficacité des traitements et des analyses ultérieures, nous avons appliqué un seuil minimal de deux occurences aux syntagmes nominaux de notre liste pour réduire de façon significative la taille de la liste de syntagme nominaux. Tous les syntgames nominaux qui apparaissaient seulement une fois dans notre corpus ont donc été éliminés de notre liste. En effet, les syntagmes nominaux n’ayant qu’une occurrence dans un corpus donné (hapax legomena) représentent habituellement une très large proportion de l’ensemble des syntagmes nominaux du corpus et sont considérés, de par leur faible fréquence individuelle, comme ayant peu de valeur pour les techniques computationnelles dans le contexte de traitements automatique du langage naturel (Jurafsky et Martin, 2009).

Dans le document Les remerciements et leurs fonctions dans le système de la reconnaissance scientifique (Page 61-65)