4.4 La ressource UFSAC
4.4.5 Outils et bibliothèque UFSAC
En plus des corpus, nous fournissons une bibliothèque Java permettant de lire,
écrire et modifier des corpus dans le format UFSAC. Elle permet deux styles de
programmation : soit charger le corpus entier en mémoire, faire les opérations
sou-haitées et sauvegarder le corpus dans un fichier, soit séquentiellement charger,
édi-ter et écrire le corpus, à la manière d’un flux.
Cette dernière façon de faire est particulièrement utile pour travailler sur des
gros corpus qui ne rentrent pas en mémoire. Par exemple, pour le plus gros corpus
de la collection, l’OMSTI, le fichier au format UFSAC fait 2,1 Go.
Pour finir, nous fournissons un ensemble d’outils permettant quelques
opéra-tions générales sur les corpus, en plus de la conversion d’un corpus depuis son
format original :
— conversion de notre format vers le format de Raganato et al. (2017a) pour
favoriser les collaborations avec d’autres travaux de l’état de l’art qui
s’ap-puient sur ce dernier ;
— calcul de statistiques générales sur un corpus UFSAC (nombre de phrases,
mots, mots annotés, etc.) ;
— évaluation d’un système de DL, en comparant les annotations d’un corpus
UFSAC à celles produites par un système de DL ;
— annotation en lemme et partie du discours d’un corpus UFSAC.
Plus de détails sur les outils et la bibliothèque Java que nous fournissons dans
notre dépôt Github
16se trouve enannexe C.
4.5 Conclusion
Au travers des travaux que nous avons présentés dans ce chapitre, nous
cher-chons à rendre plus simple la distribution et l’utilisation de corpus annotés en sens,
grâce à un nouveau format de corpus permettant leur uniformisation nommée
UF-SAC, qui repose sur la syntaxe du XML.
Cette uniformisaton peut ainsi faciliter la création et l’évaluation de nouveaux
systèmes de DL. En effet, les corpus annotés en sens sont, historiquement, non
seulement séparés entre corpus d’apprentissage et corpus d’évaluation, mais le
format de chacun d’eux est souvent radicalement différent. La syntaxe change et
ne suit parfois aucun standard. Certains corpus sont présentés comme un ensemble
de milliers de fichiers et d’autres rassemblent tout en un seul. Enfin, les inventaires
de sens utilisés sont aussi différents. En conséquence, beaucoup de systèmes de DL
sont entraînés ou évalués sur peu de corpus par rapport à l’ensemble de ceux qui
existent.
L’unification de tous les corpus annotés en sens permet ainsi de rapidement
étendre un système de DL entraîné initialement sur un ensemble de corpus, avec
de nouvelles données, sans avoir à écrire un nouvel analyseur syntaxique. De plus,
un système peut maintenant facilement inclure dans sa phase d’apprentissage des
corpus initialement destinés à l’évaluation, ou bien évaluer sa performance sur
des corpus initialement créés pour l’entraînement. Cela peut permettre une bien
meilleure couverture et une meilleure analyse des performances d’un système.
Nous avons rassemblé l’ensemble des corpus anglais annotés en sens WordNet
que nous connaissons, et nous les avons convertis au format UFSAC et à
l’inven-taire de sens de WordNet 3.0, en plus d’avoir effectué des traitements pour nettoyer
les textes et les annoter en lemmes et parties du discours. Les corpus ne sont
dispo-nibles que lorsque les droits le permettent. Dans le cas contraire, nous fournissons
quand même les scripts permettant à ceux qui possèdent ces corpus de les
conver-tir.
De plus, nous fournissons une bibliothèque Java permettant la lecture,
l’écri-ture et la modification de corpus dans notre format unifié, ainsi que des exemples
de codes et des outils pour de nombreuses applications telles que la
lemmatisa-tion, l’étiquetage en parties du discours, le calcul de la distribution des sens, etc.
La ressource est disponible à cette URL :https://github.com/getalp/
Chapitre 5
Architectures neuronales pour la
désambiguïsation lexicale supervisée
5.1 Introduction
Comme nous l’avons vu dans la section 1.4 et la figure 1.5, les systèmes de
désambiguïsation fondés sur des réseaux de neurones sont classés en deux grandes
catégories : d’un côté, ceux qui sont entraînés à directement assigner un sens aux
mots donnés en entrée du réseau (Kågebäck et Salomonsson,2016;Raganato et al.,
2017b;Luo et al.,2018a,b) et de l’autre ceux qui reposent sur un modèle de langue
permettant de créer des vecteurs de sens à partir des contextes, et qui assignent le
sens le plus proche du vecteur de sens ainsi créé (Yuan et al.,2016;Peters et al.,
2018;Loureiro et Jorge,2019).
Dans ce chapitre, nous nous intéressons à la première catégorie de systèmes,
où nous voyons une marge de progression importante. En effet, d’une part les
re-présentations vectorielles contextuelles de mots telles que ELMo et BERT n’ont,
à l’écriture de cette thèse, jamais été exploitées pour ces systèmes, et d’autre part
presque aucun autre corpus que le SemCor n’a été utilisé pour leur entraînement.
Enfin, nous pensons que les architectures peuvent être largement simplifiées et tirer
parti des récentes avancées comme le modèle Transformer (Vaswani et al.,2017)
utilisé largement en traduction automatique pour remplacer les cellules récurrentes
type LSTM ou GRU.
Afin d’exploiter notre nouvelle ressource UFSAC, qui regroupe l’intégralité
des corpus annotés en sens disponibles pour la DL (voirchapitre 4), nous allons
l’entraîne-ment des systèmes supervisés, puis nous allons présenter notre nouvelle
architec-ture. Nous allons ensuite évaluer nos systèmes sur l’ensemble des tâches
d’évalua-tion SensEval/SemEval, puis présenter différentes analyses des résultats en
fonc-tion des corpus et des hyper-paramètres, avant de conclure.
Nous utilisons ainsi pour la première fois tous les corpus annotés en sens
Word-Net à notre connaissance pour l’apprentissage d’un système plus robuste. Par souci
de comparaison avec les systèmes état de l’art, nous avons évalué notre approche à
la fois en utilisant tous les corpus UFSAC disponibles, mais aussi en nous
restrei-gnant uniquement au SemCor.
Le code permettant d’entraîner, évaluer ou exploiter nos modèles ainsi que
nos meilleurs modèles pré-entraînés sont tous librement accessibles à l’adresse
suivante :https://github.com/getalp/disambiguate.
Les travaux présentés dans ce chapitre sont issus d’un de nos article de
confé-rence et de sa version étendue dans un journal (Vial et al.,2018c,2019b).
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 140-143)