• Aucun résultat trouvé

4.4 La ressource UFSAC

4.4.5 Outils et bibliothèque UFSAC

En plus des corpus, nous fournissons une bibliothèque Java permettant de lire,

écrire et modifier des corpus dans le format UFSAC. Elle permet deux styles de

programmation : soit charger le corpus entier en mémoire, faire les opérations

sou-haitées et sauvegarder le corpus dans un fichier, soit séquentiellement charger,

édi-ter et écrire le corpus, à la manière d’un flux.

Cette dernière façon de faire est particulièrement utile pour travailler sur des

gros corpus qui ne rentrent pas en mémoire. Par exemple, pour le plus gros corpus

de la collection, l’OMSTI, le fichier au format UFSAC fait 2,1 Go.

Pour finir, nous fournissons un ensemble d’outils permettant quelques

opéra-tions générales sur les corpus, en plus de la conversion d’un corpus depuis son

format original :

— conversion de notre format vers le format de Raganato et al. (2017a) pour

favoriser les collaborations avec d’autres travaux de l’état de l’art qui

s’ap-puient sur ce dernier ;

— calcul de statistiques générales sur un corpus UFSAC (nombre de phrases,

mots, mots annotés, etc.) ;

— évaluation d’un système de DL, en comparant les annotations d’un corpus

UFSAC à celles produites par un système de DL ;

— annotation en lemme et partie du discours d’un corpus UFSAC.

Plus de détails sur les outils et la bibliothèque Java que nous fournissons dans

notre dépôt Github

16

se trouve enannexe C.

4.5 Conclusion

Au travers des travaux que nous avons présentés dans ce chapitre, nous

cher-chons à rendre plus simple la distribution et l’utilisation de corpus annotés en sens,

grâce à un nouveau format de corpus permettant leur uniformisation nommée

UF-SAC, qui repose sur la syntaxe du XML.

Cette uniformisaton peut ainsi faciliter la création et l’évaluation de nouveaux

systèmes de DL. En effet, les corpus annotés en sens sont, historiquement, non

seulement séparés entre corpus d’apprentissage et corpus d’évaluation, mais le

format de chacun d’eux est souvent radicalement différent. La syntaxe change et

ne suit parfois aucun standard. Certains corpus sont présentés comme un ensemble

de milliers de fichiers et d’autres rassemblent tout en un seul. Enfin, les inventaires

de sens utilisés sont aussi différents. En conséquence, beaucoup de systèmes de DL

sont entraînés ou évalués sur peu de corpus par rapport à l’ensemble de ceux qui

existent.

L’unification de tous les corpus annotés en sens permet ainsi de rapidement

étendre un système de DL entraîné initialement sur un ensemble de corpus, avec

de nouvelles données, sans avoir à écrire un nouvel analyseur syntaxique. De plus,

un système peut maintenant facilement inclure dans sa phase d’apprentissage des

corpus initialement destinés à l’évaluation, ou bien évaluer sa performance sur

des corpus initialement créés pour l’entraînement. Cela peut permettre une bien

meilleure couverture et une meilleure analyse des performances d’un système.

Nous avons rassemblé l’ensemble des corpus anglais annotés en sens WordNet

que nous connaissons, et nous les avons convertis au format UFSAC et à

l’inven-taire de sens de WordNet 3.0, en plus d’avoir effectué des traitements pour nettoyer

les textes et les annoter en lemmes et parties du discours. Les corpus ne sont

dispo-nibles que lorsque les droits le permettent. Dans le cas contraire, nous fournissons

quand même les scripts permettant à ceux qui possèdent ces corpus de les

conver-tir.

De plus, nous fournissons une bibliothèque Java permettant la lecture,

l’écri-ture et la modification de corpus dans notre format unifié, ainsi que des exemples

de codes et des outils pour de nombreuses applications telles que la

lemmatisa-tion, l’étiquetage en parties du discours, le calcul de la distribution des sens, etc.

La ressource est disponible à cette URL :https://github.com/getalp/

Chapitre 5

Architectures neuronales pour la

désambiguïsation lexicale supervisée

5.1 Introduction

Comme nous l’avons vu dans la section 1.4 et la figure 1.5, les systèmes de

désambiguïsation fondés sur des réseaux de neurones sont classés en deux grandes

catégories : d’un côté, ceux qui sont entraînés à directement assigner un sens aux

mots donnés en entrée du réseau (Kågebäck et Salomonsson,2016;Raganato et al.,

2017b;Luo et al.,2018a,b) et de l’autre ceux qui reposent sur un modèle de langue

permettant de créer des vecteurs de sens à partir des contextes, et qui assignent le

sens le plus proche du vecteur de sens ainsi créé (Yuan et al.,2016;Peters et al.,

2018;Loureiro et Jorge,2019).

Dans ce chapitre, nous nous intéressons à la première catégorie de systèmes,

où nous voyons une marge de progression importante. En effet, d’une part les

re-présentations vectorielles contextuelles de mots telles que ELMo et BERT n’ont,

à l’écriture de cette thèse, jamais été exploitées pour ces systèmes, et d’autre part

presque aucun autre corpus que le SemCor n’a été utilisé pour leur entraînement.

Enfin, nous pensons que les architectures peuvent être largement simplifiées et tirer

parti des récentes avancées comme le modèle Transformer (Vaswani et al.,2017)

utilisé largement en traduction automatique pour remplacer les cellules récurrentes

type LSTM ou GRU.

Afin d’exploiter notre nouvelle ressource UFSAC, qui regroupe l’intégralité

des corpus annotés en sens disponibles pour la DL (voirchapitre 4), nous allons

l’entraîne-ment des systèmes supervisés, puis nous allons présenter notre nouvelle

architec-ture. Nous allons ensuite évaluer nos systèmes sur l’ensemble des tâches

d’évalua-tion SensEval/SemEval, puis présenter différentes analyses des résultats en

fonc-tion des corpus et des hyper-paramètres, avant de conclure.

Nous utilisons ainsi pour la première fois tous les corpus annotés en sens

Word-Net à notre connaissance pour l’apprentissage d’un système plus robuste. Par souci

de comparaison avec les systèmes état de l’art, nous avons évalué notre approche à

la fois en utilisant tous les corpus UFSAC disponibles, mais aussi en nous

restrei-gnant uniquement au SemCor.

Le code permettant d’entraîner, évaluer ou exploiter nos modèles ainsi que

nos meilleurs modèles pré-entraînés sont tous librement accessibles à l’adresse

suivante :https://github.com/getalp/disambiguate.

Les travaux présentés dans ce chapitre sont issus d’un de nos article de

confé-rence et de sa version étendue dans un journal (Vial et al.,2018c,2019b).