pour les configurations, avec l’objectif d’éviter le surapprentissage et la faible généralisation du
classifieur SVM de Al Saied et al. (2017).
Pour apprendre son classifieur, TRAPACC utilise tous les patrons de traits proposés par
Al Saied et al. (2017) et ajoute d’autres patrons de traits, tels que la taille du tampon, la
longueur des tokens, des 4-grammes et davantage de traits linguistiques tels que les étiquettes
morphosyntaxiques universelles et les traits morphologiques.
Stodden et al. (2018) présentent une autre variante de leur système, TRAPACCS, qui
pré-dit les transitions de façon légèrement différente de TRAPACC. TRAPACCS réduit le module
convolutionnel à une fonction d’extraction supervisée et connecte la couche dense intermédiaire
du module à un modèle SVM. Stodden et al. (2018) conclut toutefois que cette variante n’a pas
été aussi efficace que prévu. TRAPACC et TRAPACCS se classent troisièmes de la closed track
de la compétition internationale PARSEME 1.1.
6.3 Détails techniques de la mise en œuvre
Pour terminer, nous donnons les détails techniques de la mise en oeuvre de notre système
d’identification des EPs par transitions. Tout d’abord, nous utilisons le langage de
programma-tionpythonpour la mise en œuvre de nos expérimentations, ainsi que de multiples bibliothèques
logicielles pour faciliter le développement de nos modèles linéaires et de nos réseaux de
neu-rones. Le code des expérimentations de la thèse est disponible sur le sitegithubsous la licence
MIT53.Python est un langage de programmation interprété, placé sous une licence libre, doté
d’un typage dynamique fort, d’une gestion automatique de la mémoire et munis de nombreuses
bibliothèques open source pour l’apprentissage automatique et les réseaux de neurones. Ce
lan-gage favorise la programmation impérative structurée, fonctionnelle et orientée objet et offre aux
développeurs des outils de haut niveau d’abstraction et une syntaxe simple à utiliser.
Nos modèles linéaires et nos matrices creuses sont développés et gérés par des bibliothèques
comme Scikit-learn, Numpy et SciPy. Scikit-learn est une bibliothèque open source écrite en
python, développée par de nombreux contributeurs du monde académique, destinée à
l’apprentis-sage automatique et connu pour sa complémentarité avec des bibliothèques python open-source
telles que Numpy et SciPy. Cette bibliothèque comprend des modèles de régression logistique
et des mises en œuvre des algorithmes de classification et des machines à vecteurs de support.
SciPy et Numpy sont des bibliothèques open-source, écrites en python, destinées à traiter des
matrices ou tenseurs ainsi que des fonctions mathématiques opérant sur ces structures.
Tous nos réseaux de neurones, à l’exception de KG-2016, sont développés avec Keras et
Theano. Keras est une interface open source pour le développement des réseaux de neurones,
écrite en Python, capable de s’exécuter sur Theano et conçue pour permettre une expérimentation
fluide et rapide.Kerasest caractérisé par son interface user-friendly, modulaire et extensible et
offre des outils d’abstraction de haut niveau pour le développement des réseaux de neurones.
Keras a été développé par François Chollet et est intégré dans la bibliothèque principale de
TensorFlow.
Theanoest une bibliothèque écrite en python qui permet de définir, d’optimiser et d’évaluer
efficacement les expressions mathématiques, y compris les tenseurs. Theano est une plateforme
open source, principalement développée par l’institut de Montréal des algorithmes
d’appren-tissage de l’Université de Montréal. Cette plateforme est connue pour sa capacité à exploiter
les architectures de GPUs et pour son efficacité, sa robustesse et sa rapidité lors du calcul de
différenciations symboliques (« Symbolic Differentiation »).
Étant donné que Keras ne permet pas de développer assez facilement des structures
neuro-nales sophistiquées, notamment celles incluant la sélection dynamique d’éléments d’une couche
récurrente, comme cela est nécessaire avec le réseau KG-2016, nous utilisons une autre
biblio-thèque, appelée Pytorch. PyTorchest une bibliothèque open source, écrite en python, et basée
sur la bibliothèque Torch, développée par Facebook. Torch et son interface python permettent
d’effectuer les calculs tensoriels nécessaires pour l’apprentissage profond des réseaux de neurones
sur des « CPUs » ou sur des « GPUs ». PyTorch permet de manipuler les tenseurs, les
struc-tures neuronales et les algorithmes d’apprentissage, ce qui permet d’implémenter des strucstruc-tures
sophistiquées, plus facilement qu’en Keras.
Conclusion
Dans cette thèse, nous avons proposé une méthode d’identification des expressions
poly-lexicales en contexte, fondée sur une analyse automatique dite par transitions. L’analyse d’une
phrase préalablement segmentée en tokens se fait par une séquence de décisions locales,
appe-lées transitions, réalisées par un classifieur appris de manière principalement supervisée. Nous
avons proposé plusieurs jeux de transitions spécifiques à l’identification d’EPs, et avons exploré
plusieurs approches pour l’architecture et l’apprentissage de ce classifieur, en particulier un
mo-dèle linéaire de type machine à vecteur support, un perceptron multicouche, et des variantes
neuronales utilisant des couches récurrentes sur la séquence d’entrées.
Comparée aux autres méthodes de la littérature d’identification, notre méthode s’est montrée
performante, produisant les scores état de l’art pour de nombreuses langues des jeux de données
PARSEME 1.0 et PARSEME 1.1, centrés sur les expressions polylexicales verbales, et des scores
compétitifs sur le corpus FTB, pour le français. Elle peut traiter certains cas d’enchâssement
d’EPs, et a montré, pour toutes les variantes expérimentées, une forte capacité d’identification
d’EPs discontinues, et de formes constituant des variantes d’EPs vues dans le corpus
d’apprentis-sage. Cependant, la capacité d’identifier des EPs non vues dans le corpus d’apprentissage, c.à-d.
à généraliser, reste, comme pour la plupart des méthodes d’identification, très limitée.
Nous avons privilégié la mise au point de systèmes utilisant un hyperparamétrage robuste,
valable pour les différentes langues des jeux de données utilisés. Étant donné le nombre de langues
traitées (18 et 20 pour les données PARSEME 1.0 et PARSEME 1.1), et le nombre important
d’hyperparamètres pour les différentes architectures neuronales que nous avons proposées pour
le classifieur prédisant les transitions, notre thèse comporte une part expérimentale importante.
Nous avons particulièrement investigué quel ré-échantillonnage des données était le plus adapté à
la tâche, et mis l’accent sur la méthode de réglage des hyperparamètres. Nous avons proposé une
sélection de la combinaison d’hyperparamètres basée sur les tendances observées au sein d’une
recherche aléatoire dans un espace étendu de combinaisons.
Le scénario privilégié, pour la majeure partie de nos expériences, est l’identification d’EPs
utilisant des informations morphologiques mais pas d’informations syntaxiques ni de lexiques
externes. Nous avons cependant également investigué un apprentissage multitâche, réalisant
conjointement et tirant profit de l’étiquetage morphosyntaxique, l’identification d’EPs par
tran-sitions et l’analyse syntaxique en dépendances par trantran-sitions. Ce système, s’il donne des scores
peu compétitifs pour l’étiquetage et non compétitifs pour l’analyse syntaxique, donne des
résul-tats prometteurs pour la tâche d’identification, car il obtient nos meilleurs scores sur les EPs non
vues à l’apprentissage (Fg(eval-eps) = 23.5 versus 11.6 du MLP-Wide sur 13 langues).
De ce travail nous pouvons mettre en avant les observations suivantes :
— Pour notre participation à la compétition internationale PARSEME 1.0, notre système,
uniquement SVM à l’époque, a été classé premier pour la plupart des langues. Suite à
l’in-tégration d’architectures neuronales, les variantes les plus performantes sont finalement un
simple perceptron multicouche (MLP), en particulier la variante où l’on ajoute en entrée
les étiquettes morphosyntaxiques du contexte linéaire des éléments ciblés de la
configu-ration (variante MLP-Wide). Cependant, le modèle SVM2 a des scores très compétitifs
également. Alors que les variantes neuronales favorisent le rappel, SVM2 est caractérisé
par une meilleure précision, et est surtout très nettement moins sensible au réglage des
hyperparamètres et au déséquilibre entre classes à l’apprentissage et plus simple à régler.
— Les résultats de toutes les variantes de notre méthode ont obtenu des scores médiocres sur
les EPs non vues dans le corpus d’apprentissage, comme c’est le cas également pour les
systèmes état de l’art de la compétition internationale PARSEME 1.1. D’ailleurs, l’étude
des résultats en fonction de la langue des données PARSEME montre clairement une
cor-rélation très forte entre la proportion d’EPs vues à l’apprentissage et la performance des
systèmes, qui explique mieux les résultats que la taille des corpus d’entraînement. Cela
confirme que l’identification des EPs ne peut être améliorée qu’en intégrant des méthodes
de découverte de nouvelles EPs, que ce soit en utilisant des lexiques externes et/ou en
repérant des irrégularités de composition, par exploration de gros corpus, les EPs étant
caractérisées par une irrégularité à différents niveaux linguistiques (Savary et al., 2019).
— La rareté des EPs (en particulier verbales) comparativement aux tokens n’entrant pas dans
une EP donne une distribution déséquilibrée des transitions. Nous avons montré
qu’igno-rer à l’apprentissage les phrases ne contenant pas d’EPs et rééquilibqu’igno-rer aléatoirement la
distribution des transitions dans les exemples d’apprentissage est essentiel pour assurer la
stabilité et la performance de nos modèles neuronaux. Cette technique n’est pas du tout
nécessaire pour la variante linéaire (SVM2), et a un impact marginal.
— Pour le réglage des hyperparamètres d’un modèle, sélectionner la meilleure combinaison
s’est avéré moins efficace que sélectionner les valeurs « tendancielles » d’hyperparamètres,
i.e. majoritaires dans les kmeilleures combinaisons.
— Les résultats de nos variantes MLP-R-Sent, MLP-R-Stack2, MLP-R-Stack ont montré que
l’intégration « naïve » des couches récurrentes au sein d’un module MLP permet
d’aug-menter la généralisation de la méthode. Cependant, ce gain est contrebalancé par de moins
bonnes performances sur certaines classes formelles des EPs.
— L’utilisation de plongements lexicaux non contextuels préentraînés a eu des résultats
déce-vants pour notre modèle le plus performant (MLP), avec seulement une très légère
améliora-tion sur certaines langues. Par contre, leur utilisaaméliora-tion est systématiquement bénéfique pour
toutes nos variantes neuronales intégrant des couches récurrentes ou bien plus de contexte
pour les éléments ciblés. L’intégration de plongements lexicaux descendant au niveau de
sous-parties de mots n’a pas conduit à une amélioration significative pour la variante MLP.
— Une modification simple de nos jeux de transitions permet de catégoriser les EPs en plus
de les identifier, qui testée pour la variante SVM1 n’engendre pas de perte significative de
performance.
— L’architecture multitâche que nous proposons pour l’identification des EPs, l’étiquetage
morphosyntaxique et l’analyse syntaxique n’a certes pas permis d’améliorer l’identification
d’EPs dans son ensemble, mais l’une des variantes de cette architecture produit le meilleur
score sur la classe des EPs non vues à l’apprentissage.
1 Perspectives
Comme nous l’avons vu dans la section 3.5.3, l’intégration des plongements lexicaux
com-binant des représentations de sous-mots ne conduit pas à une amélioration significative de la
performance de la variante MLP de notre méthode. Durant notre thèse cependant sont apparus
des modèles de vecteurs contextuels de mots, comme Devlin et al. (2018); Peters et al. (2018),
ayant eu un fort retentissement sur de nombreuses tâches de TAL, dont l’analyse syntaxique par
transitions (Kulmizev et al., 2019b). Entraînés sur de très grands corpus et capables de
modéli-ser des caractéristiques syntaxiques et sémantiques complexes, ils sont applicables pour obtenir
des représentations contextualisées d’occurrences de mots. L’intégration de telles représentations
semble une piste pour améliorer en particulier la découverte d’EPs non vues à l’apprentissage,
pour lesquelles nos différentes variantes ont des performances médiocres.
L’utilisation de lexiques externes est une autre piste, ainsi que l’intégration de mesures
d’as-sociation, plus robustes, pouvant servir d’indices d’idiomaticité de combinaisons de tokens. Enfin,
de nouvelles architectures neuronales, telles que celles intégrant le mécanisme de l’autoattention
(self-attention), se sont révélées très efficaces pour des méthodes d’identification à base
d’étique-tage de séquences (Taslimipoor et Rohanian, 2018; Rohanian et al., 2019). Leur utilisation au
sein de notre système, formellement plus puissant, nous semble une piste prometteuse.
Par ailleurs, nous avons proposé un système robuste, traitant les différentes catégories d’EPs,
de différentes langues, avec le même hyperparamétrage. Cela dit, les résultats d’identification
d’EPs sont pour les différentes catégories linguistiques d’EPs. Il est ainsi envisageable de
décli-ner différents systèmes, ciblant différents types d’EPs. En particulier, il est possible de séparer
l’identification des EPs vues à l’apprentissage, pour lesquelles notre système MLP est très
per-formant, de l’identification d’EPs non vues, pour lesquelles certaines de nos variantes sont bien
meilleures.
Enfin, même si l’architecture multitâche que nous avons proposée pour l’apprentissage conjoint
de l’identification d’EPs, de l’étiquetage morphosyntaxique et de l’analyse syntaxique en
dépen-dances n’a pas permis d’améliorer la performance de notre méthode sur certaines langues de
PARSEME 1.1, il reste à étudier si d’autres architectures d’apprentissage conjoint
améliore-raient l’identification d’EPs, notamment si des tâches sémantiques, telles que l’étiquetage des
rôles sémantiques, sont ajoutées.
Dans le document
Analyse automatique par transitions pour l'identification des expressions polylexicales
(Page 193-200)