Lors de nos expériences, nous avons comparé un système par transitions reposant sur un
modèle non linéaire (MLP) et un autre reposant sur un modèle linéaire (SVM2). Nous avons pu
nous rendre compte qu’ils étaient complémentaires sur certains aspects. Bien que le MLP soit
globalement plus performant que SVM2, le dernièr se montre plus performant sur les EPs non
vues dans le corpus d’apprentissage et sur les tokens polylexicaux. Nous proposons donc de les
combiner ensemble, en utilisant une méthode classique par empilement, dans le but d’améliorer
encore les performances en tenant compte de la complémentarité des deux systèmes.
L’empilement des modèles est une méthode d’apprentissage automatique qui consiste à
ali-menter un modèle par les prédictions d’autres modèles auxiliaires dans l’objectif d’améliorer la
performance du système (Ting et Witten, 1999). Nous appliquons la technique d’empilement
sur nos deux modèles. Au début, nous transformons le modèle linéaire en un modèle auxiliaire
alimentant le modèle MLP avec ses prédictions. En d’autres termes, le modèle MLP nourrit sa
couche dense avec un vecteur creux supplémentaire d’entrée. Ce vecteur représente les prédictions
du modèle linéaire pour la configuration en cours de traitement.
Afin d’entraîner les modèles linéaires, nous utilisons la technique du jackknifing à 5 plis,
c’est-à-dire, nous entraînons cinq modèles linéaires, chacun sur 4/5 du jeu d’entraînement. Pour générer
le vecteur supplémentaire d’entrée pour les configurations d’une phrase, nous devons sélectionner
le modèle linéaire qui n’a pas été entraîné sur la même phrase. Au moment de l’analyse, nous
utilisons un SVM, appris sur le jeu complet des données d’apprentissage, pour générer le vecteur
d’entrée supplémentaire pour chaque configuration des phrases du test.
Nous avons également développé le modèle inverse, c’est-à-dire, nous utilisons les prédictions
des modèles MLP comme un trait supplémentaire lors de l’extraction des traits du modèle SVM2.
Ces traits supplémentaires indiquent la prédiction du modèle MLP pour chaque configuration,
dans l’objectif d’enrichir l’ensemble de traits et d’aider le modèle linéaire à produire de meilleures
prédictions. Il convient de noter que la même procédure de jackknifing est utilisée pour entraîner
les modèles MLPs.
3.7.1 Expérimentation et résultats d’identification
Étant donné que le temps d’apprentissage de tels modèles se multiplie, nous ne lançons pas
la procédure de réglage des hyperparamètres pour ces modèles et utilisons donc les
combinai-sons d’hyperparamètres résultant du précédent réglage des hyperparamètres pour le MLP et
SVM2 pris isolément. Ainsi, le modèle principal du MLPSV M2 et le modèle MLP auxiliaire de
SV M2M LP utilisent la combinaison de tendances (CT) du MLP seul en configuration closed
track. Le modèles SVM auxiliaires du MLPSV M2 et le modèle principal duSV M2M LP utilisent
la combinaison la plus performante (CPP) issue du réglage des hyperparamètres de SVM2 seul.
Nous présentons les résultats des deux modèles,M LPSV M2 etSV M2M LP, sur les jeux de test
3.8. Résumé
de PARSEME 1.1 (voir tableau 3.13). Ce tableau montre que ces variantes qui requièrent une
augmentation importante du temps d’entraînement, ne montrent pas une amélioration
significa-tive de la performance de notre système sur les jeux de données de PARSEME 1.1. Tout d’abord,
SV M2M LP connaît une légère baisse de performance par rapport à MLP (1,2 point de moins).
Ensuite,M LPSV M2 permet au système de légèrement surpasser le scoreFg de la variante MLP
(0,4 point) en produisant un rappel plus élevé (2,2 points). Par ailleurs,M LPSV M2 montre que
l’augmentation importante du rappel (2,2 points) par rapport à MLP est contre-balancée par
une baisse importante de la précision (3,6 points). L’absence d’un réglage spécial des
hyperpa-ramètres des deux modèles d’empilement peut expliquer en partie l’incapacité de ces modèles à
battre la variante MLP de manière significative.
3.8 Résumé
Dans ce chapitre, nous présentons cette fois l’utilisation d’une méthode neuronale pour la
prédiction des transitions, au sein de notre analyseur par transitions pour l’identification d’EPs.
Nous utilisons cette fois le jeu de transitions plus aboutiT2, permettant d’analyser certains
cas d’enchâssement. Pour la définition des traits, nous nous plaçons dans un scénario où la
re-présentation syntaxique de la phrase n’est pas disponible. L’architecture du classifieur est un
perceptron multicouche (MLP), dont l’entrée est constituée de plongements vectoriels pour les
tokens et les étiquettes morphosyntaxiques de certains éléments « ciblés » de la configuration
cou-rante. Pour comparaison, nous entraînons également un classifieur SVM tel que décrit au chapitre
précédent, mais avec le jeu de transitionsT2, et des traits excluant les patrons syntaxiques.
Le chapitre décrit un travail expérimental conséquent, permettant de comparer la mise au
point et les performances du système avec classifieur MLP versus classifieur SVM. Nous avons,
en effet, décrit les méthodes et les résultats du réglage des hyperparamètres des deux variantes,
ainsi que l’expérimentation des deux variantes sur des jeux de données divers (PARSEME 1.1,
FTB et DiMSUM).
Il ressort en premier lieu que le modèle MLP ne fonctionne pas du tout sans ré-échantillonnage
des données. Nous avons sélectionné expérimentalement deux types de ré-échantillonnage :
l’ex-clusion de l’apprentissage des phrases sans EPs, et ré-échantillonnage aléatoire des exemples
d’ap-prentissage pour équilibrer les classes (les transitions, cf. les transitions responsables de
l’iden-tification d’EPs étant très rares par rapport aux autres). On vérifie qu’avec ré-échantillonnage,
la variation de performance en fonction des graines pour l’initialisation aléatoire des paramètres
est relativement faible, alors que sans ré-échantillonnage, l’apprentissage est très instable. Le
classifieur SVM est beaucoup plus robuste de ce point de vue, le ré-échantillonnage n’ayant pas
d’impact.
Devant la combinatoire très importante des valeurs possibles d’hyperparamètres, nous avons
tenté d’utiliser une méthodologie rigoureuse, d’abord (i) en sélectionnant trois langues pilote, et
en tronquant leur données d’entraînement pour se placer dans des conditions "moyennes"
d’ap-prentissage, ensuite (ii) en utilisant une recherche aléatoire de combinaison d’hyperparamètres
plutôt qu’une recherche en grille. Nous avons montré qu’au lieu de sélectionner comme
habi-tuellement la combinaison la plus performante sur jeux de développement, il est plus efficace de
sélectionner une combinaison de "tendances", en sélectionnant chaque valeur d’hyperparamètres
dans un ensemble de k meilleures combinaisons.
En termes de performance, comparées aux systèmes de PARSEME 1.1, nos deux variantes
produisent les scores état de l’art sur une bonne partie des langues de PARSEME 1.1 et des
per-formances très compétitives sur les langues restantes. Le système MLP est globalement meilleur
que SVM (Fg = 62,6 versusFg = 60,8), et que les résultats des participants à PARSEME 1.1
(Fg = 57,8), mais pas tout à fait pour toutes les langues. Nos deux variantes se montrent, par
ailleurs, complémentaires : la variante MLP a un meilleur rappel et une moins bonne précision
que SVM2. Cependant, un empilement des deux variantes ne permet pas d’améliorer les résultats
de manière significative.
Nous avons détaillé l’analyse de la performance des deux variantes en fonction de différentes
caractéristiques linguistiques et formelles des EPs, et des différentes langues des données
PAR-SEME 1.1. Le MLP est meilleur pour les EPs aussi bien continues que discontinues, mais pêche
pour les EPs à un seul token (apparaissant dans certains jeux de PARSEME). Il n’apparaît pas
de corrélation de la performance avec les catégories linguistiques des EPs verbales
(construc-tions à verbe support, verbes intrinsèquement réfléchi, etc...), ni directement avec la taille du
corpus d’apprentissage. En réalité, le facteur déterminant pour la performance est la
propor-tion des EPs vues à l’apprentissage (à l’identique, ou avec variapropor-tion morphologique ou variapropor-tion
d’ordre). En effet, notre système MLP s’avère très performant pour celles-ci, mais pratiquement
nul (FAV G = 1,3) pour repérer des EPs non vues, le SVM étant légèrement meilleur mais très
insuffisant (FAV G= 7,2), à comparer avec le score de 19,7, certes bas mais pas autant, obtenu
en considérant le meilleur score de la compétition PARSEME 1.1 pour chaque langue, sur les
EPs inconnues. L’absence de pouvoir de généralisation représente l’enjeu principal pour nos deux
variantes.
Une première expérimentation visant à une meilleure généralisation a consisté à utiliser
sim-plement des plongements lexicaux pré-entraînés, mais cela s’est avéré malheureusement n’avoir
qu’un impact marginal. Pourtant, nous avons utilisé les plongements Fasttext, qui incluent des
plongements de sous-parties de mots, réputés avoir un bon pouvoir de généralisation.
L’utili-sation de plongements lexicaux contextuels, qui ont fait leurs preuves récemment en TAL, est
certainement à étudier, en particulier dans le cadre de l’identification d’EPs, où l’idiosyncrasie
peut se manifester par une différence de contexte entre occurrence idiosyncratique et occurrence
littérale.
Nous avons également évalué la robustesse de nos deux variantes et de notre méthode de
réglage, en les testant sur d’autres jeux de données, avec d’autres types d’EPs. Les résultats sont
mitigés : d’une part, on obtient que la variante linéaire est moins sensible au changement de
données. D’autre part, on obtient bien des résultats au niveau de l’état de l’art pour les EPs
du French Treebank (EPs de tout type grammatical, presqu’exclusivement continues), mais les
résultats sont décevants sur les données anglaises DiMSUM. Même si celles-ci ont un taux
rela-tivement haut d’EPs inconnues, les faibles performances obtenues exigent davantage d’analyse.
Chapitre 4
Réseaux de neurones contextuels pour
l’identification des EPs
Ce chapitre propose des réseaux de neurones visant à intégrer davantage de contexte que ne
le fait le MLP, qui n’utilise que quelques éléments ciblés de la configuration. Après la description
des modèles, le chapitre expose les détails de leur expérimentation, exclusivement sur les jeux de
données PARSEME 1.1.
La section 4.1 présente une simple extension du modèle MLP visant à intégrer davantage
d’éléments ciblés de la configuration. La section 4.2 décrit trois variantes d’un MLP s’appuyant
sur des couches récurrentes. La première variante (section 4.2.2) prend en compte le contexte
glo-bal de la phrase en exploitant la sortie d’une couche récurrente sur toute la phrase. La deuxième
variante (section 4.2.3) considère les éléments ciblés de la configuration comme une séquence
mo-délisée par une couche récurrente43. La troisième (section 4.2.4) représente les unités multitokens
de la pile avec des couches récurrentes. La section 4.3 présente une adaptation de l’architecture
de Kiperwasser et Goldberg (2016) qui a été conçue à l’origine pour l’analyse syntaxique en
dépendances. Ce modèle, appelé dorénavant modèle KG-2016, utilise un MLP classique alimenté
par les éléments ciblés de la configuration, plongés dans le contexte de la phrase en entrée, grâce
à une couche récurrente sur les tokens de la phrase et un mécanisme de sélection dynamique des
éléments ciblés par le MLP.
Nous détaillons section 4.4 le réglage de ces différentes variantes et donnons section 4.5 les
résultats de leur évaluation sur les jeux de tests de PARSEME 1.1. La section 4.6 fournit une
analyse de la performance pour différentes classes d’EPs (sur les jeux de développement). Enfin,
la section 4.7 présente un typage et une analyse des erreurs de ces variantes sur les mêmes jeux
de développement.
Le but de ces expérimentations est d’établir si ces variantes plus contextuelles permettent
une amélioration, dans le contexte d’un apprentissage avec relativement peu de données pour
un apprentissage profond (quelques centaines ou milliers d’occurrences d’EPs verbales) selon les
langues. Nous ne comparons que des modèles unitaires (non ensemblistes, i.e. sans empilement
comme présenté section 3.7).
4.1 MLP-Wide
Nous développons une extension du modèle MLP, dite MLP-Wide, dont l’entrée comprend
plus d’éléments que les seuls éléments ciblés44. MLP-Wide prend en entrée les éléments ciblés,
plus pour chacun les étiquettes morphosyntaxiques des tokens du voisinage linéaire de l’élément
ciblé (l’hyperparamètre Fenêtre de voisinage indique la taille de la fenêtre à considérer
au-tour d’un élément ciblé).
Outre la taille de la fenêtre, MLP-Wide utilise tous les hyperparamètres définis pour la
variante MLP, à l’exception des hyperparamètres du ré-échantillonnage avec seuil de fréquence
et la multiplication de la perte, exclus du réglage des variantes de ce chapitre.
Dans le document
Analyse automatique par transitions pour l'identification des expressions polylexicales
(Page 154-158)