• Aucun résultat trouvé

Lors de nos expériences, nous avons comparé un système par transitions reposant sur un

modèle non linéaire (MLP) et un autre reposant sur un modèle linéaire (SVM2). Nous avons pu

nous rendre compte qu’ils étaient complémentaires sur certains aspects. Bien que le MLP soit

globalement plus performant que SVM2, le dernièr se montre plus performant sur les EPs non

vues dans le corpus d’apprentissage et sur les tokens polylexicaux. Nous proposons donc de les

combiner ensemble, en utilisant une méthode classique par empilement, dans le but d’améliorer

encore les performances en tenant compte de la complémentarité des deux systèmes.

L’empilement des modèles est une méthode d’apprentissage automatique qui consiste à

ali-menter un modèle par les prédictions d’autres modèles auxiliaires dans l’objectif d’améliorer la

performance du système (Ting et Witten, 1999). Nous appliquons la technique d’empilement

sur nos deux modèles. Au début, nous transformons le modèle linéaire en un modèle auxiliaire

alimentant le modèle MLP avec ses prédictions. En d’autres termes, le modèle MLP nourrit sa

couche dense avec un vecteur creux supplémentaire d’entrée. Ce vecteur représente les prédictions

du modèle linéaire pour la configuration en cours de traitement.

Afin d’entraîner les modèles linéaires, nous utilisons la technique du jackknifing à 5 plis,

c’est-à-dire, nous entraînons cinq modèles linéaires, chacun sur 4/5 du jeu d’entraînement. Pour générer

le vecteur supplémentaire d’entrée pour les configurations d’une phrase, nous devons sélectionner

le modèle linéaire qui n’a pas été entraîné sur la même phrase. Au moment de l’analyse, nous

utilisons un SVM, appris sur le jeu complet des données d’apprentissage, pour générer le vecteur

d’entrée supplémentaire pour chaque configuration des phrases du test.

Nous avons également développé le modèle inverse, c’est-à-dire, nous utilisons les prédictions

des modèles MLP comme un trait supplémentaire lors de l’extraction des traits du modèle SVM2.

Ces traits supplémentaires indiquent la prédiction du modèle MLP pour chaque configuration,

dans l’objectif d’enrichir l’ensemble de traits et d’aider le modèle linéaire à produire de meilleures

prédictions. Il convient de noter que la même procédure de jackknifing est utilisée pour entraîner

les modèles MLPs.

3.7.1 Expérimentation et résultats d’identification

Étant donné que le temps d’apprentissage de tels modèles se multiplie, nous ne lançons pas

la procédure de réglage des hyperparamètres pour ces modèles et utilisons donc les

combinai-sons d’hyperparamètres résultant du précédent réglage des hyperparamètres pour le MLP et

SVM2 pris isolément. Ainsi, le modèle principal du MLPSV M2 et le modèle MLP auxiliaire de

SV M2M LP utilisent la combinaison de tendances (CT) du MLP seul en configuration closed

track. Le modèles SVM auxiliaires du MLPSV M2 et le modèle principal duSV M2M LP utilisent

la combinaison la plus performante (CPP) issue du réglage des hyperparamètres de SVM2 seul.

Nous présentons les résultats des deux modèles,M LPSV M2 etSV M2M LP, sur les jeux de test

3.8. Résumé

de PARSEME 1.1 (voir tableau 3.13). Ce tableau montre que ces variantes qui requièrent une

augmentation importante du temps d’entraînement, ne montrent pas une amélioration

significa-tive de la performance de notre système sur les jeux de données de PARSEME 1.1. Tout d’abord,

SV M2M LP connaît une légère baisse de performance par rapport à MLP (1,2 point de moins).

Ensuite,M LPSV M2 permet au système de légèrement surpasser le scoreFg de la variante MLP

(0,4 point) en produisant un rappel plus élevé (2,2 points). Par ailleurs,M LPSV M2 montre que

l’augmentation importante du rappel (2,2 points) par rapport à MLP est contre-balancée par

une baisse importante de la précision (3,6 points). L’absence d’un réglage spécial des

hyperpa-ramètres des deux modèles d’empilement peut expliquer en partie l’incapacité de ces modèles à

battre la variante MLP de manière significative.

3.8 Résumé

Dans ce chapitre, nous présentons cette fois l’utilisation d’une méthode neuronale pour la

prédiction des transitions, au sein de notre analyseur par transitions pour l’identification d’EPs.

Nous utilisons cette fois le jeu de transitions plus aboutiT2, permettant d’analyser certains

cas d’enchâssement. Pour la définition des traits, nous nous plaçons dans un scénario où la

re-présentation syntaxique de la phrase n’est pas disponible. L’architecture du classifieur est un

perceptron multicouche (MLP), dont l’entrée est constituée de plongements vectoriels pour les

tokens et les étiquettes morphosyntaxiques de certains éléments « ciblés » de la configuration

cou-rante. Pour comparaison, nous entraînons également un classifieur SVM tel que décrit au chapitre

précédent, mais avec le jeu de transitionsT2, et des traits excluant les patrons syntaxiques.

Le chapitre décrit un travail expérimental conséquent, permettant de comparer la mise au

point et les performances du système avec classifieur MLP versus classifieur SVM. Nous avons,

en effet, décrit les méthodes et les résultats du réglage des hyperparamètres des deux variantes,

ainsi que l’expérimentation des deux variantes sur des jeux de données divers (PARSEME 1.1,

FTB et DiMSUM).

Il ressort en premier lieu que le modèle MLP ne fonctionne pas du tout sans ré-échantillonnage

des données. Nous avons sélectionné expérimentalement deux types de ré-échantillonnage :

l’ex-clusion de l’apprentissage des phrases sans EPs, et ré-échantillonnage aléatoire des exemples

d’ap-prentissage pour équilibrer les classes (les transitions, cf. les transitions responsables de

l’iden-tification d’EPs étant très rares par rapport aux autres). On vérifie qu’avec ré-échantillonnage,

la variation de performance en fonction des graines pour l’initialisation aléatoire des paramètres

est relativement faible, alors que sans ré-échantillonnage, l’apprentissage est très instable. Le

classifieur SVM est beaucoup plus robuste de ce point de vue, le ré-échantillonnage n’ayant pas

d’impact.

Devant la combinatoire très importante des valeurs possibles d’hyperparamètres, nous avons

tenté d’utiliser une méthodologie rigoureuse, d’abord (i) en sélectionnant trois langues pilote, et

en tronquant leur données d’entraînement pour se placer dans des conditions "moyennes"

d’ap-prentissage, ensuite (ii) en utilisant une recherche aléatoire de combinaison d’hyperparamètres

plutôt qu’une recherche en grille. Nous avons montré qu’au lieu de sélectionner comme

habi-tuellement la combinaison la plus performante sur jeux de développement, il est plus efficace de

sélectionner une combinaison de "tendances", en sélectionnant chaque valeur d’hyperparamètres

dans un ensemble de k meilleures combinaisons.

En termes de performance, comparées aux systèmes de PARSEME 1.1, nos deux variantes

produisent les scores état de l’art sur une bonne partie des langues de PARSEME 1.1 et des

per-formances très compétitives sur les langues restantes. Le système MLP est globalement meilleur

que SVM (Fg = 62,6 versusFg = 60,8), et que les résultats des participants à PARSEME 1.1

(Fg = 57,8), mais pas tout à fait pour toutes les langues. Nos deux variantes se montrent, par

ailleurs, complémentaires : la variante MLP a un meilleur rappel et une moins bonne précision

que SVM2. Cependant, un empilement des deux variantes ne permet pas d’améliorer les résultats

de manière significative.

Nous avons détaillé l’analyse de la performance des deux variantes en fonction de différentes

caractéristiques linguistiques et formelles des EPs, et des différentes langues des données

PAR-SEME 1.1. Le MLP est meilleur pour les EPs aussi bien continues que discontinues, mais pêche

pour les EPs à un seul token (apparaissant dans certains jeux de PARSEME). Il n’apparaît pas

de corrélation de la performance avec les catégories linguistiques des EPs verbales

(construc-tions à verbe support, verbes intrinsèquement réfléchi, etc...), ni directement avec la taille du

corpus d’apprentissage. En réalité, le facteur déterminant pour la performance est la

propor-tion des EPs vues à l’apprentissage (à l’identique, ou avec variapropor-tion morphologique ou variapropor-tion

d’ordre). En effet, notre système MLP s’avère très performant pour celles-ci, mais pratiquement

nul (FAV G = 1,3) pour repérer des EPs non vues, le SVM étant légèrement meilleur mais très

insuffisant (FAV G= 7,2), à comparer avec le score de 19,7, certes bas mais pas autant, obtenu

en considérant le meilleur score de la compétition PARSEME 1.1 pour chaque langue, sur les

EPs inconnues. L’absence de pouvoir de généralisation représente l’enjeu principal pour nos deux

variantes.

Une première expérimentation visant à une meilleure généralisation a consisté à utiliser

sim-plement des plongements lexicaux pré-entraînés, mais cela s’est avéré malheureusement n’avoir

qu’un impact marginal. Pourtant, nous avons utilisé les plongements Fasttext, qui incluent des

plongements de sous-parties de mots, réputés avoir un bon pouvoir de généralisation.

L’utili-sation de plongements lexicaux contextuels, qui ont fait leurs preuves récemment en TAL, est

certainement à étudier, en particulier dans le cadre de l’identification d’EPs, où l’idiosyncrasie

peut se manifester par une différence de contexte entre occurrence idiosyncratique et occurrence

littérale.

Nous avons également évalué la robustesse de nos deux variantes et de notre méthode de

réglage, en les testant sur d’autres jeux de données, avec d’autres types d’EPs. Les résultats sont

mitigés : d’une part, on obtient que la variante linéaire est moins sensible au changement de

données. D’autre part, on obtient bien des résultats au niveau de l’état de l’art pour les EPs

du French Treebank (EPs de tout type grammatical, presqu’exclusivement continues), mais les

résultats sont décevants sur les données anglaises DiMSUM. Même si celles-ci ont un taux

rela-tivement haut d’EPs inconnues, les faibles performances obtenues exigent davantage d’analyse.

Chapitre 4

Réseaux de neurones contextuels pour

l’identification des EPs

Ce chapitre propose des réseaux de neurones visant à intégrer davantage de contexte que ne

le fait le MLP, qui n’utilise que quelques éléments ciblés de la configuration. Après la description

des modèles, le chapitre expose les détails de leur expérimentation, exclusivement sur les jeux de

données PARSEME 1.1.

La section 4.1 présente une simple extension du modèle MLP visant à intégrer davantage

d’éléments ciblés de la configuration. La section 4.2 décrit trois variantes d’un MLP s’appuyant

sur des couches récurrentes. La première variante (section 4.2.2) prend en compte le contexte

glo-bal de la phrase en exploitant la sortie d’une couche récurrente sur toute la phrase. La deuxième

variante (section 4.2.3) considère les éléments ciblés de la configuration comme une séquence

mo-délisée par une couche récurrente43. La troisième (section 4.2.4) représente les unités multitokens

de la pile avec des couches récurrentes. La section 4.3 présente une adaptation de l’architecture

de Kiperwasser et Goldberg (2016) qui a été conçue à l’origine pour l’analyse syntaxique en

dépendances. Ce modèle, appelé dorénavant modèle KG-2016, utilise un MLP classique alimenté

par les éléments ciblés de la configuration, plongés dans le contexte de la phrase en entrée, grâce

à une couche récurrente sur les tokens de la phrase et un mécanisme de sélection dynamique des

éléments ciblés par le MLP.

Nous détaillons section 4.4 le réglage de ces différentes variantes et donnons section 4.5 les

résultats de leur évaluation sur les jeux de tests de PARSEME 1.1. La section 4.6 fournit une

analyse de la performance pour différentes classes d’EPs (sur les jeux de développement). Enfin,

la section 4.7 présente un typage et une analyse des erreurs de ces variantes sur les mêmes jeux

de développement.

Le but de ces expérimentations est d’établir si ces variantes plus contextuelles permettent

une amélioration, dans le contexte d’un apprentissage avec relativement peu de données pour

un apprentissage profond (quelques centaines ou milliers d’occurrences d’EPs verbales) selon les

langues. Nous ne comparons que des modèles unitaires (non ensemblistes, i.e. sans empilement

comme présenté section 3.7).

4.1 MLP-Wide

Nous développons une extension du modèle MLP, dite MLP-Wide, dont l’entrée comprend

plus d’éléments que les seuls éléments ciblés44. MLP-Wide prend en entrée les éléments ciblés,

plus pour chacun les étiquettes morphosyntaxiques des tokens du voisinage linéaire de l’élément

ciblé (l’hyperparamètre Fenêtre de voisinage indique la taille de la fenêtre à considérer

au-tour d’un élément ciblé).

Outre la taille de la fenêtre, MLP-Wide utilise tous les hyperparamètres définis pour la

variante MLP, à l’exception des hyperparamètres du ré-échantillonnage avec seuil de fréquence

et la multiplication de la perte, exclus du réglage des variantes de ce chapitre.