• Aucun résultat trouvé

Détails techniques de la mise en œuvre

pour les configurations, avec l’objectif d’éviter le surapprentissage et la faible généralisation du

classifieur SVM de Al Saied et al. (2017).

Pour apprendre son classifieur, TRAPACC utilise tous les patrons de traits proposés par

Al Saied et al. (2017) et ajoute d’autres patrons de traits, tels que la taille du tampon, la

longueur des tokens, des 4-grammes et davantage de traits linguistiques tels que les étiquettes

morphosyntaxiques universelles et les traits morphologiques.

Stodden et al. (2018) présentent une autre variante de leur système, TRAPACCS, qui

pré-dit les transitions de façon légèrement différente de TRAPACC. TRAPACCS réduit le module

convolutionnel à une fonction d’extraction supervisée et connecte la couche dense intermédiaire

du module à un modèle SVM. Stodden et al. (2018) conclut toutefois que cette variante n’a pas

été aussi efficace que prévu. TRAPACC et TRAPACCS se classent troisièmes de la closed track

de la compétition internationale PARSEME 1.1.

6.3 Détails techniques de la mise en œuvre

Pour terminer, nous donnons les détails techniques de la mise en oeuvre de notre système

d’identification des EPs par transitions. Tout d’abord, nous utilisons le langage de

programma-tionpythonpour la mise en œuvre de nos expérimentations, ainsi que de multiples bibliothèques

logicielles pour faciliter le développement de nos modèles linéaires et de nos réseaux de

neu-rones. Le code des expérimentations de la thèse est disponible sur le sitegithubsous la licence

MIT53.Python est un langage de programmation interprété, placé sous une licence libre, doté

d’un typage dynamique fort, d’une gestion automatique de la mémoire et munis de nombreuses

bibliothèques open source pour l’apprentissage automatique et les réseaux de neurones. Ce

lan-gage favorise la programmation impérative structurée, fonctionnelle et orientée objet et offre aux

développeurs des outils de haut niveau d’abstraction et une syntaxe simple à utiliser.

Nos modèles linéaires et nos matrices creuses sont développés et gérés par des bibliothèques

comme Scikit-learn, Numpy et SciPy. Scikit-learn est une bibliothèque open source écrite en

python, développée par de nombreux contributeurs du monde académique, destinée à

l’apprentis-sage automatique et connu pour sa complémentarité avec des bibliothèques python open-source

telles que Numpy et SciPy. Cette bibliothèque comprend des modèles de régression logistique

et des mises en œuvre des algorithmes de classification et des machines à vecteurs de support.

SciPy et Numpy sont des bibliothèques open-source, écrites en python, destinées à traiter des

matrices ou tenseurs ainsi que des fonctions mathématiques opérant sur ces structures.

Tous nos réseaux de neurones, à l’exception de KG-2016, sont développés avec Keras et

Theano. Keras est une interface open source pour le développement des réseaux de neurones,

écrite en Python, capable de s’exécuter sur Theano et conçue pour permettre une expérimentation

fluide et rapide.Kerasest caractérisé par son interface user-friendly, modulaire et extensible et

offre des outils d’abstraction de haut niveau pour le développement des réseaux de neurones.

Keras a été développé par François Chollet et est intégré dans la bibliothèque principale de

TensorFlow.

Theanoest une bibliothèque écrite en python qui permet de définir, d’optimiser et d’évaluer

efficacement les expressions mathématiques, y compris les tenseurs. Theano est une plateforme

open source, principalement développée par l’institut de Montréal des algorithmes

d’appren-tissage de l’Université de Montréal. Cette plateforme est connue pour sa capacité à exploiter

les architectures de GPUs et pour son efficacité, sa robustesse et sa rapidité lors du calcul de

différenciations symboliques (« Symbolic Differentiation »).

Étant donné que Keras ne permet pas de développer assez facilement des structures

neuro-nales sophistiquées, notamment celles incluant la sélection dynamique d’éléments d’une couche

récurrente, comme cela est nécessaire avec le réseau KG-2016, nous utilisons une autre

biblio-thèque, appelée Pytorch. PyTorchest une bibliothèque open source, écrite en python, et basée

sur la bibliothèque Torch, développée par Facebook. Torch et son interface python permettent

d’effectuer les calculs tensoriels nécessaires pour l’apprentissage profond des réseaux de neurones

sur des « CPUs » ou sur des « GPUs ». PyTorch permet de manipuler les tenseurs, les

struc-tures neuronales et les algorithmes d’apprentissage, ce qui permet d’implémenter des strucstruc-tures

sophistiquées, plus facilement qu’en Keras.

Conclusion

Dans cette thèse, nous avons proposé une méthode d’identification des expressions

poly-lexicales en contexte, fondée sur une analyse automatique dite par transitions. L’analyse d’une

phrase préalablement segmentée en tokens se fait par une séquence de décisions locales,

appe-lées transitions, réalisées par un classifieur appris de manière principalement supervisée. Nous

avons proposé plusieurs jeux de transitions spécifiques à l’identification d’EPs, et avons exploré

plusieurs approches pour l’architecture et l’apprentissage de ce classifieur, en particulier un

mo-dèle linéaire de type machine à vecteur support, un perceptron multicouche, et des variantes

neuronales utilisant des couches récurrentes sur la séquence d’entrées.

Comparée aux autres méthodes de la littérature d’identification, notre méthode s’est montrée

performante, produisant les scores état de l’art pour de nombreuses langues des jeux de données

PARSEME 1.0 et PARSEME 1.1, centrés sur les expressions polylexicales verbales, et des scores

compétitifs sur le corpus FTB, pour le français. Elle peut traiter certains cas d’enchâssement

d’EPs, et a montré, pour toutes les variantes expérimentées, une forte capacité d’identification

d’EPs discontinues, et de formes constituant des variantes d’EPs vues dans le corpus

d’apprentis-sage. Cependant, la capacité d’identifier des EPs non vues dans le corpus d’apprentissage, c.à-d.

à généraliser, reste, comme pour la plupart des méthodes d’identification, très limitée.

Nous avons privilégié la mise au point de systèmes utilisant un hyperparamétrage robuste,

valable pour les différentes langues des jeux de données utilisés. Étant donné le nombre de langues

traitées (18 et 20 pour les données PARSEME 1.0 et PARSEME 1.1), et le nombre important

d’hyperparamètres pour les différentes architectures neuronales que nous avons proposées pour

le classifieur prédisant les transitions, notre thèse comporte une part expérimentale importante.

Nous avons particulièrement investigué quel ré-échantillonnage des données était le plus adapté à

la tâche, et mis l’accent sur la méthode de réglage des hyperparamètres. Nous avons proposé une

sélection de la combinaison d’hyperparamètres basée sur les tendances observées au sein d’une

recherche aléatoire dans un espace étendu de combinaisons.

Le scénario privilégié, pour la majeure partie de nos expériences, est l’identification d’EPs

utilisant des informations morphologiques mais pas d’informations syntaxiques ni de lexiques

externes. Nous avons cependant également investigué un apprentissage multitâche, réalisant

conjointement et tirant profit de l’étiquetage morphosyntaxique, l’identification d’EPs par

tran-sitions et l’analyse syntaxique en dépendances par trantran-sitions. Ce système, s’il donne des scores

peu compétitifs pour l’étiquetage et non compétitifs pour l’analyse syntaxique, donne des

résul-tats prometteurs pour la tâche d’identification, car il obtient nos meilleurs scores sur les EPs non

vues à l’apprentissage (Fg(eval-eps) = 23.5 versus 11.6 du MLP-Wide sur 13 langues).

De ce travail nous pouvons mettre en avant les observations suivantes :

— Pour notre participation à la compétition internationale PARSEME 1.0, notre système,

uniquement SVM à l’époque, a été classé premier pour la plupart des langues. Suite à

l’in-tégration d’architectures neuronales, les variantes les plus performantes sont finalement un

simple perceptron multicouche (MLP), en particulier la variante où l’on ajoute en entrée

les étiquettes morphosyntaxiques du contexte linéaire des éléments ciblés de la

configu-ration (variante MLP-Wide). Cependant, le modèle SVM2 a des scores très compétitifs

également. Alors que les variantes neuronales favorisent le rappel, SVM2 est caractérisé

par une meilleure précision, et est surtout très nettement moins sensible au réglage des

hyperparamètres et au déséquilibre entre classes à l’apprentissage et plus simple à régler.

— Les résultats de toutes les variantes de notre méthode ont obtenu des scores médiocres sur

les EPs non vues dans le corpus d’apprentissage, comme c’est le cas également pour les

systèmes état de l’art de la compétition internationale PARSEME 1.1. D’ailleurs, l’étude

des résultats en fonction de la langue des données PARSEME montre clairement une

cor-rélation très forte entre la proportion d’EPs vues à l’apprentissage et la performance des

systèmes, qui explique mieux les résultats que la taille des corpus d’entraînement. Cela

confirme que l’identification des EPs ne peut être améliorée qu’en intégrant des méthodes

de découverte de nouvelles EPs, que ce soit en utilisant des lexiques externes et/ou en

repérant des irrégularités de composition, par exploration de gros corpus, les EPs étant

caractérisées par une irrégularité à différents niveaux linguistiques (Savary et al., 2019).

— La rareté des EPs (en particulier verbales) comparativement aux tokens n’entrant pas dans

une EP donne une distribution déséquilibrée des transitions. Nous avons montré

qu’igno-rer à l’apprentissage les phrases ne contenant pas d’EPs et rééquilibqu’igno-rer aléatoirement la

distribution des transitions dans les exemples d’apprentissage est essentiel pour assurer la

stabilité et la performance de nos modèles neuronaux. Cette technique n’est pas du tout

nécessaire pour la variante linéaire (SVM2), et a un impact marginal.

— Pour le réglage des hyperparamètres d’un modèle, sélectionner la meilleure combinaison

s’est avéré moins efficace que sélectionner les valeurs « tendancielles » d’hyperparamètres,

i.e. majoritaires dans les kmeilleures combinaisons.

— Les résultats de nos variantes MLP-R-Sent, MLP-R-Stack2, MLP-R-Stack ont montré que

l’intégration « naïve » des couches récurrentes au sein d’un module MLP permet

d’aug-menter la généralisation de la méthode. Cependant, ce gain est contrebalancé par de moins

bonnes performances sur certaines classes formelles des EPs.

— L’utilisation de plongements lexicaux non contextuels préentraînés a eu des résultats

déce-vants pour notre modèle le plus performant (MLP), avec seulement une très légère

améliora-tion sur certaines langues. Par contre, leur utilisaaméliora-tion est systématiquement bénéfique pour

toutes nos variantes neuronales intégrant des couches récurrentes ou bien plus de contexte

pour les éléments ciblés. L’intégration de plongements lexicaux descendant au niveau de

sous-parties de mots n’a pas conduit à une amélioration significative pour la variante MLP.

— Une modification simple de nos jeux de transitions permet de catégoriser les EPs en plus

de les identifier, qui testée pour la variante SVM1 n’engendre pas de perte significative de

performance.

— L’architecture multitâche que nous proposons pour l’identification des EPs, l’étiquetage

morphosyntaxique et l’analyse syntaxique n’a certes pas permis d’améliorer l’identification

d’EPs dans son ensemble, mais l’une des variantes de cette architecture produit le meilleur

score sur la classe des EPs non vues à l’apprentissage.

1 Perspectives

Comme nous l’avons vu dans la section 3.5.3, l’intégration des plongements lexicaux

com-binant des représentations de sous-mots ne conduit pas à une amélioration significative de la

performance de la variante MLP de notre méthode. Durant notre thèse cependant sont apparus

des modèles de vecteurs contextuels de mots, comme Devlin et al. (2018); Peters et al. (2018),

ayant eu un fort retentissement sur de nombreuses tâches de TAL, dont l’analyse syntaxique par

transitions (Kulmizev et al., 2019b). Entraînés sur de très grands corpus et capables de

modéli-ser des caractéristiques syntaxiques et sémantiques complexes, ils sont applicables pour obtenir

des représentations contextualisées d’occurrences de mots. L’intégration de telles représentations

semble une piste pour améliorer en particulier la découverte d’EPs non vues à l’apprentissage,

pour lesquelles nos différentes variantes ont des performances médiocres.

L’utilisation de lexiques externes est une autre piste, ainsi que l’intégration de mesures

d’as-sociation, plus robustes, pouvant servir d’indices d’idiomaticité de combinaisons de tokens. Enfin,

de nouvelles architectures neuronales, telles que celles intégrant le mécanisme de l’autoattention

(self-attention), se sont révélées très efficaces pour des méthodes d’identification à base

d’étique-tage de séquences (Taslimipoor et Rohanian, 2018; Rohanian et al., 2019). Leur utilisation au

sein de notre système, formellement plus puissant, nous semble une piste prometteuse.

Par ailleurs, nous avons proposé un système robuste, traitant les différentes catégories d’EPs,

de différentes langues, avec le même hyperparamétrage. Cela dit, les résultats d’identification

d’EPs sont pour les différentes catégories linguistiques d’EPs. Il est ainsi envisageable de

décli-ner différents systèmes, ciblant différents types d’EPs. En particulier, il est possible de séparer

l’identification des EPs vues à l’apprentissage, pour lesquelles notre système MLP est très

per-formant, de l’identification d’EPs non vues, pour lesquelles certaines de nos variantes sont bien

meilleures.

Enfin, même si l’architecture multitâche que nous avons proposée pour l’apprentissage conjoint

de l’identification d’EPs, de l’étiquetage morphosyntaxique et de l’analyse syntaxique en

dépen-dances n’a pas permis d’améliorer la performance de notre méthode sur certaines langues de

PARSEME 1.1, il reste à étudier si d’autres architectures d’apprentissage conjoint

améliore-raient l’identification d’EPs, notamment si des tâches sémantiques, telles que l’étiquetage des

rôles sémantiques, sont ajoutées.