Nous présentons dans cette section le cadre expérimental pour tester notre système
multi-tâche. La sous-section 5.3.1 présente la méthode du réglage des hyperparamètres, alors que la
sous-section 5.3.2 montre le mécanisme de la sélection des combinaisons d’hyperparamètres de
5.3. Cadre expérimental
tendances. La sous-section 5.3.4 définit les systèmes de base avec lesquels nous comparons les
résultats de nos expérimentations.
Avant de commencer, nous fixons des acronymes pour les différentes versions comparées, en
utilisant R pour réseau, puis E,I et/ou A selon les tâches qu’ils réalisent : E pour étiquetage
morphosyntaxique,Ipour identification d’EPs,Apour analyse syntaxique. AinsiREIAapprend
les trois tâches en même temps, REI apprend l’étiquetage et l’identification, RE, RI et RA
apprennent respectivement l’étiquetage, l’identification d’EPs et l’analyse syntaxique, isolément.
5.3.1 Réglage des hyperparamètres
Configuration Plage RE RI RA REI REIAg REIAi
Mo
du
le
partagé
lemmatisation {T, F} T T T T T T
Capitalisation {T, F} T T T T T T
Symbole {T, F} T T T T T T
Dim.(token) [25, 200] 69 89 80 83 84 86
Dim.(affixe) [5, 25] 13 13 12 13 12 12
Dim.(capit.) [1, 10] 3 3 3 3 4 4
Dim.(symbole) [5, 15] 9 9 9 8 9 9
#Neurones(dense) [25, 200] 89 87 80 90 79 82
Étiq.
Taille de batch [64, 256] 51 - - 39 138 141
Taux d’app. [.01, .2] .035 - - .04 .03 .029
Iden
tification
B1 {T. F} - T T T T T
Bx {T, F} - T T T T T
#Neurones(Ident) [25, 200] - 81 - 64 78 79
Taux d’app. [.01, .2] - .044 - .039 .015 .015
Taille de batch [16, 256] - 42 - 41 140 137
Syn
taxe
Dim.(Étiq. syn.) [5. 50] - - 19 - 20 19
#Neurones (Synt) [25, 200] - - 108 - 106 101
Taux d’app. [.01, .2] - - .022 - .012 .017
Époques d’init. {1, 2, 3} - - - 2 1 1
Taille de batch [64, 256] - - 83 - 128 134
Early Stop {T, F} - - T - 1 1
Delta [.005, .1] - - .02 - .036 .033
Moniteur {Perte, Préc.} - - Perte - 1 1
Table5.1 –Réglage des hyperparamètres : Un tableau des hyperparamètres utilisés dans
les différents réseaux neuronaux du chapitre. Chaque hyperparamètre est accompagné par la
plage de valeurs utilisée lors du réglage et ses valeurs dans les combinaisons CT des différents
réseaux. La plage de valeur prend la forme d’un domaine continu de valeur ([ ]) ou d’un ensemble
de valeurs discrètes { }. Pour rendre le tableau plus lisible, nous utilisonsT etF pour True et
False. La plage complète de taille de batch est {16, 32, 64, 96, 128, 256}. Il est à noter que la plage
de taux d’apprentissage de l’objectif syntaxique et la plage de taille de batch sont rétrécies pour
le réglage du réseau REIA à [.01, 0.05] et [64, 128, 256], dans l’objectif d’accélérer l’apprentissage
et réduire le temps du réglage.
Pour le réglage des hyperparamètres des réseaux définis dans ce chapitre, nous suivons la
même méthode de recherche aléatoire que celle suivie lors du réglage des hyperparamètres des
variantes neuronales (voir section 4.4), avec cependant un choix différent de langues pilotes pour
le réglage du réseau dédié à l’analyse syntaxique et le réseau intégral REIA. Dans ces deux cas, le
portugais et le turc ont été respectivement remplacés par l’espagnol et l’hébreu, qui respectent les
critères en termes de diversité des familles linguistiques et de la taille du jeu d’entraînement. Ce
changement des langues pilotes vise à utiliser des langues dont les annotations syntaxiques sont
prédites et non manuellement corrigées. Par conséquent, nous écartons le portugais qui dispose
d’un jeu d’entraînement dont les annotations syntaxiques sont partiellement gold. Le turc, à son
tour, est écarté à cause d’une difficulté technique, puisque le système de base (UDPipe) utilisé
pour l’analyse syntaxique en dépendances, n’arrive pas à entraîner son modèle sur les jeux de
données de cette langue49.
Impact du taux d’apprentissage :Lors de nos expériences préliminaires, nous avons constaté
que la valeur du taux d’apprentissage de l’objectif syntaxique joue un rôle crucial pour les
perfor-mances de l’analyseur syntaxique. La figure 5.3 montre qu’un score zéro est quasi systématique
avec un taux d’apprentissage supérieur à 0.08. Du coup, pour la recherche aléatoire nous avons
réduit la plage de valeurs pour cet hyperparamètre pour le réglage du module d’analyse
syn-taxique.
5.3.2 Sélection des combinaisons d’hyperparamètres
0,00
0,05
0,10
0,15
0,20
20,0 40,0 60,0 80,0
Figure5.3 –Analyse en dépendances - Impact du taux d’apprentissage Un graphique
des scoresFdes expériences du réglage des hyperparamètres du réseau syntaxique pour l’analyse
syntaxique en dépendances en fonction du taux d’apprentissage. En abscisses : scores moyens
Favg du RA, évalués sur les jeux de développement des langues pilotes. En ordonnées : valeurs
des taux d’apprentissage de chaque expérience.
49. L’outil UDPipe produit une erreur concernant la lisibilité des fichiers d’entraînement (« Cannot load training
data from file .., Node ID X form Y has too large head : Z ! »).
5.3. Cadre expérimental
Score Score Score
Variante ident. synt. étiq.
RI + -
-RE - - +
RA - +
-REI + -
-REIAi + -
-REIAg + + +
Table5.2 –Sélection des combinaisons - Scores : Choix des scores pour comparer les
com-binaisons d’hyperparamètres en fonction des variantes. Score ident. correspond à la moyenne
des scoresF(eval−eps) pour la tâche d’identification sur toutes les langues, sur les corpus de
développement. Score synt. correspond à la moyenne des scores UAS etLAS sur toutes les
langues. Score étiq. correspond à la moyenne des précisions d’étiquetage morphosyntaxiques
sur toutes les langues. Pour la variante REIAg, les trois scores sont sélectionnés : cela implique
que le score de comparaison est la moyenne des trois scores sélectionnés.
Pour sélectionner la meilleure combinaison d’hyperparamètres de chaque variante pour
l’éva-luation, nous comparons le score de la combinaison d’hyperparamètres la plus performante (CPP)
lors de la recherche aléatoire, avec le score de la combinaison d’hyperparamètres de tendances
(CT).
Étant donné que notre tâche cible est l’identification des EPs et que les autres tâches (analyse
syntaxique et étiquetage morphosyntaxique) sont considérées comme auxiliaires, le score
permet-tant de comparer deux combinaisons d’hyperparamètres est la moyenne des F-scores (eval – eps)
pour la tâche d’identification sur toutes les langues, sur les corpus de développement. Lorsque
le tâche d’identification n’est pas activée comme dans les variantes RE et RA, ce sont les scores
d’étiquetage (moyenne des précisions d’étiquetage sur toutes les langues) et ceux d’analyse
syn-taxique (moyenne des UAS et LAS50 sur toutes les langues) respectivement qui sont pris en
compte.
À des fins de comparaison, nous créons également une variante REIAg de REIA où l’on
considère les trois tâches comme des tâches cibles. C’est alors la moyenne de tous les scores
d’étiquetage, d’identification et d’analyse syntaxique qui sont considérés. Le tableau 5.2 récapitule
le score de comparaison des combinaisons d’hyperparamètres pour chaque variante.
Comme attendu, les combinaisons CT sont plus performantes que les combinaisons CPP pour
tous les réseaux. Le tableau 5.1 fournit une liste exhaustive des hyperparamètres utilisés dans
les différents réseaux de neurones. Chaque hyperparamètre du tableau est accompagné avec la
plage de ses valeurs possibles ainsi que la valeur optimale (de tendances) pour chaque réseau
de neurones. Le tableau permet de constater que les traits de capitalisation et de symboles sont
présents dans toutes les combinaisons d’hyperparamètres de tendances sélectionnées pour tous les
réseaux de neurones. De manière générale, nous constatons que les valeurs des hyperparamètres
de tendances tendent à converger sur tous les réseaux de neurones.
50. UASetLAScorrespondent à deux métriques utilisées pour évaluer l’analyse syntaxique en dépendances.
UAS(Unlabeled Attachment Score) correspond à la proportion de tokens qui ont été bien rattaché à la bonne
tête.LAS(Labeled Attachment Score) correspond à la proportion de tokens qui ont été bien rattaché à la bonne
tête avec la bonne étiquette de relation syntaxique.
5.3.3 Langues d’évaluation
Alors que nous exploitons les jeux de données PARSEME 1.1 dans nos expérimentations, nous
excluons six langues (l’anglais, le lituanien, le polonais, le slovène, l’hindi et le turc) de
l’évalua-tion pour tous les réseaux de neurones, puisque l’anglais et le polonais manquent d’homogénéité
dans leurs annotations morphosyntaxiques et syntaxiques (mélangeant annotations gold et
au-tomatiques), le lituanien n’a pas d’annotations syntaxiques et le slovène n’a pas d’annotations
morphosyntaxiques. Par ailleurs, nous écartons l’hindi et le turc parce que nous n’arrivons pas à
entraîner notre système de base (UDPipe) sur les fichiers d’entraînement de ces langues (l’outil
UDPipe produit une erreur concernant le chargement des fichiers d’entraînement). Par
consé-quent, l’ensemble de langues d’évaluation se limite à treize langues : le bulgare, l’allemand, le
grec, l’espagnol, le basque, le farsi, l’hébreu, le croate, le hongrois, l’italien, le portugais et le
roumain. Il est à noter que les jeux d’entraînement de ces langues sont constitués d’une majorité
d’arbres de dépendances projectives (95 %), à l’exception du basque (EU) et du hongrois (HU),
dont les phrases projectives ne représentent que 80 % de leurs jeux d’entraînement.
5.3.4 Systèmes de base
Nous utilisons l’outil UDPipe 2.0 comme système de base, avec lequel nous allons
compa-rer nos scores d’étiquetage morphosyntaxique, ainsi que nos scores d’analyse syntaxique. Nous
apprenons des modèles UDPipe 2.0 (Straka et Straková, 2017) sur les jeux d’entraînement des
langues d’évaluation et les évaluons sur leurs jeux de développement pour les tâches d’étiquetage
morphosyntaxique et d’analyse syntaxique. UDpipe est une boite à outils appliqués en pipeline,
capable d’apprendre des modèles pour la segmentation des phrases, l’analyse lexicale, l’étiquetage
morphosyntaxique, la lemmatisation et l’analyse en dépendances.
Quant à l’analyse syntaxique, l’outil utilise un système arc-standard avec un oracle
dyna-mique. cet outil désactive l’option (single_root) pour l’analyse syntaxique de certaines langues51,
pour permettre d’analyser des arbres avec plusieurs relations syntaxiques avec l’étiquette « root »
désignant la racine. Il est à noter que nous obligeons l’outil (lors de l’étiquetage et de l’analyse
syntaxique) à exploiter les annotations des jeux de données telles quelles (use_gold_tags=1), et
que nous utilisons les valeurs standards des autres hyperparamètres de l’outil.
Dans le document
Analyse automatique par transitions pour l'identification des expressions polylexicales
(Page 180-184)