• Aucun résultat trouvé

Nous présentons dans cette section le cadre expérimental pour tester notre système

multi-tâche. La sous-section 5.3.1 présente la méthode du réglage des hyperparamètres, alors que la

sous-section 5.3.2 montre le mécanisme de la sélection des combinaisons d’hyperparamètres de

5.3. Cadre expérimental

tendances. La sous-section 5.3.4 définit les systèmes de base avec lesquels nous comparons les

résultats de nos expérimentations.

Avant de commencer, nous fixons des acronymes pour les différentes versions comparées, en

utilisant R pour réseau, puis E,I et/ou A selon les tâches qu’ils réalisent : E pour étiquetage

morphosyntaxique,Ipour identification d’EPs,Apour analyse syntaxique. AinsiREIAapprend

les trois tâches en même temps, REI apprend l’étiquetage et l’identification, RE, RI et RA

apprennent respectivement l’étiquetage, l’identification d’EPs et l’analyse syntaxique, isolément.

5.3.1 Réglage des hyperparamètres

Configuration Plage RE RI RA REI REIAg REIAi

Mo

du

le

partagé

lemmatisation {T, F} T T T T T T

Capitalisation {T, F} T T T T T T

Symbole {T, F} T T T T T T

Dim.(token) [25, 200] 69 89 80 83 84 86

Dim.(affixe) [5, 25] 13 13 12 13 12 12

Dim.(capit.) [1, 10] 3 3 3 3 4 4

Dim.(symbole) [5, 15] 9 9 9 8 9 9

#Neurones(dense) [25, 200] 89 87 80 90 79 82

Étiq.

Taille de batch [64, 256] 51 - - 39 138 141

Taux d’app. [.01, .2] .035 - - .04 .03 .029

Iden

tification

B1 {T. F} - T T T T T

Bx {T, F} - T T T T T

#Neurones(Ident) [25, 200] - 81 - 64 78 79

Taux d’app. [.01, .2] - .044 - .039 .015 .015

Taille de batch [16, 256] - 42 - 41 140 137

Syn

taxe

Dim.(Étiq. syn.) [5. 50] - - 19 - 20 19

#Neurones (Synt) [25, 200] - - 108 - 106 101

Taux d’app. [.01, .2] - - .022 - .012 .017

Époques d’init. {1, 2, 3} - - - 2 1 1

Taille de batch [64, 256] - - 83 - 128 134

Early Stop {T, F} - - T - 1 1

Delta [.005, .1] - - .02 - .036 .033

Moniteur {Perte, Préc.} - - Perte - 1 1

Table5.1 –Réglage des hyperparamètres : Un tableau des hyperparamètres utilisés dans

les différents réseaux neuronaux du chapitre. Chaque hyperparamètre est accompagné par la

plage de valeurs utilisée lors du réglage et ses valeurs dans les combinaisons CT des différents

réseaux. La plage de valeur prend la forme d’un domaine continu de valeur ([ ]) ou d’un ensemble

de valeurs discrètes { }. Pour rendre le tableau plus lisible, nous utilisonsT etF pour True et

False. La plage complète de taille de batch est {16, 32, 64, 96, 128, 256}. Il est à noter que la plage

de taux d’apprentissage de l’objectif syntaxique et la plage de taille de batch sont rétrécies pour

le réglage du réseau REIA à [.01, 0.05] et [64, 128, 256], dans l’objectif d’accélérer l’apprentissage

et réduire le temps du réglage.

Pour le réglage des hyperparamètres des réseaux définis dans ce chapitre, nous suivons la

même méthode de recherche aléatoire que celle suivie lors du réglage des hyperparamètres des

variantes neuronales (voir section 4.4), avec cependant un choix différent de langues pilotes pour

le réglage du réseau dédié à l’analyse syntaxique et le réseau intégral REIA. Dans ces deux cas, le

portugais et le turc ont été respectivement remplacés par l’espagnol et l’hébreu, qui respectent les

critères en termes de diversité des familles linguistiques et de la taille du jeu d’entraînement. Ce

changement des langues pilotes vise à utiliser des langues dont les annotations syntaxiques sont

prédites et non manuellement corrigées. Par conséquent, nous écartons le portugais qui dispose

d’un jeu d’entraînement dont les annotations syntaxiques sont partiellement gold. Le turc, à son

tour, est écarté à cause d’une difficulté technique, puisque le système de base (UDPipe) utilisé

pour l’analyse syntaxique en dépendances, n’arrive pas à entraîner son modèle sur les jeux de

données de cette langue49.

Impact du taux d’apprentissage :Lors de nos expériences préliminaires, nous avons constaté

que la valeur du taux d’apprentissage de l’objectif syntaxique joue un rôle crucial pour les

perfor-mances de l’analyseur syntaxique. La figure 5.3 montre qu’un score zéro est quasi systématique

avec un taux d’apprentissage supérieur à 0.08. Du coup, pour la recherche aléatoire nous avons

réduit la plage de valeurs pour cet hyperparamètre pour le réglage du module d’analyse

syn-taxique.

5.3.2 Sélection des combinaisons d’hyperparamètres

0,00

0,05

0,10

0,15

0,20

20,0 40,0 60,0 80,0

Figure5.3 –Analyse en dépendances - Impact du taux d’apprentissage Un graphique

des scoresFdes expériences du réglage des hyperparamètres du réseau syntaxique pour l’analyse

syntaxique en dépendances en fonction du taux d’apprentissage. En abscisses : scores moyens

Favg du RA, évalués sur les jeux de développement des langues pilotes. En ordonnées : valeurs

des taux d’apprentissage de chaque expérience.

49. L’outil UDPipe produit une erreur concernant la lisibilité des fichiers d’entraînement (« Cannot load training

data from file .., Node ID X form Y has too large head : Z ! »).

5.3. Cadre expérimental

Score Score Score

Variante ident. synt. étiq.

RI + -

-RE - - +

RA - +

-REI + -

-REIAi + -

-REIAg + + +

Table5.2 –Sélection des combinaisons - Scores : Choix des scores pour comparer les

com-binaisons d’hyperparamètres en fonction des variantes. Score ident. correspond à la moyenne

des scoresF(eval−eps) pour la tâche d’identification sur toutes les langues, sur les corpus de

développement. Score synt. correspond à la moyenne des scores UAS etLAS sur toutes les

langues. Score étiq. correspond à la moyenne des précisions d’étiquetage morphosyntaxiques

sur toutes les langues. Pour la variante REIAg, les trois scores sont sélectionnés : cela implique

que le score de comparaison est la moyenne des trois scores sélectionnés.

Pour sélectionner la meilleure combinaison d’hyperparamètres de chaque variante pour

l’éva-luation, nous comparons le score de la combinaison d’hyperparamètres la plus performante (CPP)

lors de la recherche aléatoire, avec le score de la combinaison d’hyperparamètres de tendances

(CT).

Étant donné que notre tâche cible est l’identification des EPs et que les autres tâches (analyse

syntaxique et étiquetage morphosyntaxique) sont considérées comme auxiliaires, le score

permet-tant de comparer deux combinaisons d’hyperparamètres est la moyenne des F-scores (eval – eps)

pour la tâche d’identification sur toutes les langues, sur les corpus de développement. Lorsque

le tâche d’identification n’est pas activée comme dans les variantes RE et RA, ce sont les scores

d’étiquetage (moyenne des précisions d’étiquetage sur toutes les langues) et ceux d’analyse

syn-taxique (moyenne des UAS et LAS50 sur toutes les langues) respectivement qui sont pris en

compte.

À des fins de comparaison, nous créons également une variante REIAg de REIA où l’on

considère les trois tâches comme des tâches cibles. C’est alors la moyenne de tous les scores

d’étiquetage, d’identification et d’analyse syntaxique qui sont considérés. Le tableau 5.2 récapitule

le score de comparaison des combinaisons d’hyperparamètres pour chaque variante.

Comme attendu, les combinaisons CT sont plus performantes que les combinaisons CPP pour

tous les réseaux. Le tableau 5.1 fournit une liste exhaustive des hyperparamètres utilisés dans

les différents réseaux de neurones. Chaque hyperparamètre du tableau est accompagné avec la

plage de ses valeurs possibles ainsi que la valeur optimale (de tendances) pour chaque réseau

de neurones. Le tableau permet de constater que les traits de capitalisation et de symboles sont

présents dans toutes les combinaisons d’hyperparamètres de tendances sélectionnées pour tous les

réseaux de neurones. De manière générale, nous constatons que les valeurs des hyperparamètres

de tendances tendent à converger sur tous les réseaux de neurones.

50. UASetLAScorrespondent à deux métriques utilisées pour évaluer l’analyse syntaxique en dépendances.

UAS(Unlabeled Attachment Score) correspond à la proportion de tokens qui ont été bien rattaché à la bonne

tête.LAS(Labeled Attachment Score) correspond à la proportion de tokens qui ont été bien rattaché à la bonne

tête avec la bonne étiquette de relation syntaxique.

5.3.3 Langues d’évaluation

Alors que nous exploitons les jeux de données PARSEME 1.1 dans nos expérimentations, nous

excluons six langues (l’anglais, le lituanien, le polonais, le slovène, l’hindi et le turc) de

l’évalua-tion pour tous les réseaux de neurones, puisque l’anglais et le polonais manquent d’homogénéité

dans leurs annotations morphosyntaxiques et syntaxiques (mélangeant annotations gold et

au-tomatiques), le lituanien n’a pas d’annotations syntaxiques et le slovène n’a pas d’annotations

morphosyntaxiques. Par ailleurs, nous écartons l’hindi et le turc parce que nous n’arrivons pas à

entraîner notre système de base (UDPipe) sur les fichiers d’entraînement de ces langues (l’outil

UDPipe produit une erreur concernant le chargement des fichiers d’entraînement). Par

consé-quent, l’ensemble de langues d’évaluation se limite à treize langues : le bulgare, l’allemand, le

grec, l’espagnol, le basque, le farsi, l’hébreu, le croate, le hongrois, l’italien, le portugais et le

roumain. Il est à noter que les jeux d’entraînement de ces langues sont constitués d’une majorité

d’arbres de dépendances projectives (95 %), à l’exception du basque (EU) et du hongrois (HU),

dont les phrases projectives ne représentent que 80 % de leurs jeux d’entraînement.

5.3.4 Systèmes de base

Nous utilisons l’outil UDPipe 2.0 comme système de base, avec lequel nous allons

compa-rer nos scores d’étiquetage morphosyntaxique, ainsi que nos scores d’analyse syntaxique. Nous

apprenons des modèles UDPipe 2.0 (Straka et Straková, 2017) sur les jeux d’entraînement des

langues d’évaluation et les évaluons sur leurs jeux de développement pour les tâches d’étiquetage

morphosyntaxique et d’analyse syntaxique. UDpipe est une boite à outils appliqués en pipeline,

capable d’apprendre des modèles pour la segmentation des phrases, l’analyse lexicale, l’étiquetage

morphosyntaxique, la lemmatisation et l’analyse en dépendances.

Quant à l’analyse syntaxique, l’outil utilise un système arc-standard avec un oracle

dyna-mique. cet outil désactive l’option (single_root) pour l’analyse syntaxique de certaines langues51,

pour permettre d’analyser des arbres avec plusieurs relations syntaxiques avec l’étiquette « root »

désignant la racine. Il est à noter que nous obligeons l’outil (lors de l’étiquetage et de l’analyse

syntaxique) à exploiter les annotations des jeux de données telles quelles (use_gold_tags=1), et

que nous utilisons les valeurs standards des autres hyperparamètres de l’outil.