• Aucun résultat trouvé

Dans ce chapitre, nous avons observé que dans un système multilingue servant à traduire des paires de langues disposant de quantités de données différentes, les performances variaient. Les paires de langues moins dotées profitent du transfert des paires mieux dotées, et voient leurs performances augmenter grâce à cette co-habitation. À l’inverse, les paires mieux dotées subissent un transfert négatif par cette cohabitation avec des paires moins dotées.

Nous avons proposé une approche de parties spécifiques dans l’encodeur de notre système de traduction. Cette partie spécifique a pour but de spécifier une partie de l’encodeur à la paire de langues couramment traduite. Son objectif est de réserver un espace aux différentes paires de langues pour qu’elles profitent de la cohabitation avec les autres paires, tout en maintenant une partie qui leur est propre. Nous avons vu que cet espace a permis aux paires de langues mieux dotées de récupérer une partie des performances perdues par la cohabitation au sein du système multilingue. L’utilisation de partie spécifique est une réponse à la question « que transférer ? » (Pan and Yang,2010) dans le cadre de l’apprentissage par transfert multilingue.

4.6. Conclusions sur le transfert multilingue 57

Cette question est peu étudiée en transfert multilingue car l’utilisation même de sys-tème multilingue implique le partage de l’architecture. Notre proposition de partie spécifique reflète notre volonté de contrôler le partage au sein du système multi-lingue pour ne conserver que ses aspects bénéfiques.

Nos expériences nous ont montré qu’il n’est pas simple d’obtenir une configu-ration idéale où plusieurs paires de langues sont apprises, et dont l’apprentissage profite les unes aux autres. Il semblerait que de grandes architectures arrivent à obtenir ces contextes multilingues plus performants (Johnson et al.,2017;Conneau et al., 2020). En revanche, avec des architectures de dimensions plus modestes, ces résultats semblent hors d’atteinte.

Nous avons montré que les parties spécifiques sont une solution possible à ce problème, cependant, nous n’avons pas pu complètement effacer le transfert négatif. Une extension de l’approche de spécialisation des poids que nous avons employée dans l’encodeur pourrait être appliquée à l’ensemble des poids du système pour mieux conserver les performances de l’ensemble des paires de langues. Cette hypo-thèse pourra faire l’objet de prochains travaux.

CHAPITRE

5

TRANSFERT SÉQUENTIEL EN TRADUCTION

AUTOMATIQUE

5.1 Introduction

La seconde partie de nos expériences s’oriente sur les approches de traduction par transfert séquentiel. En traduction automatique, l’approche d’apprentissage par transfert séquentiel consiste à apprendre un système de traduction sur une paire de langues et ensuite de réutiliser ce modèle pour l’apprentissage d’une nouvelle paire. L’objectif est de capitaliser les connaissances acquises par le modèle « parent » et d’en faire bénéficier le modèle « enfant ».

Après s’être intéressé à l’état de l’art en transfert séquentiel (section3.2), nous formulons plusieurs hypothèses auxquelles nous allons essayer de répondre avec nos expériences.

Première hypothèse : Le gain en performance du système en-fant est dépendant de la quantité de données utilisée pour entraîner le modèle parent.

Dans le cadre où nous allons nous placer, les systèmes parents sont de langues différentes et disposent de quantités de données différentes. Nous voulons vérifier si les systèmes parents que nous utilisons disposent d’assez de données pour offrir un transfert améliorant les performances des systèmes enfants.

Seconde hypothèse : La proximité des langues est un critère important pour un transfert performant.

Les conclusions deKocmi and Bojar(2018) ont montré que la proximité des langues n’est pas un critère primordial pour un transfert de qualité. À l’inverse, Dabre

60 Chapitre 5. Transfert Séquentiel en Traduction Automatique

et al.(2017) concluaient que la proximité des langues est un facteur important car ils obtiennent de meilleures performances avec un transfert provenant de langues proches.

Les deux premières hypothèses (supportées par les travaux récents de Dabre et Kocmi) nous amènent à la troisième hypothèse suivante :

Troisième hypothèse : Les facteurs de quantité de données et de proximité des langues sont interdépendants et leur impact varie selon leurs associations.

La quantité de données du système parent et la proximité des langues seront les deux axes majeurs de notre étude sur l’impact du parent. Ainsi, nous supposons que, si peu de données sont disponibles, alors la proximité de la langue parent sera primordiale. À l’inverse, dans le cas où une grande quantité de données est disponible, la proximité de la langue sera un critère moins important. Nous allons vérifier l’impact de ces critères de façon isolée pour nos deux premières hypothèses. Nous cherchons maintenant à déterminer l’impact qu’ils ont l’un vis à vis de l’autre.

Quatrième hypothèse : La construction du vocabulaire est un levier pour améliorer le transfert.

Nguyen and Chiang (2017) et Kocmi and Bojar (2018) ont montré que l’utili-sation de sous-mots favorise le transfert entre le système parent et l’enfant. Étant donné que nous nous situons dans le cas où les paires de langues ne sont pas aussi bien fournies les unes que les autres, et que les algorithmes de découpage en sous-mots se basent sur les statistiques des corpus, cela pourrait désavantager les langues moins bien dotées.