• Aucun résultat trouvé

2 La traduction automatique

2.3 Les systèmes de traduction automatique

2.3.2 Systèmes basés sur les corpus

L’approche basée sur les corpus était une solution aux problèmes liés à la limitation des dictionnaires bilingues des systèmes basés sur les règles (section 2.3.1). Ces systèmes se fondent sur l’utilisation de corpus parallèles. Ces derniers sont des textes alignés avec des exemples de traductions faites par des traducteurs humains. Nous allons

commencer par les deux systèmes pionniers qui sont les systèmes basés sur l’exemple (EBMT) à la section 2.3.2.1 et les systèmes statistiques (SMT) à la section 2.3.2.2, puis nous verrons les systèmes hybrides à la section 2.3.2.3 et, enfin, les plus récents, les systèmes neuronaux (NMT), à la section 2.3.2.4.

2.3.2.1.1 Systèmes basés sur l’exemple

Les systèmes basés sur l’exemple (ou example-based machine translation, EBMT) aussi appelés traduction par analogie, sont souvent comparés à la mémoire de traduction (translation memory, TM) (Somers, 1999). Bien que ces systèmes aient deux points communs en particulier, soit leur date de parution dans les années 80 et la réutilisation de traductions déjà existantes (ibid), ils sont pourtant bien différents. La TM est un outil d’aide pour le traducteur et l’EBMT est un outil de traduction essentiellement

automatique. Les systèmes basés sur l’exemple servent à enrichir les systèmes linguistiques et se basent sur des corpus parallèles (Bouillon et Clas, 1993).

Dans leur fonctionnement, les EBMT comportent trois phases distinctes : la

correspondance (matching) des fragments en se basant sur des données d'exemples réels, l’identification (alignment) des fragments correspondants et finalement la

recombinaison (recombination) des fragments qui donnera la phrase d’arrivée (Somers, 1999).

L’avantage des EBMT, et des approches basées sur les corpus en général, est qu’une fois que les techniques nécessaires ont été développées pour une paire de langue, les

systèmes de TA devraient pouvoir se développer facilement et rapidement pour de nouvelles paires de langues. De plus, ces systèmes n’ont pas besoin que l’on mette en place des règles manuellement, contrairement aux systèmes basés sur les règles (Okpor, 2014).

20 2.3.2.1.2 Systèmes statistiques

L’idée de concevoir des systèmes statistiques (SMT, Statistical Machine Translation) pour pallier les problèmes de traduction automatique remontent à un temps où les premiers ordinateurs n’existaient pas encore. Le manque de progrès technologique est à l’origine du manque de recherches à cette époque.

L’approche statistique des systèmes de TA nécessite deux étapes : l’entraînement et le décodage. Durant la phase d’entraînement, le système extrait un modèle de traduction à partir du corpus parallèle puis un modèle de la langue cible à partir d’un corpus

monolingue (Brown et al, 1990, 1993).

Pour trouver la phrase la plus probable dans la langue cible, la formule suivie par les SMT est celle du canal bruité (Hearne et Way, 2011) :

Dans cette formule, le modèle de la langue calcule les probabilités de la phrase d’arrivée P(T), le modèle de traduction calcule les probabilités pour chaque paire de phrases d’arrivée et de départ P(S|T) et le décodeur prend une phrase de départ S et en produit la meilleure phrase d’arrivée T selon le produit du modèle de traduction et de la langue (Jurafsky et Martin, 2014).

Le modèle de la langue va mesurer la probabilité qu’une séquence de mots puisse être prononcée par un locuteur anglophone (Koehn, 2009). Ce modèle va aussi être utile pour résoudre des problèmes difficiles quant à la traduction des mots et l’ordre dans lequel ils doivent apparaître dans la phrase. Un bon modèle de langue prendra la phase la plus probable selon un locuteur de langue maternelle. Pour illustrer son propos, Koehn (ibid) cite l’exemple suivant : « the house is small > small is the house » où le bon modèle de langue devrait assigner une probabilité plus haute à la première phrase.

Le modèle de traduction est plus complexe que le modèle de la langue (Van Gompel, 2009). La complexité réside dans le fait que, contrairement au modèle de la langue qui ne se concentre que sur une langue, le modèle de traduction doit concevoir les relations entre des mots ou phrases de deux langues différentes (ibid). Il existe deux types de

21 modèles différents : les modèles de traduction basés sur le mot et les modèles de

traduction basés sur la phrase, qui prennent en compte des segments.

Après la phase d’entraînement vient la phase de décodage où l’outil va procéder à la traduction. Pour ce faire, le décodeur choisit une traduction en sélectionnant la phrase dans la langue source où la probabilité est au maximum de produire la phrase cible (Brown et al., 1990). Dans la sélection de cette traduction, le décodeur a le choix entre un nombre exponentiel de possibilités. Cependant, il lui est impossible de choisir parmi toutes ces possibilités ; pour cela il devrait examiner chaque traduction possible, les évaluer puis choisir la meilleure traduction entre toutes celles disponibles, ce qui représente un coût computationnel bien trop élevé pour une phrase de longueur raisonnable (Koehn, 2009). Le décodeur a alors recours à plusieurs techniques différentes appelées « méthodes de recherche heuristique » pour effectuer ces recherches le plus efficacement possible (ibid).

Comme expliqué par Poibeau (2017), l’avantage des SMT est qu’ils sont capables de comprendre les équivalences entre les langues et, comme la signification des mots n’est pas un aspect formellement défini et correspond plutôt à la manière dont les mots sont utilisés, une approche purement statistique peut être très performante dans la

découverte de régularités dans la langue et dans des contextes spécifiques.

2.3.2.1.3 Systèmes hybrides

Les systèmes hybrides sont apparus en 1992, combinant les techniques basées sur les corpus et les techniques basées sur les règles (Somers, 1999). L’objectif est de tirer le meilleur des deux approches grâce à différentes façons de combiner les deux techniques.

Hutchins (2006, p. 16) explique qu’en 2002, Microsoft envisageait de combiner des méthodes des systèmes statistiques ou basés sur l’exemple avec des systèmes basés sur des règles, en particulier pour les analyses morphologique et syntaxique pour leur système hybride. D’autres types d’architectures sont également possibles, comme les différentes façons de coupler des systèmes de TA en parallèle ou en série pour améliorer la production de la traduction automatique (Thurmair, 2009).

2.3.2.1.4 Systèmes neuronaux

Toujours dans le but d’améliorer les performances et les résultats des systèmes de traduction automatique, les chercheurs ont commencé leurs études sur les réseaux

22 neuronaux au début des années 80. Cependant, comme pour les systèmes statistiques, la technologie de l’époque ne permettait pas d’approfondir les recherches et d’entraîner les systèmes avec des données exploitables, ce qui a causé une longue interruption dans l’évolution de cette stratégie. À la suite de cette interruption, ce sont tout d’abord les systèmes statistiques qui ont commencé par dominer le marché avant de plafonner au milieu des années 2010 (Traduction automatique, s. d.).

Aujourd’hui, les systèmes neuronaux (ou NMT, Neural Machine Translation) sont les systèmes de TA les plus récents. Ils présentent un avantage non négligeable pour la mise en pratique car, contrairement aux systèmes statistiques, les ressources en mémoire utilisée sont beaucoup moins exigeantes (Cho et al, 2014). Le point commun entre les SMT et les NMT est qu’ils sont entraînés par de grands corpus parallèles qui se

composent de plusieurs milliers voire millions de phrases traduites et alignées (Forcada, 2017).

La grande différence est que les systèmes NMT se basent uniquement sur des réseaux neuronaux. À l’origine, les réseaux neuronaux sont des outils computationnels

fondamentaux pour le traitement du langage. L’étymologie de cette technologie provient de la représentation simplifiée du modèle du neurone humain créé par McCulloch-Pitts (Jurafsky et Martin, 2014). Aujourd’hui, on définit un réseau neural lorsqu’il est composé de plusieurs petites unités computationnelles qui prennent chacune un vecteur d’entrée qui produisent un seul vecteur de sortie. L’utilisation d’un tel réseau est aussi appelée deep learning car ce sont des réseaux qui contiennent plusieurs couches différentes (ibid).

Les systèmes neuronaux en TA se basent sur le même principe que les réseaux neuronaux que nous venons de décrire et sont donc étroitement liés à l’intelligence artificielle. En ce qui concerne la TA, les NMT se caractérisent par le fait que le système ne reste plus au niveau des mots, mais représente le sens des mots ou de la phrase avec des plongements lexicaux. Ces plongements lexicaux sont une représentation numérique distribuée où chaque mot représenté prend en compte les mots à droite et à gauche de celui-ci dans le corpus (Forcada, 2017). Par ailleurs, cette représentation renvoie à l’hypothèse distributionnelle du linguiste John Rupert Firth (1957) : « You shall know a word by the company it keeps ».

23 Comme pour tous les systèmes de TA existants, les NMT ont besoin d’un entraînement qui peut durer plusieurs jours voire plusieurs mois (Forcada, 2017). Lors de cette phase, les processeurs graphiques qui sont chargés d’entraîner ces modèles vont modifier le poids des valeurs afin que les fonctions d’erreur et de perte, qui indiquent à quel point la TA est éloignée de la traduction de référence, soient aussi faibles que possible. Les systèmes neuronaux sont souvent entraînés dans le but de ressembler autant que possible à la traduction de référence (ibid).

En ce qui concerne l’impact des systèmes NMT sur le domaine de la traduction automatique, ces derniers ont très vite été reconnus dans le domaine pour leur supériorité en termes de performance face aux autres systèmes de TA déjà existants (Koehn et Knowles, 2017). À leurs débuts, les systèmes neuronaux avaient commencé avec l’intégration de modèles neuronaux du langage dans des systèmes statistiques (ibid, p. 5). La qualité générée par cette intégration était indéniable, en particulier en combinant le modèle de traduction et le modèle de la langue par Devlin et al. (2014). Par la suite, les recherches impliquant d’abord les systèmes statistiques ont été

complètement abandonnées et les nouveaux modèles se sont concentrés uniquement sur la traduction automatique neuronale (ibid). La méthode des plongements a également acquis la réputation d’avoir une qualité presque magique (ibid, p. 35).

Cependant, malgré les qualités indéniables de la TA neuronale en termes de

performance et de qualité de traduction automatique, les NMT ont aussi leurs limites, comme présentées dans l’étude de Koehn et Knowles (2017), qui visait à évaluer les systèmes neuronaux en les comparant aux systèmes statistiques traditionnels. Une de ces limitations est particulièrement intéressante pour le cadre de notre étude car elle concerne les problèmes de domain mismatch. Un défi connu dans le domaine de la traduction est que la signification des mots peut différer en fonction du domaine dans lequel ils sont utilisés (ibid) et les termes du langage naturel sont souvent trop ambigus pour les ordinateurs (Poibeau, 2017). Les résultats de l’étude de Koehn et Knowles (2017) démontrent que les systèmes statistiques présentaient de meilleurs résultats pour les termes provenant des domaines spécifiques, tels que le domaine juridique, le domaine médical ou le coran, et que les résultats des NMT sont parfois même

dramatiquement mauvais en termes de performance (ibid).