• Aucun résultat trouvé

2. Qu’est-ce que la TA ?

2.6. Les différentes approches et différents systèmes

2.6.2. Systèmes basés sur les corpus

Les systèmes basés sur les corpus n’utilisent pas de données linguistiques pour produire une traduction, mais ils se basent sur des corpus bilingues en utilisant une approche statistique ou une approche basée sur l’exemple (Bouillon et Clas, 1993). Parmi les systèmes basés sur des corpus, il existe aussi depuis peu des systèmes qui utilisent des réseaux de neurones. Ces systèmes peuvent être fondés sur l’approche statistique classique ou sur une approche purement neuronale (Koehn, 2017). Nous verrons qu’il existe aussi des systèmes hybrides qui combinent plusieurs approches.

Systèmes basés sur l’exemple

Dans l’approche basée sur l’exemple, le système parcourt le corpus à la recherche de phrases ou de fragments de phrases très proches de la phrase source à traduire, autrement dit, des exemples de traduction. Il utilise ensuite ces segments et leur traduction comme modèles et les combine entre eux pour produire la phrase cible (Quah, 2006). Etant donné qu’il y a peu de

19 chance de trouver dans le corpus une phrase correspondant exactement à celle qu’il faut traduire, le système va devoir chercher des correspondances portant sur des petites parties de phrases et les exemples trouvés sont souvent très courts, ce qui complique l’étape de génération de la phrase cible. Le système va devoir combiner plusieurs segments qui ne sont pas forcément compatibles. De plus, il se peut qu’il y ait plusieurs exemples pour un même fragment de phrase et se pose alors la question de comment en choisir un (Poibeau, 2017).

Lorsqu’ils ont été développés, les systèmes basés sur l’exemple étaient majoritairement utilisés pour traduire entre des langues très éloignées (le japonais et l’anglais par exemple), car il permettait d’éviter d’avoir à formaliser des règles de transfert très compliquées pour développer des systèmes basés sur les règles. Ils donnaient aussi de meilleurs résultats pour la traduction de textes traitant de domaines très spécifiques (comme l’informatique) dans lesquels la terminologie est bien définie et les répétitions sont fréquentes (Poibeau, 2017).

Systèmes statistiques

Dans le cas de l’approche statistique, le système utilise des corpus pour trouver la phrase cible qui a le plus de probabilités d’être la traduction de la phrase source (Bouillon, 1993 : 13). Le système utilise un corpus bilingue pour créer un modèle statistique de traduction, ce modèle peut être vu comme une sorte de grand dictionnaire bilingue qui contient toutes les traductions possibles (contrairement à un dictionnaire bilingue classique, qui lui ne contient que les traductions très probables), chacune de ces traductions se voit assigner une probabilité en fonction de sa fréquence d’apparition dans le corpus (Hearne et Way, 2011). A l’aide d’un corpus monolingue (de la langue cible), le système crée aussi un modèle statistique de langue qui assigne des probabilités aux séquences de mots de la langue cible (appelées n-grammes) (Hearne et Way, 2011). Le système cherche ensuite parmi toutes les possibilités, la traduction qui dont la probabilité est la plus élevée selon le modèle de traduction et le modèle de langue (Hearne et Way, 2011). Nous présenterons les systèmes de TAS de manière plus approfondie dans la section 4.1.1.

Systèmes neuronaux

Les systèmes basés sur les réseaux de neurones peuvent avoir différents modes de fonctionnement. Les premiers systèmes faisant appel à des réseaux de neurones visaient à

20 intégrer des modèles neuronaux à des systèmes de traduction statistique classiques afin d’en améliorer les performances (Koehn, 2017).

D’autres approches visent à créer des systèmes de TA purement neuronaux (en anglais : pure neural machine translation) dont le fonctionnement ne repose plus sur les méthodes statistiques (Koehn, 2017 : 6). Différents modèles de traduction neuronale pure ont été proposés et la recherche dans ce domaine est très dynamique (Koehn, 2017). En théorie, les systèmes entièrement neuronaux sont capables d’apprendre à l’aide de corpus d’entrainement de manière entièrement autonome. Ils sont composés d’un encodeur qui analyse le corpus d’entrainement et d’un décodeur qui génère une traduction à partir des données analysées. L’encodeur et le décodeur sont entièrement composés de réseaux de neurones (Poibeau, 2017). Contrairement aux systèmes statistiques classiques, les systèmes neuronaux prennent en compte la phrase dans son ensemble sans la décomposer en plus petites unités (Poibeau, 2017). Ces systèmes de traduction neuronale sont très complexes et nous tenterons de les présenter de manière plus détaillée dans la section 4.2.1.

Systèmes hybrides

Parmi les systèmes basés sur des corpus, on trouve aussi des systèmes dits hybrides, qui combinent des éléments issus de systèmes basés sur des informations linguistiques et des systèmes basés sur les corpus. L’objectif est de concevoir des systèmes qui puissent tirer le meilleur des deux approches. Les systèmes hybrides peuvent par exemple combiner l’approche linguistique et l’approche basée sur la connaissance en utilisant une méthode linguistique pour traduire et une méthode statistique pour post-éditer automatiquement le résultat brut de la traduction. Il existe aussi des systèmes hybrides qui utilisent deux systèmes de TA en parallèle et qui combinent ensuite les résultats. D’autres sont conçus en ajoutant des composantes d’un système à un autre ou encore en combinant toutes les composantes de deux systèmes (Thurmair, 2009).

Conclusion

Dans cette partie, nous avons défini le domaine de la TA et nous avons retracé son évolution de ses débuts jusqu’à aujourd’hui. Nous avons vu que l’on peut classer les différents types de TA en fonction de la place du traducteur humain dans le processus et nous avons présenté

21 l’activité de post-édition. Cette partie nous a aussi permis de donner un aperçu des différents objectifs de la TA en fonction des utilisations à laquelle elle est destinée. Enfin, nous avons mentionné les différentes approches et les principaux types de systèmes de TA.

22