• Aucun résultat trouvé

2. La traduction automatique

2.2 Les différents systèmes de traduction automatique

2.2.2 Les systèmes basés sur les corpus

Un corpus est « une collection de documents qui ont été rassemblés pour un usage en particulier » (Lacroix 2013). Les systèmes vus précédemment, directs et indirects, se basent sur des données linguistiques pour générer leurs traductions. Les systèmes basés sur les corpus partent du principe que, comme il est facile de se procurer des traductions déjà existantes, il est possible d’utiliser des corpus d’exemples de traduction connus pour produire une nouvelle traduction (Bouillon 1993, 16). La traduction automatique basée sur les corpus utilise ainsi principalement des corpus multilingues, dont on distingue deux types : les corpus parallèles (ou bilingues) et les corpus comparables (Prochasson 2009, 3). Les corpus parallèles sont des collections de textes source alignés au niveau de la phrase avec leurs traductions en langue cible (Afli, Barrault et al. 2012, 448). Les corpus comparables rassemblent des textes qui présentent des similitudes au niveau des informations qu’ils contiennent dans des langues différentes, mais qui ne sont pas des traductions (Prochasson 2009, 3).

Les systèmes basés sur les corpus se divisent en deux catégories : les systèmes basés sur l’exemple et les systèmes statistiques (Dajun and Yun 2015, 91), que nous allons décrire dans les parties suivantes.

2.2.2.1 Les systèmes basés sur l’exemple

Les systèmes basés sur l’exemple utilisent des exemples déjà existants pour générer une nouvelle traduction par analogie (Bouillon 1993, 16). Ils fonctionnent de la manière suivante : collecter un corpus parallèle puis utiliser un algorithme qui permette de trouver l’exemple le plus proche de la phrase source soumise (Arnold 1994, 188). Le processus se déroule en trois

17

étapes : le système commence par comparer les segments du texte source avec des segments du corpus bilingue. Il aligne ensuite les segments en langue cible des exemples sélectionnés dans le corpus bilingue pour construire des unités de traduction et finit par recombiner les parties en langue cible de ces unités de traduction pour générer une traduction de la phrase soumise.

(Gambier and Doorslaer 2010, 219)

Figure 5 : Schéma du processus de traduction d’un système basé sur l’exemple (Quah 2006, 81)

Ces systèmes n’effectuent aucune analyse grammaticale ou sémantique (Dajun and Yun 2015, 92). Ils ne reposent que sur la qualité et l’étendue des corpus utilisés. La qualité des traductions s’améliorera à mesure que la base de données du système sera complétée, ce dernier ayant accès à un éventail d’exemples de traductions plus vaste, sans qu’il y ait besoin de mettre à jour des règles grammaticales et lexicales (Arnold 1994, 190). La proximité entre les textes soumis au traducteur automatique et les textes du corpus bilingue joue un rôle prédominant dans la qualité des traductions. En effet, plus le thème du texte à traduire est proche de celui du corpus bilingue du système, plus la traduction sera de bonne qualité. A l’inverse, plus le thème abordé par la source sera éloigné des textes du corpus, plus les traductions seront mauvaises.

2.2.2.2 Les systèmes statistiques

Le processus de traduction des systèmes statistiques se résume à choisir le segment en langue source du corpus bilingue le plus proche du segment en langue source soumis au traducteur automatique en se basant sur les probabilités (Quah 2006, 80).

Le premier système statistique a été présenté par la société IBM autour de 1990. C’était le premier système capable de tirer des connaissances en traduction à partir d’un corpus sans

18

ajustement manuel de règles, ce qui était une révolution pour l’époque (Dajun and Yun 2015, 93). Les recherches se sont dès lors concentrées sur cette nouvelle technologie et ont bénéficié d’une période propice à son développement, jusqu’à l’arrivée des réseaux neuronaux aux alentours de 2016.

Figure 6 : Schéma du processus de traduction d’un système statistique (Quah 2006, 78)

Ces systèmes reposent sur l’apprentissage d’un modèle de langue à partir d’un corpus monolingue et d’un modèle de traduction à partir d’un corpus bilingue. L’apprentissage de ces modèles a pour but d’établir des correspondances entre des mots des langues source et cible (Afli 2010, 15). Le rôle du modèle de traduction est d’associer les segments en langue source avec leurs segments correspondants en langue cible (Quah 2006, 78). Il en existe deux types : les modèles basés sur les mots et les modèles basés sur les phrases (Koehn 2010). Les modèles basés sur les mots découpent la phrase en mots puis les traduisent selon la fréquence à laquelle ils sont traduits d’une telle manière dans le corpus parallèle. Les modèles basés sur les phrases commencent par diviser les textes en séquences de mots contigües appelées N-grammes, n étant le nombre de mots par séquence, avant de traduire séquence par séquence (Pestov 2018). Le rôle du modèle de langue est quant à lui de calculer la probabilité que le résultat obtenu suite à l’opération du modèle de traduction soit un segment correct en langue cible.

Les systèmes statistiques tirent leurs connaissances linguistiques exclusivement des corpus à leur disposition. Ces derniers sont donc d’une importance primordiale puisque leur qualité, leur quantité et le domaine qu’ils recouvrent vont influer directement sur la qualité des traductions (Dajun and Yun 2015, 93).

19

Un des avantages des systèmes statistiques est qu’ils peuvent être appliqués à de nouvelles paires de langue et à de nouveaux domaines sans qu’il y ait besoin de les adapter. Cependant, les corpus parallèles de bonne qualité ou les vastes données multilingues sont difficiles à trouver pour de nombreuses paires de langues, ce qui limite les possibilités effectives d’ajout (Arnold 1994, 193).

2.2.2.3 Les systèmes hybrides

Les systèmes basés sur l’exemple et statistiques ne s’étant pas avérés aussi supérieurs aux systèmes basés sur les règles qu’escompté, des chercheurs ont alors mis au point des systèmes hybrides en jouant sur les forces et les faiblesses des différentes architectures à leur disposition (Somers 2005). Les règles donnent en effet des directives de traductions et permettent de traduire des phrases encore inconnues du système. Elles permettent de produire plusieurs traductions possibles que la statistique pourra alors départager en vérifiant quelles versions ont été choisies par les traducteurs précédents (Goudet 2008). Certains systèmes ont ainsi inclus une approche basée sur l’exemple car elle résolvait particulièrement bien certains types de problèmes de traduction, que les systèmes basés sur les règles avaient de la peine à cerner.

D’autres systèmes hybrides ont rassemblé une analyse et une génération basées sur les règles avec un transfert basé sur l’exemple. Une troisième architecture hybride, particulièrement efficace pour traduire la langue parlée, basait son analyse sur une approche statistique tandis que le transfert et la génération se faisaient par une approche basée sur les règles (Somers 2005).