Les systèmes de traduction automatique - L'impact de l'ironie sur la traduction autom

2.2 Architectures

2.2.2 Les systèmes de traduction automatique

Afin de faciliter l’illustration des différents systèmes de TA, il nous paraît pertinent de nous arrêter un instant sur une représentation visuelle du procédé de la traduction automatique. Le triangle de Vauquois (Figure 1) est un schéma imaginé par Bernard Vauquois, mathématicien et informaticien français, représentant les différents niveaux d’analyse que peut effectuer un système pour passer d’une langue source à une langue cible (Trujillo, 1999).

Figure 1 : Le triangle de Vauquois (Trujillo, 1999).

La première chose que nous pouvons constater est que d’une part et de l’autre du triangle se trouvent la langue source (SL) et la langue cible (TL). La seconde est que le triangle est composé de plusieurs

éléments qui sont tous accompagnés de flèches. Ceux-ci représentent les trois étapes nécessaires, selon Vauquois, à la traduction automatique. La première étape étant l’analyse (analysis), la deuxième étant le transfert (transfer) et la dernière étant la génération (generation). Dans ce triangle, l’analyse et la génération ne sont présentes qu’une seule fois alors qu’il présente quatre sortes de transferts différents (si l’on prend en compte l’interlangue). Cela s’explique par le fait que le triangle ne fait pas que représenter les trois étapes de la traduction automatique, il présente aussi les différents niveaux d’analyse qu’un système peut effectuer. Nous présenterons ces différents systèmes dans la section ci-dessous mais il nous paraît tout de même pertinent de relever que ce schéma illustre une conception importante : plus on analyse finement la langue source, plus la phase de transfert sera facile – concept explicité par la longueur des flèches.

2.2.2.1 Les Systèmes Linguistiques (RBMT) : Il s’agit des premiers systèmes de traduction automatique

(dont l’apogée est les années 90) qui ont réussi à prouver leur efficacité et sont actuellement les seuls capables – pour les systèmes indirects - de faire de la traduction automatique de haute qualité (TAHQ).

Comme leur nom l’indique, ceux-ci ont été conçus comme étant linguistiques, c’est-à-dire que la grammaire d’une langue ainsi que son vocabulaire en sont une partie intégrante. Ceux-ci sont décrits par le triangle de Vauquois (Figure 1). Il existe deux types de systèmes linguistiques. Les systèmes directs et les systèmes indirects.

Les systèmes directs (ou minimalistes), pionniers de la traduction automatique, effectuent les traductions assez simplement (Bouillon, 1993).

Figure 2 : Le triangle de Vauquois : les systèmes directs (Saers, 2011).

En effet, comme représentés dans le triangle de Vauquois (Figure 2), leur niveau d’analyse est placé au plus bas puisque dans les faits, ils n’en font tout simplement pas. Composés uniquement d’un dictionnaire bilingue qui servira à effectuer la transformation, il n’y a ni une intervention de structures intermédiaires ni une analyse du texte source. La traduction sera donc uniquement basée sur ce dictionnaire bilingue et les informations qu’il contient. Pour reprendre les termes de Jurafsky, chaque entrée lexicale peut être considérée comme un petit programme informatique dont la seule fonction est de traduire « son » mot. Une fois qu’ils auront tous été traduits, ceux-ci pourront néanmoins être réorganisés aux moyens de règles simples afin, par exemple, d’organiser correctement les mots dans la phrase (Jurafsky et al., 2009). Ces systèmes directs sont devenus obsolètes pour plusieurs raisons. La plus évidente est que les résultats qu’ils proposent sont loin d’être satisfaisants. En effet, s’ils sont certes capables de réagir à des conditions simples le fait qu’ils n’aient aucune connaissance des structures grammaticales de la langue source ou de la langue cible les rend très vite impuissants (Jurafsky et al., 2009). De plus, il faut non seulement faire preuve d’une exhaustivité exemplaire, voire impossible, au moment d’entrer les mots dans le dictionnaire ; mais, en plus, les ressources demandées ne sont pas anodines : l’énergie et le temps nécessaire à la préparation de ces systèmes n’est pas négligeable et les rendent peu rentables. Finalement leur application à une seule paire de langue les rend moins intéressants actuellement. Il faut toutefois noter que l’idée de « transformation » est un concept qui est resté important dans les systèmes de traduction postérieurs.

Les systèmes indirects (ou maximalistes), quant à eux, sont l’évolution des systèmes directs puisqu’ils tentent de pallier aux défauts des précédents : plutôt que de munir le système d’un seul dictionnaire bilingue, celui-ci est désormais également équipé de connaissances contrastives (contrastive knowledge) entre les langues qu’il sera chargé de traduire. Les systèmes indirects peuvent se découper en deux types.

Figure 3 : Le triangle de Vauquois : les systèmes de transfert (Saez, 2011).

Le premier concerne les systèmes de transfert représentés ci-dessus dans le triangle de Vauquois (Figure 3). Ceux-ci suivent parfaitement les concepts sous-jacents de ce triangle puisqu’ils sont munis des trois phases qui le caractérisent. En effet, contrairement aux systèmes directs, les systèmes de transfert, comme leur nom l’indique, passeront après l’analyse du texte source par une phase de transfert avant la génération du texte cible. Cela est rendu possible grâce à l’ajout de deux éléments capitaux : les dictionnaires monolingues et les grammaires. En effet, en plus d’un dictionnaire bilingue – déjà présent dans les systèmes directs – les systèmes de transfert possèdent tous des dictionnaires monolingues respectivement pour la langue source et la langue cible. Ces dictionnaires permettent donc au système de ne plus passer directement d’une langue à une autre mais d’avoir une étape supplémentaire avant la génération de l’énoncé traduit en langue cible. Après avoir analysé le texte source, une procédure de transfert représente la phrase en langue source d’une manière abstraite (en arbre syntaxique). Ensuite, grâce à ses connaissances concernant la langue cible, le programme pourra finalement générer une traduction. En résumé, le programme passe donc d’abord du texte en langue source à une représentation de celui-ci, qui est ensuite convertie en une représentation de la langue cible.

Finalement, le programme génère le texte cible (Quah, 2006). Ces trois étapes utilisent une base de données lexicales et grammaticales sur lesquelles le système peut s’appuyer pour générer une traduction.

Ces deux approches, directes et indirectes avec transfert, sont donc résolument linguistiques, puisqu’elles mettent un accent considérable sur la grammaire et le vocabulaire des langues source et cible qu’elles essayent de représenter – bien que la syntaxe ne soit réellement présente que dans les systèmes de transfert. La solution la plus efficace est cependant de combiner les deux approches que nous venons de présenter, en munissant les systèmes de transfert de dictionnaires bilingues très riches (Jurafsky et al., 2009).

Ces systèmes, comme tous les systèmes actuels de traduction automatique, ont tout de même des limites : le vocabulaire est circonscrit à celui que les utilisateurs auront entré dans le programme ; quant à la grammaire, il est difficile (voire impossible) d’en rédiger une suffisamment exhaustive pour qu’elle couvre toutes les possibilités phrastiques de l’expression humaine. Finalement, l’un des problèmes majeurs de ces systèmes vient du fait qu’ils seront incapables de générer une phrase si la phase de transfert est mise à mal par une erreur dans les règles entrées.

La deuxième catégorie de systèmes indirects est dite par interlangue. Le concept de l’interlangue est qu’au moment de la phase de transfert, plutôt que de passer à une représentation en arbre syntaxique spécifique à la langue, de recourir à une représentation « universelle » et abstraite du langage - en excluant donc la langue en tant que telle.

Figure 4 : Le triangle de Vauquois : les systèmes par interlangue (Saers, 2011).

Cette idée prend sa source dans les recherches linguistiques des années 60 où les chercheurs tentaient d’identifier les points communs entre chaque langue (Quah, 2006). Le texte source est donc converti en

une représentation complètement abstraite qui capture toutes les informations syntaxiques et sémantiques essentielles du texte. Cela se constate dans le triangle de Vauquois ci-dessus (Figure 4) puisque la transformation de la langue en une abstraction universelle pendant la phase d’analyse supprime le besoin d’une phase de transfert. Cette abstraction est très utile puisque le texte peut ensuite être traduit dans un grand nombre de langues - contrairement aux approches citées précédemment qui sont limitées par les systèmes grammaticaux propres à chaque langage (Quah, 2011). Le problème de cette approche est justement de réussir à développer cette interlangue afin qu’elle puisse ensuite être déployée pour un maximum de langues. Il n’existe actuellement pas de méthodologie qui parvienne à la construction d’une véritable représentation non-langagière (Quah, 2011), bien que les systèmes neuronaux s’en rapprochent, comme nous le verrons lorsque nous tenterons de présenter ces systèmes.

2.2.2.2 Les systèmes basés sur les corpus : Il s’agit de systèmes de TA les plus récents : ils commencent

à prendre de l’ampleur à la fin des années 90 mais sont réellement démocratisés à l’aube du 21^ème siècle.

Ceux-ci ont une approche très différente des systèmes que nous avons évoqués précédemment puisque ceux-ci : « rejettent, partiellement ou totalement, l’approche basée sur les règles. » (Somers, 1993).

Ainsi, leur idéologie sous-jacente est plus de se baser sur le résultat que sur le processus (Jurafsky et al., 2009). L’on abandonne ainsi l’idée de donner des connaissances monolingues et contrastives au système.

D’après la classification de Quah (2006), il existe deux catégories de systèmes basés sur des corpus. Les systèmes statistiques et les systèmes basés sur les exemples. Nous tâcherons de définir les premiers avant de nous intéresser aux seconds. Son livre datant de 2006, Quah ne fait pas mention d’une troisième catégorie proposée en 2014 par Cho et al. : les systèmes neuronaux. Ceux-ci fonctionnent également avec des corpus mais au vu des différences notables dans leur architecture, nous leur réservons une partie à part à la fin de cette section.

Les systèmes statistiques (SMT), comme leur nom l’indique, ne s’appuient pas sur des connaissances linguistiques mais fonctionnent en recherchant les occurrences des mots qu’ils ont à traduire ainsi que leur contexte dans des corpus souvent composés de traduction de référence, sur lesquels ils se seront

entraînés au préalable. C’est en comparant les divers résultats qu’ils auront obtenus qu’ils essayeront ensuite de définir quelle est la phrase qui sera la plus probable d’un point de vue statistique :

« Statistical MT is the name for a class of approaches that do just this [maximize some value function that represents the importance of both faithfulness and fluency] by building probabilistic models of faithfulness and fluency and then combining these models to choose the most probable translation» (Jurafsky et al., 2009).

Figure 5 : Le Triangle de Vauquois - les systèmes statistiques³.

Ces approches sont résolument éloignées de la proposition théorique de Vauquois (Figure 5). Toutefois, celle-ci est tout de même utile pour faciliter la compréhension de ces systèmes, par contraste. En effet, l’on peut d’ores et déjà constater que ces systèmes n’ont pas de phase d’analyse. Cela s’explique évidemment par le fait qu’il n’y ait plus de connaissances linguistiques. Quant à la phase de transfert, celle-ci ne sert pas à la création d’un squelette syntaxique de la phrase en langue source puis cible, mais trouvera plusieurs possibilités de traductions parmi lesquelles le système sera chargé de choisir. Pour cela, c’est à dire pour qu’un système statistique soit capable de faire ce choix, celui-ci doit être entraîné.

Cet entraînement est composé de deux phases (qui ne sont pas effectuées conjointement). La première est l’alignement du corpus qui consiste à faire correspondre à chaque phrase du texte source sa traduction en texte cible. Afin de maximiser l’efficacité du système, ce corpus devrait être aussi grand que possible.

La deuxième phase est une phase de construction des deux modèles qui forment le système. Il s’agit du modèle de langue et du modèle de traduction ainsi que de leurs séquences.

3 SYSTRAN : http://blog.systransoft.com/how-does-neural-machine-translation-work/ [Consulté le 08 Avril

Après l’entraînement, le système sera en mesure de « prédire » (à l’aide de la théorie de Bayes) une traduction en se basant sur les deux modèles que celui-ci aura pu établir. En effet, celui-ci représentera la phrase en N-gramme. Le fonctionnement est le suivant : le programme va découper le texte source en N-grammes qui seront ensuite comparés au modèle de traduction. Le programme pourra ensuite tenter de choisir statistiquement, parmi les phrases qu’il aura générées, la phrase qui a la plus haute probabilité d’être correcte. Ce choix est rendu possible par la deuxième caractéristique des systèmes statistiques : en plus de la capacité du système à découper un texte et à générer grâce à un corpus différentes traductions possibles, ceux-ci possèdent un modèle de langue où sont stockées toutes les informations quant à celle-ci. Ce modèle sert à attribuer un score aux différentes possibilités de traduction pour trouver la plus probable parmi les possibilités qu’il aura extraites en utilisant les n-grammes (Koehn, 2011).

Finalement, les systèmes statistiques sont aussi pourvus d’une « table de réordonnencement » (reordering table) qui indique au système dans quel ordre les mots doivent être placés. Ce genre de systèmes est encore utilisé notamment sur Internet bien que ceux-ci se fassent petit à petit supplanter par les derniers systèmes basés sur les corpus en date : les systèmes neuronaux.

Les autres systèmes de traduction basés sur des corpus sont dits basés sur les exemples (example-based) Les éléments principaux de ces types de systèmes sont d’une part un corpus bilingue constitué de segments en langue source et en langue cible et d’autre part d’un algorithme qui sera capable de trouver, dans ce corpus bilingue, le segment le plus proche (l’exemple) du texte source et de le faire correspondre à son segment de texte cible. C’est sur cet exemple que sera basé la traduction. Le postulat de base est donc plutôt simple : afin de traduire une phrase, l’on cherchera d’anciennes traductions composées de phrases similaires à celle que l’on tente de traduire. L’idée sous-jacente est que beaucoup de traductions ne sont que des modifications d’anciennes traductions (Trujillo, 1999). La traduction sera donc opérée de la façon suivante : premièrement, le système cherchera à faire correspondre aux segments du nouveau texte d’autres paires bilingues et similaires existant déjà dans son corpus, puis, après avoir aligné les traductions de ces segments, il les combinera afin de générer une traduction. Le problème qui émerge de ces systèmes est celui que Jurafsky & Martin évoquent dans leur chapitre sur les N-grammes :

« language is creative; new sentences are created all the time, and we won’t always be able to count entire sentences. » (Jurafsky et al., 2018). Il est difficile pour ces systèmes de trouver les « exemples

parfaits » afin de générer la traduction. Ils ont donc tendance à devoir séparer les phrases en des fragments trop courts, ce qui, comme le note Harold Somers (Somers, 1999), affecte la qualité des traductions.

En conclusion, ces deux systèmes sont donc intéressants dans la mesure où ils permettent une plus grande flexibilité que les systèmes linguistiques puisque ceux-ci sont capables de s’adapter. Qui plus est, puisqu’ils se basent sur des corpus et donc des textes déjà existants, les traductions qu’ils produisent auront tendance à être plus idiomatiques. Toutefois, pour qu’elles puissent réellement être jugées comme étant satisfaisantes, elles doivent venir d’un système qui aura été entraîné - si possible – sur un sujet très spécifique et avec des corpus gigantesques, ce qui peut être un problème informatique en tant que tel.

Toutefois, s’ils nécessitent un matériel informatique puissant, les phases d’entraînement, elles, ne demandant que peu d’intervention humaine : ces systèmes sont donc moins couteux en termes d’énergie humaine que les systèmes linguistiques que nous avons présentés plus tôt.

Systèmes hybrides : Bien que nous ayons présenté les systèmes précédents séparément comme s’ils étaient des entités incompatibles les unes avec les autres, la réalité est bien différente. En effet, les approches linguistiques sont souvent coûteuses et ne parviennent parfois à ne produire que des résultats peu probants quand de nouvelles règles sont ajoutées. Quant aux approches statistiques, elles sont suffisamment flexibles pour parvenir à un résultat et ce même si l’énoncé n’a pas été prévu par le système. Ce résultat, néanmoins, pourra contenir des erreurs. Quah note que la recherche bornée d’une approche en éliminant les autres peut être une mauvaise idée et que la meilleure manière d’avancer dans la recherche est de combiner ces approches en systèmes hybrides (Quah, 2006). Ceux-ci permettraient de combiner des approches « corpus » (quelles soient statistiques ou basées sur des exemples…ou les deux) avec des connaissances linguistiques qui permettraient de prévenir des séries d’erreurs et qui amélioreraient la qualité des traductions (Koehn, 2011).

Les système neuronaux : Très récents et très complexes puisqu’ils se basent sur les théories de l’« apprentissage profond » (deep learning en anglais), ces systèmes sont actuellement sous le feu des

projecteurs⁴ grâce à leurs résultats dépassant ceux des systèmes évoqués précédemment. Nous tenterons donc d’expliquer leur fonctionnement et les principes qui les animent. Mais avant de pouvoir nous arrêter sur leurs particularités, il nous paraît pertinent de présenter d’abord le deep-learning qui est à la base de ces systèmes.

Nous le verrons plus en détail dans le bref historique mais, tout comme pour l’histoire de la Traduction Automatique, l’idée théorique du deep learning est née peu après la Seconde Guerre mondiale alors que les premiers « ordinateurs » voyaient le jour. L’idée de base est de créer une machine capable d’apprendre automatiquement et sans intervention humaine, afin que celle-ci puisse utiliser seule ses nouvelles connaissances. Ainsi, les ordinateurs seraient capables d’analyser des données et d’en ressortir des schémas qu’ils pourraient ensuite utiliser pour effectuer des prédictions (Hao, 2016). Comme nous l’avons déjà exposé plus tôt, c’est comme cela que les systèmes statistiques fonctionnent. Toutefois, à l’inverse des systèmes neuronaux, les systèmes statistiques (qui sont appelés des shallow models) ne possèdent qu’une seule « couche cachée » (hidden layer) d’analyse. Ces couches cachées multiples (et donc deep)– cœur des réseaux neuronaux – ne sont théorisées qu’en 2006 dans un article de Geoffrey Hinton qui pave la voie pour les réseaux dits neuronaux et donc le Deep Learning. Celui-ci déclare que, pour passer à une étape supérieure de l’intelligence artificielle, il faut tout d’abord donner aux machines plusieurs « niveaux d’analyses » et que ces différents niveaux d’analyse doivent pouvoir être entraînés afin d’aider la machine à apprendre. Ces deux postulats sont ceux qui ont permis à l’intelligence artificielle de faire un bond en matière de qualité, et ce dans de nombreux secteurs : la reconnaissance vocale, la reconnaissance d’images et, bien entendu, la traduction automatique. En résumé le deep learning utilise une cascade de niveaux d’unités de traitement non-linéaires, c’est-à-dire que les données peuvent se croiser ou s’influencer rétroactivement. La figure ci-dessous (Figure 6) est une représentation d’un réseau neuronal classique qui permet d’extraire - et à terme d’exploiter - les particularités des différentes couches (Hao, 2016). Cela permet aux ordinateurs d’apprendre grâce à une représentation hiérarchique des données où les particularités d’un niveau élevé seront dérivées de particularités des niveaux plus bas et plus abstraits (Goodfellow et al, 2016). Les outputs seront donc

4 https://omniscien.com/state-neural-machine-translation-nmt/ [Consulté le 11 Avril 2019]

dérivés par la computation des couches cachées ce qui est censé ressembler au processus neuronal des êtres vivants.⁵

Les systèmes neuronaux fonctionnent donc sur ces bases : ils sont composés de milliers d’unités artificielles qui ressemblent à des neurones humains, dans le sens que leur activation (qu’elle soit positive ou négative) dépend du stimulus qu’ils reçoivent. De plus, ces neurones sont groupés en couches cachées (et donc opaques à l’analyse) afin qu’ils puissent passer d’un input en langue source (dans le

Dans le document L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon (Page 18-32)