Perspectives: création d’un système de TA à partir des ressources de THAM

CHAPITRE 1. TA ET THAM

1.2.3. Ajout ou intégration de TA à des systèmes de THAM

1.2.3.2. Perspectives: création d’un système de TA à partir des ressources de THAM

Avec la croissance importante des ressources de THAM (milliards de segments dans les MT), il est tendant créer un système de TA à partir de ces ressources. Pour le faire, on utilise bien autant l’approche probabiliste que l’approche experte. On va voir dans cette partie les méthodes de construction de tels systèmes.

1.2.3.2.1.Méthodes empiriques pour la création de systèmes de TA

1.2.3.2.1.1.TA probabiliste

L’idée de TA a été proposée en 1949 par [Weaver, 1949]. L’idée était alors de considérer la TA (russe-anglais) comme un « décodage » d’un message originellement anglais, qui aurait été « codé » en russe.

En 1990, cette approche a été réintroduite par le premier modèle de système de TA statistique [Brown et al., 1990] au centre de Recherche Thomas J.Watson d’IBM. L’idée était de traiter la traduction comme un problème de décryptage par la probabilité d’existence des chaînes de langue source (f) vers chaînes de langue cible (e) : p(e|f). Le théorème de Bayes établit que : p(e|f) = max p(f | e)*p(e), donc la traduction peut être formulée :

p(f |e) est la probabilité que la chaîne (f) se traduise en chaîne (e) pour un corpus bilingue donné et p(e) est la probabilité d’occurrence de la chaîne (e) dans la langue cible. Il y a des modèles variés basés sur les mots [Brown et al., 1993], les constituants [Wu, 1997], [Alshawi, Buchsbaum et Xia, 1997], [Kengo, Sato et Nakanishi, 1998] ou sur les contextes [Hermjakob et Mooney, 1997].

Au niveau des outils et systèmes réels pour la TA probabiliste, on peut distinguer les outils de préparation, les boites à outils complètes, les systèmes réels, et les scripts d’évaluation :

• Outils de préparation

o Outils de création de corpus : TextSTAT, AntConc, WordSmith (pour les corpus monolingues ou comparables), ParaConc (pour les corpus parallèles)

o Giza++ [Och et Ney, 2003] : outil d’entraînement des modèles d’IBM

o Uplug [Tiedemann, 1999] : outil d’alignement aux niveaux : mot, morceaux (chunk) et phrase

• Boîtes à outils complètes

o Pharaoh [Koehn, 2004] : décodeur pour le système de TA statistique basé sur phrases

o Moses [Moses, 2009] : outil de création d’un système de TA statistique avec un décodeur, un outil d’entraînement et de réglage pour tous les couples de langues ayant le corpus bilingue.

o Language Weaver [Language-Weaver, 2009] : boîte à outils commercialisée basée sur l’approche statistique.

• Systèmes réels

o CANDIDE [DellaPietra et DellaPietra, 1994]

o Google Translation [Google-Translation, 2009b]

• Scripts d’évaluation : BLEU, NIST, ORANGE, METEOR, ROUGE, WER, mWER 1.2.3.2.1.2.TA par l’exemple

L’idée de TA par l’exemple a été proposée par M.Nagao en 1984 [Nagao, 1984]. Selon lui, le principe de TA par l’exemple est la traduction par analogie basée sur un corpus bilingue de textes parallèles [Satoshi Sato et Nagao, 1990]. En fait, il s’agissait plutôt de TA par similarité (faisant intervenir 2 énoncés source, celui à traduire et un exemple similaire déjà traduit). La « vraie » traduction par analogie a été introduite par Y.Lepage [Y. Lepage et Denouel, 2005] et fait intervenir 4 énoncés source (celui à traduire et 3 autres) entre les quels existe une relation – toujours quaternaire – d’analogie. Quelques systèmes opérationnels de TA par l’exemple :

• Gaijin [Veale et Way, 1997]

• EDGAR [Carl, Way et Schäler, 2002]

• ReVerb [Collins et Cunningham, 1996]

• Guvenir & Cicekli [Cicekli et Guvenir, 2001]

• HPA/HPAT [Imamura, 2001] : TA par l’alignement des phrases en hiérarchie. Évaluation : 70% de traductions acceptées dans domaine de tourisme avec 170K phrases d’entraînement

• EBMT à Penang [Al-Adhaileh et Kong, 1999] : système de TA par l’exemple avec annotation sur la correspondance d’arbre-chaîne.

Pour construire directement un système de TA à partir des ressources de THAM, le processus est :

• Création d’un préprocesseur (souvent par l’approche experte) pour la langue source (codage, segmentation, lemmatisation, normalisation),

• Compilation des données (tables des différentes « modèles » à partir du corpus. Le temps de calcul non parallélisable est souvent longue sur une grande quantité de données (Moses prend des jours sur un PC pour créer un décodeur à partir du corpus WMT08 de 55K phrases).

On peut créer également certains composants d’un système de TA grâce au modèle de langue provenant de l’approche probabiliste comme les dictionnaires bilingues dans des systèmes de TA statistiques « experts ».

1.2.3.2.2.Avancées dans la TA « experte » avec dictionnaires et corpus communs

Les corpus utilisés en TA de l’écrit et de l’oral ont évolué, depuis les suites de test et les corpus d’essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d’annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de

granularité faible en TA « empirique », statistique ou fondée sur les exemples

[Boitet, 2007].

Un défi actuel est d’unifier et de mutualiser la gestion et la construction des corpus de TA afin de pouvoir avoir un ensemble de corpus spécifiques à des domaines utilisables en TA « empirique ». Avec une base lexicale centrale et mutualisée, on pourrait créer de tels systèmes, avec un coût relativement faible, mais utilisables dans des domaines spécifiques.

1.2.3.2.3.Création d’un système de TA « expert » à partir des ressources d’un système à MT

Parmi les idées actuelles sur l’implémentation d’un système de TA par l’exemple, nous en retenons deux. L’une est de partir des ressources de type « chaîne » comme Lingua&Machina le fait pour le système de MT Similis [Machina, 2008], l’autre est de partir de ressources arborescentes, comme proposé par Ch.Chenon [Chenon, 2005].

1.2.3.2.3.1.Similis, transformation de THAM en TA par l’exemple

Dans le but d’améliorer l’utilisation des MT, Emmanuel Planas propose de les analyser et de les structurer en « étages ». C’est le modèle TELA [Planas, 1998]. La Figure 11 montre un exemple de MT TELA à 7 étages.

Figure 11: 7 étages de TELA

Chaque étage4 est un treillis, dont les nœuds correspondent aux objets à

représenter pour cet étage. La notion de séquentialité est donc conservée et permet de voir les nœuds d’un chemin comme autant de successeurs. Les étages sont caractérisés par la profondeur d’analyse qu’ils représentent (caractères et entités, balises, texte comme suite de formes, lemmes, termes et fragments fréquents).

La correspondance entre les nœuds de chemins différents d’un même treillis ou entre deux treillis est donnée par des échelles linéaires. Quand il s’agit de relations complexes, comme par exemple la correspondance entre deux mots discontinus et un lemme, les liaisons permettent de les spécifier. L’ensemble des liaisons définit alors une relation de « correspondance » sur l’ensemble des treillis.

La structuration des données et l’emploi d’une distance de type distance d’édition permet d’affiner les algorithmes de recherche de segment, de transférer des formats et des objets non linguistiques en général, ainsi que de produire des propositions de traduction par substitution.

1.2.3.2.3.2.Construction d’un système de TA à partir d’amphigrammes

L’étude de la construction d’un système de TA à partir de connaissances linguistiques sous forme d’arbres est en cours. Par exemple, Liang Huang [Huang et al., 2008] propose un formalisme de « bigrammaires » hors contexte, en fait des amphigrammes étiquetés.

Dans sa thèse [Chenon, 2005], Christophe Chenon a proposé un nouveau formalisme TransTree permettant de modéliser des correspondances sous-phrastiques fines de phrases sources et leurs traductions dans la mémoire de traductions vue comme un corpus bilingue aligné.

Il a évoqué une possibilité de créer un système de TA par l’exemple en utilisant l’algorithme de Viterbi pour établir un arbre de dérivation avec la « grammaire » constituée par les amphigrammes génériques contenus dans la base de connaissances [réf. thèse Ch.Chenon, partie 3.3.2, pp. 156-158].

Un premier geste pour aider les traducteurs est de proposer des suggestions détectées sur des groupes de mots. La suggestion peut porter sur plusieurs niveaux comme dans la Figure 12. This task will show you how to change views

Dans cette tâche, vous apprendrez à changer les vues

Figure 12: Exemple de TransTree

La deuxième étape, si on a des ressources suffisantes en amphigrammes étiquetés, serait de construire un système de TA par l’exemple. À partir du corpus de TransTree, on pourrait utiliser un modèle d’apprentissage pour étiqueter les mots par des classes d’équivalence. Pour une phrase d’entrée à traduire, le processus de traduction est en fait un parcours optimal sur des occurrences dans la phrase à traduire dans l’ensemble des correspondances apprises. D’ailleurs, pour améliorer l’amphigramme, Vee Satayamas a développé un environnement interactif sur le Web [Satayamas, Boitet et Kawtrakul, 2007]

L’ensemble des ces deux études constitue bien une voie possible pour construire des systèmes de TA.

Conclusion

Après ce chapitre, on a étudié le phénomène de synergie entre TA et TH(AM). L’intégration des techniques de THAM dans des systèmes de TA rend le service de TA plus applicatif dans le contexte d’utilisation. L’intégration des composants provenant de la TA à la THAM rend le travail des traducteurs professionnels plus efficace. En plus, avec des ressources relativement suffisantes de THAM, on pourrait créer un système de TA experte avec un coût moins cher et modifiable.

Cette unification nous dirige vers une classe de systèmes de TA et TAO hydrides constitué de composants intégrés par plusieurs auteurs sur plusieurs niveaux. La technique et l’architecture logicielles de réalisation de tels systèmes nous intéressent, plus particulièrement dans le contexte où l’accès à l’information est ouvert et facile. Cette étude est en synergie avec la tendance de génie logiciel actuel.

Dans le document Des systèmes de TA homogènes aux systèmes de TAO hétérogènes (Page 31-36)