Traduction automatique statistique - Constitution de ressources linguistiques multilingues à pa

3.2.1 Traduction statistique : mod`ele standard

Nous présentons dans cette section une vue d’ensemble des systèmes de traduction statistique. En fonction d’une distribution des probabilités P (e|f ), une phrase en langue source notée f et composée de i mots f1. . . fi est traduite en une phrase en

langue cible e et contenant j mots e1. . . ej. Historiquement, ce problème a été abordé

en le transformant par l’application de la règle de Bayes de la manière suivante : e∗ = arg max e P (e|f ) (3.1) = arg max e P (f |e)P (e) (3.2) Ce modèle est connu dans la littérature sous le nom de modèle de canal bruité (noisy chanel model) et décompose le problème en deux sous-problèmes plus simples

(équation3.2). D’un côté le développement d’un modèle de traduction P (f |e) estimé sur des corpus bilingues parallèles alignés au niveau de la phrase. Ce modèle de traduction sert de pont entre les langues source et cible. Son rôle est de guider la construction, pour chaque phrase source, d’un ensemble d’hypothèses de traduction en langue cible. De l’autre coté, le développement d’un modèle de langue P (e) dont le rôle est de guider la recherche des séquences de mots les plus probables en se basant sur des connaissances extraites d’un corpus monolingue de la langue cible. Cette modélisation doit concentrer sa probabilité sur les phrases grammaticales indépendamment de la phrase source. Un aper¸cu général du développement d’un système de TAS est représenté dans la figure 3.1.

Pour inverser l’équation 3.1, (Brown et al., 1993) supposent que la phrase à tra- duire f est grammaticalement bien formée et l’on souhaite construire une traduction e qui soit également bien formée. Le modèle de probabilité impliqué dans l’équation

3.1 doit être tel que pour toute phrase source f , il concentre la masse de probabilité sur des phrases en langue cible qui sont à la fois bien formées et qui sont des traductions de f . En plus de la justification théorique, le découplage réalisé par l’équation

3.2 présente un intérêt pratique puisqu’il sépare le problème de modélisation en deux sous problèmes indépendants (Gaussier et Yvon, 2011, chapitre 6, page 277).

3.2.2 Moses : TAS `a base de segments

Moses (Koehn et al., 2007) est un système de traduction libre, implémentant l’approche de traduction décrite dans la section précédente. Alors que les premiers systèmes de TAS travaillaient sur des mots, l’unité de traduction utilisée dans Moses est le segment (phrase en anglais), qui correspond à un groupe de mots contigus qui n’est pas forcément un syntagme au sens linguistique du terme. Le modèle de traduction rassemble donc un ensemble de bisegments en relation de traduction estimés à partir d’un corpus parallèle. Cette tâche est non-triviale et la constitution d’alignements sous-phrastiques à partir de phrases en relation de traduction nécessite des connaissances sur la traduction des unités qui composent ces phrases. La première étape consiste alors à construire des alignements de mots pour chaque paire de phrases, à l’aide d’un modèle d’alignement mot-à-mot. Cet alignement est construit pour le corpus parallèle dans les deux directions (source/cible et cible/source). En-

Corpus parallèle : f : je n'aime pas la glace au chocolat . e : i do not like chocolate ice cream .

Corpus parallèle : f : je n'aime pas la glace au chocolat . e : i do not like chocolate ice cream .

f : je n'aime pas la glace au chocolat . e : i do not like chocolate ice cream .

e : i do not like chocolate ice cream . f : je n'aime pas la glace au chocolat . f : je n'aime pas la glace au chocolat . e : i do not like chocolate ice cream .

e : i do not like chocolate ice cream . f : je n'aime pas la glace au chocolat .

glace au chocolat ||| chocolate ice cream ||| 0.82 0.21 0.81 0.29 2.71

glace au chocolat ||| chocolate ice cream ||| 0.82 0.21 0.81 0.29 2.71 Extraction et évaluation de bisegments Symétrisation

Alignement mot-à-mot

Figure 3.2: Vue d’ensemble du processus de construction de table de traduction. Cette figure est extraite de l’étude présentée dans (Gaussier et Yvon, 2011).

suite, pour les prendre simultan´ement en compte, il est courant d’utiliser des heuristiques de sym´etrisation, afin de produire un alignement unique.

Une première heuristique simple consiste à prendre l’union des deux alignements source/cible et cible/source. L’alignement résultant exploite au maximum les deux directions d’alignement, au risque de proposer des liens peu sûrs qui n’existent que pour une direction. Une deuxième heuristique consiste à sélectionner l’intersection des deux alignements d’entrée. Dans ce cas, les alignements obtenus sont plus fiables puisqu’ils sont identifiés dans les deux directions. (Och, 2003) propose différentes heuristiques dans le but de compléter l’alignement construit par l’intersection avec certains alignements figurant dans l’union.

Une fois que les deux alignements sont symétrisés, il reste à extraire et à évaluer l’ensemble de bisegments. L’extraction de bisegments repose sur des heuristiques d’extraction fondées sur la notion de cohérence d’un bisegment. L’évaluation d’un bisegment repose à la fois sur des statistiques accumulées sur l’ensemble du corpus parallèle

et sur l’exploitation du modèle d’alignement décrit dans la section précédente. Lors de la phase de décodage, ces hypothèses de traduction sont sélectionnées à partir d’un inventaire constitué d’un ensemble d’appariements entre des segments de longueur variable. Ces associations et les scores qui les accompagnent constituent la table de traduction (phrase table). La figure3.2décrit le processus de construction d’une table de traduction présenté dans (Gaussier et Yvon, 2011). Les cinq scores calculés pour chaque bisegments correspondent à :

1. la probabilit´e de traduction p(f |e)

2. la probabilité lexicale lex(f |e), qui évalue la qualité des alignements de mots qui constituent l’alignement d’un bi-segments.

3. la probabilit´e de traduction p(e|f ) 4. la probabilit´e lexicale lex(e|f )

5. la p´enalit´e d’apparition d’un segment (toujours exp(1) = 2.71). Ce chiffre fournit un moyen de s’assurer que les traductions ne sont pas trop longues ou trop courtes.

Dans le document Constitution de ressources linguistiques multilingues à partir de corpus de textes parallèles et comparables (Page 74-77)