• Aucun résultat trouvé

3.2.1

Traduction statistique : mod`ele standard

Nous pr´esentons dans cette section une vue d’ensemble des syst`emes de traduction statistique. En fonction d’une distribution des probabilit´es P (e|f ), une phrase en langue source not´ee f et compos´ee de i mots f1. . . fi est traduite en une phrase en

langue cible e et contenant j mots e1. . . ej. Historiquement, ce probl`eme a ´et´e abord´e

en le transformant par l’application de la r`egle de Bayes de la mani`ere suivante : e∗ = arg max e P (e|f ) (3.1) = arg max e P (f |e)P (e) (3.2) Ce mod`ele est connu dans la litt´erature sous le nom de mod`ele de canal bruit´e (noisy chanel model) et d´ecompose le probl`eme en deux sous-probl`emes plus simples

(´equation3.2). D’un cˆot´e le d´eveloppement d’un mod`ele de traduction P (f |e) estim´e sur des corpus bilingues parall`eles align´es au niveau de la phrase. Ce mod`ele de traduc- tion sert de pont entre les langues source et cible. Son rˆole est de guider la construction, pour chaque phrase source, d’un ensemble d’hypoth`eses de traduction en langue cible. De l’autre cot´e, le d´eveloppement d’un mod`ele de langue P (e) dont le rˆole est de guider la recherche des s´equences de mots les plus probables en se basant sur des connais- sances extraites d’un corpus monolingue de la langue cible. Cette mod´elisation doit concentrer sa probabilit´e sur les phrases grammaticales ind´ependamment de la phrase source. Un aper¸cu g´en´eral du d´eveloppement d’un syst`eme de TAS est repr´esent´e dans la figure 3.1.

Pour inverser l’´equation 3.1, (Brown et al., 1993) supposent que la phrase `a tra- duire f est grammaticalement bien form´ee et l’on souhaite construire une traduction e qui soit ´egalement bien form´ee. Le mod`ele de probabilit´e impliqu´e dans l’´equation

3.1 doit ˆetre tel que pour toute phrase source f , il concentre la masse de probabilit´e sur des phrases en langue cible qui sont `a la fois bien form´ees et qui sont des traduc- tions de f . En plus de la justification th´eorique, le d´ecouplage r´ealis´e par l’´equation

3.2 pr´esente un int´erˆet pratique puisqu’il s´epare le probl`eme de mod´elisation en deux sous probl`emes ind´ependants (Gaussier et Yvon, 2011, chapitre 6, page 277).

3.2.2

Moses : TAS `a base de segments

Moses (Koehn et al., 2007) est un syst`eme de traduction libre, impl´ementant l’approche de traduction d´ecrite dans la section pr´ec´edente. Alors que les premiers syst`emes de TAS travaillaient sur des mots, l’unit´e de traduction utilis´ee dans Moses est le segment (phrase en anglais), qui correspond `a un groupe de mots contigus qui n’est pas forc´ement un syntagme au sens linguistique du terme. Le mod`ele de tra- duction rassemble donc un ensemble de bisegments en relation de traduction estim´es `a partir d’un corpus parall`ele. Cette tˆache est non-triviale et la constitution d’ali- gnements sous-phrastiques `a partir de phrases en relation de traduction n´ecessite des connaissances sur la traduction des unit´es qui composent ces phrases. La premi`ere ´etape consiste alors `a construire des alignements de mots pour chaque paire de phrases, `a l’aide d’un mod`ele d’alignement mot-`a-mot. Cet alignement est construit pour le corpus parall`ele dans les deux directions (source/cible et cible/source). En-

Corpus parallèle : f : je n'aime pas la glace au chocolat . e : i do not like chocolate ice cream .

Corpus parallèle : f : je n'aime pas la glace au chocolat . e : i do not like chocolate ice cream .

f : je n'aime pas la glace au chocolat . e : i do not like chocolate ice cream .

e : i do not like chocolate ice cream . f : je n'aime pas la glace au chocolat . f : je n'aime pas la glace au chocolat . e : i do not like chocolate ice cream .

e : i do not like chocolate ice cream . f : je n'aime pas la glace au chocolat .

glace au chocolat ||| chocolate ice cream ||| 0.82 0.21 0.81 0.29 2.71

glace au chocolat ||| chocolate ice cream ||| 0.82 0.21 0.81 0.29 2.71 Extraction et évaluation de bisegments Symétrisation

Alignement mot-à-mot

Figure 3.2: Vue d’ensemble du processus de construction de table de traduction. Cette figure est extraite de l’´etude pr´esent´ee dans (Gaussier et Yvon, 2011).

suite, pour les prendre simultan´ement en compte, il est courant d’utiliser des heuris- tiques de sym´etrisation, afin de produire un alignement unique.

Une premi`ere heuristique simple consiste `a prendre l’union des deux alignements source/cible et cible/source. L’alignement r´esultant exploite au maximum les deux directions d’alignement, au risque de proposer des liens peu sˆurs qui n’existent que pour une direction. Une deuxi`eme heuristique consiste `a s´electionner l’intersection des deux alignements d’entr´ee. Dans ce cas, les alignements obtenus sont plus fiables puisqu’ils sont identifi´es dans les deux directions. (Och, 2003) propose diff´erentes heuristiques dans le but de compl´eter l’alignement construit par l’intersection avec certains alignements figurant dans l’union.

Une fois que les deux alignements sont sym´etris´es, il reste `a extraire et `a ´evaluer l’ensemble de bisegments. L’extraction de bisegments repose sur des heuristiques d’ex- traction fond´ees sur la notion de coh´erence d’un bisegment. L’´evaluation d’un biseg- ment repose `a la fois sur des statistiques accumul´ees sur l’ensemble du corpus parall`ele

et sur l’exploitation du mod`ele d’alignement d´ecrit dans la section pr´ec´edente. Lors de la phase de d´ecodage, ces hypoth`eses de traduction sont s´electionn´ees `a partir d’un inventaire constitu´e d’un ensemble d’appariements entre des segments de longueur variable. Ces associations et les scores qui les accompagnent constituent la table de traduction (phrase table). La figure3.2d´ecrit le processus de construction d’une table de traduction pr´esent´e dans (Gaussier et Yvon, 2011). Les cinq scores calcul´es pour chaque bisegments correspondent `a :

1. la probabilit´e de traduction p(f |e)

2. la probabilit´e lexicale lex(f |e), qui ´evalue la qualit´e des alignements de mots qui constituent l’alignement d’un bi-segments.

3. la probabilit´e de traduction p(e|f ) 4. la probabilit´e lexicale lex(e|f )

5. la p´enalit´e d’apparition d’un segment (toujours exp(1) = 2.71). Ce chiffre fournit un moyen de s’assurer que les traductions ne sont pas trop longues ou trop courtes.