Alignement des textes parallèles - G ÉNÉRALITÉS SUR L ’ ALIGNEMENT AUTOMATIQUE DES TEXTES PARAL

G ÉNÉRALITÉS SUR L ’ ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES

1.2 Alignement des textes parallèles

– Journal « Le Monde Diplomatique »

disponible en vingt-six langues dont le japonais.

Édition électronique en français :http://www.monde-diplomatique.fr/

Édition électronique en japonais :http://www.diplo.jp/

– Magazine « Label France » du Ministère des Affaires Étrangères

disponible en sept langues : français, allemand, espagnol, portugais, italien, russe, japonais.

(http://www.diplomatie.gouv.fr/label_france/index.html) – Documents du Sommet d’Évian 2003 (G8)

Texte en français : sur le site du sommet Évian (http://www.g8.fr/evian/francais)

Texte en japonais : sur le site du premier ministre

(http://www.kantei.go.jp/jp/koizumispeech/2003/06/02evian. html)

Souce de textes multilingues : anglais-japonais

– Rapports des Ministères

Certains ministères publient des Livres Blancs non seulement en japonais mais aussi en anglais, comme par exemple le Ministère de l’Économie, de l’Import/Export et de l’Industrie.

Rapports japonais : http://www.meti.go.jp/report/whitepaper/ index.html

Rapports anglais : http://www.meti.go.jp/english/report/index. html

– Journal Yomiuri

Les éditoriaux du quotidien Yomiuri et ceux de sa version anglaise Daily

Yomiuri peuvent constituer des textes parallèles.

Version japonaise :http://www.yomiuri.co.jp/

Version anglaise :http://www.yomiuri.co.jp/index-e.htm

Existe sur CD-ROM (http://www.ndk.co.jp/yomiuri/kijideta/ guidance/index.html)

– Scientific Americain et Nikkei science

Les articles de la revue américaine Scientific Americain et de sa version ja-ponaise Nikkei science sont utilisés pour l’évaluation d’un système d’aligne-ment développé dans un laboratoire de NTT. Mais les articles en japonais de

Nikkei science ne sont pas disponibles sur Internet.

1.2 Alignement des textes parallèles

Avant d’entrer dans la discussion sur l’alignement, nous allons tout d’abord présenter la terminologie que nous adoptons pour les données de l’alignement. Nous aborderons ensuite les hypothèses concernant la nature des textes

paral-1. GÉNÉRALITÉS SUR L’ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES

lèles, sur lesquelles la plupart des méthodes d’alignement de textes parallèles s’ap-puient. L’exposé se poursuivra par la définition de l’alignement, ainsi que celle de l’unité « phrase », première unité élémentaire de tous nos travaux présentés dans cette thèse.

1.2.1 Conventions terminologiques

Nous appellerons textes d’entrée les textes parallèles sur lesquels l’opération d’alignement est appliquée. Comme nous venons de le voir, les textes parallèles sont deux ou plusieurs textes, comprenant un texte original et son/ses traduc-tion(s). Nous désignons désormais le texte original des textes parallèles par texte

source et son/ses traduction(s) par texte(s) cible(s).

Lors de l’opération de comparaison, opération principale de tous les algo-rithmes d’alignement, un texte parmi les textes d’entrée sert de base. Toutefois, le choix du texte ne se réfère pas toujours au sens réel de la traduction. En d’autres termes, pour l’alignement des textes parallèles constitués d’un texte original en français et de sa traduction en anglais, le texte français n’est pas forcément utilisé comme base de l’opération. Ainsi, nous appellerons, indépendamment du sens de traduction, texte de base le texte servant de base et texte(s) en regard le(s) autre(s) texte(s) constituant les textes parallèles d’entrée.

Le terme de base peut également être utilisé pour d’autres éléments tels que

langue de base, phrase de base, qui servent, tout comme le texte de base, de base

à l’opération.

1.2.2 Hypothèse sur les textes parallèles : parallélisme

Langé & Gaussier (1995) ont défini le caractère de parallélisme des textes d’en-trée comme condition nécessaire à la réalisation automatique de l’alignement.

Le parallélisme peut être vérifié par deux caractères concrets des textes d’en-trée :

– quasi-bijectivité : toutes les phrases du texte source ont généralement un correspondant dans le texte cible ;

– quasi-monotonie : l’ordre des phrases cibles respecte en général celui des phrases sources.

Mais, la notion de « quasi- » montre la flexibilité de ces conditions. En effet, dans presque toutes les traductions, on constate des contre-exemples de ces prin-cipes de bijectivité et de monotonie. D’ailleurs, l’objectif des recherches les plus récentes est souvent l’amélioration de la robustesse des systèmes, afin de pouvoir traiter également de façon correcte les parties qui ne remplissent pas ces condi-tions de parallélisme.

1.2.3 Définition de l’alignement

À l’instar de la littérature publiée à ce jour, dans la présente thèse, un aligne-ment désigne à la fois une opération et son résultat. Au besoin, le premier est ap-34

1.2. Alignement des textes parallèles

pelé « opération d’alignement » et le second « résultat d’alignement » pour en pré-ciser la nature exacte.

Opération d’alignement L’opération d’alignement est un ensemble de

proces-sus qui reçoit comme données deux ou plusieurs textes Tl1,...,Tln rédigés dans différentes langues l1,...,ln et qui produit comme résultat une liste d’ensembles

L = {P1,...,P_m} constitués chacun d’un élément (E^l1 i ,...,E^ln

j ) de chaque texte d’en-trée. Cet élément est une unité ou une séquence d’unités linguistiques, différente selon les programmes, telle que les phrases, les mots ou les unités intermédiaires comme les propositions.

Par cette définition, l’alignement et les éléments d’alignement sont de manière formelle définis comme suit :

Texte d’entrée Soient T^l le texte d’entrée, l la langue du texte d’entrée, u^l l’unité composant le texte et k le nombre total (non nul) d’unités dans le texte. T^l est défini comme un ensemble ordonné de k unités ul :

T^l_{= {u}^l₁,...,u^l_k}

Élément à aligner Soient El l’élément à aligner, n le nombre total d’éléments dans le texte (où 0 < n ≤ k), E^l est constitué d’une ou plusieurs unités u^l apparte-nant à T^l.

E_i^l_{= {u}^l_j_|u^l_j_{∈ T}^l_{∧ 1 ≤ j ≤ k}, avec 1 ≤ i ≤ n}

C’est donc un sous-ensemble de T^l :

E_i^l_{⊂ T}^l

Soit Fll’ensemble des éléments à aligner de Tl :

F^l _{= {E}_i^l_|E_i^l_{∈ T}^l_{∧ 1 ≤ i ≤ n}}

Toutes les unités appartenant au texte d’entrée doivent appartenir à un et un seul élément de Fl. Fl constitue donc une partition de Tl, et représente également le texte d’entrée mais segmenté de manière différente :

T^l₌^[ⁿ

i =1

E^l_i_{= F}^l

Perle Soient Tl et Tm deux textes d’entrée à aligner écrits respectivement dans les langues l et m. On appelle perle¹l’élément P résultant de l’alignement de deux

1Ce terme provient de la terminologie de Brown et al. (1991). Il est la traduction française de l’original en anglais bead.

1. GÉNÉRALITÉS SUR L’ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES

éléments à aligner de chacun des textes d’entrée. On la note :

P_i^lm_{= (E}_p^l,E_q^m) où E_p^l _{∈ F}^l

E_q^m_{∈ F}^m

E_p^l ou E_q^mest éventuellement nul.

On distingue six types de perles selon six modèles de traduction (substitution, suppression, insertion, contraction, extension et fusion²) de la langue l vers la langue m :

Dans le document Alignement automatique de textes parallèles Français-Japonais (Page 34-37)