G ÉNÉRALITÉS SUR L ’ ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES
1.2 Alignement des textes parallèles
– Journal « Le Monde Diplomatique »
disponible en vingt-six langues dont le japonais.
Édition électronique en français :http://www.monde-diplomatique.fr/
Édition électronique en japonais :http://www.diplo.jp/
– Magazine « Label France » du Ministère des Affaires Étrangères
disponible en sept langues : français, allemand, espagnol, portugais, italien, russe, japonais.
(http://www.diplomatie.gouv.fr/label_france/index.html) – Documents du Sommet d’Évian 2003 (G8)
Texte en français : sur le site du sommet Évian (http://www.g8.fr/evian/francais)
Texte en japonais : sur le site du premier ministre
(http://www.kantei.go.jp/jp/koizumispeech/2003/06/02evian. html)
Souce de textes multilingues : anglais-japonais
– Rapports des Ministères
Certains ministères publient des Livres Blancs non seulement en japonais mais aussi en anglais, comme par exemple le Ministère de l’Économie, de l’Import/Export et de l’Industrie.
Rapports japonais : http://www.meti.go.jp/report/whitepaper/ index.html
Rapports anglais : http://www.meti.go.jp/english/report/index. html
– Journal Yomiuri
Les éditoriaux du quotidien Yomiuri et ceux de sa version anglaise Daily
Yomiuri peuvent constituer des textes parallèles.
Version japonaise :http://www.yomiuri.co.jp/
Version anglaise :http://www.yomiuri.co.jp/index-e.htm
Existe sur CD-ROM (http://www.ndk.co.jp/yomiuri/kijideta/ guidance/index.html)
– Scientific Americain et Nikkei science
Les articles de la revue américaine Scientific Americain et de sa version ja-ponaise Nikkei science sont utilisés pour l’évaluation d’un système d’aligne-ment développé dans un laboratoire de NTT. Mais les articles en japonais de
Nikkei science ne sont pas disponibles sur Internet.
1.2 Alignement des textes parallèles
Avant d’entrer dans la discussion sur l’alignement, nous allons tout d’abord présenter la terminologie que nous adoptons pour les données de l’alignement. Nous aborderons ensuite les hypothèses concernant la nature des textes
paral-1. GÉNÉRALITÉS SUR L’ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES
lèles, sur lesquelles la plupart des méthodes d’alignement de textes parallèles s’ap-puient. L’exposé se poursuivra par la définition de l’alignement, ainsi que celle de l’unité « phrase », première unité élémentaire de tous nos travaux présentés dans cette thèse.
1.2.1 Conventions terminologiques
Nous appellerons textes d’entrée les textes parallèles sur lesquels l’opération d’alignement est appliquée. Comme nous venons de le voir, les textes parallèles sont deux ou plusieurs textes, comprenant un texte original et son/ses traduc-tion(s). Nous désignons désormais le texte original des textes parallèles par texte
source et son/ses traduction(s) par texte(s) cible(s).
Lors de l’opération de comparaison, opération principale de tous les algo-rithmes d’alignement, un texte parmi les textes d’entrée sert de base. Toutefois, le choix du texte ne se réfère pas toujours au sens réel de la traduction. En d’autres termes, pour l’alignement des textes parallèles constitués d’un texte original en français et de sa traduction en anglais, le texte français n’est pas forcément utilisé comme base de l’opération. Ainsi, nous appellerons, indépendamment du sens de traduction, texte de base le texte servant de base et texte(s) en regard le(s) autre(s) texte(s) constituant les textes parallèles d’entrée.
Le terme de base peut également être utilisé pour d’autres éléments tels que
langue de base, phrase de base, qui servent, tout comme le texte de base, de base
à l’opération.
1.2.2 Hypothèse sur les textes parallèles : parallélisme
Langé & Gaussier (1995) ont défini le caractère de parallélisme des textes d’en-trée comme condition nécessaire à la réalisation automatique de l’alignement.
Le parallélisme peut être vérifié par deux caractères concrets des textes d’en-trée :
– quasi-bijectivité : toutes les phrases du texte source ont généralement un correspondant dans le texte cible ;
– quasi-monotonie : l’ordre des phrases cibles respecte en général celui des phrases sources.
Mais, la notion de « quasi- » montre la flexibilité de ces conditions. En effet, dans presque toutes les traductions, on constate des contre-exemples de ces prin-cipes de bijectivité et de monotonie. D’ailleurs, l’objectif des recherches les plus récentes est souvent l’amélioration de la robustesse des systèmes, afin de pouvoir traiter également de façon correcte les parties qui ne remplissent pas ces condi-tions de parallélisme.
1.2.3 Définition de l’alignement
À l’instar de la littérature publiée à ce jour, dans la présente thèse, un aligne-ment désigne à la fois une opération et son résultat. Au besoin, le premier est ap-34
1.2. Alignement des textes parallèles
pelé « opération d’alignement » et le second « résultat d’alignement » pour en pré-ciser la nature exacte.
Opération d’alignement L’opération d’alignement est un ensemble de
proces-sus qui reçoit comme données deux ou plusieurs textes Tl1,...,Tln rédigés dans différentes langues l1,...,ln et qui produit comme résultat une liste d’ensembles
L = {P1,...,Pm} constitués chacun d’un élément (El1 i ,...,Eln
j ) de chaque texte d’en-trée. Cet élément est une unité ou une séquence d’unités linguistiques, différente selon les programmes, telle que les phrases, les mots ou les unités intermédiaires comme les propositions.
Par cette définition, l’alignement et les éléments d’alignement sont de manière formelle définis comme suit :
Texte d’entrée Soient Tl le texte d’entrée, l la langue du texte d’entrée, ul l’unité composant le texte et k le nombre total (non nul) d’unités dans le texte. Tl est défini comme un ensemble ordonné de k unités ul :
Tl= {ul1,...,ulk}
Élément à aligner Soient El l’élément à aligner, n le nombre total d’éléments dans le texte (où 0 < n ≤ k), El est constitué d’une ou plusieurs unités ul apparte-nant à Tl.
Eil= {ulj|ulj∈ Tl∧ 1 ≤ j ≤ k}, avec 1 ≤ i ≤ n
C’est donc un sous-ensemble de Tl :
Eil⊂ Tl
Soit Fll’ensemble des éléments à aligner de Tl :
Fl = {Eil|Eil∈ Tl∧ 1 ≤ i ≤ n}
Toutes les unités appartenant au texte d’entrée doivent appartenir à un et un seul élément de Fl. Fl constitue donc une partition de Tl, et représente également le texte d’entrée mais segmenté de manière différente :
Tl=[n
i =1
Eli= Fl
Perle Soient Tl et Tm deux textes d’entrée à aligner écrits respectivement dans les langues l et m. On appelle perle1l’élément P résultant de l’alignement de deux
1Ce terme provient de la terminologie de Brown et al. (1991). Il est la traduction française de l’original en anglais bead.
1. GÉNÉRALITÉS SUR L’ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES
éléments à aligner de chacun des textes d’entrée. On la note :
Pilm= (Epl,Eqm) où Epl ∈ Fl
Eqm∈ Fm
Epl ou Eqmest éventuellement nul.
On distingue six types de perles selon six modèles de traduction (substitution, suppression, insertion, contraction, extension et fusion2) de la langue l vers la langue m :