• Aucun résultat trouvé

Ressources : textes parallèles

1 G ÉNÉRALITÉS SUR L ’ ALIGNEMENT

1.1 Ressources : textes parallèles

GÉNÉRALITÉS SUR LALIGNEMENT

AUTOMATIQUE DES TEXTES PARALLÈLES

Nous nous intéressons dans ce chapitre à l’ensemble des connaissances de base de l’alignement automatique en général. Pour commencer l’étude des géné-ralités, nous nous intéressons aux ressources de l’alignement : les corpus pa-rallèles (§ 1.1). Nous tenterons ensuite de cerner le concept d’alignement et quelque terminologie connexe (§ 1.2), avant d’aborder les principales applica-tions de cette opération (§ 1.3). L’étude se poursuivra par la typologie de l’ali-gnement (§ 1.4) pour déterminer différentes difficultés selon les classes. Enfin, la dernière partie du chapitre sera consacrée à la description des techniques d’alignement de tout type (§ 1.5).

1.1 Ressources : textes parallèles

Nous allons tout d’abord définir le terme « texte parallèle », que nous utilise-rons tout au long de la présente étude pour désigner les données mêmes de l’ali-gnement. Nous présenterons ensuite les caractéristiques et les problèmes de ces corpus, et finirons cette étude par un exposé sur la disponibilité des corpus paral-lèles notamment sur Internet.

1.1.1 Définition des termes : textes parallèles et comparables

Véronis consacre une des premières pages de son ouvrage «Parallel text pro-cessing» (Véronis, 2000c) à la définition du terme anglais «parallel text», source possible de confusion du fait de significations légèrement différentes selon le do-maine où cette terminologie est traditionnellement employée.

1. GÉNÉRALITÉS SUR L’ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES

Le terme équivalent en français,texte parallèle, semble également posséder l’ambiguïté présentée par Véronis pour l’anglais. Quoique, dans le domaine du traitement automatique des langues, le terme « textes parallèles » soit réservé pour désigner « deux ou plusieurs textes de langues différentes, comprenant un texte original et ses traductions », nous constatons parfois des emplois dans un sens proche de celui pour lequel les chercheurs en TAL réservent le termetextes

com-parables, qui fait référence à des textes de même domaine mais de langue

diffé-rente, l’un n’étant pas une traduction de l’autre.

Dans le cadre de la présente thèse, nous employons le terme « textes paral-lèles » selon l’usage traditionnel dans le domaine du TAL, à savoir « textes multi-lingues constitués d’un original et de ses traductions » et le distinguons précisé-ment du terme « textes comparables » désignant, lui, un ensemble de textes sur un même sujet dont aucun n’est traduction de l’un d’entre eux, ou encore un en-semble de textes multilingues sans préciser si l’un est une traduction de l’autre ou non.

Bitexte et multitexte

Par ailleurs, les textes parallèles sur lesquels l’alignement a été réalisé, sont ap-pelés simplement « textes parallèles alignés », ou encore parfoisbitextesou

multi-textes(B. Harris, 1988a,b), mais la distinction entre un bitexte et un texte parallèle

est encore moins nette dans la littérature.

La distinction de ces deux types d’ensembles de textes est cependant très im-portante pour l’alignement puisque l’un représente les données d’entrée de l’opé-ration et l’autre le résultat du traitement. Nous conserverons donc strictement, encore une fois, le terme « textes parallèles » pour les documents non alignés, et utiliserons le terme « bitexte » pour désigner les documents déjà alignés.

Terminologie japonaise

En ce qui concerne le japonais, on trouve deux termes équivalents : une trans-cription phonétique dans un des syllabaires japonais,katakana, du terme anglais «parallel text» :ÑéìëÆ-¹È(parareru tekisuto, texte parallèle), d’une part ; þ3Æ-¹È(tai yaku tekisuto, « textes avec traductions correspondantes » ou « textes parallèles »), d’autre part. De même, il y a deux équivalents à « corpus pa-rallèle » :Ñéìë³üѹ(parareru kôpasu, corpus parallèle), transcription phonétique enkatakanadu terme anglais «parallel corpus» ;þ3³üѹ(tai yaku kôpasu, « corpus avec traductions correspondantes » ou « corpus parallèles ») qui est l’équivalent du terme anglais «translation corpora». Pour les « corpus mo-nolingues » et « corpus multilingues », les termes,X ž³üѹ(tan-gengo kôpasu, mono - langue - corpus) et ž³üѹ(ta-gengo kôpasu, plusieurs -langue - corpus) sont respectivement employés.

On constate également une distinction à l’intérieur des textes parallèles japonais-anglais selon la langue du document original. En effet, la structure des 30

1.1. Ressources : textes parallèles phrases japonaises diffère considérablement lorsqu’il s’agit d’un texte traduit. La

difficulté d’alignement (ou d’extraction d’information multilingue) varie selon la direction de traduction réalisée : avec les textes japonais traduits à partir d’un ori-ginal anglais, l’analyse est plus facile du fait de la présence systématique de cha-cun des éléments de la phrase, omis souvent dans une phrase purement japonaise. Ainsi, les corpus japonais-anglais dont l’original est le texte anglais sont appelésñ

å³üѹ(ei nichi kôpasu, anglais - japonais - corpus, « corpus de textes anglais et leurs traductions en japonais »), tandis que les corpus parallèles dont l’original est le japonais sont désignés par le termeåñ³üѹ(nichi ei kôpasu, japonais - anglais - corpus, « corpus de textes japonais et leurs traductions en anglais »)

1.1.2 Caractéristiques et problèmes des corpus parallèles

En dépit du nombre important de traductions, les textes parallèles compilés en corpus et disponibles dans le domaine public sont assez rares et surtout parmi un ensemble de langues très limitées (notamment l’ensemble des langues euro-péennes et le chinois).

De plus, tous les textes traduits possèdent certaines particularités et néces-sitent une certaine prudence lors de leur exploitation.

Premièrement, le type de traduction peut différer selon le type de texte. La tra-duction des documents ayant un caractère juridique est généralement très fidèle au texte original alors que celle d’autres documents tels que les textes publicitaires est parfois assez différente du texte original, voire une adaptation complète.

Deuxièmement, pour les textes parallèles d’un ensemble de langues don-nées, les caractéristiques des textes peuvent varier selon le sens de traduction. Par exemple, un texte parallèle constitué d’un texte original français et de sa tra-duction japonaise, peut avoir des caractéristiques différentes des textes parallèles japonais-français dont les originaux sont en japonais.

Enfin, il existe toujours un risque de présence de fautes de traduction (omis-sions, mauvaises traductions, etc.). Ces erreurs peuvent être dues à l’utilisation de systèmes de traduction automatique ou de traduction assistée par ordinateur.

Lors de la réutilisation des données, il est indispensable de prendre en compte toutes ces caractéristiques et de savoir bien choisir les corpus adéquats. Le risque de présence de fautes est particulièrement problématique : l’inclusion de ces tra-ductions erronées dans une mémoire de traduction entraînerait la reproduction de ces erreurs dans les textes traduits. Ces traductions pourraient à leur tour constituer des textes parallèles exploités pour la constitution d’une mémoire de traduction. La réutilisation de ces traductions pourrait ainsi constituer un cercle vicieux.

Dans le cadre de nos travaux, ces caractéristiques peuvent avoir de l’influence sur la qualité de l’alignement automatique. Il est donc important lors de l’éva-luation des systèmes d’alignement, de tenir compte du sens de la traduction des corpus utilisés, pour déterminer correctement leurs performances et problèmes.

1. GÉNÉRALITÉS SUR L’ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES

Les textes comparables sont débarrassés de tous ces inconvénients des textes parallèles.

Les textes sont « naturels » sans aucune influence d’autres textes et ils n’ont évidemment pas d’erreurs de traduction. L’atout le plus intéressant des textes comparables est leur très grande disponibilité.

Toutefois, l’alignement des textes comparables est beaucoup plus complexe que celui des textes parallèles. Il existe déjà des études sur l’alignement ou l’ex-traction de mots correspondants à partir de textes comparables et certains (Mun-teanu & Marcu, 2002) essayent même d’aligner les phrases – mais les résultats sont encore extrêmement limités.

1.1.3 Disponibilité des corpus parallèles

Le développement considérable d’Internet permet non seulement d’accéder à des corpus parallèles compilés, mais aussi de découvrir différents documents multilingues en nombre considérable. Étant donné qu’il existe déjà plusieurs études sur leur disponibilité, à commencer par le panorama présenté par Véronis (2000a,b), nous nous concentrons ici sur la présentation de la situation actuelle de la disponibilité des corpus parallèles comprenant des textes japonais.

Corpus compilés : français-japonais

European Corpus Initiative Multilingual Corpus I (ECI/MCI)

Le corpus est disponible sur CD-ROM et distribué par ELSNET. Il contient des données parallèles aussi bien dans la plupart des langues européennes que dans d’autres langues telles que le japonais.

OPUS

Corpus parallèle multilingue aligné, constitué de documents techniques de logicielsOpen Source: Open Office, PHP Manual, KDE System, KDE Manual.

Corpus compilés : anglais-japonais

ATR Dialogue Database

Textes parallèles japonais-anglais, créés à partir de transcriptions de dia-logues de conférences internationales.

Examples for Writing English Business Letter

Phrases parallèles d’exemples de lettres japonais-anglais.

Source de textes multilingues : français-japonais

Il est difficile de trouver des textes parallèles (d’un volume significatif) sur un même site. Cependant, on peut parfois constituer des textes parallèles français-japonais en récupérant séparément les documents en français et en français-japonais. 32