• Aucun résultat trouvé

Chapitre 4 : Extraction de corpus parallèles – Motivation

4.2. Corpus parallèle et corpus comparable

Les textes récupérés à partir du Web ne contiennent pas toujours des données parallèles, c’est le cas si les données sont récupérées à partir d’un site Web multilingue de nouvelles journalistiques.

Un corpus de données bilingues « parallèle » est un corpus qui contient des paires de documents bilingues ou des paires de phrases bilingues qui sont la traduction directe l’un de l’autre. Les deux phrases (ou documents) parallèles sont souvent de longueur similaire. L’ordre des phrases parallèles est maintenu dans deux documents parallèles [Fung 2004a]. Une phrase dans la langue

L1 est souvent traduite par une phrase dans la langue L2 (nous appelons cela une correspondance

1:1). La plupart des phrases de deux documents parallèles est alignée 1:1. Il y a peu de

1

Organisation des Nations unies (ONU) http://www.un.org 2

Organisation mondiale de la santé (OMS) http://www.who.int 3

Organisation des Nations unies pour l’éducation la science et la culture (UNESCO) http://www.unesco.org 4

Commission européenne (EC) http://ec.europa.eu/ 5

http://fr.wikipedia.org 6

British Broadcasting Corporation (BBC) http://www.bbc.co.uk/ 7

Agence France-Presse (AFP) http://www.afp.com/afpcom/en/ 8

correspondances 1:n, n:n et peu de suppressions 1:0 ou n:0 dans un corpus bilingue parallèle [Wu 1994].

La source de données extraites à partir de sites Web multilingues de nouvelles journalistiques ne peut être considérée comme un véritable corpus parallèle. On parlera plutôt de corpus parallèle bruité ou même de corpus comparable. En fait, dans la littérature, la notion de « corpus comparable » est assez vague. D’une manière générale, la communauté de chercheurs considère qu’un corpus comparable contient des documents qui ne sont pas des traductions l’un de l’autres, mais « étroitement liés par les mêmes contenus » aux « niveaux de parallélisme différents, tels que des mots, des chaînes de mots, des phrases, etc. » [Zhao 2002], [Fung 2004a, b], [Kumano 2007].

Plus concrètement, [Fung 2004a, b] ont défini un corpus comparable (qu’ils appellent d’autre fois corpus « parallèle bruité ») comme un corpus qui contient des phrases non alignées mais dont la plupart sont des traductions bilingues d’un même morceau de document. Les paires de documents dans ce corpus sont des traductions approximatives l’un de l’autre, avec des insertions et des suppressions dans le contenu, et portent sur les mêmes sujets. L’ordre des phrases dans les deux documents est presque similaire. Des exemples de ce type de corpus sont le corpus de « Hong Kong News » ou celui de « Xinhua News » [Fung 2004a, b]. Un autre type de corpus défini par [Fung 2004a, b] est le corpus quasi-comparable ou très non parallèle (very-non-parallel corpus). Ce type de corpus contient des documents dans deux domaines différents, avec l’existence d’une quantité considérable de documents hors sujets. Très peu de documents sont comparables ou contiennent des phrases parallèles.

[Munteanu 2006a] définit quant à lui divers types de corpus comparables avec plusieurs niveaux de parallélisme possibles. Le premier type de corpus comparable est constitué de corpus dont les documents dans une langue sont, soit entièrement traduits dans l’autre langue, soit ne possèdent pas de correspondance. Un exemple peut être illustré par les articles d’information de la revue « Le Monde Diplomatique », où certains articles sont traduits en plusieurs langues, tandis que d’autres sont spécifiques à chaque région et n’existent que dans une seule langue. Le deuxième type de corpus comparable défini contient des documents qui peuvent être soit traduits, soit partiellement traduits mais partageant des phrases parallèles, ou encore non traduits. Deux exemples sont le corpus de « Xinhua News », le corpus de « Agence France Presse ». Dans ces corpus, la plupart des données parallèles peuvent être trouvées au niveau de la phrase. L’ordre des phrases n’est pas toujours respecté. Enfin, le dernier type de corpus comparable défini est constitué de corpus qui présentent peu de parallélisme au niveau du document ou de la phrase, mais, par contre, du parallélisme au niveau des chaînes de mots (des fragments). L’auteur donne un exemple avec des articles de nouvelles produites par la « BBC ». Une paire d’articles rapporte le même événement d’un même instant mais il y a peu ou pas de paires de phrases complètement parallèles, il y a seulement certains fragments parallèles.

Pour être plus clair, nous définissons dans cette thèse divers niveaux de parallélisme selon la granularité de texte considérée (voir les Figure 4-1, Figure 4-2, Figure 4-3).

Premièrement, au niveau de la phrase, nous définissons :

- les phrases parallèles : deux phrases sont la traduction l’une de l’autre ;

- les phrases comparables : deux phrases ne sont pas exactement la traduction l’une de l’autre, mais elles contiennent des fragments parallèles ;

- les phrases non parallèles : deux phrases sont des phrases sans rapport l’une avec l’autre.

- les documents parallèles bruités : la plupart des phrases dans ces deux documents sont des phrases parallèles, l’ordre des phrases peut être respecté ou non ; il peut y avoir des insertions ou des suppressions de phrases dans un document par rapport à un autre

- les documents comparables : les deux documents contiennent peu de phrases parallèles, mais quelques phrases comparables ; l’ordre des phrases peut être similaire ou différent ; ces documents peuvent contenir aussi certaines phrases non parallèles

- les documents non parallèles sont des documents qui ne contiennent pas de données parallèles.

Au niveau du corpus, nous définissons :

- le corpus parallèle : contient des documents parallèles. Un sous type de corpus parallèle bruité est le corpus parallèle mais il est bruité « un peu » par d’autres types de paires de documents.

- le corpus comparable : contient tous les types de documents mais possède une majorité de documents parallèles, parallèles bruités et comparables.

Figure 4-1 : Exemple d’une paire de documents parallèles bruités ; les lignes présentent les phrases parallèles (image originale dans [Munteanu 2006a]).

Figure 4-2 : Exemple d’une paire de documents comparables ; les lignes et les blocs présentent les fragments parallèles

Figure 4-3 : Résumé de nos divers niveaux de parallélisme selon la granularité du texte considéré

Deux articles de nouvelles (deux documents) dans deux langues différentes qui décrivent le même événement peuvent être des documents parallèles. Mais ils sont produits fréquemment de façon indépendante, donc ils peuvent ne pas être des traductions directes l’une de l’autre car ils peuvent contenir des phrases non traduites dans l’autre langue ou des phrases placées dans un ordre différent. Cependant, ces deux articles sont susceptibles de contenir des données parallèles (des phrases, des fragments, des mots) qui expriment le chevauchement du contenu. Alors ils peuvent constituer des documents comparables.

La tâche d’extraction des documents comparables/parallèles et des phrases comparables/parallèles à partir de corpus comparables est plus difficile qu’à partir de corpus parallèles ou parallèles bruités. En plus, dans les documents comparables, les phrases de deux documents ne sont pas souvent alignées selon les correspondances 1:1 ; elles peuvent être alignées selon les correspondances 1:n ou n:n. Il y a aussi des suppressions ou des insertions dans une paire de textes comparables [Ma 2006].

4.3. Les méthodes proposées pour extraire les données