3.3 Traduction automatique
3.3.5 Corpus parallèles anglais-arabe
Le corpus Ummah1est un corpus d’articles de journaux arabe aligné avec des tra-ductions en anglais collectées via le service de presseUmmahde Janvier 2001 à Sep-tembre 2004. Il a été produit parLDC(Linguistic Data Consortium) sous le numéro de catalogue LDC2004T18.
Il totalise 8 439 paires histoire, 68 685 paires de phrases, de mots arabes et 2M mots 2,5M anglais. Le corpus est aligné au niveau des phrases. Tous les fichiers de données sont des documents SGML.
Langue Nombre de mots Nombre de lignes
Arabe 1 626K 57K
Anglais 1 991K 57K
TABLE3.1: Description des corpus Ummah
3.3.5.2 News
Le corpus News2 (Arabic News Translation Text Part 1) a été produit par le LDC
(Linguistic Data Consortium) sous le numéro de catalogue LDC2004T17. Trois sources de texte journalistique arabe ont été sélectionnées pour produire ce corpus arabe :
— Service de brèves journalistiquesAFP: 250 brèves journalistiques, 44 193 mots arabes, octobre 1998 - décembre 1998.
— Service de brèves journalistiques Xinhua : 670 brèves journalistiques, 99 514 mots arabes, Novembre 2001 - Mars 2002
— An Nahar : 606 brèves journalistiques, 297 533 mots arabes, de Octobre 2001 -Décembre 2002
Langue Nombre de mots Nombre de lignes
Arabe 389K 16K
Anglais 519K 16K
TABLE3.2: Description des corpus LDC-News
1. https://catalog.ldc.upenn.edu/LDC2004T187
CHAPITRE 3. CADRE EXPÉRIMENTAL
3.3.5.3 News Commentary
Le corpus News-Commentary3est un corpus parallèle aligné au niveau des phrases. Ce corpus contient des extraits de diverses publications de presse et de commentaires du projetSyndicateet il est disponible dans plusieurs langues (arabe, anglais, français, espagnol, allemand, et tchèque, etc).
Langue Nombre de mots Nombre de lignes
Arabe 2 499K 54K
Anglais 2 499K 54K
TABLE3.3: Description du corpus News-Commentary
3.3.5.4 MultiUN
Le corpus MultiUN4 est un ensemble de documents traduits des United Nations
élaborés à la base parEisele and Chen[2010]. Il est disponible dans 7 langues : anglais, français, allemand, arabe, espagnol, russe et chinois.
Langue Nombre de mots Nombre de lignes
Arabe 223 893K 9 131K
Anglais 253 254K 9 131K TABLE3.4: Description du corpus Multi-UN
3.3.5.5 TED
Le corpus TED5est un ensemble de transcriptions des conférences en anglais pré-sentés sous format vidéo sur le site officiel de TED. Ces transcriptions ont été traduites par les bénévoles pour plus de 70 autres langues (arabe, français, italien, coréen, portu-gais, etc.).
Langue Nombre de mots Nombre de lignes
Arabe 2 302K 150K
Anglais 2 925K 150K
3. http://opus.nlpl.eu/News-Commentary11.php
4. http://opus.nlpl.eu/MultiUN.php
CHAPITRE 3. CADRE EXPÉRIMENTAL TABLE3.5: Description du corpus TED
3.4 Conclusion
Dans ce chapitre, nous avons décrit le scénario envisagé pour la création des corpus annotés en sens arabes nécessaires pour la tâche de désambiguïsation lexicale. Nous avons également présenté certains travaux qui ont exploité la technique de portage des annotations pour d’autres applications.
Par ailleurs, nous avons présenté les deux approches de traduction automatique sta-tistique (à base de segments) et neuronale (plus particulièrement en utilisant les réseaux de neurones récurrents), ainsi que la métrique la plus connue pour l’évaluation de la tra-duction automatique. De plus, nous avons cité quelques travaux sur la tratra-duction auto-matique de l’anglais vers l’arabe et vice-versa. Nous avons finalement présenté certains corpus parallèles anglais-arabe que nous allons utiliser dans notre travail.
Dans le chapitre suivant, nous présentons le corpus de référence nécessaire pour l’évaluation de la désambiguïsation lexicale de l’arabe. De même, nous présentons d’une manière détaillée notre méthode de construction de corpus annotés en sens à l’aide d’une traduction automatique statistique et neuronale, et le transfert direct des annota-tions d’une langue source riche en corpus annotés comme l’anglais vers une langue cible moins bien dotée (ici l’arabe).
4
CHAPITRE 4. PRODUCTION DE RESSOURCES
4.1 Introduction
D
ans les travaux existants sur la désambiguïsation lexicale de l’arabe, nous remar-quons que la plupart des articles insistent sur le fait que le manque de diacri-tiques dans les textes arabes rend la tâche de désambiguïsation lexicale plus difficile pour l’arabe que pour d’autres langues comme le français ou l’anglais. Selon nous, le problème le plus important est le manque d’un corpus standard pour l’évaluation de l’arabe. Nous pouvons le constater dans la littérature où chaque système est évalué sur un corpus différent, réalisé en interne et non rendu disponible à la communauté. Dans leurs travaux, les auteurs comparent ensuite des résultats obtenus sur d’autres corpus. De notre point de vue, la validité scientifique d’une telle démarche est discutable. C’est pour cette raison que nous avons cherché un corpus d’évaluation facilement disponible et nous avons trouvé l’OntoNotes 5.0 annoté en sens issus dePrinceton WordNet pour ses parties anglaises et chinoises seulement. Cependant, il manquait le lien entre les annotations OntoNotes et lePrinceton WordNetpour sa partie arabe.Ainsi, ce chapitre est organisé comme suit : nous présentons tout d’abord le corpus OntoNotes 5.0 qui comporte trois langues : anglais, chinois et arabe (qui n’était pas complet). Nous présentons alors les différentes manières d’aligner des ressources inter-lingues ainsi que la méthode et les différentes étapes suivies afin d’enrichir et mettre à jour la partie arabe d’OntoNotes 5.0. Nous décrivons ensuite nos systèmes de traduction automatique anglais-arabe crées ainsi que le processus de traduction des corpus et por-tage des annotations. Nous détaillons enfin les corpus arabes que nous avons produits pour la tâche de désambiguïsation lexicale de l’arabe.