• Aucun résultat trouvé

3.3 Traduction automatique

3.3.5 Corpus parallèles anglais-arabe

Le corpus Ummah1est un corpus d’articles de journaux arabe aligné avec des tra-ductions en anglais collectées via le service de presseUmmahde Janvier 2001 à Sep-tembre 2004. Il a été produit parLDC(Linguistic Data Consortium) sous le numéro de catalogue LDC2004T18.

Il totalise 8 439 paires histoire, 68 685 paires de phrases, de mots arabes et 2M mots 2,5M anglais. Le corpus est aligné au niveau des phrases. Tous les fichiers de données sont des documents SGML.

Langue Nombre de mots Nombre de lignes

Arabe 1 626K 57K

Anglais 1 991K 57K

TABLE3.1: Description des corpus Ummah

3.3.5.2 News

Le corpus News2 (Arabic News Translation Text Part 1) a été produit par le LDC

(Linguistic Data Consortium) sous le numéro de catalogue LDC2004T17. Trois sources de texte journalistique arabe ont été sélectionnées pour produire ce corpus arabe :

— Service de brèves journalistiquesAFP: 250 brèves journalistiques, 44 193 mots arabes, octobre 1998 - décembre 1998.

— Service de brèves journalistiques Xinhua : 670 brèves journalistiques, 99 514 mots arabes, Novembre 2001 - Mars 2002

— An Nahar : 606 brèves journalistiques, 297 533 mots arabes, de Octobre 2001 -Décembre 2002

Langue Nombre de mots Nombre de lignes

Arabe 389K 16K

Anglais 519K 16K

TABLE3.2: Description des corpus LDC-News

1. https://catalog.ldc.upenn.edu/LDC2004T187

CHAPITRE 3. CADRE EXPÉRIMENTAL

3.3.5.3 News Commentary

Le corpus News-Commentary3est un corpus parallèle aligné au niveau des phrases. Ce corpus contient des extraits de diverses publications de presse et de commentaires du projetSyndicateet il est disponible dans plusieurs langues (arabe, anglais, français, espagnol, allemand, et tchèque, etc).

Langue Nombre de mots Nombre de lignes

Arabe 2 499K 54K

Anglais 2 499K 54K

TABLE3.3: Description du corpus News-Commentary

3.3.5.4 MultiUN

Le corpus MultiUN4 est un ensemble de documents traduits des United Nations

élaborés à la base parEisele and Chen[2010]. Il est disponible dans 7 langues : anglais, français, allemand, arabe, espagnol, russe et chinois.

Langue Nombre de mots Nombre de lignes

Arabe 223 893K 9 131K

Anglais 253 254K 9 131K TABLE3.4: Description du corpus Multi-UN

3.3.5.5 TED

Le corpus TED5est un ensemble de transcriptions des conférences en anglais pré-sentés sous format vidéo sur le site officiel de TED. Ces transcriptions ont été traduites par les bénévoles pour plus de 70 autres langues (arabe, français, italien, coréen, portu-gais, etc.).

Langue Nombre de mots Nombre de lignes

Arabe 2 302K 150K

Anglais 2 925K 150K

3. http://opus.nlpl.eu/News-Commentary11.php

4. http://opus.nlpl.eu/MultiUN.php

CHAPITRE 3. CADRE EXPÉRIMENTAL TABLE3.5: Description du corpus TED

3.4 Conclusion

Dans ce chapitre, nous avons décrit le scénario envisagé pour la création des corpus annotés en sens arabes nécessaires pour la tâche de désambiguïsation lexicale. Nous avons également présenté certains travaux qui ont exploité la technique de portage des annotations pour d’autres applications.

Par ailleurs, nous avons présenté les deux approches de traduction automatique sta-tistique (à base de segments) et neuronale (plus particulièrement en utilisant les réseaux de neurones récurrents), ainsi que la métrique la plus connue pour l’évaluation de la tra-duction automatique. De plus, nous avons cité quelques travaux sur la tratra-duction auto-matique de l’anglais vers l’arabe et vice-versa. Nous avons finalement présenté certains corpus parallèles anglais-arabe que nous allons utiliser dans notre travail.

Dans le chapitre suivant, nous présentons le corpus de référence nécessaire pour l’évaluation de la désambiguïsation lexicale de l’arabe. De même, nous présentons d’une manière détaillée notre méthode de construction de corpus annotés en sens à l’aide d’une traduction automatique statistique et neuronale, et le transfert direct des annota-tions d’une langue source riche en corpus annotés comme l’anglais vers une langue cible moins bien dotée (ici l’arabe).

4

CHAPITRE 4. PRODUCTION DE RESSOURCES

4.1 Introduction

D

ans les travaux existants sur la désambiguïsation lexicale de l’arabe, nous remar-quons que la plupart des articles insistent sur le fait que le manque de diacri-tiques dans les textes arabes rend la tâche de désambiguïsation lexicale plus difficile pour l’arabe que pour d’autres langues comme le français ou l’anglais. Selon nous, le problème le plus important est le manque d’un corpus standard pour l’évaluation de l’arabe. Nous pouvons le constater dans la littérature où chaque système est évalué sur un corpus différent, réalisé en interne et non rendu disponible à la communauté. Dans leurs travaux, les auteurs comparent ensuite des résultats obtenus sur d’autres corpus. De notre point de vue, la validité scientifique d’une telle démarche est discutable. C’est pour cette raison que nous avons cherché un corpus d’évaluation facilement disponible et nous avons trouvé l’OntoNotes 5.0 annoté en sens issus dePrinceton WordNet pour ses parties anglaises et chinoises seulement. Cependant, il manquait le lien entre les annotations OntoNotes et lePrinceton WordNetpour sa partie arabe.

Ainsi, ce chapitre est organisé comme suit : nous présentons tout d’abord le corpus OntoNotes 5.0 qui comporte trois langues : anglais, chinois et arabe (qui n’était pas complet). Nous présentons alors les différentes manières d’aligner des ressources inter-lingues ainsi que la méthode et les différentes étapes suivies afin d’enrichir et mettre à jour la partie arabe d’OntoNotes 5.0. Nous décrivons ensuite nos systèmes de traduction automatique anglais-arabe crées ainsi que le processus de traduction des corpus et por-tage des annotations. Nous détaillons enfin les corpus arabes que nous avons produits pour la tâche de désambiguïsation lexicale de l’arabe.

4.2 Corpus d’évaluation commun pour l’arabe :