Avec augmentation du corpus d’apprentissage

Partie II Contributions 49

76.7 % Mots en script arabe (17.3M)

Mots en script latin (2.4M) 8.5 %

Ponctuation (1.9M) 2.8 %

Nombres (623K)

73.1 % Mots en script arabe (107K)

Mots en script latin (18K) 10.4 %

Ponctuation (15K) 4.3 %

Nombres (6K)

Corpus Langage Nombre de phrases Nombre de mots Nombre de mots uniques

TestCS code-switching 5k 146k 31k Traduction de référence En 152k 21k TTraduction de référence Ar 142k 28k Test Ar 5,7K ^128k ^18k En 150k 8,7k

PhraseCS 2009

the humanitarian monitor

Référence An Office for the Coordination of humanitarian affairs , the humanitarian monitor , july 2009

Référence Ar 2009

Statistique the office for the coordination of humanitarian affairs andthe humanitarian bulletin , monitor ,july 2009

Neuronale office for the coordination of humanitarian affairs , brochure<unk> <unk>, july 2009 .

Avec copie de segments

Statistique the office for the coordination of humanitarian affairs , bulletinthe humanitarian monitor, july 2009

Neuronale the office for the coordination of humanitarian affairs ,the humanitarian monitor, july 2009 .

Avec augmentation du corpus d’apprentissage

Partie II Contributions 49

Chapitre 6 Traduction automatique du texte code-switché 105

6.3 Traduction des documents code-switchés

6.3.3 Avec augmentation du corpus d’apprentissage

Dans les deux stratégies précédentes, l’apprentissage des deux modèles (statistique et

neu-ronal) est basé sur un corpus parallèle pur (sans aucune instance du code-switching) ; il serait

intéressant d’utiliser un corpus parallèlecode-switché pour apprendre les différents modèles. Le

problème qui se pose est la disponibilité de cette ressource sachant que le modèle neuronal est

gourmand en ressources. Notre approche pour remédier à ce problème consiste à générer ce

cor-pus automatiquement. L’idée est de remplacer des segments arabes aléatoirement choisis dans le

corpus source par leur meilleure traduction extraite à partir d’une table de traduction de 29M

d’entrées. Nous avons remplacé seulement 1% de segments arabes dans le corpus source ce qui

fait au total 290k segments. Nous avons choisi ce pourcentage de sorte que la distribution de

segments en script latin dans le corpus résultant soit proche de la distribution de segments dans

notre corpus code-switché de test présenté dans la section 6.2 (12%). La distribution des mots

dans le corpus d’apprentissage parallèlecode-switchégénéré automatiquement est présentée dans

6.4. Résultats et discussion

Figure6.6 – Distribution des mots dans le corpus d’apprentissage parallèlecode-switché généré

automatiquement.

En se basant sur ce corpus, les mêmes techniques d’apprentissage des systèmes de base sont

utilisées pour apprendre le modèle statistique et le modèle neuronal.

6.4 Résultats et discussion

Afin d’évaluer nos techniques pour traduire les textes code-switchés, nous avons sélectionné

5k phrases parallèles à partir de notre corpus présenté dans la section 6.2 ; nous appelons ce

corpus dans ce qui suit TestCS. La distribution des mots dans ce corpus est présentée dans la

figure 6.7.

Figure 6.7 – Distribution des mots dans le corpus de testcode-switché (TestCS).

Nous évaluons également la traduction des textes propres sans aucune instance de

code-switching. Pour ce faire, un corpus de 5,7k phrases parallèles (Test), non inclus dans le corpus

d’apprentissage, est utilisé. Nous donnons dans le tableau 6.8 quelques informations sur ces deux

corpus de test.

Table6.8 – Informations sur les corpus de test (le corpus TestCS est un corpus parallèle

Bien que l’on dispose de la traduction de référence des phrases code-switchées dans les deux

langues (arabe et anglais), nous avons décidé de les traduire uniquement vers l’anglais pur. Cette

décision est justifiée par le fait que la plupart des segments dans les phrasescode-switchées sont

en arabe, un arabophone peut facilement comprendre le sens de la phrase selon le contexte ; il est

alors intéressant de les traduire en anglais pur pour les non arabophones. Nous présentons dans

le tableau 6.9 les résultats de traduction en termes de BLEU et du taux de mots hors vocabulaire

(OOV).

Technique Corpus Approche statistique Approche neuronale OOV

Système de base Test 37,8 41,6 0,6

TestCS 29,9 24,1 14,1

Avec recopie de segments

TestCS 31,1 33,1 14,1

Avec augmentation du corpus 32,1 31,1 5,7

Table 6.9 – Évaluation de la traduction automatique des phrases code-switchées (TestCS) et

des phrasespropres (Test).

Nous remarquons qu’une amélioration absolue de plus de 3,8% est obtenue avec l’approche

neuronale par rapport à l’approche statistique si la traduction est effectuée de l’arabe vers

l’an-glais sans aucune instance ducode-switching (corpusTestpropre). Cela conforte notre conclusion

du chapitre précédent qu’avec plus de données d’apprentissage, des techniques avancées et une

architecture plus profonde, l’approche neuronale surpasse l’approche statistique. Toutefois, le

plus important objectif de notre étude est la traduction du corpus code-switché (TestCS).

Dans le cas où le corpus TestCS est traduit en anglais pur en utilisant le système de base

entraîné pour traduire de l’arabe vers l’anglais, tous les segments en script latin sont considérés

comme des segments hors vocabulaire ; cela explique le taux de mots hors vocabulaire de 14,09%.

En outre, nous remarquons que l’approche statistique assure de meilleurs résultats en termes de

BLEU par rapport à l’approche neuronale. Cela est justifié par le processus de construction de

la traduction dans chaque approche. En effet, le système statistique procède par la

décomposi-tion de la phrase source en plusieurs segments selon la table de traducdécomposi-tion. Par la suite, tous

les segments hors vocabulaire sont copiés tels quels dans la sortie. Enfin, et à cause du modèle

de réordonnancement, les mots de la traduction générée sont réarrangés afin de maximiser la

probabilité de traduction. En revanche, l’approche neuronale fonctionne sur un vocabulaire

res-treint, tous les mots qui n’existent pas dans le vocabulaire sont remplacés par le mot spécial

<unk>, ce qui rend la traduction générée incompréhensible. Même en remplaçant les<unk>par

les mots sources ayant générés ces derniers en se basant sur le score du modèle d’attention, cela

n’améliore pas la traduction. Une explication à ces résultats serait que le modèle d’attention ne

joue pas le rôle d’un alignement entre les mots de la phrase source et ceux de la cible comme

dans l’approche statistique [Koehn et Knowles, 2017]. Il ne fournit qu’un modèle d’alignement

simple pour aider le décodeur à décider des parties de la phrase source auxquelles il doit prêter

attention [Bahdanauet al., 2014].

C’est pourquoi le fait de ne pas traduire les segments en script latin et de les copier directement

dans la sortie (la stratégie avec recopie de segments dans le tableau 6.9) améliore la traduction

par rapport au système de base et en particulier dans l’approche neuronale. Pour mieux

com-prendre la différence entre le système de base et celui de la stratégieavec recopie de segments, le

tableau 6.10 présente un exemple de traduction de la phrase :

"2009 éJËñK PñÖß , the humanitarian monitor èQå ,

éJ KA  B@ àð ñË@

JK I. JºÓ"(bureau de

Figure^{6.6 – Distribution des mots dans le corpus d’apprentissage parallèle}^{code-switché} ^généré

Figure ^{6.7 – Distribution des mots dans le corpus de test}^{code-switché} ⁽^TestCS^).

Table^{6.8 – Informations sur les corpus de test (le corpus} ^TestCS ^{est un corpus parallèle}

Système de base ^Test ^37,8 ^41,6 ^0,6

TestCS ^31,1 ^33,1 ^14,1

Table ^{6.9 – Évaluation de la traduction automatique des phrases} ^{code-switchées} ^{(TestCS) et}

"2009 éJËñK PñÖß , the humanitarian monitor _èQå_,

éJ KA B@ àð ñ_Ë@

JK I_. JºÓ"(bureau de

èQå , éJ KA B@ àð ñ_Ë@

JK I_.JºÓ

éJËñK PñÖß , éJ KA B@ àð_ñ_{Ë@ I}

.^¯@QÓ ^èQå^, éJ KA B @ àð ñ_Ë@

JK I_.JºÓ

Table^{6.10 – Exemple de traduction selon les différents systèmes de traduction. Le segment en}

0-5 5-1010-1515-2020-2525-5050-75_75-100

Figure^{6.8 – Évaluation de la traduction automatique sur les sous-corpus contenant chacun un}