Partie II Contributions 49
Chapitre 6 Traduction automatique du texte code-switché 105
6.3 Traduction des documents code-switchés
6.3.3 Avec augmentation du corpus d’apprentissage
Dans les deux stratégies précédentes, l’apprentissage des deux modèles (statistique et
neu-ronal) est basé sur un corpus parallèle pur (sans aucune instance du code-switching) ; il serait
intéressant d’utiliser un corpus parallèlecode-switché pour apprendre les différents modèles. Le
problème qui se pose est la disponibilité de cette ressource sachant que le modèle neuronal est
gourmand en ressources. Notre approche pour remédier à ce problème consiste à générer ce
cor-pus automatiquement. L’idée est de remplacer des segments arabes aléatoirement choisis dans le
corpus source par leur meilleure traduction extraite à partir d’une table de traduction de 29M
d’entrées. Nous avons remplacé seulement 1% de segments arabes dans le corpus source ce qui
fait au total 290k segments. Nous avons choisi ce pourcentage de sorte que la distribution de
segments en script latin dans le corpus résultant soit proche de la distribution de segments dans
notre corpus code-switché de test présenté dans la section 6.2 (12%). La distribution des mots
dans le corpus d’apprentissage parallèlecode-switchégénéré automatiquement est présentée dans
6.4. Résultats et discussion
76.7 % Mots en script arabe (17.3M)
12 %
Mots en script latin (2.4M) 8.5 %
Ponctuation (1.9M) 2.8 %
Nombres (623K)
Figure6.6 – Distribution des mots dans le corpus d’apprentissage parallèlecode-switché généré
automatiquement.
En se basant sur ce corpus, les mêmes techniques d’apprentissage des systèmes de base sont
utilisées pour apprendre le modèle statistique et le modèle neuronal.
6.4 Résultats et discussion
Afin d’évaluer nos techniques pour traduire les textes code-switchés, nous avons sélectionné
5k phrases parallèles à partir de notre corpus présenté dans la section 6.2 ; nous appelons ce
corpus dans ce qui suit TestCS. La distribution des mots dans ce corpus est présentée dans la
figure 6.7.
73.1 % Mots en script arabe (107K)
12.2 %
Mots en script latin (18K) 10.4 %
Ponctuation (15K) 4.3 %
Nombres (6K)
Figure 6.7 – Distribution des mots dans le corpus de testcode-switché (TestCS).
Nous évaluons également la traduction des textes propres sans aucune instance de
code-switching. Pour ce faire, un corpus de 5,7k phrases parallèles (Test), non inclus dans le corpus
d’apprentissage, est utilisé. Nous donnons dans le tableau 6.8 quelques informations sur ces deux
corpus de test.
Corpus Langage Nombre de phrases Nombre de mots Nombre de mots uniques
TestCS code-switching 5k 146k 31k Traduction de référence En 152k 21k TTraduction de référence Ar 142k 28k Test Ar 5,7K 128k 18k En 150k 8,7k
Table6.8 – Informations sur les corpus de test (le corpus TestCS est un corpus parallèle
Bien que l’on dispose de la traduction de référence des phrases code-switchées dans les deux
langues (arabe et anglais), nous avons décidé de les traduire uniquement vers l’anglais pur. Cette
décision est justifiée par le fait que la plupart des segments dans les phrasescode-switchées sont
en arabe, un arabophone peut facilement comprendre le sens de la phrase selon le contexte ; il est
alors intéressant de les traduire en anglais pur pour les non arabophones. Nous présentons dans
le tableau 6.9 les résultats de traduction en termes de BLEU et du taux de mots hors vocabulaire
(OOV).
Technique Corpus Approche statistique Approche neuronale OOV
Système de base Test 37,8 41,6 0,6
TestCS 29,9 24,1 14,1
Avec recopie de segments
TestCS 31,1 33,1 14,1
Avec augmentation du corpus 32,1 31,1 5,7
Table 6.9 – Évaluation de la traduction automatique des phrases code-switchées (TestCS) et
des phrasespropres (Test).
Nous remarquons qu’une amélioration absolue de plus de 3,8% est obtenue avec l’approche
neuronale par rapport à l’approche statistique si la traduction est effectuée de l’arabe vers
l’an-glais sans aucune instance ducode-switching (corpusTestpropre). Cela conforte notre conclusion
du chapitre précédent qu’avec plus de données d’apprentissage, des techniques avancées et une
architecture plus profonde, l’approche neuronale surpasse l’approche statistique. Toutefois, le
plus important objectif de notre étude est la traduction du corpus code-switché (TestCS).
Dans le cas où le corpus TestCS est traduit en anglais pur en utilisant le système de base
entraîné pour traduire de l’arabe vers l’anglais, tous les segments en script latin sont considérés
comme des segments hors vocabulaire ; cela explique le taux de mots hors vocabulaire de 14,09%.
En outre, nous remarquons que l’approche statistique assure de meilleurs résultats en termes de
BLEU par rapport à l’approche neuronale. Cela est justifié par le processus de construction de
la traduction dans chaque approche. En effet, le système statistique procède par la
décomposi-tion de la phrase source en plusieurs segments selon la table de traducdécomposi-tion. Par la suite, tous
les segments hors vocabulaire sont copiés tels quels dans la sortie. Enfin, et à cause du modèle
de réordonnancement, les mots de la traduction générée sont réarrangés afin de maximiser la
probabilité de traduction. En revanche, l’approche neuronale fonctionne sur un vocabulaire
res-treint, tous les mots qui n’existent pas dans le vocabulaire sont remplacés par le mot spécial
<unk>, ce qui rend la traduction générée incompréhensible. Même en remplaçant les<unk>par
les mots sources ayant générés ces derniers en se basant sur le score du modèle d’attention, cela
n’améliore pas la traduction. Une explication à ces résultats serait que le modèle d’attention ne
joue pas le rôle d’un alignement entre les mots de la phrase source et ceux de la cible comme
dans l’approche statistique [Koehn et Knowles, 2017]. Il ne fournit qu’un modèle d’alignement
simple pour aider le décodeur à décider des parties de la phrase source auxquelles il doit prêter
attention [Bahdanauet al., 2014].
C’est pourquoi le fait de ne pas traduire les segments en script latin et de les copier directement
dans la sortie (la stratégie avec recopie de segments dans le tableau 6.9) améliore la traduction
par rapport au système de base et en particulier dans l’approche neuronale. Pour mieux
com-prendre la différence entre le système de base et celui de la stratégieavec recopie de segments, le
tableau 6.10 présente un exemple de traduction de la phrase :
"2009 éJËñK PñÖß , the humanitarian monitor èQå ,
éJ KA B@ àð ñË@
JK I. JºÓ"(bureau de
6.4. Résultats et discussion
différents systèmes de traduction.
PhraseCS 2009
éJËñK PñÖß ,
the humanitarian monitorèQå , éJ KA B@ àð ñË@
JK I.JºÓ
Référence An Office for the Coordination of humanitarian affairs , the humanitarian monitor , july 2009
Référence Ar 2009
éJËñK PñÖß , éJ KA B@ àðñ Ë@ I
.¯@QÓ èQå , éJ KA B @ àð ñË@
JK I.JºÓ
Systèmede base
Statistique the office for the coordination of humanitarian affairs andthe humanitarian bulletin , monitor ,july 2009
Neuronale office for the coordination of humanitarian affairs , brochure<unk> <unk>, july 2009 .
Avec copie de segments
Statistique the office for the coordination of humanitarian affairs , bulletinthe humanitarian monitor, july 2009
Neuronale the office for the coordination of humanitarian affairs ,the humanitarian monitor, july 2009 .