• Aucun résultat trouvé

Avec augmentation du corpus d’apprentissage

Partie II Contributions 49

Chapitre 6 Traduction automatique du texte code-switché 105

6.3 Traduction des documents code-switchés

6.3.3 Avec augmentation du corpus d’apprentissage

Dans les deux stratégies précédentes, l’apprentissage des deux modèles (statistique et

neu-ronal) est basé sur un corpus parallèle pur (sans aucune instance du code-switching) ; il serait

intéressant d’utiliser un corpus parallèlecode-switché pour apprendre les différents modèles. Le

problème qui se pose est la disponibilité de cette ressource sachant que le modèle neuronal est

gourmand en ressources. Notre approche pour remédier à ce problème consiste à générer ce

cor-pus automatiquement. L’idée est de remplacer des segments arabes aléatoirement choisis dans le

corpus source par leur meilleure traduction extraite à partir d’une table de traduction de 29M

d’entrées. Nous avons remplacé seulement 1% de segments arabes dans le corpus source ce qui

fait au total 290k segments. Nous avons choisi ce pourcentage de sorte que la distribution de

segments en script latin dans le corpus résultant soit proche de la distribution de segments dans

notre corpus code-switché de test présenté dans la section 6.2 (12%). La distribution des mots

dans le corpus d’apprentissage parallèlecode-switchégénéré automatiquement est présentée dans

6.4. Résultats et discussion

76.7 % Mots en script arabe (17.3M)

12 %

Mots en script latin (2.4M) 8.5 %

Ponctuation (1.9M) 2.8 %

Nombres (623K)

Figure6.6 – Distribution des mots dans le corpus d’apprentissage parallèlecode-switché généré

automatiquement.

En se basant sur ce corpus, les mêmes techniques d’apprentissage des systèmes de base sont

utilisées pour apprendre le modèle statistique et le modèle neuronal.

6.4 Résultats et discussion

Afin d’évaluer nos techniques pour traduire les textes code-switchés, nous avons sélectionné

5k phrases parallèles à partir de notre corpus présenté dans la section 6.2 ; nous appelons ce

corpus dans ce qui suit TestCS. La distribution des mots dans ce corpus est présentée dans la

figure 6.7.

73.1 % Mots en script arabe (107K)

12.2 %

Mots en script latin (18K) 10.4 %

Ponctuation (15K) 4.3 %

Nombres (6K)

Figure 6.7 – Distribution des mots dans le corpus de testcode-switché (TestCS).

Nous évaluons également la traduction des textes propres sans aucune instance de

code-switching. Pour ce faire, un corpus de 5,7k phrases parallèles (Test), non inclus dans le corpus

d’apprentissage, est utilisé. Nous donnons dans le tableau 6.8 quelques informations sur ces deux

corpus de test.

Corpus Langage Nombre de phrases Nombre de mots Nombre de mots uniques

TestCS code-switching 5k 146k 31k Traduction de référence En 152k 21k TTraduction de référence Ar 142k 28k Test Ar 5,7K 128k 18k En 150k 8,7k

Table6.8 – Informations sur les corpus de test (le corpus TestCS est un corpus parallèle

Bien que l’on dispose de la traduction de référence des phrases code-switchées dans les deux

langues (arabe et anglais), nous avons décidé de les traduire uniquement vers l’anglais pur. Cette

décision est justifiée par le fait que la plupart des segments dans les phrasescode-switchées sont

en arabe, un arabophone peut facilement comprendre le sens de la phrase selon le contexte ; il est

alors intéressant de les traduire en anglais pur pour les non arabophones. Nous présentons dans

le tableau 6.9 les résultats de traduction en termes de BLEU et du taux de mots hors vocabulaire

(OOV).

Technique Corpus Approche statistique Approche neuronale OOV

Système de base Test 37,8 41,6 0,6

TestCS 29,9 24,1 14,1

Avec recopie de segments

TestCS 31,1 33,1 14,1

Avec augmentation du corpus 32,1 31,1 5,7

Table 6.9 – Évaluation de la traduction automatique des phrases code-switchées (TestCS) et

des phrasespropres (Test).

Nous remarquons qu’une amélioration absolue de plus de 3,8% est obtenue avec l’approche

neuronale par rapport à l’approche statistique si la traduction est effectuée de l’arabe vers

l’an-glais sans aucune instance ducode-switching (corpusTestpropre). Cela conforte notre conclusion

du chapitre précédent qu’avec plus de données d’apprentissage, des techniques avancées et une

architecture plus profonde, l’approche neuronale surpasse l’approche statistique. Toutefois, le

plus important objectif de notre étude est la traduction du corpus code-switché (TestCS).

Dans le cas où le corpus TestCS est traduit en anglais pur en utilisant le système de base

entraîné pour traduire de l’arabe vers l’anglais, tous les segments en script latin sont considérés

comme des segments hors vocabulaire ; cela explique le taux de mots hors vocabulaire de 14,09%.

En outre, nous remarquons que l’approche statistique assure de meilleurs résultats en termes de

BLEU par rapport à l’approche neuronale. Cela est justifié par le processus de construction de

la traduction dans chaque approche. En effet, le système statistique procède par la

décomposi-tion de la phrase source en plusieurs segments selon la table de traducdécomposi-tion. Par la suite, tous

les segments hors vocabulaire sont copiés tels quels dans la sortie. Enfin, et à cause du modèle

de réordonnancement, les mots de la traduction générée sont réarrangés afin de maximiser la

probabilité de traduction. En revanche, l’approche neuronale fonctionne sur un vocabulaire

res-treint, tous les mots qui n’existent pas dans le vocabulaire sont remplacés par le mot spécial

<unk>, ce qui rend la traduction générée incompréhensible. Même en remplaçant les<unk>par

les mots sources ayant générés ces derniers en se basant sur le score du modèle d’attention, cela

n’améliore pas la traduction. Une explication à ces résultats serait que le modèle d’attention ne

joue pas le rôle d’un alignement entre les mots de la phrase source et ceux de la cible comme

dans l’approche statistique [Koehn et Knowles, 2017]. Il ne fournit qu’un modèle d’alignement

simple pour aider le décodeur à décider des parties de la phrase source auxquelles il doit prêter

attention [Bahdanauet al., 2014].

C’est pourquoi le fait de ne pas traduire les segments en script latin et de les copier directement

dans la sortie (la stratégie avec recopie de segments dans le tableau 6.9) améliore la traduction

par rapport au système de base et en particulier dans l’approche neuronale. Pour mieux

com-prendre la différence entre le système de base et celui de la stratégieavec recopie de segments, le

tableau 6.10 présente un exemple de traduction de la phrase :

"2009 éJËñK PñÖß , the humanitarian monitor èQå„ ,

éJ KA ‚ B@ àð ñ‚Ë@

‡J‚K I. JºÓ"(bureau de

6.4. Résultats et discussion

différents systèmes de traduction.

PhraseCS 2009

éJËñK PñÖß ,

the humanitarian monitor

èQå„ , éJ KA ‚ B@ àð ñ‚Ë@

‡J‚K I.JºÓ

Référence An Office for the Coordination of humanitarian affairs , the humanitarian monitor , july 2009

Référence Ar 2009

éJËñK PñÖß , éJ KA ‚ B@ àðñ ‚Ë@ I

.¯@QÓ èQå„ , éJ KA ‚ B @ àð ñ‚Ë@

‡J‚K I.JºÓ

Système

de base

Statistique the office for the coordination of humanitarian affairs andthe humanitarian bulletin , monitor ,july 2009

Neuronale office for the coordination of humanitarian affairs , brochure<unk> <unk>, july 2009 .

Avec copie de segments

Statistique the office for the coordination of humanitarian affairs , bulletinthe humanitarian monitor, july 2009

Neuronale the office for the coordination of humanitarian affairs ,the humanitarian monitor, july 2009 .

Table6.10 – Exemple de traduction selon les différents systèmes de traduction. Le segment en

rouge dans la phrase source représentent un segment hors vocabulaire.

L’exemple du tableau 6.10 montre que la traduction de la phrase source code-switchée en

utilisant la stratégieavec recopie de segments génère des traductions plus compréhensibles que

ce soit avec l’approche statistique ou avec l’approche neuronale. Cela est principalement dû au fait

de ne pas traduire les segments en script latin ce qui évite, d’une part, le réordonnancement des

mots dans les traductions générées et d’autre part, de remplacer ces segments avec les symboles

<unk>.

Afin de bien comprendre la relation entre les segments hors vocabulaire et la qualité de la

traduction, nous avons subdivisé le corpus parallèlecode-switchéselon le pourcentage de présence

ducode-switching comme il a été présenté dans la section 6.2.3. Chaque partie du corpus global

est traduite en utilisant les différents systèmes de traduction. Les résultats sont illustrés dans la

figure 6.8.

0-5 5-1010-1515-2020-2525-5050-7575-100

0

20

40

60

80

%Mots en script latin

BLEU/OO

V

(%)

CS->An

Mots hors vocabulaire (OOV)

Système de base (statistique)

Avec recopie de segments (statistique)

Système de base (neuronal)

Avec recopie de segments (neuronal)

Figure6.8 – Évaluation de la traduction automatique sur les sous-corpus contenant chacun un

nombre homogène de segments en script latin.

Dans le cas où le pourcentage de segments en script latin est faible dans les phrases

code-switchées (entre 0 et 5%), quelle que soit la technique de traduction, les résultats sont similaires

(un BLEU entre 28 et 30%) ; cela est semblable à la traduction du texte de l’arabe vers l’anglais

script latin augmente, la qualité de la traduction neuronale se dégrade à cause du taux de mots

hors vocabulaire élevé. En revanche, l’approche statistique assure de meilleurs résultats car ces

segments en script latin sont recopiés dans la sortie du système avec une étape de

réordonnan-cement. Encore mieux, en évitant cette étape de réordonnancement et en recopiant les segments

en script latin directement dans la sortie (la stratégie avec recopie de segments), on arrive à

améliorer la traduction de tous les systèmes proposés.

Une dernière remarque importante concernant la stratégie avec augmentation du corpus, un

corpus artificielcode-switchéa été généré en se basant sur une table de traduction pour apprendre

les différents modèles. Bien que ce corpus ne soit pas une vraie représentation du phénomène du

code-switching, apprendre les différents modèles sur ce dernier a donné des résultats surprenants.

En effet, nous avons obtenu un BLEU meilleur que celui du système de base, mais en plus, cette

approche assure de meilleurs résultats si elle est appliquée pour apprendre le modèle basé sur

l’approche statistique. Ces améliorations pourraient être expliquées par la diminution du taux

de mots hors vocabulaire (5,67 contre 14,09%) et par le fait que le corpus d’apprentissage se

rapproche du corpus de test (TestCS).

6.5 Conclusion et discussion

Au cours de ces dernières années et grâce aux réseaux sociaux, l’alternance codique ou le

code-switching est devenu plus populaire dans les communautés multilingues. Les personnes avec

de fortes compétences linguistiques ont tendance à pratiquer le code-switching pour s’exprimer

en utilisant des mots ou des expressions dans des langues étrangères. Cela s’applique très

com-munément dans le monde arabe ; selon les régions, le vocabulaire arabe admet quelques ajouts

de mots étrangers selon les contextes pour mieux exprimer des propos dans les conversations et

les discussions communes ainsi que dans les réseaux sociaux.

Bien que le phénomène du code-switching ait une grande ampleur dans les conversations

informelles, notre étude s’est basée sur sa présence dans les textes formels, à savoir les documents

des institutions multilingues. L’étude réalisée dans le cadre de ce travail s’est concentrée sur

l’adaptation des systèmes de traduction automatique pour traiter lecode-switching.

Dans la communauté travaillant sur la traduction automatique, les données code-switchées

sont généralement écartées des études et considérées comme un bruit qu’on doit éliminer. Notre

premier objectif a été de proposer des stratégies pour traduire ce genre de documents. Pour

ce faire, nous avons utilisé le corpus parallèle arabe-anglais extrait des documents officiels des

nations unies. À partir de ce corpus, nous avons construit une ressource consistant en un texte

source code-switché et sa traduction en arabe standard pur et en anglais pur. Cette dernière a

été évaluée manuellement afin de s’assurer de sa qualité pour l’évaluation de nos stratégies de

traduction des textes code-switchés. À notre connaissance, ce type de corpus parallèle n’existe

pas ; celui que nous proposons est unique. Il pourrait également être utilisé pour des études plus

approfondies sur les pratiques multilingues.

Plusieurs stratégies d’apprentissage et de traduction ont été proposées reposant sur les

ap-proches statistique et neuronale. L’apprentissage du modèle de traduction de l’approche

statis-tique sur un corpus code-switché artificiel a donné des résultats de traductions surprenants. En

revanche, pour l’approche neuronale, nous avons trouvé qu’en évitant la traduction des segments

dans la langue étrangère, on peut avoir de bien meilleurs résultats que si on les traduit.