• Aucun résultat trouvé

3.3 Les campagnes de collecte

4.1.1 Ressources utilisées

4.1.1.1 Le corpus Globalphone pour le haoussa

Afin de construire un système de RAP du haoussa, nous avons acheté les ressources néces-saires auprès d’ELRA (acronyme de “European Language Resources Association”). Ce corpus — récupérable sous l’identifiant ELRA-S03471 —, est composé d’un corpus audio (8 heures et 44 minutes au total), d’un modèle de langue (41 435 mots) et d’un dictionnaire de prononcia-tion contenant des variantes (42 659 entrées)2. Ces données ont été collectées et construites par Schlippe et al.(2012) dans le cadre du projet GlobalPhone. Ce projet — qui pour but la construction de systèmes de reconnaissance de la parole continue à grand vocabulaire —, ras-semble une collection de ressources multilingues (jusqu’à présent, 20 des langues les plus ré-pandues dans le monde).

1. http://catalog.elra.info/product_info.php?products_id=1177

2. http://catalog.elra.info/product_info.php?products_id=1203

4.1. Construction des systèmes de RAP pour le haoussa et le wolof 84

Le corpus textuel.Schlippe et al. ont récupéré la version hors ligne de cinq journaux

publiés sur le Web écrits en boko (le système d’écriture officiel fondé sur l’orthographe latine). Pour obtenir un corpus exploitable pour la RAP, le contenu textuel extrait a été nettoyé (balises HTML, caractères spéciaux, lignes vides et doublons, contenu autre qu’en langue haoussa). Cette collection a ensuite été utilisée comme matériau de lecture pour l’enregistrement du corpus audio ainsi que pour la création du modèle de langue.

Le corpus de parole.Le corpus audio a été collecté dans 5 régions du Cameroun (Maroua,

Douala, Yaoundé, Bafoussam, Ngaoundéré et Nigeria) et contient, donc, différents accents. Il est composé de 102 locuteurs de langue maternelle haoussa, âgés de 16 à 60 ans qui ont lu au total 7 895 phrases. Les enregistrements ont été réalisés avec un micro-casque Sennheiser 440-6, dans différents environnements et contiennent quelquefois du bruit. Les données ont été échantillonnées à 16kHz, en 16-bit et encodées au format PCM. Nous les avons converties au format WAV pour le traitement, par la suite, par la boîte à outils Kaldi.

Tableau 4.1 – Présentation du corpus de parole lue en haoussa.

Corpus #Homme #Femme #Phrase #Mot Durée

Apprentissage(train) 24 58 5 863 39 566 6 h 36 min Évaluation(dev) 4 6 1 021 6 293 1 h 02 min Test(test) 5 5 1 011 6 198 1 h 06 min

Total 33 69 7 895 52k 8 h 44 min

Ce corpus de parole a été divisé en trois sous-corpus qui serviront à l’apprentissage du système de RAP et en l’évaluation de sa performance. Le tableau 4.1présente ces trois sous-corpus. Nous avons gardé la même subdivision du corpus audio que celle adoptée parSchlippe

et al.(2012).

4.1.1.2 Le corpus collecté pour le wolof

Nous avons utilisé le corpus textuel (rassemblant environ 148k mots) ainsi que le corpus de parole récolté au Sénégal (représentant au total 21 h 21 minutes de signal audio). Les signaux ont été convertis en mono-canal et échantillonnés à 16kHz, 16bits. Ces corpus ont été évoqués au chapitre précédent, en sous-section 3.3.1. Letableau 4.2présente la répartition du corpus de parole lue que nous avons adoptée pour construire les corpus d’apprentissage, d’évaluation et de test de nos systèmes de RAP.

Nous avons sélectionné 14 locuteurs pour le corpus d’apprentissage, 2 locuteurs pour le corpus d’évaluation et 2 locuteurs pour le corpus de test. Nous avons vérifié que les 3 corpus contenaient une proportion de genres littéraires équivalente (illustration autableau C.1). Plus précisément, les extraits de dictionnaires constituent environ 80% de chaque corpus, les contes représentent environ 15%, les proverbes environ 3%, les débats 1,5% et finalement les paroles de la chanson représentent 0,3%.

4.1. Construction des systèmes de RAP pour le haoussa et le wolof 85 Tableau 4.2 – Présentation du corpus de parole lue en wolof.

Corpus #Homme #Femme #Phrase #Mot Durée

Apprentissage(train) 8 6 13 998 132 963 16 h 49 min Évaluation(dev) 1 1 2 000 18 790 2 h 12 min Test(test) 1 1 2 000 18 843 2 h 20 min

Total 10 8 17 998 171k 21 h 21 min

Recueil de données textuelles sur le Web

Notre corpus textuel initialement construit est constitué de 147 801 mots. Pour entraîner un modèle de langue stochastique, cet ensemble représente très peu de données. Nous avons alors décidé de recueillir plus de données textuelles écrites en wolof, en parcourant le Web. Très peu de documents écrits en wolof sont disponibles en ligne et il est difficile de trouver des données correctement structurées (conformes aux règles syntaxiques). Finalement, nous avons trouvé des fichiers électroniques (au format PDF) de sites éducatifs ainsi que des textes religieux. Ainsi, nous avons extrait — au format TXT pour qu’il soit facilement exploitable par la machine —, des contenus de la Déclaration Universelle des Droits de l’Homme, de la Bible et d’un livre écrit par un humaniste. En terme de post-traitement, nous avons supprimé les symboles, les signes de ponctuation et le texte non significatif (comme la numérotation des sections, les listes numérotées, etc.) des textes collectés. Enfin, nous avons converti le texte en minuscules, ceci dans le but de ne pas faire de distinction sur la casse. Au total, nous avons obtenu 197 430 mots supplémentaires.

Étant donné les données limitées trouvées manuellement, nous avons décidé d’explorer la base de données de Wikipédia pour collecter une plus grande quantité de données en wolof. Nous avons récupéré tous les articles indexés en wolof en utilisant l’outilWikipedia Extractor (Attardi et Fuschetto, 2013). Comme ce type de base de données ouverte n’est que légère-ment supervisé, certains articles peuvent être multilingues. Pour supprimer le texte non écrit en wolof, nous avons appliqué l’outil de détection de langueGoogle Compact Language Detec-tor (CLD2)3. Comme CLD2 ne peut pas reconnaître le wolof, mais peut détecter les langues les plus utilisées, nous avons utilisé l’outil pour filtrer les langues détectées comme « non wolof » et ainsi avons supposé que les documents restants étaient effectivement écrits en wolof. Enfin, pour améliorer la précision de la récupération de texte en wolof, nous avons appliqué l’outil de sélection de donnéesXenc (Rousseau, 2013). Après ces deux passes de filtrage, nous avons nettoyé le contenu en le convertissant en petite casse, en éliminant les balises HTML/XML et toute marque de ponctuation. Finalement, nous avons recueilli environ 311k mots depuis la base de données Wikipédia.

Letableau 4.3résume les données textuelles finalement acquises depuis le Web.

4.1. Construction des systèmes de RAP pour le haoussa et le wolof 86 Tableau 4.3 – Données textuelles supplémentaires écrites en wolof, récupérées en ligne.

Texte #Phrase #Mot

Déclaration Universelle des Droits de l’Homme 112 1 923 Le Message de Silo 602 10 443

La Bible 14 474 185 064

Wikipedia 10 738 311 995

Total 25 926 509 425

4.1.2 Systèmes de référence pour le haoussa et le wolof