Autres données collectées avec Lig-Aikuma

3.3 Les campagnes de collecte

3.3.3 Autres données collectées avec Lig-Aikuma

Au sein du projet ALFFA, l’application mobile Lig-Aikuma a aussi servi à collecter des corpus oraux en fongbe et en amharique.

Laleye_{et al.}(2016) ont utilisé le mode d’enregistrement libre de Lig-Aikuma pour enregistrer 28 locuteurs natifs de fongbe, au Bénin. Près de 10h de parole ont pu être collectées, permettant, par la suite, de construire un modèle acoustique de la langue, ceci dans le but d’apprendre un système de RAP du fongbe. Les autres modes de l’application n’ont pas été utilisés.

En amharique, langue parlée en Éthiopie, 8 000 phrases provenant du corpus BTEC ont été traduites oralement, représentant 7h30 d’enregistrements de parole (Melese, Besacier et Meshesha, 2016).

Au sein du projet BULB, Lig-Aikuma a également été utilisée par les linguistes de terrain. L’application mobile a ainsi servi à collecter, jusqu’à présent, près de 239h de parole au sein de ce projet, en bàsàá, mbochi, myènè. Letableau 3.4représente la quantité de données collectées jusqu’à maintenant avec Lig-Aikuma dans le projet BULB.

En bàsàá, environ 47 heures de parole spontanée et répétée en utilisant les modes Enre-gistrement et _Respeaking, 34 heures de parole traduite oralement en français avec le mode Traduction et 8 heures, de parole élicitée à partir d’images, ont été enregistrées.

En mbochi, environ 33 heures de parole spontanée ont été enregistrées. La totalité de ce corpus d’enregistrements a été répété (“respeaking”) et traduit oralement en français. De plus, 5h45 de parole contrôlée (lecture de tables de conjugaison) et 7h45 de parole lue ont aussi été enregistrées. Enﬁn, 1 500 images ont été capturées et commentées.

3.4. Résumé 79 Tableau 3.4 – Enregistrements audio reparlés et traduits jusqu’à présent avec Lig-Aikuma dans le projet BULB (en dehors de notre propre collecte en wolof).

Langue Enregistré Reparlé Traduit Élicitation

Bàsàá 23h 24h 34h 8h Mbochi 33h 30h 30h 14h Myènè 9h 29h 5h _{non prévu}

La campagne de collecte en myènè a été la première où Lig-Aikuma a été utilisée en si-tuation réelle. Dès lors, l’application était encore en développement et a souﬀert de quelques dysfonctionnements. Elle n’a, donc, pas été utilisée pour tous les enregistrements. Ainsi, seule-ment 9 heures de parole ont été enregistrées avec le mode_{Enregistrement} de Lig-Aikuma. 36 heures supplémentaires de parole spontanée, de parole élicitée à partir d’images, de parole lue et de discours oratoires ont été collectées à partir d’un dictaphone (TASCAM DR100 et FOSTEX FR2). 29 heures de ces enregistrements ont été répétées avec Lig-Aikuma et 5 heures ont été traduites oralement en français jusqu’à présent.

En plus des collectes de parole, les linguistes ont tiré proﬁt de l’usage du_smartphone ou de la tablette. Spontanément, d’autres fonctionnalités du_smartphoneou de la tablette ont été utilisées comme par exemple l’appareil photo, qui a permis de capturer des images et des vidéos des us et coutumes des peuples de la langue d’intérêt. À titre d’exemple, 1 500 images ont été collectées en mbochi et ont directement permis de faire de l’élicitation.

3.4 Résumé

Ce chapitre récapitule les collectes eﬀectuées en vue de construire — rapidement — des systèmes de transcriptions, mais aussi le travail accompli pour développer une méthodologie de collecte de corpus oraux innovante.

Plusieurs collectes de corpus oraux ont été réalisées, de deux façons diﬀérentes : une ma-nière classique (avec un enregistreur) et de mama-nière originale (avec une application mobile).

L’ensemble des données collectées durant le projet ALFFA est disponible sur notre dépôt Github14. Ces corpus sont également disponibles sur la plateforme d’hébergement OpenSLR15, initiative de l’Université John Hopkins (JHU). OpenSLR a pour but de rassembler de très nom-breuses ressources dédiées à la reconnaissance vocale. Ces données sont libres de droit et d’accès.

La méthodologie adoptée et l’application mobile Lig-Aikuma développée sont le fruit d’une collaboration avec les partenaires du projet BULB, qui répond à des problématiques similaires à celles du projet ALFFA. Nous avons proposé, à travers Lig-Aikuma, un outil mobile équipant le linguiste de terrain, lors de ses missions auprès de populations parlant des langues en voie

14. https://github.com/besacier/ALFFA_PUBLIC/tree/master/ASR

3.4. Résumé 80 d’extinction et/ou peu, voire non, écrites.

Nous avons choisi de développer une application mobile, notamment, pour son faible en-combrement : ce moyen permet d’accompagner le linguiste de terrain — constamment en dé-placement — dans son travail de collecte, sans le surcharger. Nous avons aussi voulu un outil mobile d’une grande autonomie, simple d’utilisation et produisant des données naturellement exploitables (par la machine et par lui-même) à son retour de terrain. En eﬀet, le_smartphone est :

� ^{un outil léger, peu ostentatoire et doté de batteries de plus en plus puissantes. Il en fait} par conséquent l’outil adéquat pour le linguiste de terrain qui peut être mené à étudier des langues dans des environnements aux ressources très faibles.

� un outil de nos jours performant, qui peut permettre de collecter des données directe-ment exploitables par les logiciels informatiques déjà existant (tels qu’Elan, FLEx, etc.). Toutes les gammes sont désormais dotées d’un appareil photo aux performances ac-crues, d’un microphone de qualité, mais aussi d’un écran et des haut-parleurs de mieux en mieux déﬁnis.

Lig-Aikuma dérive d’une application existante nommée Aikuma. Cette application An-droid, développée par Hanke et Bird (2013), permettait de collecter de la parole dans une langue en danger et/ou non écrite auprès de populations habitant dans des villages isolés. L’ob-jectif principal d’Aikuma était de rendre pérenne les données audio collectées afin que, dans le futur, elles puissent encore être exploitables. Pour cela, l’application offrait à l’utilisateur la possibilité de partager ses enregistrements afin que d’autres personnes parlant la langue les commentent ou les traduisent. Bien que l’application initiale soit dotée de remarquables atouts, quelques fonctionnalités essentielles ont dû être implémentées afin de répondre aux besoins des linguistes de terrain.

Aﬁn d’équiper de façon utile, pratique et avantageuse le linguiste de terrain, des fonction-nalités supplémentaires étaient, donc, nécessaires. Ainsi, nous avons repensé Aikuma et créé Lig-Aikuma.

Nous avons intégré à Lig-Aikuma un modeÉlicitationà partir de 3 types de médias diﬀé-rents ainsi qu’un mode_{Vériﬁcation}. De plus, un formulaire sociolinguistique détaillé est associé à chaque type d’enregistrement (libre,_respeaking, traduction et élicitation) et un formulaire de consentement est généré pour signature avec tout nouveau participant.

Les modes _{Respeaking/Traduction} ont largement été enrichis : désormais, il est possible de visualiser l’enveloppe du signal du ﬁchier audio d’origine, mais également de marquer les segments qui ne contiennent pas de parole (pertinente). Ces deux améliorations majeures ap-portent confort d’utilisation et précision dans la découpage du ﬁchier original, et lui font ga-gner du temps sur l’étiquetage de ses données.

Enﬁn, l’application enregistre automatiquement le proﬁl du locuteur, rendant ainsi pos-sible l’import ultérieur des informations renseignées une première fois dans le formulaire des

3.4. Résumé 81 métadonnées. Lig-Aikuma génère automatiquement un ﬁchier au format CSV qui peut être importé directement dans le logiciel d’annotation Elan. Ce ﬁchier répertorie tous les segments créés avec l’application, lors de l’utilisation du modeRespeakingouTraduction.

Lig-Aikuma s’adapte à la résolution du terminal sur lequel elle est lancée. L’application a été installée et utilisée avec succès sur différents _smartphones (HTC Desire 820, Samsung Galaxy S3, Google Nexus 6 et Wiko Rainbow) et tablettes (Samsung Galaxy Tab 4, 7” et 10”). Lors de son installation, des échantillons de fichiers sont déployés pour pouvoir immédiate-ment la tester et comprendre les fichiers pris en charge. La docuimmédiate-mentation de l’application est disponible en version électronique (en français, anglais et allemand) ainsi qu’en version vidéo (en français, sous-titré en anglais) sur notre site webhttps://lig-aikuma.imag.fr/.

Lig-Aikuma a fait l’objet de plusieurs publications, en français et en anglais, dans des conférences aussi bien d’informatique que de linguistique. Ainsi, nous l’avons présentée lors de l’atelier francophone TALAF — organisé dans le cadre de la conférence JEP-TALN-RECITAL 2016 —, qui s’intéresse au traitement automatique des langues africaines (Blachon_{et al.}2016). Nous l’avons également présenté lors d’une session de démonstration à la conférence Inter-speech 2016 (Gauthier, Blachon_{et al.}2016). Une publication est aussi actuellement en cours, dans les actes du colloque international organisé pour les 40 ans du LACITO (Gauthier, Besacier et Voisin, 2018), le laboratoire des langues et civilisations à tradition orale. Conjoin-tement avec les partenaires du projet BULB, nous avons communiqué au sujet de Lig-Aikuma et de la méthodologie adoptée dans le projet, durant l’atelier CCURL 2016, qui promeut la col-laboration et l’informatique pour les langues à faibles ressources (Adda, Adda-Decker_{et al.} 2016), ainsi qu’à l’atelier SLTU 2016, dédié aux technologies de la parole pour les langues peu dotées (Blachon_{et al.}2016).

Plusieurs campagnes de collecte ont été menées avec Lig-Aikuma, au sein du projet BULB et du projet ALFFA. Jusqu’à présent, presque 260h de données audio ont été récoltées via l’ap-plication, dans 8 langues africaines et variétés diﬀérentes.

Dans le cadre du projet ALFFA, 18 locuteurs diﬀérents ont été enregistrés (6 locuteurs de faana-faana, 5 locuteurs de lébou, 7 locuteurs de wolof), permettant ainsi de collecter 3 heures de parole lue et spontanée avec Lig-Aikuma. Grâce à ces corpus, des améliorations futures de Lig-Aikuma ont émergé. Des méthodes innovantes de traitement automatique ont pu être appliquées comme la découverte non supervisée de mots (Godard_{et al.} 2016), la segmenta-tion non supervisée en phonèmes (Vetter_{et al.}2016), la détection de frontières de phonèmes (Franke _{et al.} 2016), l’analyse phonologique (Rialland _{et al.} 2015 ; Cooper-Leavitt _{et al.} 2017b) ou encore l’analyse phonétique ﬁne (Rialland _{et al.} 2016 ; Gauthier, Besacier et Voisin, 2017).

Initialement conçu à des ﬁns de documentation des langues, Lig-Aikuma aura aussi per-mis de créer des corpus de données très facilement, selon un même protocole, qui ont donné

3.4. Résumé 82 lieu à l’évaluation d’outils (Rialland, Adda-Decker_{et al.}2018).

Finalement, le développement de Lig-Aikuma aura permis : 1. d’eﬀectuer des collectes massives

2. d’accélérer la transition d’un corpus brut de parole à un jeu de données utilisable par des systèmes de traitement automatique

3. d’exploiter rapidement des données pour développer des outils technologiques 4. de partager simplement les collectes à la communauté

CHAPITRE

4

Transcrire : Automatisation à l’aide de la reconnaissance

automatique de la parole

Dans ce chapitre, nous allons présenter, dans un premier temps, les principes de base d’un système de reconnaissance automatique de la parole (abrégé « RAP ») ainsi que l’enjeu que représente le développement de ce genre de système pour les langues peu dotées. Ensuite, nous présenterons les systèmes de RAP que nous avons construit pour le haoussa et le wolof, ainsi que les expérimentations mises en place pour faire face au problème du manque de ressources numériques pour la construction des systèmes. Enﬁn, nous indiquerons les outils implémentés pour la reproductibilité de nos expériences.

Les travaux présentés dans ce chapitre ont été publiés dans les actes de la conférence inter-nationale_LREC(“Conference on Language Resources and Evaluation”) (Gauthier, Besacier, Voisin _{et al.}2016) et ont fait l’objet d’une présentation orale à la conférence internationale Interspeech(Gauthier, Besacier et Voisin, 2016b).

4.1 Construction des systèmes de RAP pour le haoussa et

le wolof

Dans le document Collecter, Transcrire, Analyser : quand la machine assiste le linguiste dans son travail de terrain (Page 97-102)