Les données

4.5. Conclusion 55

5

58 Chapitre 5. Corpus

5.1. Outils d’enregistrement de parole lue 59

énon-60 Chapitre 5. Corpus

Bien entendu, pour qu’une adaptation soit possible aux locuteurs âgés, nous devons

dis-poser de corpus de parole spécifiques à la tâche et à ce type de locuteurs. Nous avions à

disposition au laboratoire un corpus contenant des appels de détresse lus par des personnes

âgées, le corpus Voice-Age, enregistré par seulement 7 locuteurs et de taille insuffisante (4

heures) pour être utilisé pour les apprentissages et les tests ; cette taille réduite s’explique par

les difficultés à enregistrer un corpus de voix de personnes âgées du fait de la fragilité et de

la fatigabilité de ces personnes qui peuvent difficilement se déplacer et venir dans un studio

d’enregistrement. Nous avions également à disposition d’autres corpus de voix de personnes

âgées, le corpusMémorial de la Shoahet le corpusPhonologie du français contemporain.

Ce-pendant, le contenu de ces corpus (témoignages sur la vie des personnes interrogées) était

trop éloigné de l’application visée. Un autre corpus enregistré par le laboratoire, le corpus

Anodin-Détresse, contenant des appels de détresse lus par 20 locuteurs, s’approchait de

l’ap-plication visée, mais les participants n’étaient pas des personnes âgées. Pour le français, nous

utilisons habituellement au laboratoire le corpusBREF120pour l’apprentissage des modèles

acoustiques du fait de la longue durée de ce corpus (100 heures). Cependant, les phrases

de ce corpus sont elles aussi hors domaine d’application et les personnes ayant participé à

son enregistrement n’étaient pas des personnes âgées. N’ayant pas les ressources suffisantes

pour enregistrer une quantité très importante de voix de personnes âgées pour créer des

mo-dèles de voix âgées (une centaine d’heures aurait été nécessaire), nous avons utilisé comme

modèle acoustique de base (modèle générique) un modèle appris sur le corpusBREF120,

et nous avons enregistré un corpus contenant plusieurs heures de voix de parole âgée pour

adapter le modèle générique à la voix des personnes âgées. En effet, certaines techniques

permettent d’adapter les modèles acoustiques à des caractéristiques particulières à partir

d’une quantité réduite de données contenant ces caractéristiques. Pour réaliser les modèles

de langage, la question s’est posée de déterminer quelles sont les phrases prononcées pour

appeler à l’aide lorsque la personne est en situation de détresse, pour cela nous avons

béné-ficié de l’aide du laboratoire GRePS, partenaire du projetCIRDO(Bobillier-Chaumon et coll.,

2012). Les enregistrements de parole âgée ont nécessité de développer le logiciel

d’enregis-trement de parole lueGEODspécifiquement adapté à cette frange de la population. Enfin,

pour adapter les modèles acoustiques à la voix émue, nous avons enregistré un corpus de

voix de détresse auprès de personnes jouant des situations définies dans des scènes

repré-sentées dans des images.

4.5 Conclusion

Dans ce chapitre, nous avons décrit les caractéristiques et les contraintes – ubiquité,

adaptation à la voix âgée et émue – de notre système de détection d’appels de détresse, ainsi

que les outils et les données que nous utiliserons.

CHAPITRE

5

Corpus

5.1 Outils d’enregistrement de parole lue

Pour enregistrer la voix des personnes âgées, il nous était nécessaire de disposer d’un

outil d’enregistrement. Malgré quelques logiciels existants, nous avons fait le choix de

déve-lopper notre propre application d’enregistrement de corpus, tel que décrit dans les sections

suivantes.

5.1.1 Les logiciels existants

5.1.1.1 EMACOP

Le logicielEMACOP(Environnement Multimedia pour l’Acquisition et la gestion de

Cor-pus de Parole) a été développé en 1999 au sein de l’équipe GEOD du CLIPS pour

l’enregis-trement de corpus de parole lue (Vaufreydaz et coll.,1998). Il a notamment été utilisé pour

l’enregistrement des corpusBRAF100(Vaufreydaz et coll.,2000) etAnodin-Détresse(Vacher

et coll.,2006).

Ce logiciel a été conçu pour que l’enregistrement puisse être réalisé de manière

auto-nome par la personne enregistrée grâce à un système de type client-serveur. L’ensemble du

logiciel se présente donc sous la forme de deux applications distinctes qui communiquent

via le réseau grâce au protocole TCP/IP. L’application serveur permet la définition de la base

de données et est exécutée sur une machine maître. L’entrée des données se fait à l’aide

d’un utilitaire qui connaît plusieurs types d’entités : les corpus, leurs éléments, les locuteurs,

et les scénarios d’acquisition. L’application cliente a en charge toutes les fonctionnalités de

présentation des items et d’acquisition du signal. Le locuteur peut choisir un scénario, le

mener à son terme ou l’arrêter en cours de route, le reprendre ou l’abandonner. Le locuteur

peut accepter le signal qu’il vient de prononcer et passer au suivant, écouter et visualiser le

signal qu’il a produit. Le texte à prononcer lui est présenté tout au long du déroulement du

scénario dans une police de taille réglable, et des images peuvent être également présentées.

Un seuil de détection de la voix permet de déclencher les enregistrements et de passer aux

phrases suivantes automatiquement.

5.1.1.2 ROCme !

ROCme !(Recording of Oral Corpora Made Easy) est un logiciel pour la gestion de

l’en-registrement de corpus oraux (Ferragne et coll.,2013). Il a été développé par le laboratoire

Dynamique Du Langage du CNRS - Université Lumière Lyon 2.

Le logiciel permet d’enregistrer la voix des locuteurs à partir de stimuli qui s’affichent à

l’écran. Le locuteur fait défiler texte, images, vidéos ou sons à l’écran et enregistre sa voix de

façon autonome, les locuteurs pouvant gérer par eux-même l’enregistrement audio, la

lec-ture, la sauvegarde et le défilement des phrases. Le logiciel permet également de recueillir

des métadonnées par le biais de questionnaires et de gérer l’acquisition des corpus à travers

des projets d’enregistrement. L’interface pour le recueil de métadonnées sur les locuteurs est

totalement personnalisable via des balises XML, permettant de recueillir des données telles

que l’âge et certaines caractéristiques personnelles (gaucher ou droitier, accent, etc). Aussi,

le logiciel permet une personnalisation de l’affichage des phrases du corpus avec balises

HTML et style CSS. A la création d’un projet, le logiciel présente plusieurs options telles que