• Aucun résultat trouvé

Bien entendu, pour qu’une adaptation soit possible aux locuteurs âgés, nous devons

dis-poser de corpus de parole spécifiques à la tâche et à ce type de locuteurs. Nous avions à

disposition au laboratoire un corpus contenant des appels de détresse lus par des personnes

âgées, le corpus Voice-Age, enregistré par seulement 7 locuteurs et de taille insuffisante (4

heures) pour être utilisé pour les apprentissages et les tests ; cette taille réduite s’explique par

les difficultés à enregistrer un corpus de voix de personnes âgées du fait de la fragilité et de

la fatigabilité de ces personnes qui peuvent difficilement se déplacer et venir dans un studio

d’enregistrement. Nous avions également à disposition d’autres corpus de voix de personnes

âgées, le corpusMémorial de la Shoahet le corpusPhonologie du français contemporain.

Ce-pendant, le contenu de ces corpus (témoignages sur la vie des personnes interrogées) était

trop éloigné de l’application visée. Un autre corpus enregistré par le laboratoire, le corpus

Anodin-Détresse, contenant des appels de détresse lus par 20 locuteurs, s’approchait de

l’ap-plication visée, mais les participants n’étaient pas des personnes âgées. Pour le français, nous

utilisons habituellement au laboratoire le corpusBREF120pour l’apprentissage des modèles

acoustiques du fait de la longue durée de ce corpus (100 heures). Cependant, les phrases

de ce corpus sont elles aussi hors domaine d’application et les personnes ayant participé à

son enregistrement n’étaient pas des personnes âgées. N’ayant pas les ressources suffisantes

4.5. Conclusion 55

pour enregistrer une quantité très importante de voix de personnes âgées pour créer des

mo-dèles de voix âgées (une centaine d’heures aurait été nécessaire), nous avons utilisé comme

modèle acoustique de base (modèle générique) un modèle appris sur le corpusBREF120,

et nous avons enregistré un corpus contenant plusieurs heures de voix de parole âgée pour

adapter le modèle générique à la voix des personnes âgées. En effet, certaines techniques

permettent d’adapter les modèles acoustiques à des caractéristiques particulières à partir

d’une quantité réduite de données contenant ces caractéristiques. Pour réaliser les modèles

de langage, la question s’est posée de déterminer quelles sont les phrases prononcées pour

appeler à l’aide lorsque la personne est en situation de détresse, pour cela nous avons

béné-ficié de l’aide du laboratoire GRePS, partenaire du projetCIRDO(Bobillier-Chaumon et coll.,

2012). Les enregistrements de parole âgée ont nécessité de développer le logiciel

d’enregis-trement de parole lueGEODspécifiquement adapté à cette frange de la population. Enfin,

pour adapter les modèles acoustiques à la voix émue, nous avons enregistré un corpus de

voix de détresse auprès de personnes jouant des situations définies dans des scènes

repré-sentées dans des images.

4.5 Conclusion

Dans ce chapitre, nous avons décrit les caractéristiques et les contraintes – ubiquité,

adaptation à la voix âgée et émue – de notre système de détection d’appels de détresse, ainsi

que les outils et les données que nous utiliserons.

CHAPITRE

5

Corpus

5.1 Outils d’enregistrement de parole lue

Pour enregistrer la voix des personnes âgées, il nous était nécessaire de disposer d’un

outil d’enregistrement. Malgré quelques logiciels existants, nous avons fait le choix de

déve-lopper notre propre application d’enregistrement de corpus, tel que décrit dans les sections

suivantes.

5.1.1 Les logiciels existants

5.1.1.1 EMACOP

Le logicielEMACOP(Environnement Multimedia pour l’Acquisition et la gestion de

Cor-pus de Parole) a été développé en 1999 au sein de l’équipe GEOD du CLIPS pour

l’enregis-trement de corpus de parole lue (Vaufreydaz et coll.,1998). Il a notamment été utilisé pour

l’enregistrement des corpusBRAF100(Vaufreydaz et coll.,2000) etAnodin-Détresse(Vacher

et coll.,2006).

Ce logiciel a été conçu pour que l’enregistrement puisse être réalisé de manière

auto-nome par la personne enregistrée grâce à un système de type client-serveur. L’ensemble du

logiciel se présente donc sous la forme de deux applications distinctes qui communiquent

via le réseau grâce au protocole TCP/IP. L’application serveur permet la définition de la base

de données et est exécutée sur une machine maître. L’entrée des données se fait à l’aide

d’un utilitaire qui connaît plusieurs types d’entités : les corpus, leurs éléments, les locuteurs,

et les scénarios d’acquisition. L’application cliente a en charge toutes les fonctionnalités de

présentation des items et d’acquisition du signal. Le locuteur peut choisir un scénario, le

mener à son terme ou l’arrêter en cours de route, le reprendre ou l’abandonner. Le locuteur

peut accepter le signal qu’il vient de prononcer et passer au suivant, écouter et visualiser le

signal qu’il a produit. Le texte à prononcer lui est présenté tout au long du déroulement du

scénario dans une police de taille réglable, et des images peuvent être également présentées.

Un seuil de détection de la voix permet de déclencher les enregistrements et de passer aux

phrases suivantes automatiquement.

58 Chapitre 5. Corpus

5.1.1.2 ROCme !

ROCme !(Recording of Oral Corpora Made Easy) est un logiciel pour la gestion de

l’en-registrement de corpus oraux (Ferragne et coll.,2013). Il a été développé par le laboratoire

Dynamique Du Langage du CNRS - Université Lumière Lyon 2.

Le logiciel permet d’enregistrer la voix des locuteurs à partir de stimuli qui s’affichent à

l’écran. Le locuteur fait défiler texte, images, vidéos ou sons à l’écran et enregistre sa voix de

façon autonome, les locuteurs pouvant gérer par eux-même l’enregistrement audio, la

lec-ture, la sauvegarde et le défilement des phrases. Le logiciel permet également de recueillir

des métadonnées par le biais de questionnaires et de gérer l’acquisition des corpus à travers

des projets d’enregistrement. L’interface pour le recueil de métadonnées sur les locuteurs est

totalement personnalisable via des balises XML, permettant de recueillir des données telles

que l’âge et certaines caractéristiques personnelles (gaucher ou droitier, accent, etc). Aussi,

le logiciel permet une personnalisation de l’affichage des phrases du corpus avec balises

HTML et style CSS. A la création d’un projet, le logiciel présente plusieurs options telles que

la présentation des stimuli en ordre aléatoire, l’apparition d’un masque entre le

déclenche-ment de l’enregistredéclenche-ment et l’apparition d’un stimulus, l’interdiction de la sauvegarde d’un

signal écrêté, la possibilité d’enregistrer plusieurs fois chaque phrases, etc.

5.1.1.3 Limitation des logiciels existants

Notre protocole d’enregistrement de corpus prévoyait d’enregistrer certains locuteurs,

notamment les personnes âgées, à leur domicile. Il est vraisemblable que pour un nombre

important de locuteurs, aucune connexion de type internet n’aurait été disponible. La

solu-tionEMACOPavec client local et serveur distant n’était donc pas envisageable. De plus, nous

avions connaissance de problèmes rencontrés lors de l’enregistrement du corpusVoice-Age

enregistré au CHU de Grenoble où les expérimentateurs, afin de pouvoir utiliserEMACOP

sans réseau à l’intérieur de l’hôpital, ont hébergé le client et le serveur sur la même machine

(un PC portable) : le serveur étant prévu pour tourner en continu sur une machine

auto-nome et ne jamais être arrêté, il y a eu systématiquement des pertes de données à chaque

interruption pendant un scénario. De plus, le serveur devait être renseigné après chaque

arrêt de l’ordinateur. Nous avons donc choisi de développer une nouvelle application

d’en-registrement de corpus,GEOD, destinée à remplacerEMACOP, et fonctionnant de manière

autonome.

Parallèlement, le laboratoire Dynamique Du Langage de Lyon 2 a développé

l’applica-tion ROCme !, dont les fonctionnalités étaient proches de celles deGEOD. Cependant, au

début de la thèse, nous n’avions pas connaissance du développement deROCme !, jusqu’à la

5.1. Outils d’enregistrement de parole lue 59

5.1.2 Le logiciel GEOD

5.1.2.1 Cahier des charges

GEODest un logiciel d’enregistrement de corpus de parole lue (figure 5.1). Ce logiciel

per-met l’acquisition du signal sonore, avec déclenchement automatique de l’enregistrement à

la détection du signal de parole, et la génération de fichiers dans le format wav

correspon-dant à l’enregistrement de chaque énoncé prononcé. Le logiciel peut être actionné par un

opérateur en cas d’enregistrement de personnes âgées. La taille des caractères est réglable

pour s’adapter à des locuteurs ayant une mauvaise vision.

Les fonctionnalités deGEODsont :

— La gestion des corpus, avec la création d’un nouveau corpus ou le chargement d’un

corpus existant.

— La gestion des locuteurs, avec la création d’un nouveau locuteur ou le chargement

d’un locuteur existant.

— L’acquisition de parole avec détection automatique du début de l’énoncé, avec

l’affi-chage des énoncés à lire par le locuteur sous forme de scénarios, l’enregistrement de

signaux sonores, la détection de la voix du locuteur pour détecter le début et la fin

d’un énoncé de parole, la possibilité d’être en mode de défilement des phrases

auto-matique ou manuel, et la création de fichiers wav et de fichiers de transcription au

format Sphinx pour chaque énoncé enregistré.

— La vérification, qui consiste en une vérification visuelle des signaux enregistrés par

af-fichage du signal en fonction du temps, un suivi de l’avancement des enregistrements,

et la lecture des signaux sonores enregistrés.

— Les réglages, qui consistent en un réglage des paramètres d’acquisition et de

détec-tion, et en un test du microphone et de la détection des instants de début et de fin des

événements sonores.

5.1.2.2 Protocole d’enregistrement avec le logiciel GEOD

Un enregistrement commence toujours par la signature d’une fiche de consentement de

participation à l’étude (voir annexe A).

Après le lancement du logiciel, l’expérimentateur commence par choisir l’emplacement

du répertoire qui contiendra le corpus. Il saisit les informations concernant le locuteur

(iden-tifiant, âge, genre, accent, commentaires), puis procède au réglage du niveau sonore d’entrée

du microphone, et vérifie les réglages des seuils de détection.

Puis vient la phase d’enregistrement. Les énoncés à prononcer sont répartis dans des

scénarios, c’est-à-dire des listes d’énoncés qui peuvent être enregistrés les uns à la suite des

autres. Il est demandé au locuteur de lire la liste des énoncés du scénario en cours. Les

énon-60 Chapitre 5. Corpus

F

IGURE

5.1:Le logiciel GEOD.

s’affiche grâce à la détection automatique de signal, jusqu’à ce que tous les énoncés du

scé-nario aient été prononcés. Puis, après une pause de durée suffisante, on continue avec les

scénarios suivants, jusqu’à ce que tous les scénarios aient été lus.

L’expérimentateur peut contrôler pendant l’acquisition que le microphone ne sature pas

grâce à l’affichage du niveau sonore sous forme de barre, il peut aussi visualiser en temps

réel la forme du signal. Une fois les énoncés prononcés par le locuteur, l’opérateur peut

écouter le signal sonore enregistré d’un énoncé donné pour le vérifier, et éventuellement le

ré-enregistrer par exemple si le signal est saturé ou que le locuteur a mal prononcé la phrase.

Le résultat de l’enregistrement du locuteur est une collection de fichiers wave (mono, 16

bits, PCM) accompagnés de leurs fichiers de transcriptions contenus dans le dossier affecté

au locuteur donné, et l’ensemble des dossiers des locuteurs constitue le corpus.