Bien entendu, pour qu’une adaptation soit possible aux locuteurs âgés, nous devons
dis-poser de corpus de parole spécifiques à la tâche et à ce type de locuteurs. Nous avions à
disposition au laboratoire un corpus contenant des appels de détresse lus par des personnes
âgées, le corpus Voice-Age, enregistré par seulement 7 locuteurs et de taille insuffisante (4
heures) pour être utilisé pour les apprentissages et les tests ; cette taille réduite s’explique par
les difficultés à enregistrer un corpus de voix de personnes âgées du fait de la fragilité et de
la fatigabilité de ces personnes qui peuvent difficilement se déplacer et venir dans un studio
d’enregistrement. Nous avions également à disposition d’autres corpus de voix de personnes
âgées, le corpusMémorial de la Shoahet le corpusPhonologie du français contemporain.
Ce-pendant, le contenu de ces corpus (témoignages sur la vie des personnes interrogées) était
trop éloigné de l’application visée. Un autre corpus enregistré par le laboratoire, le corpus
Anodin-Détresse, contenant des appels de détresse lus par 20 locuteurs, s’approchait de
l’ap-plication visée, mais les participants n’étaient pas des personnes âgées. Pour le français, nous
utilisons habituellement au laboratoire le corpusBREF120pour l’apprentissage des modèles
acoustiques du fait de la longue durée de ce corpus (100 heures). Cependant, les phrases
de ce corpus sont elles aussi hors domaine d’application et les personnes ayant participé à
son enregistrement n’étaient pas des personnes âgées. N’ayant pas les ressources suffisantes
4.5. Conclusion 55
pour enregistrer une quantité très importante de voix de personnes âgées pour créer des
mo-dèles de voix âgées (une centaine d’heures aurait été nécessaire), nous avons utilisé comme
modèle acoustique de base (modèle générique) un modèle appris sur le corpusBREF120,
et nous avons enregistré un corpus contenant plusieurs heures de voix de parole âgée pour
adapter le modèle générique à la voix des personnes âgées. En effet, certaines techniques
permettent d’adapter les modèles acoustiques à des caractéristiques particulières à partir
d’une quantité réduite de données contenant ces caractéristiques. Pour réaliser les modèles
de langage, la question s’est posée de déterminer quelles sont les phrases prononcées pour
appeler à l’aide lorsque la personne est en situation de détresse, pour cela nous avons
béné-ficié de l’aide du laboratoire GRePS, partenaire du projetCIRDO(Bobillier-Chaumon et coll.,
2012). Les enregistrements de parole âgée ont nécessité de développer le logiciel
d’enregis-trement de parole lueGEODspécifiquement adapté à cette frange de la population. Enfin,
pour adapter les modèles acoustiques à la voix émue, nous avons enregistré un corpus de
voix de détresse auprès de personnes jouant des situations définies dans des scènes
repré-sentées dans des images.
4.5 Conclusion
Dans ce chapitre, nous avons décrit les caractéristiques et les contraintes – ubiquité,
adaptation à la voix âgée et émue – de notre système de détection d’appels de détresse, ainsi
que les outils et les données que nous utiliserons.
CHAPITRE
5
Corpus
5.1 Outils d’enregistrement de parole lue
Pour enregistrer la voix des personnes âgées, il nous était nécessaire de disposer d’un
outil d’enregistrement. Malgré quelques logiciels existants, nous avons fait le choix de
déve-lopper notre propre application d’enregistrement de corpus, tel que décrit dans les sections
suivantes.
5.1.1 Les logiciels existants
5.1.1.1 EMACOP
Le logicielEMACOP(Environnement Multimedia pour l’Acquisition et la gestion de
Cor-pus de Parole) a été développé en 1999 au sein de l’équipe GEOD du CLIPS pour
l’enregis-trement de corpus de parole lue (Vaufreydaz et coll.,1998). Il a notamment été utilisé pour
l’enregistrement des corpusBRAF100(Vaufreydaz et coll.,2000) etAnodin-Détresse(Vacher
et coll.,2006).
Ce logiciel a été conçu pour que l’enregistrement puisse être réalisé de manière
auto-nome par la personne enregistrée grâce à un système de type client-serveur. L’ensemble du
logiciel se présente donc sous la forme de deux applications distinctes qui communiquent
via le réseau grâce au protocole TCP/IP. L’application serveur permet la définition de la base
de données et est exécutée sur une machine maître. L’entrée des données se fait à l’aide
d’un utilitaire qui connaît plusieurs types d’entités : les corpus, leurs éléments, les locuteurs,
et les scénarios d’acquisition. L’application cliente a en charge toutes les fonctionnalités de
présentation des items et d’acquisition du signal. Le locuteur peut choisir un scénario, le
mener à son terme ou l’arrêter en cours de route, le reprendre ou l’abandonner. Le locuteur
peut accepter le signal qu’il vient de prononcer et passer au suivant, écouter et visualiser le
signal qu’il a produit. Le texte à prononcer lui est présenté tout au long du déroulement du
scénario dans une police de taille réglable, et des images peuvent être également présentées.
Un seuil de détection de la voix permet de déclencher les enregistrements et de passer aux
phrases suivantes automatiquement.
58 Chapitre 5. Corpus
5.1.1.2 ROCme !
ROCme !(Recording of Oral Corpora Made Easy) est un logiciel pour la gestion de
l’en-registrement de corpus oraux (Ferragne et coll.,2013). Il a été développé par le laboratoire
Dynamique Du Langage du CNRS - Université Lumière Lyon 2.
Le logiciel permet d’enregistrer la voix des locuteurs à partir de stimuli qui s’affichent à
l’écran. Le locuteur fait défiler texte, images, vidéos ou sons à l’écran et enregistre sa voix de
façon autonome, les locuteurs pouvant gérer par eux-même l’enregistrement audio, la
lec-ture, la sauvegarde et le défilement des phrases. Le logiciel permet également de recueillir
des métadonnées par le biais de questionnaires et de gérer l’acquisition des corpus à travers
des projets d’enregistrement. L’interface pour le recueil de métadonnées sur les locuteurs est
totalement personnalisable via des balises XML, permettant de recueillir des données telles
que l’âge et certaines caractéristiques personnelles (gaucher ou droitier, accent, etc). Aussi,
le logiciel permet une personnalisation de l’affichage des phrases du corpus avec balises
HTML et style CSS. A la création d’un projet, le logiciel présente plusieurs options telles que
la présentation des stimuli en ordre aléatoire, l’apparition d’un masque entre le
déclenche-ment de l’enregistredéclenche-ment et l’apparition d’un stimulus, l’interdiction de la sauvegarde d’un
signal écrêté, la possibilité d’enregistrer plusieurs fois chaque phrases, etc.
5.1.1.3 Limitation des logiciels existants
Notre protocole d’enregistrement de corpus prévoyait d’enregistrer certains locuteurs,
notamment les personnes âgées, à leur domicile. Il est vraisemblable que pour un nombre
important de locuteurs, aucune connexion de type internet n’aurait été disponible. La
solu-tionEMACOPavec client local et serveur distant n’était donc pas envisageable. De plus, nous
avions connaissance de problèmes rencontrés lors de l’enregistrement du corpusVoice-Age
enregistré au CHU de Grenoble où les expérimentateurs, afin de pouvoir utiliserEMACOP
sans réseau à l’intérieur de l’hôpital, ont hébergé le client et le serveur sur la même machine
(un PC portable) : le serveur étant prévu pour tourner en continu sur une machine
auto-nome et ne jamais être arrêté, il y a eu systématiquement des pertes de données à chaque
interruption pendant un scénario. De plus, le serveur devait être renseigné après chaque
arrêt de l’ordinateur. Nous avons donc choisi de développer une nouvelle application
d’en-registrement de corpus,GEOD, destinée à remplacerEMACOP, et fonctionnant de manière
autonome.
Parallèlement, le laboratoire Dynamique Du Langage de Lyon 2 a développé
l’applica-tion ROCme !, dont les fonctionnalités étaient proches de celles deGEOD. Cependant, au
début de la thèse, nous n’avions pas connaissance du développement deROCme !, jusqu’à la
5.1. Outils d’enregistrement de parole lue 59
5.1.2 Le logiciel GEOD
5.1.2.1 Cahier des charges
GEODest un logiciel d’enregistrement de corpus de parole lue (figure 5.1). Ce logiciel
per-met l’acquisition du signal sonore, avec déclenchement automatique de l’enregistrement à
la détection du signal de parole, et la génération de fichiers dans le format wav
correspon-dant à l’enregistrement de chaque énoncé prononcé. Le logiciel peut être actionné par un
opérateur en cas d’enregistrement de personnes âgées. La taille des caractères est réglable
pour s’adapter à des locuteurs ayant une mauvaise vision.
Les fonctionnalités deGEODsont :
— La gestion des corpus, avec la création d’un nouveau corpus ou le chargement d’un
corpus existant.
— La gestion des locuteurs, avec la création d’un nouveau locuteur ou le chargement
d’un locuteur existant.
— L’acquisition de parole avec détection automatique du début de l’énoncé, avec
l’affi-chage des énoncés à lire par le locuteur sous forme de scénarios, l’enregistrement de
signaux sonores, la détection de la voix du locuteur pour détecter le début et la fin
d’un énoncé de parole, la possibilité d’être en mode de défilement des phrases
auto-matique ou manuel, et la création de fichiers wav et de fichiers de transcription au
format Sphinx pour chaque énoncé enregistré.
— La vérification, qui consiste en une vérification visuelle des signaux enregistrés par
af-fichage du signal en fonction du temps, un suivi de l’avancement des enregistrements,
et la lecture des signaux sonores enregistrés.
— Les réglages, qui consistent en un réglage des paramètres d’acquisition et de
détec-tion, et en un test du microphone et de la détection des instants de début et de fin des
événements sonores.
5.1.2.2 Protocole d’enregistrement avec le logiciel GEOD
Un enregistrement commence toujours par la signature d’une fiche de consentement de
participation à l’étude (voir annexe A).
Après le lancement du logiciel, l’expérimentateur commence par choisir l’emplacement
du répertoire qui contiendra le corpus. Il saisit les informations concernant le locuteur
(iden-tifiant, âge, genre, accent, commentaires), puis procède au réglage du niveau sonore d’entrée
du microphone, et vérifie les réglages des seuils de détection.
Puis vient la phase d’enregistrement. Les énoncés à prononcer sont répartis dans des
scénarios, c’est-à-dire des listes d’énoncés qui peuvent être enregistrés les uns à la suite des
autres. Il est demandé au locuteur de lire la liste des énoncés du scénario en cours. Les
énon-60 Chapitre 5. Corpus
F
IGURE5.1:Le logiciel GEOD.
s’affiche grâce à la détection automatique de signal, jusqu’à ce que tous les énoncés du
scé-nario aient été prononcés. Puis, après une pause de durée suffisante, on continue avec les
scénarios suivants, jusqu’à ce que tous les scénarios aient été lus.
L’expérimentateur peut contrôler pendant l’acquisition que le microphone ne sature pas
grâce à l’affichage du niveau sonore sous forme de barre, il peut aussi visualiser en temps
réel la forme du signal. Une fois les énoncés prononcés par le locuteur, l’opérateur peut
écouter le signal sonore enregistré d’un énoncé donné pour le vérifier, et éventuellement le
ré-enregistrer par exemple si le signal est saturé ou que le locuteur a mal prononcé la phrase.
Le résultat de l’enregistrement du locuteur est une collection de fichiers wave (mono, 16
bits, PCM) accompagnés de leurs fichiers de transcriptions contenus dans le dossier affecté
au locuteur donné, et l’ensemble des dossiers des locuteurs constitue le corpus.
Dans le document
Reconnaissance automatique de la parole de personnes âgées pour les services d'assistance à domicile
(Page 55-61)