Voix émue

plu-48 Chapitre 3. État de l’art de la reconnaissance des voix âgées et émues

3.3. Conclusion 49

4

52 Chapitre 4. Méthodologie

adaptation au locuteur avec la méthode MLLR et ont trouvé une amélioration de 6% chez les

personnes âgées (différence absolue), avec une différence entre la parole des adultes et des

personnes âgées passant de 11,4% à 7,7% après adaptation.

Il ressort de ces différentes études que la discordance entre les propriétés acoustiques

des voix des personnes âgées et celles plus jeunes utilisées pour élaborer les modèles

acous-tiques a un impact important sur les performances des systèmes de RAP et une adaptation

des modèles acoustiques est nécessaire. Plusieurs études ont cherché à savoir quelles

mo-difications acoustiques de la voix âgée entraînent cette dégradation des performances des

systèmes.

Ainsi,Vipperla et coll.(2010) analysent l’effet des changements de certains paramètres

acoustiques de la voix tels que la fréquence fondamentale (F0), le jitter et le shimmer sur

les performances de la RAP. Ils comparent également les scores de vraisemblances des

pho-nèmes avec le PER (Phonem Error Rate). L’étude porte sur l’analyse du phonème /a/, 2970

réalisations de ce phonèmes ont été extraites du corpusSCOTUSprononcés par 23 hommes

adultes ainsi que 2105 réalisations prononcées par 10 hommes âgés. Il a été observé une F0

plus basse chez les hommes âgés (128 Hz) que chez les hommes adultes (144 Hz). En

bais-sant artificiellement la valeur de F0 de 10%, pour voir les effets d’une baisse de la F0 sur le

système de RAP, le WER augmente légèrement en passant de 32,1% à 33,2%. Les auteurs

ob-servent également une augmentation significative des valeurs du jitter et du shimmer chez

les personnes âgées par rapport aux adultes, en revanche en augmentant artificiellement ces

valeurs, ils ne trouvent pas de variations significatives du WER.

Enfin,Pellegrini et coll.(2013) présentent une étude sur l’impact de certains paramètres

acoustiques sur la performance de la reconnaissance vocale sur des corpus de parole en

por-tugais européen. Trois groupes de locuteurs sont comparés : le groupe « jeunes adultes » (100

locuteurs de 19 à 30 ans), soit 20h extraites du corpusBD-PUBLICO, et les groupes « seniors »

(114 locuteurs de 60 à 75 ans) et « âgés » (94 locuteurs de 75 à 90 ans), avec respectivement 8,7

heures et 6,7 heures extraites du corpus EASR. Les auteurs ont utilisé le décodeurAudimus,

un système hybride HMM (Hidden Markov Models) et perceptron multicouches. Les auteurs

ont obtenu comme résultats des WER moyens de 13,55%, 27,25% et 34,15% pour

respective-ment les groupes « jeunes adultes », « seniors » et « âgés ». Ils ont calculé les corrélations entre

les paramètres acoustiques et les WER, et trouvé que les WER sont corrélés avec l’utilisation

des pauses, le débit, la durée des phonèmes et le pourcentage de phonèmes longs. Pour les

hommes, ils ont observé une légère corrélation du WER avec le pourcentage de schwas et le

rapport harmonique sur bruit. Pour le jitter et le shimmer, la corrélation est très basse pour

les 2 genres.

3.2 Voix émue

Dans le contexte d’une reconnaissance automatique de la parole en vue d’un appel à

l’aide ou d’un appel à un proche corrélé à une charge émotionnelle, la personne sera la

(c’est à dire la situation de recueil de corpus que nous avons assimilé comme le plus

ana-logue à la situation de commandes domotiques sans contexte émotionnel particulier).

En situation réelle, pour un système domotique détectant des commandes vocales,

celles-ci peuvent être expressives globalement pour 2 raisons :

— si l’utilisateur se construit une représentation de l’appartement comme étant une

en-tité communicative (paradigme de HAL (Clarcke,1968)), faisant que la prosodie et la

morpho-syntaxe peuvent mettre en œuvre des intentions, des attitudes et autres

va-leurs socio-affectifs interactionnelles,

— si la commande est motivée par une contexte fortement émotionnel (panique, joie de

parler à un proche, etc.).

Ainsi, nous pouvons supposer que plus l’énoncé à reconnaître reflète un désir ou un

be-soin important pour le sujet, plus l’énoncé est modifié par l’expressivité. Or la caractéristique

de la voie émue est précisément de perturber les structures acoustiques du continuum

so-nore, avec des modifications prosodiques incluant de fortes modifications de la qualité de la

voix (Audibert,2008;Vlasenko et coll.,2011) de façon à ce que ces émotions soient perçues

par l’interlocuteur. En effet, d’aprèsScherer(2003), la prosodie (étendue à la qualité de voix)

est le principal vecteur des émotions exprimées dans la parole, et plus généralement de tous

les socio-affects (Campbell,2009;Aubergé,2002).

Dans leur utilisation classique avec le microphone proche du locuteur, les systèmes de

RAP modernes ont des performances élevées pour la reconnaissance de parole prononcée de

façon neutre, mais ne peuvent pas maintenir leurs performances pour la parole spontanée,

la RAP pour la parole spontanée n’étant pas un problème résolu, même s’il a été largement

étudié (Shinozaki et coll.,2001;Nanjo et Kawahara,2002;Kawahara et coll.,2003;Furui,2003;

Furui et coll., 2005;Dufour et coll., 2009). Les principaux problèmes abordés sont d’ordre

pragmatico-syntaxique (reformulation, fillers, etc.), donc ces études s’intéressent surtout à

l’amélioration des modèles de langage et beaucoup moins souvent à l’amélioration des

mo-dèles acoustiques : les perturbations prosodiques du signal de la parole, dont une part est

liée à l’état émotionnel de la personne, ne sont pas réellement abordées comme étant un

problème pour les performances des systèmes de RAP. Or il est sûrement plus facile pour un

utilisateur de contrôler une stricte formulation lexico-syntaxique de la commande que de

contrôler l’expressivité prosodique, car les émotions sont souvent exprimées de façon

invo-lontaire.

Par ailleurs, beaucoup d’études sont liées à la reconnaissance automatique des émotions

à partir de la voix dans des situations, en particulier, de détresse (Vidrascu, 2007;Schuller

et coll.,2011;Vaudable,2012;Chastagnol,2013). De nombreux descripteurs extraits du

si-gnal audio peuvent être utilisés pour la classification des émotions. Dans (Soury et Devillers,

2013), les auteurs utilisent des descripteurs tels que l’énergie du signal, le pitch, la qualité

de la voix (le jitter et le shimmer, qui ont été étudiés plutôt pour les voix pathologiques), et

des paramètres spectraux et cepstraux pour la détection de la voix stressée, en comparant

différentes tailles de fenêtres d’analyse.

Cependant, peu d’études portent sur l’évaluation de l’impact des émotions sur les