G.0.3 Différences
8.2 WER issus du décodage avec Google Speech API en fonction du ton – neutre ou
cuteurs âgés, la différence n’est pas significative, avec t=-0,2497, df=7,634, p>0,05 (p=0,8094),
mais cela étant peut-être lié au faible nombre de personnes âgées enregistrés (5 personnes).
8.4 Adaptation des modèles acoustiques au locuteur pour la
voix émue
Afin de déterminer s’il est possible d’améliorer les résultats avecSphinx3, nous avons
réa-lisé une adaptation MLLR au locuteur sur le modèle acoustique génériqueBREF120à partir
des phrases de la sous-partieadaptationdu corpusVoix Détresse. Trois types d’adaptations
au locuteur ont été réalisées :
— adaptation à la voix neutre : pour chaque locuteur, l’adaptation a été réalisée à partir
de 10 phrases neutres prononcées par ce même locuteur. Les modèles adaptés obtenus
sont les modèles nommésBREF120_MLLR_LOC_N,
— adaptation à la voix émue : pour chaque locuteur, l’adaptation a été réalisée à partir de
Groupe BREF120 BREF120_MLLR_LOC_N BREF120_MLLR_LOC_E BREF120_MLLR_LOC_N+E
JN 9,27 7,80 11,03 7,21 JE 39,22 28,86 22,45 20,23 AN 18,82 17,06 16,48 15,88 AE 38,42 35,48 31,64 30,50 Moy. N 11,18 9,65 12,12 8,94 Moy. E 39,06 30,18 24,28 22,28
116 Chapitre 8. Etude des performances des système de RAP avec la voix émue en situation de détresse
20 phrases neutres prononcées par ce même locuteur. Les modèles adaptés obtenus
sont les modèlesBREF120_MLLR_LOC_E,
— adaptation sans distinction neutre ou émue : pour chaque locuteur, l’adaptation a été
réalisée à partir de 10 phrases neutres et 20 phrases émues prononcées par ce même
locuteur. Les modèles adaptés obtenus sont les modèlesBREF120_MLLR_LOC_N+E.
Chaque locuteur possède ainsi 3 modèles différents adaptés spécifiquement à sa voix.
Le décodage a été réalisé, comme dans les sections 8.3.1 et 8.3.2, sur les 739 phrases
neutres et émues de la sous-partietestdu corpusVoix Détresse, avec les différents modèles
acoustiques adaptés aux locuteurs, et nous avons effectué une comparaison avec le modèle
BREF120.
Les résultats des WER moyens pour les groupesvoix neutres jeunes, voix émues jeunes,
voix neutres âgéesetvoix émues âgéessont donnés table 8.3.
Une ANOVA suivie d’un test de Tukey HSD ont été réalisés pour chaque groupe (les
échantillons suivent une loi normale et vérifient l’homogénéité des variances). Nous avons
fusionné le groupevoix neutres âgéesavec le groupevoix neutres jeunes, ainsi que le groupe
voix émues âgées avec le groupe voix émues jeunes, car nous n’avons pas suffisamment
de locuteurs âgés pour réaliser une ANOVA sur les groupes correspondant. Les ANOVA
montrent qu’il n’y a pas de différence significative entre les échantillons du groupe voix
neutres(F(3 ;96)=1,293 ; p=0,281), et qu’il existe une différence significative (p-value < 0,05)
entre les échantillons du groupe voix émues (F(3 ;96)=7,828 ; p=9,96e-05). Les résultats du
test de Tukey HSD sont donnés table 8.4.
Pour les voix neutres, nous n’observons aucune différence significative entre les WER
obtenus avec les différents modèles acoustiques, avec p>0,05 pour chaque paire de modèles
acoustiques.
BREF120 BREF120..._N BREF120..._E BREF120..._N+E
BREF120 - p=0,8298 p=0,9529 p=0,5977
BREF120_MLLR_LOC_N - - p=0,5174 p=0,9786
BREF120_MLLR_LOC_E - - - p=0,2923
BREF120_MLLR_LOC_N+E - - -
-WER (%) 11,18 9,65 12,12 8,94
(a)Groupe « voix neutres ».
BREF120 BREF120..._N BREF120..._E BREF120..._N+E
BREF120 - p=0,0976 p=0,0011 p=0,0002
BREF120_MLLR_LOC_N - - p=0,4120 p=0,1683
BREF120_MLLR_LOC_E - - - p=0,9526
BREF120_MLLR_LOC_N+E - - -
-WER (%) 39,06 30,18 24,28 22,28
(b)Groupe « voix émues ».
T
ABLE8.4: WER et p-value du test de Tukey HSD résultants des décodages sur les modèles
BREF120 et BREF120 adaptés pour chacun des groupes (hypothèse de différence entre les
groupes validée si p<0,05)).
8.5. Détection des phrases cibles 117
Pour les voix émues, il existe une différence de WER significative entre le modèle
géné-riqueBREF120et les modèles adaptés à la voix émuesBREF120_MLLR_LOC_E, avec p<0,05
(p=0,0011), et une différence absolue entre les WER moyens de 14,78%. De même entre les
modèleBREF120etBREF120_MLLR_LOC_N+E, avec p<0,05 (p=0,0002), et une différence
ab-solue de 16,78%. En revanche, il n’y a pas de différence significative entre les autres modèles
acoustiques. Ainsi, lors du décodage des phrases émues, nous voyons que l’adaptation au
locuteur à partir de phrases neutres n’est pas suffisamment efficace pour améliorer
signifi-cativement le WER. Il est donc nécessaire d’utiliser des modèles adaptés à la voix émue.
L’uti-lisation de modèles adaptés à partir de phrases aussi bien neutres qu’émues permet
d’obte-nir un WER similaire au cas où seules les phrases émues sont utilisées pour l’adaptation, les
différences de WER entre les modèlesBREF120_MLLR_LOC_EetBREF120_MLLR_LOC_N+E
n’étant pas significatives. Aussi, il est intéressant de noter que l’usage de modèles adaptés à
la voix émue (BREF120_MLLR_LOC_E etBREF120_MLLR_LOC_N+E) ne dégradent pas
signi-ficativement les performances avec la voix neutre.
8.5 Détection des phrases cibles
Nous avons appliqué le filtre décrit en section 6.4.2 sur les hypothèses de sortie de
Sphinx3 (modèlesBREF120_MLLR_LOC_N+E) pour détecter quelles sont les phrases de
dé-tresse prononcées (les phrases cibles). Le filtre utilisé contenait les phrases que nous avions
demandé de prononcer aux locuteurs du corpusVoix Détresse. Toutes les phrases testées
ap-partenant à une seule classe (phrases de détresse), nous n’avons pas pu évaluer la capacité
du filtre à discriminer les phrases cibles des autres phrases. Nous avons néanmoins calculé
le taux de confusion pour les phrases neutres et pour les phrases émues : pour les phrases
prononcées de façon neutre, 2% des phrases ont été mal reconnues par le filtre, et pour les
phrases prononcées de façon émue, 9,41% des phrases ont été mal reconnues. Cette
dif-férence de 7,41% montre que les émotions ont un impact sur le système de détection des
phrases cibles.
8.6 Caractérisation de la voix émue
Nous avons mesuré les valeurs moyennes des paramètres prosodiques étendus à la
qua-lité de la voix à travers les valeurs deDébit,F0,Jitter,ShimmeretHNRet les avons comparé
entre la voix neutre et la voix émue (c’est-à-dire détresse actée). Les données utilisées sont
les 739 phrases neutres et émues des locuteurs jeunes et âgés du sous-corpustestdu corpus
Voix Détresse. Les mesures par locuteur sont présentées figures 8.4, 8.5, 8.6, 8.7 et 8.8.
Sur ces figures, les locuteurs sont représentés par un identifiant. Par exemple le locuteur
A01F84est le locuteur du groupelocuteurs âgésnuméro 01, de sexe féminin, âgé de 84 ans ;
ou par exemple le locuteur J02M31 est le locuteur du groupelocuteurs jeunesnuméro 02, de
118 Chapitre 8. Etude des performances des système de RAP avec la voix émue en situation de détresse