WER issus du décodage avec Google Speech API en fonction du ton

G.0.3 Différences

8.2 WER issus du décodage avec Google Speech API en fonction du ton – neutre ou

cuteurs âgés, la différence n’est pas significative, avec t=-0,2497, df=7,634, p>0,05 (p=0,8094),

mais cela étant peut-être lié au faible nombre de personnes âgées enregistrés (5 personnes).

8.4 Adaptation des modèles acoustiques au locuteur pour la

voix émue

Afin de déterminer s’il est possible d’améliorer les résultats avecSphinx3, nous avons

réa-lisé une adaptation MLLR au locuteur sur le modèle acoustique génériqueBREF120à partir

des phrases de la sous-partieadaptationdu corpusVoix Détresse. Trois types d’adaptations

au locuteur ont été réalisées :

— adaptation à la voix neutre : pour chaque locuteur, l’adaptation a été réalisée à partir

de 10 phrases neutres prononcées par ce même locuteur. Les modèles adaptés obtenus

sont les modèles nommésBREF120_MLLR_LOC_N,

— adaptation à la voix émue : pour chaque locuteur, l’adaptation a été réalisée à partir de

Groupe BREF120 BREF120_MLLR_LOC_N BREF120_MLLR_LOC_E BREF120_MLLR_LOC_N+E

JN 9,27 7,80 11,03 7,21 JE 39,22 28,86 22,45 20,23 AN 18,82 17,06 16,48 15,88 AE 38,42 35,48 31,64 30,50 Moy. N 11,18 9,65 12,12 8,94 Moy. E 39,06 30,18 24,28 22,28

116 Chapitre 8. Etude des performances des système de RAP avec la voix émue en situation de détresse

20 phrases neutres prononcées par ce même locuteur. Les modèles adaptés obtenus

sont les modèlesBREF120_MLLR_LOC_E,

— adaptation sans distinction neutre ou émue : pour chaque locuteur, l’adaptation a été

réalisée à partir de 10 phrases neutres et 20 phrases émues prononcées par ce même

locuteur. Les modèles adaptés obtenus sont les modèlesBREF120_MLLR_LOC_N+E.

Chaque locuteur possède ainsi 3 modèles différents adaptés spécifiquement à sa voix.

Le décodage a été réalisé, comme dans les sections 8.3.1 et 8.3.2, sur les 739 phrases

neutres et émues de la sous-partietestdu corpusVoix Détresse, avec les différents modèles

acoustiques adaptés aux locuteurs, et nous avons effectué une comparaison avec le modèle

BREF120.

Les résultats des WER moyens pour les groupesvoix neutres jeunes, voix émues jeunes,

voix neutres âgéesetvoix émues âgéessont donnés table 8.3.

Une ANOVA suivie d’un test de Tukey HSD ont été réalisés pour chaque groupe (les

échantillons suivent une loi normale et vérifient l’homogénéité des variances). Nous avons

fusionné le groupevoix neutres âgéesavec le groupevoix neutres jeunes, ainsi que le groupe

voix émues âgées avec le groupe voix émues jeunes, car nous n’avons pas suffisamment

de locuteurs âgés pour réaliser une ANOVA sur les groupes correspondant. Les ANOVA

montrent qu’il n’y a pas de différence significative entre les échantillons du groupe voix

neutres(F(3 ;96)=1,293 ; p=0,281), et qu’il existe une différence significative (p-value < 0,05)

entre les échantillons du groupe voix émues (F(3 ;96)=7,828 ; p=9,96e-05). Les résultats du

test de Tukey HSD sont donnés table 8.4.

Pour les voix neutres, nous n’observons aucune différence significative entre les WER

obtenus avec les différents modèles acoustiques, avec p>0,05 pour chaque paire de modèles

acoustiques.

BREF120 BREF120..._N BREF120..._E BREF120..._N+E

BREF120 - p=0,8298 p=0,9529 p=0,5977

BREF120_MLLR_LOC_N - - p=0,5174 p=0,9786

BREF120_MLLR_LOC_E - - - p=0,2923

BREF120_MLLR_LOC_N+E - - -

-WER (%) 11,18 9,65 12,12 8,94

(a)Groupe « voix neutres ».

BREF120 BREF120..._N BREF120..._E BREF120..._N+E

BREF120 - p=0,0976 p=0,0011 p=0,0002

BREF120_MLLR_LOC_N - - p=0,4120 p=0,1683

BREF120_MLLR_LOC_E - - - p=0,9526

BREF120_MLLR_LOC_N+E - - -

-WER (%) 39,06 30,18 24,28 22,28

(b)Groupe « voix émues ».

T

ABLE

8.4: WER et p-value du test de Tukey HSD résultants des décodages sur les modèles

BREF120 et BREF120 adaptés pour chacun des groupes (hypothèse de différence entre les

groupes validée si p<0,05)).

8.5. Détection des phrases cibles 117

Pour les voix émues, il existe une différence de WER significative entre le modèle

géné-riqueBREF120et les modèles adaptés à la voix émuesBREF120_MLLR_LOC_E, avec p<0,05

(p=0,0011), et une différence absolue entre les WER moyens de 14,78%. De même entre les

modèleBREF120etBREF120_MLLR_LOC_N+E, avec p<0,05 (p=0,0002), et une différence

ab-solue de 16,78%. En revanche, il n’y a pas de différence significative entre les autres modèles

acoustiques. Ainsi, lors du décodage des phrases émues, nous voyons que l’adaptation au

locuteur à partir de phrases neutres n’est pas suffisamment efficace pour améliorer

signifi-cativement le WER. Il est donc nécessaire d’utiliser des modèles adaptés à la voix émue.

L’uti-lisation de modèles adaptés à partir de phrases aussi bien neutres qu’émues permet

d’obte-nir un WER similaire au cas où seules les phrases émues sont utilisées pour l’adaptation, les

différences de WER entre les modèlesBREF120_MLLR_LOC_EetBREF120_MLLR_LOC_N+E

n’étant pas significatives. Aussi, il est intéressant de noter que l’usage de modèles adaptés à

la voix émue (BREF120_MLLR_LOC_E etBREF120_MLLR_LOC_N+E) ne dégradent pas

signi-ficativement les performances avec la voix neutre.

8.5 Détection des phrases cibles

Nous avons appliqué le filtre décrit en section 6.4.2 sur les hypothèses de sortie de

Sphinx3 (modèlesBREF120_MLLR_LOC_N+E) pour détecter quelles sont les phrases de

dé-tresse prononcées (les phrases cibles). Le filtre utilisé contenait les phrases que nous avions

demandé de prononcer aux locuteurs du corpusVoix Détresse. Toutes les phrases testées

ap-partenant à une seule classe (phrases de détresse), nous n’avons pas pu évaluer la capacité

du filtre à discriminer les phrases cibles des autres phrases. Nous avons néanmoins calculé

le taux de confusion pour les phrases neutres et pour les phrases émues : pour les phrases

prononcées de façon neutre, 2% des phrases ont été mal reconnues par le filtre, et pour les

phrases prononcées de façon émue, 9,41% des phrases ont été mal reconnues. Cette

dif-férence de 7,41% montre que les émotions ont un impact sur le système de détection des

phrases cibles.

8.6 Caractérisation de la voix émue

Nous avons mesuré les valeurs moyennes des paramètres prosodiques étendus à la

qua-lité de la voix à travers les valeurs deDébit,F0,Jitter,ShimmeretHNRet les avons comparé

entre la voix neutre et la voix émue (c’est-à-dire détresse actée). Les données utilisées sont

les 739 phrases neutres et émues des locuteurs jeunes et âgés du sous-corpustestdu corpus

Voix Détresse. Les mesures par locuteur sont présentées figures 8.4, 8.5, 8.6, 8.7 et 8.8.

Sur ces figures, les locuteurs sont représentés par un identifiant. Par exemple le locuteur

A01F84est le locuteur du groupelocuteurs âgésnuméro 01, de sexe féminin, âgé de 84 ans ;

ou par exemple le locuteur J02M31 est le locuteur du groupelocuteurs jeunesnuméro 02, de

118 Chapitre 8. Etude des performances des système de RAP avec la voix émue en situation de détresse

— une diminution du débit,

— une augmentation de la fréquence fondamentale,

— une diminution du jitter,

— une diminution du shimmer,

— une augmentation du rapport harmonique sur bruit.

Les moyennes par variable sur l’ensemble des locuteurs, avec les tests de significativité

sur les différences entre voix neutres et voix émues, sont présentées table 8.5. Nous

obser-vons que ces différences sont statistiquement significatives pour toutes les variables testées.

Scherer et coll.(2003) comparent les effets de différentes émotions sur leurs paramètres

acoustiques par rapport à la voix « normale » (dans des corpus principalement actés). Les

auteurs ont synthétisé les résultats des différentes études de la communauté dans ce

do-maine, présentés figure 8.3. Les émotions étudiées parScherer et coll.(2003) s’approchant

F

IGURE

8.3:Examen synthétique des résultats empiriques concernant l’effet de l’émotion sur

Dans le document Reconnaissance automatique de la parole de personnes âgées pour les services d'assistance à domicile (Page 116-119)