HAL Id: jpa-00230392
https://hal.archives-ouvertes.fr/jpa-00230392
Submitted on 1 Jan 1990
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
ÉVALUATION DE L’INTELLIGIBILITÉ DE LA SYNTHÈSE : COMPARAISON ENTRE PAROLE
SYNTHÉTIQUE ET PAROLE NATURELLE
S. Santi, C. Cavé
To cite this version:
S. Santi, C. Cavé. ÉVALUATION DE L’INTELLIGIBILITÉ DE LA SYNTHÈSE : COMPARAISON
ENTRE PAROLE SYNTHÉTIQUE ET PAROLE NATURELLE. Journal de Physique Colloques,
1990, 51 (C2), pp.C2-475-C2-477. �10.1051/jphyscol:19902111�. �jpa-00230392�
COLLOQUE DE PHYSIQUE
Colloque C2, supplément au n°2. Tome 51, Février 1990 C2-475
1er Congrès Français d'Acoustique 1990
ÉVALUATION DE L'INTELLIGIBILITÉ DE LA SYNTHÈSE : COMPARAISON ENTRE PAROLE SYNTHÉTIQUE ET PAROLE NATURELLE
S. SANTI et C. CAVE
Institut de Phonétique Générale Appliquée, 29 Avenue Robert Schumann, F-13621 Rlx en Provence Cedex 01, France
RESUME : La synthèse des consonnes occlusives du -français, en contexte vocalique symétrique / a»i,u / , a été réalisée avec un synthétiseur de parole de type Klatt. Mous avons mesuré
l'intelligibilité des logatomes synthétiques et du même corpus de parole naturelle. L'organisation des erreurs dépend de l'environnement vocalique et du lieu d'articulation mais pas du caractère voisé ou non-voisé de la consonne. La prise en compte de l'intelligibilité de la parole naturelle pour un même cor-pus permet de pondérer le taux d'intelligibilité mesuré pour la parole
synthétique.
ABSTRACT : Synthesis o-f French stop consonnants in symetrical vowel context /a,i»u/ was carried out with a Klatt type -forniant synthesizer. The i n t e l l i g i b i l i t y o-f a corpus o-f synthesized nonsense words was evaluated. The error- distribution depended on the both the vowel content and on the place o-f articulation o-f the stop but not on i t s voiced/voiceless nature. These results were compared with those obtained for- a natural speech version o-f the same corpus.
1 - INTRODUCTION
En synthèse vocale, l'évaluation objective de l'intelligibilité de la parole produite par le système de synthèse est une étape essentielle. En ce qui concerne les tests d'identification de logatomes synthétiques, cette évaluation est le plus souvent e x p r i m é e en pourcentage, c o m p a r é à une n o r m e implicite ( 1 0 0 % ) , qui parait l'idéal à atteindre. Toutefois cette norme idéale repose sur l'illusion que la parole naturelle, dans de bonnes conditions d'écoute, est intelligible à 1 0 0 % , ce qui n'est pas le cas. P ar exemple, le taux d'identification de mots monosyllabiques est de l'ordre de 9 8 % ( POLLACK et PICKETT 1958 ) . Ce taux d'erreur, qui paraît incompressible, doit donc être pris en compte lors de l'évaluation d e l'intelligibilité d e la parole synthétique. N o u s a v o n s donc comparé l'intelligibilité d'un corpus de logatomes synthétiques et du même c o r p u s de parole naturelle.
2 - PRESENTATION PU SYNTHETISEUR
N o u s utilisons, dans sa version parallèle, un synthétiseur paramétrique à formants du type proposé par D. Klatt ( KLATT, 1980 ) . Ce type de synthétiseur simule les caractéristiques acoustiques de la parole, considérée comme le produit du s p e c t r e de source et de la fonction de transfert du conduit vocal.
C e synthétiseur est implanté sur un mini-ordinateur MASSCOMP 5 4 0 0 doté d'un environnement interactif ( multifenètrage, menus déroulants, graphisme, etc... ) m i s au point par Robert ESPESSER, Ingénieur C N R S ( pour plus de détails, voir SANTI, 1989 ) .
Article published online by EDP Sciences and available at http://dx.doi.org/10.1051/jphyscol:19902111
COLLOQUE DE PHYSIQUE
3-1
-
CorpusNous avons réalisé les synthéses de segments d e type VCV, les consonnes synthétisées sont les consonnes occlusives voisées et non-voisées du français /b, d, g/ et /p, t, k/ en contexte vocalique symetrique comprenant les voyelles cardinalles /a, i, u/.
C e s voyelles ont été choisies en raison d e leur dispersLon maximale dans l'espace vocalique. Si le triangle vocalique de base peut @tre correctement synthétisé, les autre voyelles ne devraient pas poser de problémes particuliers. Les consonnes occlusives, elles, permettent d e mettre en évidence les contraintes acoustiques du langage et d'observer, d e façon privilégiée, les phénoménes d'interaction dynamique en*re les phonèmes du point de vue de la perception des consonnes et des voyelles.
3 - 2
-
ExpérimentationNous avons évalué l'intelligibilité des logatomes synthétiques à l'aide d'une procédure d e choix libre. Les sujets devaient noter par écrit les logatomes qu'ils pensaient avoir entendu.
De façon à comparer l'intelligibilité de nos synthèses à celle de la parole naturelle, nous avons testé le m@me corpus enregistré par un locuteur masculin parlant un français standard dépourvu d e variante régionale marquée et dont la frequence fondamentale usuelle correspondait à celle utilisée pour la synthèse. Dix sujets ( age moyen 25 ans ) non familiarisés avec la parole d e synthèse et à audition normale ont été confrontés à 1 0 listes de 3 6 logatomes ( 1 8 synthétiques et 1 8 naturels) présentés dans un ordre aléatoire. Les stimuli ont été présentés, à un niveau normal de parole ( 6 5 dB RMS), à l'aide d'un haut-parleur placé face au sujet, en chambre anéchoïque.
4
-
RESULTATSIl faut noter qu'il n'y a aucune erreur sur l'identification des voyelles; la totalité des erreurs portent sur les consonnes.
4-1
-
Effet global du type d e paroleLes résultats montrent de façoh significative qu'il y a beaucoup plus d'erreurs en parole synthétique qu'en parole naturelle.
Le pourcentage de logatomes parfaitement identifiés est de 69.1 % pour la synthèse et de 93.1 % pour la parole naturelle.
Cet effet est trés significatif ( F " r . l o = 4 8 p < 4E -Os )
4 - 2
-
Types d'erreurs selon le type de paroleEn synthése 4 9 % des erreurs portent sur le lieu d'articulation (confusion à l'intérieur des catégories voisé et non- voisé), par contre c e pourcentage est beaucoup plus élevé en parole naturelle ob il s'éléve à 94.4 %.
L e s erreurs sur le trait de voisement (confusions entre/p/
et Jb/, /t/ et /d/, /k/ et /g/) sont trés marginales : 2 % pour la synthèse et 1.6 % pour la parole naturelle ( l'écart n'est pas significatif )
.
Certaines erreurs s e produisent principalement pour la parole synthétique.
Ce sont :
-
des non-réponses sur la consonne ( 2 9 % ) . L e sujet inscrivant, par exemple, A. A, ou A?A, ou encore AXA, etc...
Le taux de reponses de c e type n'est que de 0.8 % en parole naturelle.-
des erreurs dues à des confusions entre certaines consonnes occlusives et les phonémes /1/ (5.7 % ) et /j/ (2.5 % ) .Le reste des mauvaises indentifications est constitué par des "erreurs complexes", combinant des erreurs sur plusieurs traits (par exemple /ada/ pour /apa/). Elles constituent 11.7. % des erreurs en synthèse et 3.2 % en parole naturelle.
4 - 3
-
Effet d e l'environnement vocaliqueL'effet de l'environnement vocalique ne dépend pas du type de parole, en effet l'interaction voyelle/parole est non-significatif.
Par contre l'effet simple de la voyelle est trés net:
F m ,,a,= 6.22 P < 6.92 -"a
L'environnement vocalique /a/ provoque moins d'erreur que les environnements /i/ et /u/:
FWl.z3= 12.39 P < 1.84 -O3
Il n'y a aucune différence significative entre /i/ et /u/.
4 - 4 - Analyse des erreurs sur la consonne
Les erreurs d'identification ne dépendent pas du caractère voisé ou non voisé des consonnes i F" < 1 est non-significatif ) , quel que soit le type de parole celles-ci dependent du lieu d'articulation.
Le lieu labial se distingue significativement des lieux dental et vélaire i F"l,se= 26.6 P < l-O4 ) et provoque A lui seul 58%
des erreurs en parole naturelle et 54.1% en synthèse. Le lieu dental est responsable de 16% des erreurs en parole naturelle et de 17% en parole synthétique. Le lieu d'articulation vélaire produit 25% des erreurs en parole naturelle et 28.3% en synthèse.
5 - DISCUSSION
-
CONCLUSIONLa procédure de choix libre a l'avantage de ne pas contraindre le système de réponse et de laisser s'exprimer toutes les erreurs possibles. L'analyse des erreurs est riche d'enseignement et a déja permis d'améliorer la qualité de certains logatomes.
Ce type d'expérience produit un taux d'erreur plus élevé et plus difficile à analyser qu'une procédure de choix forcé, c e qui peut expliquer la rareté d'utilisation de cette procédure pour tester l'intelligibilité de la synthèse.
IL est trés intéressant de relever des erreurs en parole naturelle: un pourcentage de 6.9 % ne peut @tre négligé. L'utilisation d'un corpus identique de parole naturelle nous permet de pondérer le taux d'identification pour la synthèse et de parvenir ainsi à une évaluation plus réaliste de celle-ci. Dans l e cas présent, en tenant compte du pourcentage d'erreurs en parole naturelle, le taux d'identification correcte des stimuli synthétiques passerait alors à 7 6 %.
REFERENCES :
KLATT D., 1980, Software for a cascade/parallel synthesizer, JL Acoust. Soc Am. ( n o 67-3), 971-995.
POLLACK I., PICKETT J. M., 1958, Masking of Speech by Noise at High Sound Levels, J. Acoust. Soc. Am. (n030-2), 127-130.
SANTI S., 1989, Extraction et modélisation de paramètres acoustiques en vue de la synthèse du français, Travaux de l'Institut de Phonétique d'Aix en Provence n o 13