Rôle des variables temporelles dans la compréhension de la parole de synthèse

Les pauses silencieuses dans la parole de synthèse de FipsVox: impact sur la

5.1.3. Rôle des variables temporelles dans la compréhension de la parole de synthèse

Rappelons brièvement les diverses conclusions issues des travaux sur l'intelligibilité et la compréhension de la parole de synthèse. Nous renvoyons le lecteur à Winters &

Pisoni (2004) pour une description détaillée des recherches sur le sujet. Premièrement, il a été montré que l'intelligibilité segmentale de la parole de synthèse est moins bonne que celle de la parole naturelle (par exemple, Logan, Greene & Pisoni, 1989). En outre, la différence d'intelligibilité entre les deux types de parole s'accroît lorsque du bruit est ajouté à la parole ou lorsque la tâche demande des réponses ouvertes (Logan et al., 1989). Deuxièmement, diverses études ont montré, à l'aide de tâches différentes (gating, rappel⁸¹, décision lexicale,), que la parole de synthèse requiert, lors de la reconnaissance d'un mot, plus de ressources cognitives que la parole naturelle. En effet, les auditeurs prennent par exemple davantage de temps à déterminer qu'une séquence constitue un mot en parole de synthèse qu'en parole naturelle (Pisoni, 1981). En fait, ce surplus de temps est nécessaire pour compenser, au niveau segmental, l'insuffisance des indices acoustico-phonétiques de la parole synthétique. Par ailleurs, en raison de ce processus de compensation, il apparaît que les locuteurs s'appuient plus, en parole de synthèse, sur les informations syntaxiques et sémantiques qu'en parole naturelle. Par exemple, Duffy

& Pisoni (1991) ont étudié, à l'aide d'une tâche de gating, la reconnaissance de mots dans un contexte neutre et dans un contexte congruent, et ils ont trouvé que ce dernier

81 Rappelons que la tâche du gating (dévoilement progressif) consiste à présenter aux sujets des fragments de mots (ou de phrases) de manière graduelle. Les sujets entendent, par exemple, le premier fragment d'un mot de 30 msec, puis le fragment suivant de 60 msec, et ainsi de suite jusqu'à la fin du mot. A chaque présentation, ils indiquent le mot qu'ils pensent avoir entendu. Pour la tâche du rappel, voir la note 12.

facilitait davantage la reconnaissance des mots synthétiques que celle des mots naturels.

Enfin, les recherches dans ce domaine ont mis en évidence, au moyen de diverses tâches (vérification de phrases, écoute "phrase par phrase", répétition, répétition simultanée⁸² (close shadowing), détection de phonème), que la parole de synthèse est plus difficile à comprendre que la parole naturelle (Ralston, Pisoni, Lively, Greene & Mullenix, 1990;

Bailly, 2003), même lorsque l'intelligibilité segmentale des deux types de parole est contrôlée (Pisoni, Manous & Dedina, 1987, Janse, 2002).

Notons encore que la prosodie est susceptible d'améliorer l'intelligibilité et de faciliter la compréhension d'une parole de synthèse. Nombreuses sont les études qui traitent de l'impact des traits prosodiques sur l'intelligibilité et la compréhension de la parole de synthèse (par exemple, Slowiaczek & Nusbaum, 1985; Sanderman & Collier, 1997;

Bailly, 2003), mais très peu se sont centrées sur les variables temporelles. Or, comme nous l'avons souligné à maintes reprises, les variables temporelles jouent un rôle important dans la facilitation de la compréhension orale en parole naturelle. En effet, la manipulation des variables temporelles, plus particulièrement du débit global et du temps de pause, est susceptible de rendre le message plus compréhensible. On peut supposer qu'il en va de même pour la compréhension de la parole de synthèse⁸³.

Hersch & Tartaglia (1983) ont mené une recherche sur la compréhension de la parole synthétique comprimée. Des passages relativement courts étaient présentés à des débits allant de 150 mots/min à 270 mots/min (débits obtenus par compression). Les sujets devaient répondre à des questions à choix multiple (questions "littérales" et d'inférence).

Les résultats ont montré que le débit affecte la compréhension des passages en parole de synthèse. En effet, à partir d'un débit supérieur à 180 mots/min (débit jugé normal), la

82 Lors de la tâche de vérification de phrases, les sujets entendent une phrase et indiquent le plus rapidement possible la véracité de cette dernière par "VRAI" ou "FAUX". Quant à l'écoute "phrase par phrase", on présente un passage "phrase par phrase" aux sujets et ces derniers déterminent le temps qui leur est nécessaire entre chaque phrase. Lors de la répétition, les sujets répétent la phrase après l'avoir entendue, tandis que lors de la répétition simultanée, les sujets répétent la phrase en même temps qu'ils l'entendent.

83 Comme pour la parole naturelle (Lass & Prater, 1973), certains chercheurs ont déterminé à quel débit les auditeurs préféraient entendre une parole de synthèse. Sutton, King, Hux & Beukelman (1995), par exemple, ont montré que les jeunes auditeurs (entre 21 et 28 ans) préféraient un débit entre 150 et 220 mots/min, alors que les auditeurs plus âgés (entre 61 et 79 ans) montraient une préférence pour des débits un peu plus lents (entre 130 et 210 mots/min).

compréhension diminue rapidement. Ces résultats s’accordent avec ceux trouvés pour la parole naturelle (Fairbanks et al., 1957), la seule différence cependant que la compréhension de la parole synthétique chute plus rapidement que la compréhension de la parole naturelle.

Slowiaczek & Nusbaum (1985) ont évalué, entre autres, le rôle du débit sur la compréhension de phrases synthétiques. Les deux débits présentés (débit lent de 150 mots/min et débit rapide de 250 mots/min) ont été obtenus en modifiant les paramètres de l'algorithme générant les durées phonémiques. Cette procédure a permis de réduire ou d'allonger la durée des phonèmes tout en respectant leur durée intrinsèque et leur capacité à s'allonger ou à se réduire. Dans leur première expérience, les phrases, dont la structure syntaxique était simple, étaient sémantiquement normales ou anormales. Les sujets entendaient chaque phrase et devaient la transcrire. Les résultats ont montré que le taux d'identification correcte présentait un effet de sémantique, un effet de débit et une interaction Débit x Sémantique, les phrases rapides anormales étant plus difficiles à comprendre. Dans leur deuxième expérience, les auteurs ont utilisé la même tâche et les deux débits, mais des phrases plus complexes (phrases actives, passives, enchâssées) et de longueur différente (4 mots pleins versus 8 mots pleins). En ce qui concerne le débit, les résultats ont montré un effet de débit, ainsi qu'une interaction Débit x Syntaxe, les phrases rapides enchâssées étant plus difficiles à comprendre. En conclusion, le débit est une variable importante dans la compréhension de phrases synthétiques, et ce d'autant plus que les phrases présentent une anormalité sémantique ou une certaine complexité syntaxique.

Par ailleurs, Higginbotham, Drazek, Kowarsky, Scally & Segal (1994), dans le cadre d'une recherche sur l'aide à la communication, ont étudié, entre autres, la compréhension de passages synthétiques produits à deux débits, normal et lent.

Contrairement à Hersch & Tartaglia (1983), le débit lent a été obtenu par insertion de pauses après chaque mot. Les résultats ont montré que l'insertion de pauses aidait considérablement la compréhension. En effet, les pauses ont permis de compenser la qualité dégradée de l'information segmentale et ont fourni davantage de temps pour le traitement des plus hauts niveaux. Toutefois, il apparaît que l'introduction de pauses après chaque mot donne un caractère peu naturel à la parole de synthèse. Par conséquent, l'évaluation du rôle des pauses dans la compréhension de la parole de

synthèse devrait s'effectuer avec l'insertion de pauses à des endroits prosodiquement appropriés.

5.1.4. Objectifs de cette recherche

Dans cette étude, nous examinons les pauses silencieuses dans la parole de synthèse de FipsVox: leur distribution, leur durée et leur impact sur la compréhension orale de textes produits par le synthétiseur. A cette évaluation objective de la parole de synthèse de FipsVox s'ajoute une évaluation subjective.

Nous nous donnons deux objectifs. Le premier est d'étudier le taux de compréhension de deux versions de FipsVox: une version originale (sans changement des pauses silencieuses) et une version modifiée. Dans cette dernière, la distribution des pauses et leur durée correspondent à celles de productions obtenues auprès de locuteurs. Afin d'examiner l'hypothèse selon laquelle les textes sont plus compréhensibles s'ils suivent la distribution et la durée de pauses de productions humaines, nous avons réalisé une étude dans laquelle des sujets entendaient les deux versions, originale et modifiée, et répondaient à des questions de compréhension.

Le deuxième objectif de notre travail est d'obtenir une évaluation subjective de différents aspects du synthétiseur FipsVox, tels que l'intelligibilité, la prosodie, les caractéristiques humaines, la fatigue et l'effort requis par l'écoute de cette parole de synthèse. Pour ce faire, les sujets ont jugé ces aspects pour chacune des versions des textes synthétisés, originale et modifiée. En effet, nous désirons non seulement combler une lacune - il n'existe pas encore d'évaluation subjective de FipsVox à notre connaissance - mais également vérifier si les résultats de l'évaluation objective correspondent à ceux de l'évaluation subjective.

5.2. Méthode

5.2.1. Sujets

Quarante-huit étudiants, peu familiarisés avec la synthèse de la parole, ont pris part à l'étude. Ils avaient entre 18 et 40 ans (âge moyen de 23 ans).

5.2.2. Matériel

Le matériel se composait tout d'abord de trois textes produits par le synthétiseur FipsVox. Deux versions de ces derniers ont été préparées: l'une originale, dans laquelle l'emplacement et la durée des pauses originalement produits par FipsVox n'ont pas été modifiés, et l'autre, modifiée, dans laquelle l'emplacement et la durée des pauses correspondaient à la production de locuteurs, obtenus grâce à une étude de production.

Nous décrivons cette dernière ci-dessous, puis nous présentons une description et une comparaison des deux versions, ainsi que quelques mesures acoustiques.

Etude de production

Une étude de production a permis d'obtenir la distribution et la durée des pauses silencieuses en parole naturelle, et ceci pour trois textes lus à débit normal. Nous avons demandé à huit sujets (4 hommes et 4 femmes) de langue maternelle française (âge moyen de 29; 5 ans) de lire à débit normal et d'une manière claire et posée les trois textes expérimentaux (TE1, TE2, TE3) utilisés dans le chapitre 3 (cf. Annexe 1).

Les trois textes produits par chaque sujet ont été digitalisés sur un Mac G4, à l'aide du programme Praat 3.8. Ensuite, nous avons mesuré tous les silences apparaissant dans les productions, quelle que soit leur durée⁸⁴. Pour ce faire, nous avons établi quelques critères de mesures: 1) un coup de glotte avant une voyelle, un petit bruit apparaissant après une liquide ou une fricative (appelé silence bruité), ainsi que la friction après une occlusive ont été inclus dans la suite sonore, 2) l'aspiration avant une voyelle ainsi qu'un soupir après une suite sonore ont été inclus dans le silence, 3) le chevrotement n'a pas été considéré comme un silence, 4) les silences pouvaient contenir des bruits. Nous avons également compté les syllabes phonétiques des trois textes pour chaque sujet.

Une fois les mesures effectuées, nous avons, en premier lieu, mesuré la vitesse d'articulation et le débit pour chaque sujet. Nous avons ainsi obtenu la moyenne globale de la vitesse d'articulation (en tenant compte des huit sujets et des trois textes). En

84 Contrairement aux études effectuées dans les chapitres précédents, dans lesquelles les pauses silencieuses étaient considérées comme telles en fonction d'un critère de durée pré-établi, nous avons mesuré ici tous les silences, quelle que soit leur durée.

deuxième lieu, nous avons répertorié tous les silences produits par les huit locuteurs.

Pour chaque emplacement, nous avons calculé la moyenne de la durée du silence (sur 8) et nous avons compté le nombre de locuteurs ayant produit ce silence.

Rappelons que le but de cette étude de production était d'obtenir non seulement le débit moyen et la vitesse d'articulation moyenne de trois textes produits en lecture, mais aussi une distribution et une durée des pauses "humaines". Les mesures ont montré un débit moyen de 297 syll/min et une vitesse d'articulation moyenne de 5.88 syll/sec.

Description de la version originale des textes

Nous avons utilisé les trois textes de l'étude de production décrite précédemment. La version originale de chaque texte correspondait à la production du synthétiseur FipsVox dans sa version du 15 octobre 2001. Grâce à un programme d'introduction de balises (phonétiques et prosodiques), il a été possible de modifier la sortie générée par le synthétiseur. Chaque version originale a subi en premier lieu quelques modifications d'ordre phonétique: nous avons corrigé à l'aide de la balise "PHONETIQUE" la prononciation de certains mots (effacement du schwa obligatoire (ex.: app(e)la, brutal(e)ment, etc.), noms propres (Jeanneret, Boillat, Huguenin). Puis, à l'aide de la balise prosodique "DEBIT", nous avons modifié la vitesse d'articulation de chaque texte pour que celle-ci soit d'environ 5.88 syll/sec, cette vitesse d'articulation correspondant à la moyenne des huit locuteurs lors de l'étude de production⁸⁵. Les silences apparaissant dans cette version étaient de 30 msec à l'intérieur d'une phrase et de 100 msec entre les phrases. Nous comparerons plus loin le nombre et l'emplacement des silences de la version originale avec ceux de la version modifiée de chaque texte.

Description de la version modifiée des textes

Outre les corrections de prononciation et la modification de la vitesse d'articulation à 5.88 syll/sec, nous avons inséré dans la version modifiée de chaque texte des silences

85 Etant donné que nous désirions comparer la version originale et la version modifiée, il fallait que les deux versions présentent une vitesse d'articulation identique, en l'occurrence celle observée chez les locuteurs lors de l'étude de production, soit de 5.88 syll/sec.

(en plus de ceux produits automatiquement par FipsVox), en nous basant sur l'étude de production décrite précédemment. Au moyen de la balise prosodique "PAUSE", nous avons inséré dans les trois productions synthétisées des silences "naturels". Pour ce faire, nous avons décidé de ne prendre en compte que les silences produits par trois locuteurs ou plus, dont la durée moyenne a été calculée sur huit locuteurs (ceci pour ne pas accorder trop d'importance aux silences produits par peu de locuteurs). Lorsqu'un silence produit par la moyenne des locuteurs était plus court que celui produit par FipsVox (30 msec), nous ne l'avons pas introduit (ex.: "trampoline # (11 msec) tout dernier cri" dans TE2). De même, lorsqu'un silence produit par les locuteurs se trouvait à un emplacement syntaxique peu approprié et que le résultat acoustique semblait peu naturel (dû à l'insertion d'un nouveau diphone composé d'un silence), nous ne l'avons pas inséré (ex.: "n'abandonnerait # pas" dans TE2). Les versions originales et modifiées contenant les diverses balises ("DEBIT, "PHONETIQUE", "PAUSE") pour chaque texte figurent dans l'Annexe 8.

Mentionnons encore que l’insertion de silences dans Mbrola s'effectue par l’allongement du diphone phonème + silence. De ce fait, s’il reste un résidu du phonème dans le silence, ce résidu s’accentue avec l'allongement du silence. Par conséquent, afin d'éviter l'accentuation du résidu, il a été nécessaire d'introduire trois silences au lieu d'un seul⁸⁶. Par exemple, si nous désirions insérer un silence de 300 msec, nous avons introduit un premier silence de 15 msec, un deuxième de 270 msec et un troisième de 15 msec. Ainsi, le deuxième silence était "pur" (c'est-à-dire sans résidu) vu qu'il était constitué d'un diphone composé de silence uniquement. Suivant cette procédure, nous avons "bétonné" les silences introduits avec des silences de 15 msec⁸⁷ (à l'intérieur des phrases et pour des silences supérieurs à 30 msec) et de 50 msec entre les phrases. L'Annexe 9 fournit des explications plus détaillées quant à l'insertion des silences dans les fichiers Mbrola.

86 Solution conseillée par T. Dutoit et B. Bozkurt de la Faculté Polytechnique de Mons.

87 Etant donné que, dans la version originale, les pauses à l'intérieur des phrases étaient de 30 msec, les diphones correspondant à ces pauses contenaient un silence de 15 msec, d'où un "bétonnage" de 15 msec à l'intérieur des phrases dans la version modifiée. Il en va de même avec les silences de 100 msec dans la version originale: les silences entre les phrases dans la version modifiée ont été "bétonnés" avec des silences de 50 msec.

Comparaison des deux versions de FipsVox

Etant donné que la version modifiée de chaque texte reflétait la production humaine, il nous semblait intéressant de comparer la distribution et la durée des silences de cette version avec celles de la version originale. En premier lieu, il est évident que les silences générés dans la version originale étaient nettement plus courts que ceux de la version modifiée (de 30 msec à l'intérieur des phrases et de 100 msec entre les phrases).

En deuxième lieu, nous avons étudié la distribution des silences dans les deux versions, afin de vérifier si les silences de la version originale se trouvaient aux mêmes emplacements que ceux de la version modifiée (donc de la production humaine).

Le Tableau 17 présente les résultats. Comme nous pouvons le constater, la distribution des silences de la version originale était relativement semblable à celle de la version modifiée. En effet, 73% des emplacements coïncidaient dans les deux versions. Nous notons 9% de silences produits uniquement dans la version originale (souvent à des emplacements erronés) et 18% de silences omis dans la version originale mais présents dans la version modifiée. Les tableaux dans l'Annexe 10 présentent l'emplacement (et la durée) des pauses dans la version originale (colonne FIPSVOX VERSION ORIGINALE) et dans la version modifiée (colonne FIPSVOX VERSION MODIFIEE) pour les trois textes.

Emplacements TE1 TE2 TE3 Total %

Identiques 21 19 25 65 73

Supplémentaires 4 4 0 8 9

Omis 6 7 3 16 18

Total 31 30 28 89 100

Tableau 17. Nombre d'emplacements des silences de la version originale de FipsVox, identiques à ceux de la version modifiée, supplémentaires et omis.

Ces résultats montrent que, dans environ 75% des cas, le générateur prosodique de FipsVox a placé les silences au bon endroit, comme le ferait un locuteur. Néanmoins, il faudrait que de futures versions de FipsVox corrigent les 25% d'emplacements erronés (soit supplémentaires, soit omis).

Dans le document Les variables temporelles dans la production et la perception de la parole (Page 193-200)