• Aucun résultat trouvé

CHAPITRE 3. DIFFERENCES PROSODIQUES ENTRE PHRASES QUESTIONS ET

3.2. N OTRE ETUDE DE LA DIFFERENCE PROSODIQUE ENTRE PHRASES QUESTIONS ET PHRASES

3.2.3. Perception de la prosodie des phrases questions et nonquestions

3.2.3.3 Résultats du test de perception

Six auditeurs (3 hommes et 3 femmes) participent à notre test de perception. Ils doivent choisir entre deux réponses « question » ou « nonquestion ». Chaque auditeur fait le test 10 fois (5 fois pour la voix d’homme, 5 fois pour la voix de femme), et pour chaque session, l’ordre des phrases qui sont proposées est aléatoire.

Chapitre 3 : Comparaison prosodique entre le français et le vietnamien 59

Ici, le taux de bonne reconnaissance est calculé de manière très classique :

les al_d'exemp Nombre_tot

nses bonne_répo Nombre_de_

e ce_correct connaissan

Taux_de_re =

Équation 1: Formule de calcul de taux de reconnaissance correcte

Exemple : pour le taux de reconnaissance correcte de voix femme, nous avons au total 13paires x 2 (deux phrases par paire) x 5 (chaque auditeur fait le test cinq fois) x 6 (six auditeurs) = 780 exemples. Le nombre de réponses correctes (c’est-à-dire phrase question bien reconnue comme étant une phrase question, phrase nonquestion bien reconnue comme étant une phrase nonquestion) est de 538. Alors le taux de reconnaissance correcte globale des phrases questions et nonquestions sera 538/780= 69%.

Le résultat du test est présenté dans le Tableau 21. Le taux de bonne reconnaissance sur l’ensemble des phrases questions et nonquestions est d’environ 70% pour la voix de femme et d’environ 58% pour la voix d’homme (ligne 1 du tableau).

Taux / Voix synthétisée Voix femme Voix homme

1. Taux de reconnaissance globale 69% 58%

2. Taux de reconnaissance des phrases questions 74% 61%

3. Taux de reconnaissance des phrases nonquestions 63% 55%

Tableau 21 : Taux de reconnaissance des phrases synthétisées

Les lignes 2 et 3 présentent respectivement les taux de bonne classification des phrases questions et des phrases nonquestions : nous pouvons remarquer que les phrases questions semblent mieux reconnues (environ 74 % de bonnes réponses) que les phrases nonquestions (seulement 63%) pour la voix de femme. Les phrases de la voix d’homme semblent bien moins reconnues que voix de femme (61% de bonnes réponses pour phrases questions et 55% de bonnes réponses pour phases nonquestions).

Les figures suivantes détaillent les résultats pour les 13 paires de phrase question/ nonquestion pour les voix de femme et d’homme respectivement.

0 10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10 11 12 13

Correct recognition rate [%]

Affirmative sentence Interrogative sentence

Figure 13: Taux de reconnaissance correcte des phrases synthétisées de voix de femme

0 10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10 11 12 13

Correct recognition rate [%]

Affirmative sentence Interrogative sentence

Figure 14 : Taux de reconnaissance correcte des phrases synthétisées de voix d'homme Une analyse commune des deux tableaux montre que pour les paires 4 et 12, la phrase nonquestion est très mal reconnue (respectivement 12% et 20%), et c’est le cas pour les deux types de voix (voir la Figure 13 et la Figure 14).

Nous trouvons que ce résultat de test de perception est corrélé avec le résultat d’analyse prosodique. Nous remarquons que :

• l’auditeur semble juger une phrase comme étant question, si elle présente les caractéristiques suivantes :

Chapitre 3 : Comparaison prosodique entre le français et le vietnamien 61

• Une intonation croissante en fin de phrase

• Un registre plus haut

• Le dernier ton en registre haut : ton 1NGANG, 3NGA, 5SAC

• Une intensité plus forte

• l’auditeur semble juger une phrase comme étant nonquestion, si elle présente les caractéristiques suivantes :

Cette hypothèse semble être valable pour expliquer le cas des paires 4, 12 et 13 où le taux de reconnaissance des phrases type question est beaucoup plus élevé que celui des phrases type nonquestion. Pour ces paires, les phrases présentent toutes une dernière syllabe possédant le ton 5 montant, qui fait croître la partie finale du contour intonatif de la phrase, tant pour les interrogations que pour les affirmations. L’effet d’intensité y intervient également : ces phrases possèdent les derniers mots à ton en registre haut (tons 1NGANG, 3NGA, 5SAC), elles sont donc accompagnées par une intensité plus forte que les autres phrases (comme justifié dans la section d’analyse).

Phrases Taux. voix femme Taux. voix homme

Hôm nay là ngày bao nhiêu

thế ? 83% 67%

Paire 4

Hôm nay là ngày ba mươi ñấy 13% 50%

Anh ăn cơm không thế ? 77% 93%

Paire 12

Anh ăn cơm Không Thế 20% 17%

Em ăn bánh nhé ? 73% 50%

Paire 13

Em ăn bánh ché 67% 30%

• Une intonation descendante en fin de phrase

• Un registre plus bas

• Le dernier ton en registre bas : ton 2HUYEN, 4HOI, 6NANG

• Une intensité plus faible

Le cas inverse se retrouve pour les paires 6, 7, 8 où le taux « nonquestion » est plus élevé que le taux « question ». Ces paires possèdent les derniers mots à tons en registre bas (2HUYEN et 6NANG) qui sont de contour descendant, ce qui fait descendre la partie finale du contour intonatif de la phrase, tant pour les interrogations que pour les affirmations. Parce que ces tons sont en registre bas, ils ont une intensité plus faible comme prouvée dans le paragraphe 3.2.2.3.2.

Phrases Taux. voix femme Taux. Voix homme

Tên anh ta là gì ? 67% 50%

Nous avons aussi remarqué que le taux de bonne reconnaissance est supérieur pour la voix de femme que pour la voix d’homme. Dans la mesure où notre test est fait sur seulement deux locuteurs (un homme et une femme), les raisons que nous pouvons formuler sont les suivantes : premièrement, pour la voix synthétisée féminine, la variation mélodique est plus importante que pour la voix synthétisée masculine La locutrice féminine joue plus sur l’intonation quand elle parle, l’information intonative est donc plus nettement introduite dans les signaux de parole.

Pour le locuteur masculin qui utilise moins l’intonation lorsqu’il parle, le signal de parole contient moins d’information intonative - ce qui cause plus de difficultés lors de la perception et détermination de type de phrase. Pour comparer la variation, nous avons mesuré la moyenne des écart-types de F0 des phrases synthétisées en demi-tons8. Cette valeur moyenne est de 2,4 demi-tons pour la voix féminine et seulement 1,7 demi-demi-tons pour la voix masculine.

Type de

phrase Type de voix synthétisée Moyenne des écart-types de F0 des phrases synthétisées en demi-tons

Tableau 22 : Moyenne par type de phrase des écart-types de F0 des phrases synthétisées en demi-ton

8Transformer de fréquence acoustique (Hz) en demi-ton relative à 100Hz par la formule : demi-ton = 12 ln (x / 100) / ln 2

Chapitre 3 : Comparaison prosodique entre le français et le vietnamien 63

Le Tableau 22 présente en détail la moyenne par type de phrase : il montre que la variation mélodique de la voix féminine est plus importante que celle de la voix masculine dans tous les cas.

Deuxièmement, comme le mécanisme de fonctionnement de l’oreille humaine est plus sensible en valeur relative qu’en valeur absolue, une même variation de 10% autour de 100Hz (F0 moyen d’homme) sera moins perçue que cette même variation autour de 250Hz (F0 moyen de femme).