• Aucun résultat trouvé

Classification binaire humaine/synthétique de voyelles

Dans le document Disponible à / Available at permalink : (Page 136-164)

5. Expériences de validation

5.3. Expériences préliminaires

5.4.9. Classification binaire humaine/synthétique de voyelles

combinaison de niveaux de gigue et bruit additif 5.4.8

Mesure de similarité par comparaison deux à deux (critère : ‘enrouement’) 4.2.6 30 voyelles dysphoniques, 15 humaines, 15 synthétiques

5.4.9 Classification binaire humaine/ synthétique (expérience en ligne)

4.2.7 5 corpus, voyelles synthétiques soutenues, couples de voyelles. 48 stimuli par corpus, combinaisons de la fréquence fondamentale, de la gigue vocale et du bruit additif. 5.5

Catégorisation, échelles ordinales GRB (enrouement, raucité, souffle)

5.3. Expériences préliminaires

5.3.1. Identification des catégories phonétiques de voyelles

synthétiques

5.3.1.1. Objectif

Avant d’introduire les troubles de la voix, il est impératif d’examiner la capacité du synthétiseur à simuler différentes catégories phonétiques. Nous réalisons une première expérience dont l’objectif est l’identification des différentes catégories des voyelles synthétisées sans prendre en considération les troubles vocaux. Ces voyelles sont [a], [i],

[U], [O], [e] et [8].

5.3.1.2. Procédure

Huit auditeurs natifs francophones, dont la marge d’âges varie de 25 à 60 ans, ont participé à cette expérience. Ces auditeurs ne présentaient aucun antécédent de trouble auditif. Ils ont été invités à écouter le corpus de voyelles, décrit au paragraphe 4.2.1, dans un ordre aléatoire à l’aide d’une interface (figure 5.1). L’ordre est le même pour tous les auditeurs. Nous rappelons que le corpus est composé de 9 timbres différents pour chaque catégorie de voyelles, soit un total de 54 réalisations pour les six catégories. Les 9 timbres sont simulés en combinant trois valeurs différentes du quotient d’ouverture à la glotte avec trois valeurs différentes du coefficient de réflexion aux poumons.

Pour se familiariser avec l’expérience, nous proposons à l’auditeur d’écouter trois voyelles choisies dans le corpus. L’auditeur écoute un stimulus autant de fois qu’il le juge nécessaire en appuyant sur le bouton ‘Répéter’. Un tableau comprenant dans ses colonnes une série de onze mots monosyllabiques (pis, pré, près, pas, poux, pot, porc, pus, peu, peur, le) est proposé à l’auditeur avant le début de chaque expérience. Une colonne ‘autre’ est ajoutée dans le tableau pour les voyelles perçues comme indéfinies. Après chaque écoute, l’auditeur identifie le timbre de la voyelle en cochant la case dans le tableau qui correspond à la catégorie phonétique jugée la plus proche du son synthétique écouté. Le nombre de lignes dans le tableau correspond au nombre de réalisations, soit 54.

Figure 5.1 : Interface de l’expérience d’identification des catégories de voyelles synthétiques.

5.3.1.3. Résultats

Le tableau 5.2 montre les pourcentages d’identification, pour tous les juges, des catégories phonétiques des voyelles synthétiques. Nous observons une bonne identification des voyelles [a], [i] et [u]. Les valeurs d’identification sont de 92 % pour [a], de 93 % pour [i] et de 81 % pour [u]. Les valeurs d’identification sont de 78 % pour [o], 75 % pour [e] et d’uniquement 53 % pour [s].

La voyelle [a] a été identifiée une fois sur cent en tant que [e] et la voyelle [i] a été identifiée une fois sur cent en tant que [e]. Par contre, nous constatons des confusions entre les voyelles [u] et [o] d’une part et les voyelles [e] et [s] d’autre part. La confusion entre voyelles [o] et [u] est équilibrée. En effet, la voyelle [o] a été identifiée 7 fois sur cent en tant que [u] et celle-ci a été identifiée 8 fois sur cent en tant que [o]. La confusion entre les voyelles [e] et [e] est par contre non équilibrée. En effet, la voyelle [e] a été identifiée 7 fois sur cent en tant que [e] et celle- ci a été identifiée 25 fois sur cent en tant que [e] et 22 fois sur cent avec un autre timbre (Fraj et al, 2007)..

identifiées comme:

[a] [i] [U] [0] [e] [s] autre

voyelle s synth étiq ues [a] 92 0 0 0 0 1 7 [i] 0 93 0 0 1 0 6 [U] 0 0 81 8 0 0 11 [0] 0 0 7 78 0 0 15 [e] 0 0 1 0 75 7 17 [s] 0 0 0 0 25 53 22

Tableau 5.2 : Identification des catégories de voyelles synthétiques, valeurs en %.

5.3.2. Evaluation des timbres des voyelles synthétiques en

fonction du quotient d’ouverture à la glotte et du

coefficient de réflexion aux poumons

5.3.2.1. Objectif

Nous procédons à une deuxième expérience dont l’objectif est de déterminer le meilleur timbre de chaque catégorie en fonction du quotient d’ouverture à la glotte et du coefficient de réflexion aux poumons. Cette expérience utilise le même corpus de 54 voyelles synthétiques que l’expérience précédente.

5.3.2.2. Procédure

Les mêmes huit juges ont participé à cette expérience. Nous avons utilisé la méthode de comparaison deux à deux, décrite au chapitre 4, pour classer les voyelles d’une même catégorie selon les timbres jugés les plus naturels. L’avantage de cette méthode est qu’elle permet à des juges de distinguer les timbres par simple comparaison sans avoir besoin

d’affecter explicitement un score à chaque timbre.

Nous avons réalisé les 36 paires de voyelles pour chaque catégorie, soit un total de 216 paires pour les six catégories. Lors de l’expérience, les neuf timbres de chaque catégorie sont présentés par paires à chaque auditeur d’une manière aléatoire. L’auditeur est invité à prendre une pause après chaque catégorie. Pour chaque catégorie, un mot

monosyllabique du Français, comprenant la voyelle en tant que noyau, est présenté aux auditeurs pour préciser la catégorie. Ces mots sont :

‘pas’ pour la voyelle [a] ‘pis’ pour la voyelle [i] ‘pot’ pour la voyelle [o] ‘près’ pour la voyelle [s] ‘poux’ pour la voyelle [u] ‘pré’ pour la voyelle [e]

Figure 5.2 : Interface pour l’expérience d’hiérarchisation par catégorie phonétique des timbres selon le critère ‘naturel’.

L’expérience commence par le choix d’une catégorie de voyelles en insérant un numéro de 1 à 6 (figure 5.2) Après chaque écoute, les auditeurs indiquent la réalisation qui leurs semble la plus naturelle en appuyant sur un bouton. Dans le cas où les timbres sont perçus comme identiques, les auditeurs appuient sur un bouton ‘égalité’. Avant de valider leur choix en appuyant sur le bouton ‘OK’, les auditeurs peuvent écouter la paire de voyelles tant de fois qu’ils le jugent nécessaire. Les scores obtenus par chaque juge sont conservés dans une matrice de taille 9x6.

Nous avons calculé la moyenne des scores obtenus par tous les juges pour chaque timbre. Ces scores sont compris entre 0 et 8. Le score 8 signifie que le stimulus a été tout le temps préféré par les juges. Le score 4 signifie que le stimulus a été aussi bien préféré que rejeté. Finalement, le score 0 signifie que le timbre a été tout le temps rejeté par les juges.

5.3.2.3. Résultats

Le tableau 5.3 rapporte les valeurs moyennes des classements des timbres vocaux selon le degré de ‘naturel’ pour les différentes catégories de voyelles (Fraj et ai, 2007).

Une analyse en composantes principales a été réalisée pour les différentes catégories. Les résultats montrent que deux composantes principales expliquent 89 % de la variance totale après rotation. Les catégories [a], [i] et [e] sont fortement corrélées (>0.5) avec la première composante. Les eatégories [u] et [s] sont fortement corrélées avec la deuxième composante et la catégorie [o] est négativement corrélée avec la seconde composante.

La catégorie [o] est en fait unique. L’inspection du tableau 5.3 montre que [o] est la seule catégorie qui est préférée quand le timbre vocal est caractérisé par un quotient d’ouverture de 50 % et rejetée quand le timbre est caractérisé par un quotient d’ouverture de 62 %. Au contraire, les catégories [u] et [s] sont préférées pour un quotient d’ouverture de 62 % et rejetées pour 50 %. La deuxième composante principale détecte, en effet, le comportement antagoniste des catégories des voyelles [o] et [u], [s] par rapport au quotient d’ouverture à la glotte de 50 % et 62 %.

Les timbres des catégories [a], [i] et [e] sont fortement ou moyennement préférés pour les quotients d’ouverture de la glotte de 50 % et 62 %.

L’analyse en composantes principales montre par conséquent que la catégorie [o] se comporte d’une manière différente de toutes les autres

catégories, pour qui un quotient d’ouverture de 62 % est soit fortement soit moyennement préféré.

L’analyse montre également que le coefficient de réflexion aux poumons n’a pas d’incidence majeure sur la préférence des auditeurs. Des tests auditifs ont montré qu’un coefficient de réflexion élevé aux poumons aboutit à des voix ayant des timbres brillants.

coefficient de réflexion aux poumons & quotient d'ouverture à la glotte (%)

[a] [i] [U] [O] le] [El

0,2 - 50 6,2 5,1 1,9 7,0 5.3 4,4 0,5-50 6,4 4,3 2,6 5.8 5,8 3,8 0,8 - 50 5,6 3,7 1,9 5.8 5,8 2.8 0,2 - 62 4,9 5,7 3,2 4,5 4,4 3.6 0,5-62 5,0 4,9 4,9 3,3 4,9 3,8 0,8-62 4,5 5,7 6,8 1,1 4,9 5,5 0,2 - 83 1,3 3,4 6,3 2,1 0.6 4,0 0,5 - 83 1,1 2,6 4,5 3,0 1,9 4,4 0,8 - 83 1,1 0,6 3,8 3,5 2.3 3,6

Tableau 5.3 : Valeurs moyennes de classement des timbres vocaux pour différentes catégories de voyelles.

Pour la suite, nous utilisons un quotient d’ouverture à la glotte égal à 50 % et un coefficient de réflexion aux poumons égal à 0.2 pour [a].

5.4. Expériences de validation

5.4.1. Classification des voyelles synthétiques modales en

cinq catégories selon le critère ‘naturel’

5.4.1.1. Objectif

Un bon synthétiseur est celui qui simule des voix perçues comme naturelles. L’objectif de cette expérience est de classer un corpus de voyelles synthétiques selon le critère ‘naturel’ en cinq catégories allant de ‘pas du tout naturelle’ à ‘très naturelle’.

5.4.1.2. Procédure

Six auditeurs naïfs ont participé à cette expérience. Le corpus, décrit au paragraphe 4.2.2, est formé de 20 voyelles synthétiques avec des dyspériodicités vocales ne dépassant pas le seuil de pathologie. Nous avons présenté les voyelles dans un ordre aléatoire à l’aide d’une interface (figure 5.3). Chaque auditeur écoute la voyelle autant de fois qu’il le juge nécessaire, puis choisit une réponse parmi les cinq propositions. Une fois le choix validé, un score est affecté par le programme à la voyelle de la manière suivante :

‘pas du tout naturelle’ : score 0 ‘peu naturelle’ ; score 1 ‘plutôt naturelle’ : score 2 ‘naturelle’ : score 3 - ‘très naturelle’ : score 4

Figure 5.3 : Interface pour la classification des voyelles synthétiques en cinq catégories.

5.4.1.3. Résultats

L’histogramme de la figure 5.4 représente les résultats, de tous les auditeurs, en pourcent. Cet histogramme montre que le juge 1 a classé 45 % des voyelles synthétiques sous la catégorie ‘peu naturelle’ contre uniquement 10 % sous la catégorie ‘naturelle’. Toutefois, le juge 2 a classé 15 % sous la catégorie ‘peu naturelle’ contre 45 % sous la catégorie ‘naturelle’. Le calcul de la corrélation inter-juges montre que les juges ne sont pas corrélés entre eux. Des timbres qui ont été préférés par les uns, ont été rejetés par les autres et vice versa.

Score 0 Score 1 Score 2 Score 3 Score 4

Figure 5.4 ; Classification des voyelles synthétiques, résultats en %. Score 0 : pas du tout naturelle ; Score 1 : peu naturelle ; Score 2 : plutôt

naturelle ; Score 3 : naturelle ; Score 4 : très naturelle.

5.4.2. Mise en rang de voyelles synthétiques modales par

comparaison deux à deux selon le critère ‘naturel’

5.4.2.1. Objectif

L’objectif de cette expérience est de classer le même corpus de voyelles synthétiques modales selon le critère ‘naturel’ en utilisant le paradigme de comparaison deux à deux.

5A.2.2. Procédure

Les mêmes stimuli de 20 voyelles synthétiques sont présentés par paire à huit auditeurs naïfs par l’intermédiaire d’une interface (figure 5.5). Après avoir écouté la paire le nombre de fois souhaité, l’auditeur désigne la voyelle qu’il préfère en appuyant sur un bouton. Un bouton ‘égalité’ est prévu dans le cas où les voyelles sont jugées similaires. Les scores obtenus sont compris entre 0 et 19. Le score 19 signifie que la voyelle a été tout le temps préférée. Le score 0 est obtenu si la voyelle a été toujours rejetée. Un score moyen de 9.5 est obtenu si la voyelle a été autant préférée que rejetée.

Figure 5.5 : Interface pour l’expérience de classification par méthode de comparaison deux à deux.

5.4.2.3. Résultats

Le graphique de la figure 5.6 présente les moyennes des scores obtenus par tous les juges. Ces valeurs sont comprises entre 5 et 13. 10 voyelles parmi les 20 ont obtenu des scores variant entre 8 et 11. Cela signifie que ces voyelles ont été autant préférées que rejetées. La figure 5.7 montre la diversité des réponses des juges. Nous observons par exemple que les stimuli 6 et 12 ont obtenu un score médiocre de 0.5 pour un juge. Toutefois, les mêmes stimuli ont obtenu un score de 12.5 et 17 pour le juge 3. Le calcul des écarts types des scores montre des valeurs élevées (Fraj et ai, 2008a).

1 /I 19 - -. ♦ ♦ ♦ ♦ ^ ^ ♦ ♦ ♦ R - * ♦ ♦ ♦ ♦ ♦ 0) 8e -♦ ^ ^ ♦Score i/)U n -1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Stimuli

Figure 5.6 : Moyennes des scores obtenues pour tous les juges avec la méthode de comparaison deux à deux.

on ^ l_fi - ♦ J1 i_fi - • ♦ • ♦ J2 AA - - - ♦ • m t J3 ♦ J4 XJ5 ♦ J6 19 - t ♦ • 10 -f X 1 - X /\ f X ft -X ♦ ♦ X X - ♦ X m ♦ ■ ♦ J7 g) l ^ 1 -J8 üO </3 A - t X 1 ♦ • * ♦ ♦ a O -X } - 0 - c X 5 10 Stimuli 15 20 25

Figure 5.7 : Scores obtenus pour chaque juge avec la méthode de comparaison deux à deux.

J1 J2 J3 J4 J5 J6 J7 J8 J1 J2 0.4 J3 -0.2 0 J4 -0.3 0 0.6 J5 0.4 0.5 -0.3 0 J6 -0.5 -0.4 0 0.1 0 J7 0.2 0 0 0.4 0.4 0.1 J8 0.2 0.1 0.6 0.5 0 0 0.4

Tableau 5.4 : Valeurs de corrélations inter-juges.

Nous avons calculé les corrélations inter-juges des huit juges (tableau 5.4). Nous remarquons que les valeurs des corrélations sont faibles. Elles sont parfois négatives.

5.4.3. Classification binaire humaine/synthétique de voyelles

modales

5.4.3.1. Objectif

Au cours de cette expérience, nous utilisons un corpus qui comporte, en plus des voyelles synthétiques, des voyelles naturelles produites par des humains. Le but est de montrer que le synthétiseur est capable de produire des voix synthétiques semblables à celles produites par des humains normophoniques. Pour cette raison, nous réalisons une expérience de catégorisation humain/synthétique. L’objectif de cette expérience est d’obtenir le taux global de classifications incorrectes.

5.4.3.2. Procédure

Le corpus, décrit dans la sous-section 4.2.2, a été présenté à 10 auditeurs naïfs dans un ordre aléatoire via une interface. L’auditeur a la possibilité d’écouter une voyelle le nombre de fois qu’il le juge nécessaire. L’auditeur décide si la voyelle est produite par un humain ou par une machine en appuyant sur un bouton. A la fin de l’expérience, les résultats de tous les juges sont interprétés en termes d’une matrice de confusion.

5.4.3.3. Résultats

Le tableau 5.5 rapporte les pourcentages de classifications correctes et incorrectes (Fraj et ai, 2008b).

ont été identifiés comme

Naturel Synthétique

Stimuli Naturel 66,5 33,5

Synthétique 37 63

Tableau 5.5 : Matrice de confusion, valeurs en %.

La matrice de confusion montre que les juges ont obtenu un taux global de classification correcte de 65 %. En revanche, le taux global de classification incorrecte est de 35 %. 37 % des voyelles synthétiques ont été classées comme naturelles et 33.5 % des naturelles comme synthétiques. La valeur maximale des corrélations inter-juges (0.45) suggère que les juges ne sont pas corrélés entre eux.

5.4.4. Classification binaire humaine/synthétique des voyelles

modales : expérience en ligne

5.4.4.1. Objectifs

Dans l’expérience précédente, nous avons obtenu pour 10 auditeurs naïfs un taux global de classification incorrecte de 35 %. L’objectif est de répéter la même expérience avec un nombre important de participants naïfs et experts. Un taux global de classification incorrecte de 50 % correspond à des réponses aléatoires.

5.4.4.2. Procédure

Nous avons choisi pour cette expérience dix voyelles humaines et dix voyelles synthétiques du corpus précédent composé de 40 voyelles humaines et synthétiques. L’objectif est de limiter le temps de l’expérience et de faciliter la tâche à des participants avec qui nous communiquons à distance. Les 10 voyelles synthétiques ont été sélectionnées en fonction du test précédent. Nous avons présenté l’expérience sur le site internet du laboratoire LIST et nous avons envoyé un courrier qui explique l’expérience à un ensemble d’experts de laboratoires extérieurs ainsi que du milieu clinique. Nous avons également invité un nombre d’auditeurs naïfs.

Chaque auditeur est identifié par un login et un mot de passe. Le login est son adresse email qui est préenregistrée dans une base de données et le mot de passe est le mot ‘test’. Au début de l’expérience, l’auditeur mentionne s’il utilise des écouteurs ou des hauts parleurs pour écouter les sons. Après avoir indiqué son choix en appuyant sur deux boutons, une nouvelle interface apparaît et l’auditeur commence l’écoute de la série de voyelles. S’il y a une difficulté, l’auditeur a la

possibilité de choisir dans une liste le lecteur audio qui lui convient le mieux pour téléchargement afin de lire le contenu des fichiers wav.

L’auditeur a la possibilité d’écouter le son autant de fois qu’il le souhaite. Il indique par la ensuite si le son écouté correspond à une voix produite par un humain ou par une machine. 11 appuie sur ‘next’ pour écouter la voyelle suivante jusqu’à la fin de l’expérience. Nous avons reçu la participation de 36 personnes dont 12 auditeurs naïfs (qui n’ont pas été entrainé à écouter des voyelles) et 24 experts (ingénieurs en traitement du signal de parole et cliniciens). Nous avons traité les résultats, en termes d’une matrice de confusion, séparant les réponses des naïfs et des experts.

5.4.4.3. Résultats

Le tableau 5.6 montre la matrice de confusion qui présente les pourcentages de détection des voyelles par tous les participants naïfs et experts. Nous observons un taux global de classification (détection correcte + rejet correct) sur les diagonales de 56 % pour les naïfs et de 53.4 % pour les experts. La matrice de confusion montre un taux global de classification incorrecte de 46.6 % pour les experts et de 43.3 % pour les naïfs. L’identification correcte des voyelles synthétiques est de 55.8 % par les naïfs contre 60.0 % par les experts.

Décisions

12 Naïfs 24 Experts

Humain Synthétique Humain Synthétique

Stimuli Humain 57.5 s.d.=18.3 42.5 s.d.=18.3 46.7 s.d.=20.7 53.3 s.d.=20.7 Synthétique 44.2 s.d.=15 55.8 s.d.=15 40.0 s.d.=21.8 60.0 s.d.=21.8

Tableau 5.6 : Matrice de confusion, valeurs en %.

Sur les anti-diagonales, le taux de classification incorrecte des voyelles synthétiques est plus faible chez les experts. 44.2 % des voyelles synthétiques ont été considérées comme produites par des humains selon les naïfs contre 40.0 % selon les experts. Généralement, nous observons que les taux globaux de classifications correcte et incorrecte sont compris entre 40 et 60 %. Le taux de 50 % correspond à des réponses aléatoires. Les voyelles humaines, par contre, étaient moins souvent classées correctement par les experts. Le taux

d’identification de celles-ci est de 46.7 % pour les experts contre 57.5 % pour les naïfs.

Les résultats montrent que les juges ne sont pas corrélées entre eux (valeur maximale de corrélation = 0.4). Les experts comme les naïfs ne sont pas capables de distinguer entre les voyelles synthétiques et les voyelles humaines.

5.4.5. Dissimilarités entre les voyelles modales humaines et

synthétiques

5.4.5.1. Objectifs

Dans cette expérience la tâche de catégorisation binaire est remplacée par une tâche de discrimination entre paires de stimuli.

L’objectif de cette expérience est de représenter les dissimilarités perçues par les juges entre tous les stimuli humains et synthétiques comme des distances entre ces stimuli dans un espace de dimensions optimales obtenu par analyse multidimensionnelle. Les dimensions correspondent au nombre d’attributs perceptifs utilisé par les auditeurs dans leurs jugements perceptifs.

Lorsque les stimuli synthétiques sont perçus similaires à eux-mêmes plutôt qu’aux stimuli humains et vice versa, les stimuli humains et synthétiques se groupent dans l’espace multidimensionnel en deux nuages séparés. En revanche, lorsque les stimuli synthétiques et humains sont perçus comme similaires, ils se trouvent mélangés.

5.4.5.2. Procédure

Huit auditeurs, âgés de 24 à 60 ans, ont participé à cette expérience. Ce groupe est composé de deux experts et de six naïfs. Nous avons utilisé le même corpus de 20 voyelles modales synthétiques et humains que précédemment. Nous avons présenté les 190 paires de voyelles à chaque auditeur dans un ordre aléatoire. La tâche consiste à indiquer, en appuyant sur des boutons, si les voyelles dans une paire sont identiques ou différentes du point de vue naturel. Les auditeurs peuvent écouter les voyelles tant de fois qu’ils le jugent nécessaire avant de répondre. La durée de l’expérience est de 25 minutes approximativement. Les auditeurs sont invités à prendre une pause au cours de l’expérience. Nous affectons un score de 1 à la paire lorsqu’elle est jugée différente et un score de 0 lorsqu’elle est jugée similaire. Ces valeurs désignent des distances perceptives entres deux voyelles dans une paire. Les résultats de chaque auditeur sont compilés dans une matrice triangulaire supérieure de dissimilarité de taille 20x20. Cette matrice est formée de 0

et de 1. Nous avons par la suite additionné les huit matrices et obtenu une matrice de dissimilarité globale que nous avons analysée par le programme PROXSCAL (SPSS version statistique 17.0.0). Chaque coefficient de la matrice globale correspond au nombre de fois que la paire a reçu la mention ‘différente’ pour l’ensemble des juges. PROXSCAL fournit un espace multidimensionnel de stimuli dans lequel chaque voyelle est représentée par un point. Deux voyelles qui sont similaires du point de vue ‘naturel’ sont représentées par deux points proches alors que deux voyelles qui sont différentes du point de vue ‘naturel’ sont représentées par deux points éloignés. Plus la dimension optimale de l’espace de représentation obtenue est faible, plus facile est l’interprétation de la répartition des stimuli dans cet espace.

L’analyse multidimensionnelle offre la possibilité d’examiner comment les auditeurs perçoivent les voyelles synthétiques ou humaines par rapport au critère de naturel et ce via des mesures de proximité entre stimuli. SPSS tente de minimiser le stress brut normalisé. Ce stress est basé sur des mesures qui donnent une indication sur le degré de correspondance entre les distances de la solution et les distances initiales entre les stimuli dans l’espace de dimension maximale.

5.4.5.3. Résultats

La procédure pour le calcul du stress commence par une solution de

Dans le document Disponible à / Available at permalink : (Page 136-164)