Disponible à / Available at permalink :

(1)

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Fraj, S. (2010). Synthèse des voix pathologiques (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences appliquées – Electronique, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/210158/5/5aaa9dbe-8163-46e3-8024-11e251d0d375.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université (di-fusion@ulb.ac.be).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University (di-fusion@ulb.ac.be).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

ULB

Faculté des Sciences Appliquées

Laboratoires d'images, Signaux et Dispositifs de Télécommunications

Synthèse des voix pathologiques

Samia Fraj

Thèse présentée en vue de l'obtention du titre de Docteur en Sciences de l'Ingénieur,

réalisée sous la direction des Professeurs Jean Schoentgen et Francis Grenez

(3)

Faculté des Sciences Appliquées

Laboratoires d'images, Signaux et Dispositifs de Télécommunications

Synthèse des voix pathologiques

Samia Fraj

Thèse présentée en vue de l'obtention du titre de Docteur en Sciences de l'Ingénieur,

réalisée sous la direction des Professeurs Jean Schoentgen et Francis Grenez Année académique 2009-2010

(4)

Signature :

O/ /-2o/o .

(5)

L’objectif de la thèse est le développement et la validation d’un synthétiseur des voix pathologiques. Peu d’études ont été consacrées à la synthèse des voix avec des dyspériodicités vocales malgré les nombreux arguments en faveur du développement et de l’amélioration des simulateurs des voix dysphoniques. Dans le cadre de ce travail, nous avons mis en œuvre un synthétiseur permettant de contrôler l’excitation glottique d’une manière fine et par conséquent de simuler efficacement les différentes catégories des dysphonies.

Les troubles simulés sont la gigue vocale, le tremblement vocal, la biphonation, la diplophonie et les vibrations aléatoires. Le shimmy vocal résulte de la distorsion de modulation dans le conduit vocal qui transforme la gigue en shimmy vocal. Le souffle est synthétisé par la modulation d’un bruit Brownien.

Des expériences préliminaires ont montré la capacité du synthétiseur à produire différentes catégories de voyelles. Pour la validation, nous avons utilisé des modèles de troubles simulés. Les résultats des expériences d’évaluations perceptives, portant sur des corpus de stimuli synthétiques ou humains, modales ou dysphoniques, sont encourageants et montrent la capacité du synthétiseur à produire des voix aussi bien modales que troublées avec des timbres indiscernables des humains. Enfin, les résultats d’une expérience d’exploitation concernant la classification des stimuli synthétiques selon les échelles ordinales GRB suggèrent que troubles simulés et évaluations perceptives concordent. Aussi, les scores perceptifs prédits à partir des paramètres de contrôle du synthétiseur et les scores attribués par des experts sont fortement corrélés.

(6)

La réalisation de cette thèse fut pour moi une occasion merveilleuse de rencontres et d'échanges avec plusieurs personnes. Je ne saurais pas les citer toutes sans dépasser le nombre de pages admis dans ce genre de travail. Je reconnais que chacun a, à des degrés divers, mais avec une égale bienveillance, apporté une contribution positive à la finalisation de mon travail. Mes dettes de reconnaissance sont, à ce point de vue, énormes à leur égard.

Je voudrais remercier particulièrement le Professeur Francis Grenez pour m'avoir accueillie dans son service, pour la finesse de ses attitudes sur le plan aussi bien humain que scientifique et pour son soutien total et sans faille dans les moments délicats. Ses remarques successives et pertinentes m’ont permis d’améliorer les différentes versions de ce travail. Grâce à son approche respectueuse de la personne humaine, je me suis continuellement sentie à l'aise. Qu 'il trouve ici les expressions de ma profonde gratitude.

Je voudrais également remercier le Professeur Jean Schoentgen mon promoteur pour m'avoir encadrée et guidée tout au long de ces années, pour m'avoir fait découvert son domaine de recherche et pour m'avoir fourni les documents nécessaires sur le sujet de ma thèse. Ses qualités humaines, ses remarques fines ainsi que ses précieux avis et suggestions m’ont permis d'avancer et d’élaborer ce travail. Sans lui, la version finale de mon rapport n 'aurait pas sa forme actuelle. Qu 'il trouve ici les expressions de ma profonde

reconnaissance.

Je tiens à remercier vivement les membres du jury pour avoir accepté de participer au jury de cette thèse.

Je remercie Ingrid Verduyckt, Bernadette Timmermans, Dominique Morsomme et Youri Maryn ainsi que Pauline Larrouy-Maestri et Angélique Remacle pour leur contribution en participant à l’expérience d'exploitation du synthétiseur et pour les discussions pertinentes.

Mes remerciements vont à tous les chercheurs et personnes travaillant au service pour le partage de leurs temps et de leur savoir-faire et pour avoir participé à mes expériences d'évaluations perceptives avec à chaque fois plein de bonne volonté. Je suis très reconnaissante à Christophe, Ali, Abdellah, Agnès, Laurence, Lamia, Michael, Rudy, Geoffrey, Natascha et à toutes les autres personnes qui m'ont aidé.

Je tiens à exprimer ma très vive reconnaissance à toutes mes amies à Bruxelles et tout particulièrement Wided, Hayet, Inès et Sonia et à leurs petites familles, pour le soutien continu et pour les accueils chaleureux chez elles. Je n 'oublie pas de remercier toutes mes amies à Tunis qui de loin m'avaient encouragée à terminer ma recherche. Ma gratitude va également à mes sœurs Soumaya et Ibtissem et mon frère Naoufel pour leur amour et leurs encouragements. Je m'astreins à un devoir de reconnaissance à l'égard de tous.

Je remercie tout particulièrement mon mari pour m'avoir soutenue et encouragée pendant les moments difficiles et pour avoir été toujours à mes côtés jusqu 'à la fin de cette thèse. Ce travail te doit beaucoup Hatem. Qu 'il soit pour toi le témoignage de ma profonde reconnaissance.

J'ai une pensée très tendre à l'endroit de mes adorables enfants Ahmed et Eya qui, tout étonnés que leur maman ait enfin terminé « sa thèse ! », m'ont toujours donné l’espoir d'aller en avant. Merci Ahmed et Eya pour votre amour dévoué et votre tendresse.

Je termine ces remerciements en dédiant cette thèse de doctorat à mes parents, à mes adorables parents, pour leur irremplaçable et inconditionnel soutien. Je vous dédie ce travail en témoignage de mon profond respect, mon grand amour et toute ma gratitude pour les sacrifices que vous avez consentis. Aucun de mes mots ne saurait exprimer l'ampleur de mes reconnaissances. Merci tout simplement d'être ...mesparents.

(7)

(8)

Table des matières

Table des matières...1

Table des figures...5

Avant propos...9

1. Introduction...11

1.1. Motivations...11

1.2. Anatomie... 12

1.2.1. Larynx... 13

1.2.2. Poumons et trachée... 15

1.2.3. Conduit vocal et fonctions d’aire...16

1.3. Vibration des plis vocaux... 18

1.4. Modèle acoustique... 21

1.4.1. Fréquences de résonance du conduit vocal... 22

1.4.2. Voix et sons de parole...23

1.4.3. Voyelles...24

1.5. Pathologies du larynx... 24

1.5.1. Dysphonies d’origines organiques... 25

1.5.2. Dysphonies d’origines neurologiques... 25

1.6. Troubles de la voix... 26

1.6.1. Régimes de vibrations non-modaux... 27

1.6.2. Amplification de la gigue vocale et du shimmy vocal...27

1.6.3. Tremblement vocal...28

1.6.4. Bruit de turbulence excessif... 28

1.6.5. Vibrations non sollicitées des bandes ventriculaires... 28

1.6.6. Transitions incontrôlées entre différents régimes de vibration... 29

1.7. Indices acoustiques pour les troubles de la voix...29

1.8. Synthétiseur vocaux... 30

1.8.1. Le vocodeur à canaux... 30

1.8.2. Le synthétiseur à formants...31

1.8.3. Le synthétiseur LPC...31

1.8.4. La synthèse par modèle articulatoire...32

1.9. Revue de la littérature sur la synthèse des voix pathologiques... 32

1.10. Objectif de ce travail...35

1.11. Plan de la thèse... 37

2. Le synthétiseur... 39

2.1. Introduction...39

2.2. Description du synthétiseur... 40

2.3. Modèle de faire glottique...41

2.3.1. Coefficients des polynômes... 43

2.3.2. Contrôle de la fréquence instantanée... 48

(9)

2.3.3. Contrôle de la richesse en harmonique... 49

2.4. Modèle du débit d’air glottique... 51

2.5. Modèle du conduit vocal sans pertes...54

2.5.1. Propagation de l’onde acoustique dans le conduit vocal... 57

2.5.2. Délai de propagation...58

2.5.3. Coefficient de réflexion à la jonction et équations... 58

2.5.4. Conditions aux limites...63

2.5.5. Réponse fréquentielle du conduit vocal... 64

2.6. Modèle du conduit sous-glottique... 65

2.7. Modèles des pertes dans le conduit vocal...66

2.7.1. Simulation des pertes par vibration des parois... 66

2.7.2. Simulation des pertes par frottement visqueux et conduction thermique... 73

2.7.3. Simulation des pertes par rayonnement aux lèvres... 80

2.7.4. Simulation des pertes à la glotte... 89

2.7.5. Simulation des pertes sous-glottiques... 92

2.8. Résumé...92

3. Synthèse des troubles de la voix... 95

3.1. Introduction... 95

3.2. Simulation de la gigue vocale...95

3.3. Simulation du shimmy vocal... 99

3.4. Simulation du tremblement vocal...101

3.5. Simulation de la diplophonie... 104

3.6. Simulation de la biphonation... 106

3.7. Simulation des vibrations aléatoires...108

3.8. Simulation du bruit additif... 109

3.9. Résumé... 112

4. Corpus et méthodes d’évaluations perceptives... 115

4.2. Description des corpus... 116

4.2.1. Corpus de six catégories de voyelles modales... 116

4.2.2. Corpus de voyelles [a] modales... 118

4.2.3. Corpus de voyelles [a] avec des valeurs croissantes de la gigue vocale ...118

4.2.4. Corpus de voyelles [a] avec des valeurs croissantes du bruit additif.. 4.2.5. Corpus de voyelles [a] avec des valeurs combinées de gigue vocale et bruit additif... 119

4.2.6. Corpus de voyelles [a] dysphoniques... 120

4.2.7. Corpus de voyelles soutenues et de couples de voyelles...121

4.3. Méthodes d’évaluations perceptives... 122

4.3.1. Catégorisation...123

4.3.2. Comparaison deux à deux...123

(10)

4.3.3. Analyse multidimensionnelle... 124

4.3.4. Evaluation sur échelle ordinale... 125

4.4. Résumé... 126

5. Expériences de validation... 127

5.2. Corpus versus expériences perceptives...128

5.3. Expériences préliminaires... 130

5.3.1. Identification des catégories phonétiques de voyelles synthétiques... 5.3.1.1. Objectif... 130

5.3.1.2. Procédure... 130

5.3.1.3. Résultats...131

5.3.2. Evaluation des timbres des voyelles synthétiques en fonction du quotient d’ouverture à la glotte et du coefficient de réflexion aux poumons ... 132

5.3.2.1. Objectif...132

5.3.2.2. Procédure... 132

5.3.2.3. Résultats...134

5.4. Expériences de validation... 135

5.4.1. Classification des voyelles synthétiques modales en cinq catégories selon le critère ‘naturel’... 135

5.4.1.1. Objectif... 135

5.4.1.2. Procédure... 136

5.4.1.3. Résultats...137

5.4.2. Mise en rang de voyelles synthétiques modales par comparaison deux à deux selon le critère ‘naturel’... 137

5.4.2.1. Objectif...137

5.4.2.2. Procédure... 138

5.4.2.3. Résultats...139

5.4.3. Classification binaire humaine/synthétique de voyelles modales. 140 5.4.3.1. Objectif...140

5.4.3.2. Procédure... 140

5.4.3.3. Résultats... 140

5.4.4. Classification binaire humaine /synthétique des voyelles modales : expérience en ligne...141

5.4.4.1. Objectifs... 141

5.4.4.2. Procédure... 141

5.4.4.3. Résultats... 142

5.4.5. Dissimilarités entre les voyelles modales humaines et synthétiques... 5.4.5.1. Objectifs... 143

5.4.5.2. Procédure... 143

5.4.5.3. Résultats... 144

5.4.6. Validation du modèle de la gigue vocale... 145

5.4.6.1. Objectifs... 145

(11)

5.4.6.2. Procédure... 146

5.4.6.3. Résultats... 146

5.4.7. Validation du modèle du bruit additif...148

5.4.7.1. Objectif... 148

5.4.7.2. Procédure... 148

5.4.7.3. Résultats... 149

5.4.8. Validation du synthétiseur avec de la gigue vocale et du bruit additif combinés... 150

5.4.8.1. Objectifs... 150

5.4.8.2. Procédure... 151

5.4.8.3. Résultats... 153

5.4.9. Classification binaire humaine/synthétique de voyelles dysphoniques : expérience en ligne... 155

5.4.9.1. Objectifs... 155

5.4.9.2. Procédure... 155

5.4.9.3. Résultats... 156

5.5. Expérience d’exploitation... 157

5.5.1. Objectifs...157

5.5.2. Procédure...157

5.5.3. Résultats...158

5.6. Discussion... 161

5.6.1. Expériences préliminaires... 161

5.6.1.1. Identification des catégories phonétiques... 161

5.6.1.2. Evaluation des timbres des voyelles synthétiques en fonction du quotient d’ouverture à la glotte et du coefficient de réflexion aux poumons 162 5.6.2. Expériences d’évaluations perceptives...162

5.6.2.1. Evaluation du critère ‘naturel’ des voyelles synthétiques par deux méthodes différentes... 162

5.6.2.2. Classification binaire humaine/synthétique de voyelles modales.. 163

5.6.2.3. Mesure de similarité entre voyelles modales synthétiques et humaines ...164

5.6.2.4. Perception des différents niveaux d’enrouements... 164

5.6.2.5. Classification humaine/ synthétique des voix troublées...165

5.6.3. Expérience d’exploitation...165

5.7. Résumé...165

6. Conclusion...167

Bibliographie... 171

(12)

Table des figures

Figure 1.1 : Coupe sagittale schématique de l’appareil vocal... 12

Figure 1.2 : Vue laryngoscopique du larynx (Gray, 1858)...13

Figure 1.3 : Configuration du larynx, coupe frontale (Communication personnelle de G. Lawson)... 14

Figure 1.4 : Muscles crico-aryténoïdiens postérieurs et muscles crico-aryténoïdiens latéraux (Duparc, 2009)... 15

Figure 1.5 : IRM montrant une coupe sagittale de la forme du conduit vocal (Laprie)... 16

Figure 1.6 : En haut : glotte convergente. En bas : glotte divergente... 19

Figure 1.7 : Laryngoscopie indirecte du larynx : abduction (plis vocaux écartés) et adduction (plis vocaux accolés) ; Communication personnelle de G. Lawson... 21

Figure 1.8 : Les cinq premiers formants du conduit vocal pour la voyelle [a]... 23

Figure 1.9 : Spectre de la voyelle [a] synthétisée... 23

Figure 2.1 : Schéma général du synthétiseur... 40

Figure 2.2 : Modèle non linéaire du signal de Faire glottique... 43

Figure 2.3 : Obtention des coefficients des polynômes P et Q...44

Figure 2.4 : Formes d’onde de Faire glottique avec deux degrés de décalage différents... 44

Figure 2.5 : Signal de Faire glottique... 48

Figure 2.6 : En haut : évolution de la phase instantanée modulo 2 pi des fonctions harmoniques excitatrices; En bas : évolution des cycles de Faire glottique... 49

Figure 2.7 : En haut : évolution de l’amplitude des fonctions harmoniques excitatrices ; En bas : évolution des cycles de Faire glottique...50

Figure 2.8 : Contenu spectral du signal de Faire glottique pour différentes valeurs de l’amplitude des fonctions harmoniques excitatrices. En haut : A = 1 ; En bas : A = 0.2. .51 Figure 2.9 : En haut : le signal de Faire glottique ; En bas : le signal du débit d’air glottique ...54

Figure 2.10 : Modélisation du conduit vocal... 55

Figure 2.11 : Fonctions d’aire pour les voyelles [a], [i] et [u] d’un même locuteur (Story et al., 1996)... 56

Figure 2.12 : Fonctions d’aire de la voyelle [a] pour trois locuteurs différents...56

Figure 2.13 : Composantes de pression acoustique incidentes et réfléchies à la jonction entre deux tubes élémentaires d’indices k et k+1... 59

Figure 2.14 : Cellule modélisant la dispersion de la pression acoustique à la Jonction k...62

Figure 2.15 : En haut : modèle par concaténation de tubes cylindriques. En bas : modèle complet du conduit vocal : mise en cascade de M cellules modélisant les dispersions aux jonctions...62

Figure 2.16 ; Réponses fféquentielles du conduit vocal pour les voyelles [a], [u] et [i]...64

Figure 2.17 : Effet de la vibration des parois... 66

Figure 2.18 : Jonction entre trois tubes cylindriques de différentes sections...69

Figure 2.19 : Effet des pertes par vibration des parois sur les fréquences des formants du conduit vocal pour la voyelle [a]... 71

Figure 2.20 : Effet des pertes par vibration des parois sur les fréquences des formants du conduit vocal pour la voyelle [i]... 71

Figure 2.21 : Effet des pertes par vibration des parois sur les fréquences des formants du conduit vocal pour la voyelle [u]... 72

Figure 2.22 : Réponses fréquentielles du filtre analogique pour différents rayons a d’un tube élémentaire de longueur 1=0.39 cm... 76

Figure 2.23 ; Approximation du filtre analogique (en bleu) par un filtre numérique (en rouge) pour un tube de longueur 0.39 cm de rayon 0.95 cm. Le filtre numérique est la mise en cascade des filtres élémentaires de premier ordre représentés avec leurs réponses en fréquence (en vert, violet et cyan)... 78

(13)

Figure 2.24 : En bleu : réponse fréquentielle du conduit vocal sans pertes visqueuses pour la voyelle [a]. En rouge : réponse fréquentielle du conduit vocal avec pertes visqueuses pour

la même voyelle... 79

Figure 2.25 ; Réponse en fréquence du filtre de réflexion R... 82

Figure 2.26 : Réponse en fréquence du filtre de transmission T...83

Figure 2.27 : Jonction entre deux tubes coniques de différentes sections à Injonction. Ici, > S;^ , <0 et >0... 84

Figure 2.28 : Réponse en fréquence du filtre de réflexion R pour différentes ouvertures du cône en degré... 87

Figure 2.29 : Réponses en fréquence du filtre de transmission T pour différentes ouvertures du cône en degré...88

Figure 2.30 : Réponse fréquentielle du conduit vocal pour la voyelle [a]... 91

Figure 3.1 : En haut : signal temporel. En bas : Variations de la fréquence fondamentale dues à la gigue vocale, voyelle [a], b=0.3...96

Figure 3.2 : En haut : la phase instantanée modulo 27T ; En bas : le signal de Faire glottique..98

Figure 3.3 : Spectre de la voyelle [a] synthétisée avec de la gigue vocale (b=0.3)... 98

Figure 3.4 : Distorsion de modulation dans le conduit vocal... 100

Figure 3.5 : Signal de la voyelle synthétique [a] : gigue vocale = 3.6 % et shimmy vocal = 14.5 %...100

Figure 3.6 : Bruit blanc filtré par un filtre résonateur avec = 4 Hz, =10 Hz et ^{^>2} =0.20. ...102

Figure 3.7 : En haut : Signal temporel. En bas : Variations lentes de la fréquence fondamentale, voyelle [a], /b=A Hz, =10 Hz et =0.20...103

Figure 3.8 : Spectre d’un [a] synthétisé avec /g = 4Hz, f^=\0Wztt ^2 = 0-20...103

Figure 3.9 : En haut : évolution de l’amplitude de la fonction harmonique excitatrice du modèle de Faire glottique ; En bas : forme d’onde de Faire glottique. A gauche Q=2 ; à droite Q = 3. ^0 = 0.8, yl, = 0.2, Fo = 1 OOHz... 105

Figure 3.10 : Spectre d’amplitude d’une voyelle [a]. Cas Q=2, A^= 0.8, A-^ =0.2, Fo=100Hz. ... 105

Figure 3.11 : En haut : modulation de l’amplitude des fonctions harmoniques excitatrices du modèle de Faire glottique par une sinusoïde dont la fréquence est en rapport irrationnel avec la fréquence fondamentale ; En bas : évolution de la forme des cycles de Faire glottique...106

Figure 3.12 : Spectre d’amplitude d’une voyelle [a]. Q= e', A^ = 0.9, A^ = 0.1, Fo= lOOHz... 107

Figure 3.13 : Spectre d’amplitude d’une voyelle [a]. Q= e', Ag = 0.8, Aj = 0.2, Fo= lOOHz. Zoom sur la plage de fréquence entre 4000 et 5000 Hz...107

Figure 3.14 : En haut ; évolution de l’amplitude des fonctions harmoniques excitatrices, amplitude moyenne = 0.7, amplitude du bruit blanc = 300 et largeur de bande du filtre = 4 Hz; En bas : la forme d’onde de Faire glottique...108

Figure 3.15 : Spectre d’amplitude de la voyelle [a] avec amplitude moyenne des fonctions harmoniques excitatrices = 0.7, amplitude du bruit blanc = 300 et largeur de bande du filtre = 4 Hz... 109

Figure 3.16 : Spectre du bruit blanc... 110

Figure 3.17 : Spectre du bruit Brownien... 110

Figure 3.18 : En haut : bruit blanc Gaussien. En bas : bruit Brownien...111

Figure 3.19 : Schéma du débit d’air glottique avec bruit additif...112

Figure 3.20 : Spectre d’amplitude de la voyelle [a], ni=0.2, n2=2... 112

Figure 4.1 : Fonctions d’aire utilisées pour les catégories de voyelles... 116

(14)

Figure 4.2 : Signaux vocaux synthétisés pour différentes catégories de voyelles... 117 Figure 4.3 : Forme d’onde du signal présentant la transition de la voyelle [a] à la voyelle [i] (en haut) et de la voyelle [i] à la voyelle [a] (en bas)...122 Figure 5.1 : Interface de l’expérience d’identification des catégories de voyelles synthétiques.

... 131 Figure 5.2 : Interface pour l’expérience d’hiérarchisation par catégorie phonétique des timbres

selon le critère ‘naturel’... 133 Figure 5.3 : Interface pour la classification des voyelles synthétiques en cinq catégories... 136 Figure 5.4 : Classification des voyelles synthétiques, résultats en %. Score 0 : pas du tout

naturelle ; Score 1 : peu naturelle ; Score 2 : plutôt naturelle ; Score 3 : naturelle ; Score 4 : très naturelle... 137 Figure 5.5 : Interface pour l’expérience de classification par méthode de comparaison deux à

deux... 138 Figure 5.6 : Moyennes des scores obtenues pour tous les juges avec la méthode de comparaison

deux à deux... 139 Figure 5.7 : Scores obtenus pour chaque juge avec la méthode de comparaison deux à deux. 139 Figure 5.8 ; Diagramme produit par le stress brut normalisé par opposition aux dimensions.. 144 Figure 5.9 : Répartition des voyelles synthétiques et humaines dans un espace bidimensionnel

obtenue par 8 auditeurs... 145 Figure 5.10 : Scores obtenus pour les voyelles synthétiques en fonction de b... 147 Figure 5.11 : Scores obtenus pour les voyelles synthétiques en fonction de ni...150 Figure 5.12 : Interface pour l’expérience d’évaluation des voyelles synthétisées avec de la gigue

et du bruit additif... 153 Figure 5.13 : Répartition dans l’espace commun des voyelles avec des valeurs croisées de b et

n,...154 Figure 5.14 : Interface pour l’expérience d’exploitation, voyelle [a]... 158 Figure 5.15 ; Diagrammes de dispersion des scores normalisés attribués et estimés pour le

grade... 160 Figure 5.16 : Diagrammes de dispersion des scores normalisés attribués et estimés pour la

raucité... 160 Figure 5.17 : Diagrammes de dispersion des scores normalisés attribués et estimés pour le

souffle...161

(15)

(16)

Avant propos

Ce travail de thèse, dont l’objectif est le développement, la validation et l’exploitation d’un synthétiseur de voix pathologiques, s’inscrit dans le cadre des activités de recherche du groupe Signaux du service LIST, consacrées aux applications cliniques du traitement du signal de parole.

Il a été élaboré sous la direction des Professeurs Jean Schoentgen et Francis Grenez.

Le traitement de la parole est un domaine d’application important du traitement du signal. La synthèse de la parole est une discipline qui fait appel à un ensemble de concepts mathématiques en s’appuyant sur la physique, l’informatique et la physiologie humaine pour sa mise en œuvre.

Plusieurs recherches ont été consacrées à la synthèse de la parole modale depuis des décennies. Néanmoins, les recherches focalisées sur la synthèse des voix dysphoniques restent rares fautes de modèles permettant un contrôle instantané des perturbations dans le signal de l’excitation glottique.

Le synthétiseur, présenté dans cette thèse, comporte un modèle de source adapté à la simulation des troubles de la voix ainsi qu’un modèle réaliste du conduit vocal.

La simulation de différentes catégories des voix dysphoniques passe par plusieurs étapes de validation basées sur des expériences d’évaluations perceptives qui testent les niveaux d’enrouements ainsi que le critère de naturel des voix obtenues.

(17)

(18)

Chapitre 1

Introduction

1.1. Motivations

Les applications médicales de la synthèse des dyspériodicités vocales sont :

La préparation des stimuli de référence pour les orthophonistes afin de servir comme support lors des évaluations auditives des locuteurs dysphoniques.

La formation des cliniciens débutants et des jurys d’auditeurs pour des évaluations perceptives cliniques. Cette formation se base sur des tests d’écoute des voix synthétiques couvrant la plage des différentes pathologies vocales.

Le calibrage des algorithmes et des méthodes d’analyse des dyspériodicités vocales.

Le test de la fiabilité et de la validité des indices acoustiques des troubles vocaux.

Depuis des décennies, l’effort le plus important a été consacré à la synthèse des voix normales alors que peu d’études ont été directement dirigées vers la synthèse des voix pathologiques malgré les nombreuses motivations pour le développement et l’amélioration des simulateurs des voix dysphoniques.

La difficulté d’aborder ce sujet réside dans le manque de modèles permettant de contrôler le signal de l’excitation glottique d’une manière instantanée et par conséquent de simuler les différentes catégories des dysphonies cliniques.

En plus de la rareté des études menées sur la synthèse des dyspériodicités vocales, les résultats des évaluations perceptives ont montré une insatisfaction à l’égard des anciennes tentatives de synthèse des troubles vocaux.

Cette thèse, dont les objectifs et le plan sont détaillés dans la suite de ce chapitre, concerne le développement d’un synthétiseur vocal en vue de la simulation de différentes catégories des troubles de la voix avec un timbre vocal naturel. Dans ce chapitre, nous rappelons l’anatomie et la physiologie des organes impliqués dans la production de la parole. Nous présentons également une description des pathologies

(19)

fréquentes du larynx. Finalement, nous passons en revue les différents synthétiseurs des voix dysphoniques.

1.2. Anatomie

épiglotte glotte cordes vocales trachée

nasopharynx luette amygdale

oropharynx

laryngo- pharynx

oesophage

Figure 1.1 : Coupe sagittale schématique de l’appareil vocal.

La figure 1.1 correspond à une coupe sagittale schématique des principaux organes impliqués dans la production de la parole. Ces différents organes font partie de l’appareil vocal qui se décompose d’une manière simplifiée en trois parties essentielles (Boite & Kunt,

1987) :

La partie sous-glottique ou subglottique comprend essentiellement les poumons et la trachée.

La partie vibratoire contient le larynx et les cordes vocales.

La partie supra-glottique comprend le pharynx, les cavités orale et nasale.

(20)

1.2.1. Larynx

Vallecvda

Médian gloeso-epiglottie fold Epiglottis

Tuberele of epiglnttist Vocal Joli

Ventricular Jold

Aryepiglottic Jold

Cuneiform cartilage

Comiculate cartilage

IVachea

Figure 1.2 : Vue laryngoscopique du larynx (Gray, 1858).

Le larynx, comme montré à la figure 1.2, constitue l’organe essentiel de la production de la voix. 11 est situé dans la région moyenne du cou entre la base de la langue et l’extrémité supérieure du tube trachéal. Il est constitué d’un ensemble de tissus mous (muscles, ligaments, muqueuses) rigidifié par un système de cartilages dont certains sont mobiles, d’une part par rapport aux autres structures cervicales, et d’autre part, les uns par rapport aux autres.

A l’intérieur de cette armature cartilagineuse solide se trouvent les organes parmi lesquels les cordes vocales jouent un rôle prépondérant.

Les plis vocaux ou cordes vocales se présentent sous la forme de deux lèvres horizontales placées à l’extrémité supérieure de la trachée, l’une à droite (figure 1.3) et l’autre à gauche. Ces deux rubans sont insérés en avant dans l’angle rentrant du cartilage thyroïde, et en arrière sur l’apophyse vocale de l’aryténoïde correspondant.

(21)

1 Bande ventriculaire Venthcular fold 2 Plancher du ventricule

Ftoor ot the ventricle

3 Corde vocale (face supérieure) Vocal cord (upper surface) 4 Corde vocale (bord libre)

Vocal cord (free border) 5 Espace de Reinke

Space ol Reinke 6 Ligament vocal

Vocal ligament

7 Corde vocale (face inférieure) Vocal cord (lower surface) 8 Muscle vocal

Vocal muscle 9 Cône élastique

Conus elasticus 10 Sous-glotte

Subglottis

* Epithélium pseudostratifié cilié Pseudostratified ciliated epithelium

■■ Epithélium pavimenteux non kératinisé Nonkeratinized squamous epithelium

® Glandes séro-muqueuses Seromucous glands

• Tissu lymphoïde Lymphoid tissue

* Cartilage Cartilage Tissu adipeux Adipose tissue

Figure 1.3 : Configuration du larynx, coupe frontale (Communication personnelle de G. Lawson).

Il existe deux grandes catégories de muscles intrinsèques du larynx, appelés muscles abducteurs et adducteurs. Leur mobilité permet la mise en mouvement des cordes vocales. Parmi les muscles abducteurs, nous citons les muscles crico-aryténoïdiens postérieurs représentés à la figure 1.4. Leur rôle consiste à tirer le processus musculaire vers l’arrière pour écarter les cordes vocales. En plus, parmi les muscles adducteurs, nous citons les muscles crico-aryténoïdiens latéraux représentés à la même figure. Leur rôle consiste à basculer vers l’intérieur pour rapprocher et accoler les cordes vocales.

(22)

Aolofl dM mu«(l«t

<rko^rÿlÿ(KMdicM pMlérictirt Abdurtion drt pjn vncjut

Acllon dr> muM Ir^

iriu»-jr«lrrHiitlim« IjIrrAUt

Addurtion dm plit vw4U<

Figure 1.4 : Muscles crico-aryténoïdiens postérieurs et muscles crico- aryténoïdiens latéraux (Duparc, 2009).

En plus de leur fonction dans la production de la parole, les cordes vocales possèdent une fonction de protection (par exemple, lors de l’expulsion des aliments des voies respiratoires) et une fonction de fixation (lors du soulèvement d’une charge).

La glotte est l’espace circonscrit par les deux cordes vocales. L’aire glottique est la superficie de la glotte. Lorsque la glotte est fermée, c’est à dire que les deux cordes vocales sont en position d’adduction, faire glottique est minimale. La valeur de faire glottique augmente lorsque les deux cordes vocales commencent à s’écarter les unes des autres.

Au-dessus des cordes vocales, il existe deux replis un peu semblables appelés bandes ventriculaires (ou plis vestibulaires ou fausses cordes vocales) qui normalement ne vibrent pas. La disposition des bandes ventriculaires est montrée sur la figure 1.3.

1.2.2. Poumons et trachée

Les poumons jouent, en plus de leur rôle de respiration, un rôle de source de pression permettant de contrôler l’écoulement d’air nécessaire à faire vibrer les cordes vocales dans le cas de la production des sons de parole voisés. Les poumons sont assimilés à un réservoir à parois extensibles, avec un système musculaire qui assure la mobilité de ces parois via la cage thoracique et permet de mettre sous pression l’air qui y est contenu.

L’air expulsé passe par les bronches puis empreinte la trachée. La trachée est un conduit qui relie les poumons au larynx. Elle est constituée d’un empilement d’anneaux cartilagineux.

(23)

1.2.3. Conduit vocal et fonctions d’aire

La partie supra-glottique ou conduit vocal est composée du pharynx, de la cavité orale et de la cavité nasale. La connexion entre les cavités buccale et nasale est faite au niveau du voile du palais en extrémité du palais dur (Calliope, 1989).

Le pharynx ou cavité pharyngale est un conduit musculo- membraneux situé entre la cavité buccale et les fosses nasales d’une part et le larynx et l’œsophage d’autre part. La paroi interne du pharynx est constituée des muscles constricteurs. L’effet de ces muscles est de modifier la forme de cette première cavité supra-glottique.

Les fosses nasales ou cavités nasales sont formées de deux cavités cunéiformes séparées par une cloison verticale médiane. Elles sont situées au-dessus et en arrière du nez au milieu du visage. La prolongation des fosses nasales se fait à l’avant vers le nez et les narines et à l’arrière par le pharynx.

Dans la suite, nous allons nous intéresser à la partie du conduit vocal composée par le pharynx et la cavité orale. La longueur moyenne d’un conduit vocal chez un adulte masculin varie de 17 à 18 cm. La géométrie de ces deux parties est variable selon la position des différents articulateurs tels que la langue, les lèvres, le voile du palais et la mâchoire. La modification de la géométrie du conduit vocal correspond au phénomène d’articulation.

Figure 1.5 : IRM montrant une coupe sagittale de la forme du conduit vocal (Laprie).

(24)

[a] [i] [U]

N° Aire

(cm-) N° Aire

(CW-) N° Aire

(cm-) N° Aire

(cw-l

1 0.45 24 2.09 1 0.33 24 1.66 1 0.40 24 2.07

2 0.20 25 2.56 2 0.30 25 1.38 2 0.38 25 2.07

3 0.26 26 2.78 3 0.36 26 1.05 3 0.28 26 1.52

4 0.21 27 2.86 4 0.34 27 0.60 4 0.43 27 0.74

5 0.32 28 3.02 5 0.68 28 0.35 5 0.55 28 0.23

6 0.30 29 3.75 6 0.50 29 0.32 6 1.72 29 0.15

7 0.33 30 4.60 7 2.43 30 0.12 7 2.91 30 0.22

8 1.05 31 5.09 8 3.15 31 0.10 8 2.88 31 0.22

9 1.12 32 6.02 9 2.66 32 0.16 9 2.37 32 0.37

10 0.85 33 6.55 10 2.49 33 0.25 10 2.10 33 0.60

11 0.63 34 6.29 11 3.39 34 0.24 11 3.63 34 0.76

12 0.39 35 6.21 12 3.80 35 0.38 12 5.86 35 0.86

13 0.26 36 5.94 13 3.78 36 0.28 13 5.63 36 1.82

14 0.28 37 5.28 14 4.35 37 0.36 14 5.43 37 2.35

15 0.23 38 4.70 15 4.50 38 0.65 15 4.80 38 2.55

16 0.32 39 3.87 16 4.43 39 1.58 16 4.56 39 3.73

17 0.29 40 4.13 17 4.68 40 2.05 17 4.29 40 5.47

18 0.28 41 4.25 18 4.52 41 2.01 18 3.63 41 4.46

19 0.40 42 4.27 19 4.15 42 1.58 19 3.37 42 2.39

20 0.66 43 4.69 20 4.09 20 3.16 43 1.10

21 1.20 44 5.03 21 3.51 21 3.31 44 0.77

22 1.05 22 2.95 22 3.22 45 0.41

23 1.62 23 2.03 23 2.33 46 0.86

Tableau 1.1 : Fonctions d’aire des trois voyelles [a], [i] et [u] par Story et a/. (1996).

(25)

Selon les théories acoustiques de la production de la parole, le conduit vocal peut être assimilé à une concaténation de tubes cylindriques. Les aires de sections des tubes approchant la forme du conduit vocal de la glotte aux lèvres en fonction de la distance les séparant de la glotte définissent la fonction d’aire.

Plusieurs études ont essayé de déterminer les fonctions d’aire du conduit vocal d’un humain lors de l’émission de voyelles soutenues.

Une méthode non invasive permettant la description morphologique du conduit vocal est l’Imagerie par Résonnance Magnétique IRM.

L’application de cette technique sur un sujet, soutenant une voyelle, permet de déterminer une coupe sagittale montrant la forme correspondante du conduit vocal (figure 1.5).

Dans le tableau 1.1, nous présentons les fonctions d’aire des voyelles [a], [i] et [u], publiées par Story et al. (1996). La longueur de chaque tube est égale à 0.396825 cm. La première section correspond à la section adjacente à la glotte.

1.3. Vibration des plis vocaux

Lors de la respiration, les cordes vocales sont maintenues écartées.

Pour produire un son dit voisé, il faut que les cordes vocales vibrent.

Cette mise en position phonatoire ou adduction est produite par rapprochement des aryténoïdes sous l’action du muscle inter- aryténoïdien (Dulguerov et Remacle, 2009).

La vibration des plis vocaux résulte du passage de l’air à travers la fente glottique rétrécie par la contraction des muscles tenseurs et adducteurs des cordes vocales.

Au début de l’expiration, ces cordes vocales sont mises en position phonatoire, donc en adduction, et sous une certaine tension. Le flux d’air à la sortie des poumons provoque une augmentation de la pression en amont des cordes vocales appelée pression subglottique.

A un moment donné, la pression subglottique, allant en augmentant avec l’expiration, force les cordes vocales, maintenues nerveusement en tension, à s’écarter. Ceci va entrainer une fuite d’air et une chute de la pression subglottique. Les caractéristiques élastiques des composants des cordes vocales ainsi que la tension vocale maintenue permettent une nouvelle fermeture de la glotte.

La vibration des cordes vocales est donc un mouvement passif issu de la rupture d’équilibre entre la tension des cordes vocales et la pression subglottique. Cette vibration est auto-entretenue. Cela veut dire que le mouvement lui-même des plis vocaux détermine la valeur des forces qui causent le mouvement. Plus précisément, la régulation des

(26)

forces se fait par l’intermédiaire de la forme de la glotte déterminée par le mouvement des plis gauche et droite. La forme influence la valeur des forces qui déterminent les mouvements des plis gauche et droite, et ainsi de suite. La circularité de cette chaine de causalité caractérise une vibration auto-entretenue.

Figure 1.6 : En haut : glotte convergente. En bas : glotte divergente.

La théorie myo-élastique aérodynamique fait donc appel à deux sortes de forces. Les premières sont les forces dues à l’élasticité des plis.

Les forces élastiques s’opposent à la déformation et au déplacement des plis de leur position d’équilibre. En l’absence d’autres forces, les forces élastiques imposent aux plis d’adopter leur forme et leur position de repos.

Les deuxièmes sont les forces qui sont dues au mouvement de l’air à travers la glotte. L’air mobile dans la glotte exerce une pression sur les plis qui est ressentie par les plis comme une force. Cette force est appelée force aérodynamique parce qu’elle est causée par l’air en mouvement.

Le troisième ingrédient de l’explication est la forme de la glotte.

Une distinction fondamentale est la différence entre glotte convergente et glotte divergente (figure 1.6). L’air empreinte un chemin différent dans une glotte convergente et une glotte divergente car le jet d’air se

(27)

détache des parois de la glotte à l’endroit le plus étroit. Dans une glotte où le jet d’air s’est détaché des parois, la partie de la glotte qui n’est pas occupée par le jet d’air mobile est remplie d’air stagnant.

Dans une glotte convergente, le jet d’air se détache des parois de la glotte près de la sortie. La section droite moyenne du jet d’air est plus large pour une glotte convergente car le jet d’air épouse les parois de la glotte jusqu’à la sortie. Dans une glotte divergente, le jet d’air se détache des parois de la glotte près de l’entrée. La section du jet est par conséquent plus étroite.

A pression trachéale égale, un jet d’air plus étroit est animé d’une plus grande vitesse car l’air est incompressible dans la glotte et la même quantité d’air doit être transportée. La vitesse de l’air est donc plus grande dans une glotte divergente que convergente. Cette différence de vitesse a des conséquences sur les forces que l’air mobile exerce sur les plis vocaux. En effet, un jet d’air rapide exerce une force plus faible qu’un jet d’air plus lent. Cette observation est connue sous le nom d’effet Bernoulli. Celui-ci fait que la force exercée par l’air mobile sur les plis est plus faible dans une glotte divergente que dans une glotte convergente.

A ce stade sont réunis tous les ingrédients nécessaires à une explication qualitative de la vibration. Avant le début du voisement, les plis sont adductés par le pivotement des cartilages aryténoïdes qui rapprochent les plis du plan médian du larynx ; à ce moment, les plis se touchent ou presque. Le locuteur amorce alors le voisement en augmentant la pression de l’air dans la trachée. Successivement :

1 - La pression dans la trachée va vaincre les forces élastiques des plis qui finissent par s’écarter par en bas. La forme de la glotte est convergente.

2- Une fois que les plis commencent à s’écarter, le flux d’air à travers la glotte débute. Il continue à écarter les plis aussi longtemps que les forces aérodynamiques sont plus importantes que les forces élastiques. Le mouvement d’écartement se poursuit donc jusqu’à ce que le bord supérieur de la glotte (sortie) soit aussi large que le bord inférieur (entrée). A ce moment, la forme de la glotte change d’une forme convergente à une forme divergente.

3- Dès que la forme est devenue divergente, le jet d’air se détache des parois de la glotte dès l’entrée. La section droite du jet d’air décroît et la vitesse de l’air augmente. La pression de l’air à l’intérieur de la glotte diminue suite à l’effet Bernoulli. Les forces sur les plis vocaux ne peuvent plus contrecarrer les forces élastiques, et la glotte se ferme. Au moment de la fermeture complète, tout mouvement s’arrête, et le processus reprend à l’étape 1 ci-dessus.

(28)

Le voisement s’arrête lorsque la pression dans la trachée diminue trop parce que l’air pulmonaire est épuisé et le locuteur doit inspirer, ou plus normalement, lorsque le locuteur écarte les plis en pivotant les aryténoïdes vers l’extérieur. L’écartement des plis rend impossible le maintien de la pression trachéale et les vibrations s’arrêtent.

La figure 1.7 montre deux représentations schématiques des cordes vocales lorsqu’elles sont écartées et accolées. Entre ces deux situations, la glotte passe par des intervalles d’ouverture et de fermeture.

L’intervalle d’ouverture comprend une phase ouvrante et une phase fermante.

Figure 1.7 : Laryngoscopie indirecte du larynx : abduction (plis vocaux écartés) et adduction (plis vocaux accolés) ; Communication personnelle

de G. Lawson.

1.4. Modèle acoustique

L’onde acoustique, causée par l’écoulement pulsé de l’air à travers la glotte, obéit aux lois générales de la propagation dans un guide d’onde. La célérité de propagation ne dépend que des propriétés physiques du milieu de propagation telles que l’humidité, la chaleur etc.

Dans le cas des sons voisés, fonde acoustique est formée de plusieurs dizaines d’harmoniques dont les fréquences sont situées aux multiples entiers de la fréquence de vibration des cordes vocales.

Les valeurs des fréquences des harmoniques d’un signal glottique ne changent pas au cours de sa propagation dans le conduit vocal. Tout mauvais fonctionnement de la vibration des cordes vocales, quelque soit son origine, implique une perturbation dans fonde acoustique qui continue à se propager dans le conduit vocal.

(29)

Au niveau des lèvres, une partie de ces ondes est rayonnée vers l’extérieur. Ce signal constitue le son de parole.

1.4.1. Fréquences de résonance du conduit vocal

Les fréquences de résonances sont une propriété du conduit vocal.

Leurs valeurs et leurs largeurs de bande dépendent de la forme du conduit déterminée par la position de tous les articulateurs. Les premières trois fréquences de résonance ont un rôle majeur dans la détermination du timbre des sons de parole (Fry, 1979).

Comme rappelé plus haut, une onde sonore, se propageant à partir d’une source sonore dans le conduit vocal, ne change pas de nature. Les valeurs des fréquences de ses harmoniques restent les mêmes.

Lors de la propagation à travers le conduit vocal, l’amplitude des harmoniques d’un signal sonore est amplifiée ou atténuée.

Concrètement, le conduit vocal modifie le timbre des sources sonores en modifiant uniquement l’amplitude relative des harmoniques à l’aide des résonances du conduit vocal. Les harmoniques qui contribuent le plus au timbre perçu sont celles dont les fréquences sont au voisinage des fréquences de résonance car leurs amplitudes sont plus importantes que celles des harmoniques voisines. L’amplification de l’amplitude des harmoniques cause ainsi des maxima locaux dans les spectres des sons de parole. Ces maxima locaux sont appelés des formants. Le timbre des sons voisés est par conséquent décrit à l’aide des fréquences des formants et de leurs amplitudes.

Pour la voyelle [a], par exemple, la langue est basse et reculée. La section droite du conduit vocal est donc large dans la cavité buccale et étroite dans le pharynx. La figure 1.8 montre la réponse en fréquence du conduit vocal pour la voyelle [a], dont la fonction d’aire est donnée par Story et al. (1996). Les valeurs des fréquences des formants sont complètement déterminées à partir de la projection sur l’axe des fréquences des maxima dans la réponse. Les cinq fréquences de résonance sont approximativement égales à 800 Hz, 1200 Hz, 2870 Hz, 3410 Hz et 4560 Hz.

La figure 1.9 est une illustration qui montre le spectre du signal obtenu en synthétisant la voyelle [a] à l’aide d’une source sonore voisée.

La courbe rouge correspond à l’enveloppe spectrale qui montre les positions des cinq premiers formants. Les amplitudes des harmoniques de la source sonore sont amplifiées ou atténuées selon leurs positions par rapport aux fréquences centrales des formants.

(30)

40 -

Figure 1.8 : Les cinq premiers formants du conduit vocal pour la voyelle [a].

m■O

•0)ço

O>

cO

CO

■DP

150

100

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Fréquence (Hz)

Figure 1.9 : Spectre de la voyelle [a] synthétisée.

1.4.2. Voix et sons de parole

La génération de la voix à la glotte requiert la vibration des cordes vocales afin que Faire glottique se modifie et donne lieu à un débit d’air

(31)

évolutif nécessaire à la génération d’un son. Ce qui est typique pour la voix est que sa génération est concentrée à la glotte. La voix est pseudopériodique suivant la vibration pseudopériodique des plis vocaux et la variation du débit d’air qui en résulte.

Ce qui caractérise la voix est la répétition d’un même cycle d’ouverture et de fermeture de la glotte une centaine de fois par seconde.

Le nombre de cycles par unité de temps correspond à la fréquence fondamentale du signal vocal.

L’intensité du champ sonore, issu de la vibration des cordes vocales, est déterminée par le système nerveux central qui contrôle les caractéristiques de la pression sous-glottique et des cordes vocales en relation avec leur raideur, masse vibrante et ouverture moyenne.

Le son de parole désigne à la fois la sensation auditive produite par les variations de la pression atmosphérique qui sont captées par l’oreille, et l’onde sonore qui cause cette sensation.

Les sons de parole produits par la propagation de la voix dans le conduit vocal sont appelés voisés.

1.4.3. Voyelles

Les voyelles sont des sons de parole produits lorsque le conduit vocal ne présente en aucun endroit un obstacle au libre passage de l’air.

L’écoulement de l’air est médian, c’est à dire non latéral. La production des voyelles nécessite une source sonore voisée, donc la vibration des cordes vocales.

Les voyelles comportent un intervalle tenu, c’est-à-dire qu’elles ne sont pas des transitoires purs. La forme du conduit vocal et donc la position de tous les articulateurs déterminent les caractéristiques des voyelles produites. Les voyelles peuvent avoir des durées intrinsèques différentes. On peut distinguer les voyelles longues et les voyelles brèves.

1.5. Pathologies du larynx

Il existe plusieurs catégories des pathologies du larynx pouvant être à l’origine de plusieurs types de troubles vocaux (Palchun et ai, 1988).

Les conséquences de ces pathologies peuvent aller d’une simple voix enrouée à son absence complète (aphonie). Considérée comme un élément banal sans conséquences, la dysphonie est souvent négligée par les patients.

(32)

1.5.1. Dysphonies d’origines organiques

Les changements morphologiques de l’anatomie du larynx, essentiellement au niveau de la glotte, sont la cause principale de ces dysfonctionnements vocaux. La modification de la structure glottique peut se traduire par la génération d’un excès de tissus biologiques ou des manques anatomiques provoqués par des gestes chirurgicaux (Inserm, 2006).

Les troubles de la voix sont, par ailleurs, les effets de l’apparition d’érythèmes et d’œdèmes des plis vocaux, et dans une certaine mesure d’ulcérations de contact et de granulomes dorsaux des plis vocaux. Par conséquent, des nombreux agents physiques, chimiques ou infectieux de l’environnement jouent un rôle important.

En plus, les dysphonies d’origine organique peuvent être la conséquence d’une utilisation inadéquate ou faire suite à un déficit organique congénital. Elles sont causées par des changements anatomiques de la glotte provoqués par l’apparition de nodules, polypes et kystes qui sont des lésions bénignes des cordes vocales dus généralement à un forçage vocal permanent ou brutal.

Les nodules se présentent comme des petites masses blanches sur le front des cordes vocales au niveau de la jonction du tiers antérieur et du tiers moyen des celles-ci. Les nodules peuvent être dus à une activité vocale excessive et à une phonation hyperfonctionnelle.

Les kystes apparaissent dans la couche superficielle à n’importe quelle partie des cordes vocales. Lorsque le kyste croît, il exerce une pression sur les ligaments des cordes vocales sans affecter les couches adjacentes. La présence de kystes se manifeste par une augmentation de la masse et un durcissement de la couverture. Comme conséquence, la glotte ne se ferme pas complètement durant la phonation (Kacha, 2006).

Les laryngites, qui sont des inflammations aigues ou chroniques des cordes vocales, sont causées par des infections virales et/ou bactériennes. Ces laryngites augmentent la masse et la raideur des cordes vocales ce qui aboutit à la diminution de l’amplitude des vibrations de celles-ci. La voix est plus grave, rauque avec un timbre voilé, sourd et éraillé. Elle peut même disparaître totalement.

Les traumatismes chirurgicaux, suite à l’ablation d’un cancer des cordes vocales, sont aussi parmi les causes du changement de l’anatomie du larynx.

1.5.2. Dysphonies d’origines neurologiques

Ces dysphonies peuvent être dues à un mauvais contrôle de la respiration ou encore d’une atteinte neurologique voire une difficulté

(33)

psychologique. Dans ce cas, aucune lésion anatomique des cordes vocales n’est observée. Le Huche et al. (2001) définissent la pathologie vocale d’origine neurologique comme un trouble momentané ou durable de la fonction vocale ressenti comme tel par le sujet lui-même ou son entourage.

Les causes de ces dysphonies sont l’hypotonie et l’hypertonie de la musculature laryngée ou respiratoire. Ceci se traduit par une altération d’un ou plusieurs indices acoustiques de la voix tels que la fréquence fondamentale, le timbre et l’intensité. En présence de ces dysarthries ou dysphonies, une fatigue vocale et un malmenage ou surmenage vocal sont souvent observés.

L’hypotonie provoque un abaissement de l’intensité de la voix et de la fréquence fondamentale.

L’hypertonie, qui se manifeste par la difficulté à initialiser un acte volontaire du larynx, se traduit par des hésitations au démarrage du voisement, des émissions vocales discontinues et une augmentation de la fréquence fondamentale, un timbre sourd et voilé à cause du mauvais accolement des cordes vocales.

Les tremblements qui peuvent être de fréquence variable en fonction de leur cause, rendent la voix chevrotante (Ferez et al 1996). Les dysphonies spasmodiques provoquent des changements brutaux de la hauteur de la voix qui peut s’interrompre, repartir, glisser et chevroter.

Le timbre est désagréable.

Dans les paralysies laryngées, les cordes vocales demeurent dans une position plus ou moins ouverte. La voix est soufflée et rauque avec une importante fuite d’air, entraînant un essoufflement en fin de phrase.

1.6. Troubles de la voix

Les pathologies du larynx ou anomalies laryngées, affectant les cordes vocales, sont à la base des troubles vocaux. Les laryngologues déterminent les troubles de la voix en rapportant des propriétés de la parole émise par les patients. Ces dysphonies ou troubles vocaux, qui désignent une altération de la voix d’origine laryngée, peuvent être décrites comme étant les conséquences audibles d’une malformation organique acquise ou congénitale des plis vocaux ou d’un contrôle déficient de la respiration ou de l’articulation laryngée. Les malformations organiques acquises peuvent être la conséquence d’un malmenage ou surmenage vocal. Des symptômes fréquents des troubles de la voix sont des irrégularités des cycles de parole. Les origines de ces irrégularités sont multiples (Schoentgen, 2006 ; Titze, 2000).

(34)

1.6.1. Régimes de vibrations non-modaux

L’ensemble des plis vocaux et du flux d’air glottique forme un système dynamique non linéaire qui peut exhiber de multiples régimes vibratoires qui sont qualitativement différents. Des exemples de régimes vibratoires distincts sont les mécanismes laryngés qui sont à la base des registres de parole. On différencie généralement trois registres de parole.

Les plis vocaux peuvent vibrer dans des régimes caractérisés par des cycles adjacents différents. Les sons de parole sont, à ce moment, souvent perçus comme enroués. On peut distinguer les régimes suivants, sur la base des spectres des sons de parole (Behrman et al, 1998) :

Les voix diplophoniques sont caractérisés par de brèves séquences de cycles vocaux inégaux qui se répètent. Les spectres comprennent plusieurs séries d’harmoniques dont les fréquences fondamentales sont dans des rapports rationnels simples.

La bi-phonation désigne un régime vibratoire qui est caractérisé par un spectre discret comprenant des séries d’harmoniques dont les fréquences fondamentales sont dans des rapports irrationnels. Par conséquent, le signal de parole est apériodique.

Certaines voix sont caractérisées par des séquences de cycles dont les durées, les amplitudes ou les formes fluctuent aléatoirement. Les spectres correspondants sont continus, la voix est perçue comme rauque.

1.6.2. Amplification de la gigue vocale et du shimmy vocal

La gigue vocale {vocal jitter) désigne des petites perturbations rapides des durées des cycles glottiques. Les origines exactes sont inconnues. On cite couramment des causes neurologiques, l’écoulement turbulent de l’air à travers la glotte, la répartition inégale de mucus sur les plis vocaux etc. (Pinto et Titze, 1990). L’amplification de la gigue vocale est parfois observée en présence de pathologies, elle devrait s’expliquer par une modification de la réponse du système laryngé à des perturbations qui, en tant que telles, ne sont pas nécessairement affectées par la pathologie (Schoentgen, 2001 ; Smith eto/., 1978).

Le shimmy vocal {vocal shimmy ou shimmer) désigne des petites perturbations de l’amplitude des cycles de parole. Les causes du shimmy vocal sont supposées être les mêmes que celles de la gigue vocale mais la transformation dans le conduit vocal de la gigue vocale en shimmy vocal, ainsi que le report variable d’énergie acoustique d’un cycle à l’autre contribuent également au shimmy des cycles de parole (Schoentgen, 2003).