Description acoustique du signal de parole

Chapitre 3. Traitement auditif de la parole, surdité et implant cochléaire

3. Description acoustique du signal de parole

La question qui se pose est de savoir comment des patterns acoustiques complexes, composés d’informations spectrales et temporelles, sont interprétés par le cerveau comme étant des signaux de parole. Bien que de nombreuses recherches aient été menées ces cinquante dernières années, les traitements acoustiques impliqués dans la perception des sons de parole ne sont pas encore bien déterminés. Un point est cependant clair : la perception de la parole ne dépend pas de l’extraction de patterns acoustiques invariants spécifiques à chaque son de parole (Liberman, Cooper, Shankweiler, et Studdert-Kennedy, 1967). Par conséquent, les patterns acoustiques n’ont pas de correspondances uniques avec les phonèmes. Pour comprendre les représentations acoustiques des sons de parole, il est nécessaire de considérer ce qui les défini.

Les sons de parole sont produits par l’appareil phonatoire. Les spécificités articulatoires de chaque phonème permettent de les classer. Comme défini dans le chapitre 2, on peut considérer qu’il existe 4 traits articulatoires caractéristiques des consonnes du français: le mode d’articulation, le voisement, le lieu d’articulation et la nasalité ; ainsi que 3 traits articulatoires caractéristiques des voyelles en français : la nasalité, l’aperture et

tel-00585948, version 1 - 14 Apr 2011

59 l’antériorité. Les paragraphes suivant présentent une description de la relation entre les caractéristiques acoustiques et articulatoires de la parole d’après les recherches menées par Fant (1970), Pickett (1980), Rosen (1992), Calliope (1989), et Vaissière (2006).

Les indices acoustiques constituent le premier niveau de l’analyse phonétique : le substrat physique de la parole. La figure 12 représente les spectrogrammes des mots « bar », « par », « dard » et « tard ». Un spectrogramme est une représentation graphique des indices acoustiques de la parole. La dimension temporelle est représentée en abscisse, la dimension spectrale en ordonnée et la noirceur du tracé rend compte de la répartition de l’intensité sonore. Sur la figure 11, on peut observer plusieurs de ces indices :

- Les formants (dont les valeurs centrales sont surlignées en jaune) sont des bandes de fréquence qui, par résonance, sont amplifiées lors du passage du son dans les cavités pharyngales (Formant 1 ou F1), buccales (F2) et labiales (F3) (pour une vision plus complète des relations entre formants et cavités, voir Rothenberg, 1981). Les transitions de formants désignent les changements de fréquence entre configurations articulatoires successives, comme par exemple celles des consonnes et des voyelles. On parle de locus du formant pour indiquer le point d’origine de la transition du formant.

- La barre d’explosion (en vert) correspond au relâchement de l’air bloqué dans le conduit vocal lors de l’occlusion de la consonne.

- La barre de voisement (en rouge) est une bande d’énergie périodique engendrée par la vibration des cordes vocales durant l’occlusion de la consonne.

- L’intervalle de temps entre ces deux derniers événements (barre d’explosion et barre de voisement) correspond au Délai d’Etablissement du Voisement (DEV) ou Voice Onset Time (VOT). Lisker et Abramson (1964) ont défini cet indice comme le délai entre le relâchement de l’occlusion (signalé par la barre verticale surlignée en vert) et le début de la vibration des cordes vocales (signalé par le début des stries périodiques, cerclées en rouge). Le VOT est négatif lorsque la vibration des cordes vocales commence avant le relâchement de l’occlusion et positif lorsqu’elle intervient après.

tel-00585948, version 1 - 14 Apr 2011

Figure 12: Spectrogrammes des mots « bar », « par », « dard », et « tard » produits par un même sujet. Les barres de voisement sont entourées en rouge ; les barres d’explosion sont représentées par les barres verticales vertes ; les formants sont en jaune. Reproduit avec l’autorisation de Ingrid Hoonhorst.

A chaque trait corresponde deux types d’indices acoustiques : « temporels », ceux transmis par l’Enveloppe, et « spectraux », ceux transmis par la TFS.

Les voyelles

Pour les voyelles, les indices sont essentiellement spectraux.

Le spectre des harmoniques est modifié par le conduit vocal qui agit comme un filtre complexe, introduisant une résonance (les formants) à certaines fréquences. Le formant le plus bas est appelé le premier formant (F1), le suivant est le second formant (F2) et ainsi de suite. Les formants des voyelles sont relativement stables au cours du temps. Les voyelles sont donc des signaux de parole facile à décrire. La figure 13 décrit la forme du conduit vocal lors de la prononciation des voyelles /i/, /a/ et /u/, ainsi que les spectres de fréquences associés à ces voyelles. On observe que la structure des formants permet de distinguer les voyelles.

tel-00585948, version 1 - 14 Apr 2011

61 Figure 13. Illustration de la production de trois voyelles /i/, /a/, et /u/. (a) Spectre du son complexe harmonique produit par la mise en vibration des cordes vocales. (b) Représentation schématique de la forme et des constrictions du conduit vocal pendant la prononciation de chacune des trois voyelles. (c) Fonctions de transfert des « filtres » déterminés par les trois différentes configurations du conduit vocal. (d) Spectres de puissance des voyelles obtenus en passant le signal résultant de la vibration des cordes vocales et représenté en (a) par les trois filtres dont les fonctions de transfert sont représentées en (c). Reproduit de Rosen (1992).

Les recherches ont également montré que l’antériorité est principalement définie par les deuxième et troisième formants (F2 et F3), l’aperture par le premier formant (F1), et la nasalité par les antiformants, la base spéciale de F1 (le F1 oral est plus élevé que le F1 nasal).

Les consonnes

La production du trait de voisement repose dans la majorité des langues sur la relation temporelle entre le début des vibrations laryngées et le relâchement de l’occlusion (explosion), ou timing laryngé, dont le corrélat acoustique le plus direct est le délai d’établissement du voisement (VOT, Voice Onset Time) (Lisker & Abramson, 1964). Si le VOT, indice temporel, joue un rôle majeur de la perception du voisement, une série d’indices acoustiques spectraux contribue également mais de manière secondaire à sa perception (Delattre, 1958 ; 1968 ; Wajskop & Sweerts, 1973 ; Lisker, 1978 ; 1985). Pour prendre l’exemple du français, Wajskop et Sweerts (1973) relèvent un autre indice principal qui contribue à une perception invariante du trait de voisement dans les différents contextes phonétiques : la durée de transition du premier formant de la voyelle dans un contexte [voyelle + consonne].

tel-00585948, version 1 - 14 Apr 2011

Le trait de mode d’articulation est principalement caractérisé par deux indices temporels : la durée du segment du bruit qui est plus long pour les fricatives que pour les occlusives ainsi que par la durée des transitions formantiques.

Le trait de lieu d’articulation est principalement caractérisé par deux indices temporels : la répartition de l’énergie dans le spectre du bruit de friction ou d’explosion ainsi que la direction des transitions formantiques (F1 et F2).

Le trait de nasalité est défini par des indices spectraux complexes (formants et antiformants) générés par le passage de l’air dans les fosses nasales.

En résumé

Les signaux de TFS et d’E transmettent des informations acoustiques spécifiques aux traits phonologiques. Le tableau 3 décrit les signaux d’E et de TFS pertinents pour chaque trait phonologique.

Signaux d’enveloppe temporelle

Signaux de structure temporelle fine

Voisement X x

Mode d’articulation X

Lieu d’articulation X

Nasalité X

Traits articulatoires des

voyelles X

Tableau 3. Illustration schématique de la représentation des différents traits articulatoires par les indices de structure d’enveloppe temporelle et de structure temporelle fine. La taille des croix symbolise la qualité de la représentation du trait articulatoire par la structure considérée.

De même, on peut considérer que les signaux temporels et spectraux transmettent des informations phonétiques essentielles à la perception de la parole. Le tableau 4 décrit les signaux temporels et spectraux nécessaires à la perception de chaque trait articulatoire.

tel-00585948, version 1 - 14 Apr 2011

Tableau 4. Illustration schématique de la représentation des différents traits articulatoires par les indices de structures temporelles et spectrales. La taille des croix symbolise la qualité de la représentation du trait articulatoire par la structure considérée.

Alors que l’Enveloppe fournit principalement des informations sur le mode d’articulation et le voisement des consonnes, la TFS fournit principalement des informations sur le lieu d’articulation des consonnes, la nasalité des consonnes et des voyelles, l’antériorité et l’aperture des voyelles.

En conclusion, les traits sont caractérisés par des indices acoustiques spécifiques, majoritairement temporels ou spectraux selon le trait. L’oreille a la capacité de réaliser des analyses spectro-temporels du signal de parole et les représentations spectrales et temporelles permettent de décrire les traits phonologiques. Néanmoins, dans le cas de la surdité, ces traitements ne sont plus réalisés et cela peut empêcher une perception acoustico-phonétique précise. La partie suivante décrit les différents types de surdité et leur impact sur la perception de la parole. Dans cette perspective, une justification du rôle de l’implant cochléaire comme outil de réhabilitation⁷ de l’audition et une description du fonctionnement de l’implant cochléaire sont proposées.

Dans le document Apprendre à lire avec un implant cochléaire : sur la base de quel signal auditif ? ~ Association Francophone de la Communication Parlée (Page 72-77)