• Aucun résultat trouvé

3.6 Les analyses acoustiques

3.6.4 Principaux paramètres utilisés en pathologie

3.6.4.1 La fréquence fondamentale (F0)

Comme nous l’avons mentionné précédemment, la fréquence fondamentale (F0)

correspond au nombre de cycles effectués par les plis vocaux (en Hertz) par seconde. Celle-ci dépend de la pression sous-glottique (PSG), de la masse, de la raideur et de la taille des plis vocaux. Il n’existe pas de traits pertinents pour affirmer qu’une voix est normale. Cependant, « une périodicité stable » peut être un indice de normalité, même si de faibles variations d’un cycle à un autre apparaissent chez des locuteurs sains.

3.6. Les analyses acoustiques 77

Mécaniquement, le contrôle de F0 est effectué par les muscles intrinsèques et ex-

trinsèques du larynx. Le rôle des muscles intrinsèques ayant déjà été discuté en 1.3.2.1, nous n’aborderons pas cet aspect. De la même manière, nous avons vu que l’action des muscles extrinsèques était importante dans la production des fréquences très élevées et très basses. Ainsi, le larynx s’élève dans le registre aigu et s’abaisse dans le registre grave (Faaborg & Sonninen 1959). Il est également important de noter qu’il existe un

lien étroit entre F0 et intensité : plus l’intensité augmente et plus la F0 à tendance à

croître.

La détection informatique de F0 peut être effectuée de manière temporelle ou de

manière fréquentielle. Dans le domaine temporel, la détection de la fréquence est ba- sée sur les cycles (« zero-crossing », « autocorrélation »). L’analyse fréquentielle cor- respond, quant à elle, à la technique spectrale d’analyse des harmoniques (« technique du peigne ») ou au calcul du cepstre. Cette dernière technique, correspondant à l’in- verse du spectre, permet de représenter l’amplitude des fluctuations des magnitudes spectrales. Cependant, la plupart de ces méthodes posent des problèmes de détection majeurs où des confusions voisé/non voisé apparaissent et des sauts d’octaves se ma- nifestent. Dans le premier cas, il est fréquent d’observer, selon les réglages définis, que des parties du signal voisées soient éliminées par le détecteur ou au contraire que des parties non voisées soient considérées comme voisées, ce qui implique des valeurs de

F0erronées. Dans le second cas, nous constatons des problèmes de sauts d’octaves liés

à des erreurs d’algorithme.

Dans le domaine de la pathologie, ces conflits de détection de F0 sont double-

ment présents. En effet, l’apériodicité du signal est un frein supplémentaire. Il est par exemple possible que l’algorithme du logiciel confonde du bruit avec une harmonique, créant ainsi des sous-harmoniques et des inter-harmoniques inexistants à la base, ce

qui pose problème pour une détection correcte de F0 (Baken 1987, Nunez-Batalla &

al. 2000).

3.6.4.2 L’intensité sonore

Comme nous l’avons souligné précédemment, il est essentiel de distinguer ampli- tude (cf. section 3.6.2.1) et intensité sonore. En physique, l’intensité est définie par un rapport de la puissance de vibration sur la surface sur laquelle elle s’applique (Bourcet & Liénard 1987, Martin 2008). Pour un son pur, cette définition revient à déterminer la quantité d’énergie fournie ou reçue (en Joule= J ) par unité de temps. De manière synthétique, nous pouvons dire qu’une source sonore diffuse de l’énergie mécanique E sous forme d’énergie cinétique et potentielle : une source sonore qui diffuse une énergie E en un temps t possède une puissance en Watts (W ) qui correspond à la formule W = E/t. Cette quantité d’énergie délivrée par seconde et mesurée en J/s, c’est-à-dire en Watts correspond à l’équivalence suivante : 1W = 1J/s. Comme men- tionné plus haut, l’intensité acoustique représente le flux moyen de la puissance par unité de surface, elle s’exprime donc en W/m². Ainsi, supposons qu’une surface S soit traversée par une énergieE pendant un temps t donné, l’intensité de cette surface sera calculée de la manière suivante : I = E/(t.S) = W/S (watts/m²).

Nous avons donc vu que les unités pour représenter le niveau sonore étaient les sui- vantes : le Watt pour la puissance et le Watt/m² pour l’intensité acoustique. Néanmoins, ces valeurs sont très difficiles à manier et à représenter simplement car le rapport entre les plus fortes et les plus faibles mesures de puissance acoustique s’échelonne de 1 à plusieurs millions de watts. Aussi, afin de réduire cette plage de variation, les phy- siciens ont pris l’habitude d’exprimer la puissance et l’intensité en valeurs logarith- miques : les décibels (dB).

Au niveau glottique, les ouvertures et fermetures des plis vocaux donnent lieu à des bouffées d’air périodiques. Chacune de ces bouffées possède une vitesse V et une masse m, c’est-à-dire une énergie cinétique. La masse de l’air délivrée à chaque cycle varie faiblement tandis que la vitesse de sortie des ces impulsions change de manière non négligeable. Ces changements de vitesse — intensité vocale — dépendent de deux paramètres principaux : la pression sous-glottique (PSG) et la taille de l’orifice d’écou- lement. Ainsi, pour que l’intensité augmente, la PSG doit croître de façon proportion- nelle alors que la surface glottique doit diminuer (Isshiki 1964, 1965, Baken 1987, Titze 1989). Ces ajustements de pressions et de configurations du conduit vocal sont des arguments en faveur d’une corrélation positive entre intensité et fréquence fon-

damentale. Ainsi, plus la F0 augmente et plus l’intensité aurait également tendance à

croître. Dans ce sens, une étude de Black (1961) a montré que la F0de locuteurs s’am-

plifiait dans une tâche d’effort vocal. Par conséquent, il est intéressant d’observer les comportements des plis vocaux lors des variations d’intensité. Des expériences avec le glottographe ont permis de mettre en évidence certaines caractéristiques de la glotte lors d’une augmentation de l’intensité : la durée de la phase d’ouverture augmente tan- dis que la phase de fermeture diminue, ce qui traduit un accolement plus rapide des plis vocaux. De plus, la durée d’occlusion glottique s’allonge alors que l’amplitude d’écartement des plis vocaux décroît (Baken 1987, Léothaud 2004).

Enfin, nous savons que la manipulation de l’intensité vocale permet au locuteur de transmettre un message plus efficacement par l’augmentation de cette dernière dans le but de focaliser sur les éléments clés par exemple (Finnegan & al. 2000). Un certain nombre d’expériences menées sur la voix parlée concernant le rétrocontrôle de l’inten- sité a permis de mieux appréhender les procédures de régulation (cf. Lombard 1911, Fletcher & al. 1918 par exemple). Les conclusions convergent toutes vers une hypo- thèse commune : le locuteur tend à s’adapter à son environnement et cherche à main- tenir un niveau sonore adéquat en fonction de l’évolution des bruits qui l’entourent. Le but majeur de ce dernier étant de se faire entendre de ses auditeurs, ce qui suppose une adaptation aux conditions de parole (dimension du lieu, bruit, éloignement des auditeurs, style de parole, etc.).

3.6.4.3 Le jitter

Les fluctuations de durée d’un cycle glottique à un autre en terme de F0 sont com-

munément appelées « jitter ». Elles sont exprimées parfois en valeurs absolues mais le plus souvent en pourcentages (Hollien & al. 1973, Schoentgen & Guchteneere 1991, 1995, entre autres). La figure 3.13 schématise ces perturbations :

3.6. Les analyses acoustiques 79

Amplitude

Temps 0

Cycle 1 Cycle 2 Cycle 3 Cycle 4

Figure 3.13 – Représentation schématique du jitter (schéma réalisé avec TiKZ).

Cependant, sa mesure peut être problématique du fait que les différents logiciels n’utilisent pas les mêmes références et qu’il existe plusieurs définitions de ce para-

mètre selon les techniques de mesure de F0. De plus, ces mesures sont à prendre avec

précaution du fait des nombreuses erreurs de détections dans l’analyse des voix pa- thologiques (Crevier Buchman & al. 1996, Crevier Buchman 1999, Hans 2003) Ainsi, le « jitter absolu moyen » représente la moyenne de la différence de fréquence entre deux cycles vibratoires consécutifs. « Le jitter factor » est le jitter moyen rapporté à

la F0 moyenne du signal. Ce paramètre semble être le plus pertinent pour qualifier la

stabilité de la F0 à court terme. Il est considéré comme l’indice le plus représentatif

de la raucité de la voix, voire même de la présence de souffle (Eskenazi & al. 1990, Schoentgen & Guchteneere 1995 etc..). Le « jitter ratio » est la moyenne de la dif- férence de période entre deux cycles consécutifs, rapportée à la période moyenne du signal. Enfin, le « RAP » est la moyenne de la différence de trois périodes consécutives, rapportée à la période moyenne du signal (Koike & al. 1977).

3.6.4.4 Le shimmer

Pour les voix normales, le terme de « shimmer » correspond aux variations d’am- plitude d’un cycle à un autre (cf. figure 3.14). De manière générale, le shimmer est exprimé en pourcentages. Aussi, pour les mêmes raisons évoquées précédemment, la mesure de ce paramètre s’avère toujours aussi problématique. Il existe en effet plu- sieurs définitions de ce dernier en fonction des calculs effectués et des logiciels uti- lisés. Le « shimmer moyen », exprimé en dB, caractérise les différences d’amplitude entre deux cycles consécutifs. Le « shimmer factor » représente, quant à lui, le shimmer moyen rapporté à l’amplitude moyenne du signal. Enfin, l’« APQ » calcule la moyenne des variations d’amplitude sur 11 cycles consécutifs rapportée à l’amplitude moyenne du signal (Koike & al. 1977). Comme nous l’avons précisé pour le jitter, le shimmer reste un bon indice dans le caractère breathy d’une voix (voire parfois pour la raucité) (Eskenazi & al. 1990 et Schoentgen 1995).

Amplitude

Temps 0

A1

A2 A3 A4

Figure 3.14 – Représentation schématique du shimmer (schéma personnel réalisé avec TiKZ).

A l’instar du jitter, que nous avons décrit précédemment, l’intérêt de ces types de mesures est surtout d’établir des corrélations acoustico-perceptives avec les évalua- tions perceptives. Dans une synthèse de 2000, Woisard Bassols évoque ces interactions (Woisard Bassols 2000) :

Forte corrélation Faible corrélation

G Shimmer et HNR

R Jitter Shimmer

B Shimmer, diminution du

nombre d’harmoniques, hausse du débit phonatoire

Jitter

A Jitter Shimmer

S Jitter et Quotion de fermeture

(EGG)

PSG

Table 3.3 – Synthèse des différentes corrélations acoustico-perceptives.

3.6.4.5 Les mesures de bruit de turbulence : le HNR et le NNE

Un troisième paramètre acoustique peut être mis en relation avec l’instabilité du si- gnal pour les voix pathologiques. En effet, dans ce cas, l’instabilité du signal glottique peut se manifester par un bruit qui est surajouté (Teston 2004). Le but de cette mesure objective est de séparer la quantité de bruit pendant la phonation. Plusieurs méthodes ont été mises en oeuvre pour mesurer la partie apériodique du signal. La première consiste à mesurer le HNR (harmonic noise ratio). Ce paramètre, mesuré en dB, per- met la recherche de bruit dans les harmoniques. Une forme ondulatoire moyenne du signal est obtenue à partir de 25 cycles voisés du signal. C’est la différence entre le signal de base et la forme ondulatoire qui permet d’obtenir un résidu nommé « bruit additif ». Si H correspond à l’énergie de l’onde moyennée et N est le bruit résiduel,

3.7. Les analyses a´erodynamiques 81

alors le rapport H/N calculé de manière régulière nous donne la valeur du HNR (Yu- moto & al. 1982). La seconde méthode consiste à mesurer le NNE (normalized noise energy) à partir d’une méthode spectrale. Ce paramètre serait plus robuste dans les cas où les portions périodiques du signal acoustique ne seraient pas suffisamment longues. Il s’exprime par un rapport du bruit/composante totale du signal (Kasuya & al. 1986). Cependant, il est important de noter que la détection est également souvent probléma- tique. En effet, les voix après LPS présentent des sous-harmoniques et des bruits de turbulence liés aux fuites glottiques, ce qui rend l’interprétation du spectre difficile.

3.7

Les analyses aérodynamiques