La fiabilité de l’échelle. - La sensation de forçage (S) : traduit un état hyperfonctionnel de

L’évaluation subjective

5. La sensation de forçage (S) : traduit un état hyperfonctionnel de la phonation Cet état est lié à une fréquence fondamentale anormalement élevée et à du bruit dans

3.2.2. La fiabilité de l’échelle.

Kreiman et al (1990)[169] répartissent les problèmes méthodologiques en 3 catégories : les paramètres étudiés, la qualification du jury (en terme d’expérience, d’entraînement) et le contenu phonétique de l’échantillon.

La hauteur, l’intensité et le rythme, entre autres, peuvent influencer le jugement des auditeurs et leur fiabilité.

3.2.2.1. La qualification du jury.

Anders et al (1988)[4] qui étudient l’effet de l’entraînement et du bagage culturel sur la perception de la raucité, ne trouvent pas de facteurs prédominants. Hammarberg[108, 110] a observé un bon niveau de fiabilité pour un groupe d’auditeurs expérimentés, ce que confirme Gelfer (1988)[87] pour qui des auditeurs expérimentés jugent de façon plus cohérente que des évaluateurs non entraînés.

Kreiman et al (1990)[169] montrent que les auditeurs, selon qu’ils sont naïfs ou expérimentés emploient des stratégies perceptuelles différentes. Pour eux, les juges experts atteignent un pourcentage d’accord moindre que les juges naïfs en ce qui concerne l’importance relative des différents aspects de la qualité vocale. Ils suggèrent donc la plus grande prudence dans l’emploi de données moyennes obtenues sur un échantillon dispersé de cliniciens. En outre, kreiman et al recommandent l’emploi de stimuli d’ancrage pour contrôler la variabilité de l’évaluation vocale. Bassich et al (1986)[18] rapportent que 8 heures d’entraînement sont requises pour atteindre 80% de fiabilité inter-juges en employant un système d’évaluation à 13 dimensions. De Bodt et al (1997)[53] rapportent à ce sujet que l’expérience et le bagage professionnel n’influencent pas l’évaluation des paramètres s'ils comparent les

scores de la médiane (niveau de significativité pour le degré d'expérience : (G), p=0.18 ; (R), p=0.7 ; (B), p=0.32 ; (A), p=0.32 ; (S), p=0.6 et le niveau de significativité pour le bagage professionnel : (G), p=0.36 ; (R), p=0.11 ; (B), p=0.18 ; (A), p= 0.32 ; (S), p= 0.11). Néanmoins, s’ils observent les résultats basés sur les moyennes, les scores des auditeurs expérimentés sont plus élevés que les scores des auditeurs inexpérimentés (k=0.70 vs 0.50). Les ORL expérimentés fournissent la meilleure moyenne globale. Ils ajoutent que les auditeurs expérimentés ont tendance à surestimer le degré de dysphonie tandis que les auditeurs non expérimentés la sous- estiment. Le consensus général est que l’expérience est un facteur-clé pour l’obtention d’une analyse perceptuelle fiable (Hammarberg, De Bodt, Anders, Askenfeld, Kreiman[in [256]).

3.2.2.2. Les paramètres de l’échelle.

Abe et al (1986)[1] jugent que la reproductibilité de l'échelle G.R.B.A.S. diffère selon les auditeurs et les paramètres de l’échelle.

Les travaux de Dejonckere et al (1993)[61] montrent que dans une liste de score perceptuel de 15 items, l’échelle G.R.B.A.S. apparaît la plus intéressante. Les auteurs repèrent des combinaisons favorables de variances intra, inter-juges et des variances inter-vocales élevées. Le paramètre (G) (p=0.7) obtient la meilleure corrélation entre 2 juges. Les paramètres A et S offrent moins de cohérence.

De Bodt (1997)[52] trouve une fiabilité inter-juges (ORL et logopèdes) modérée (K=0.43). Le meilleur accord est obtenu pour le paramètre (G) (0.39) et le plus mauvais pour le paramètre (S) (0.11).

Leinonen et al (1997)[181] cherchent à mettre en évidence les caractéristiques communes aux évaluations des cliniciens expérimentés et à déterminer les dimensions principales de la variation acoustique et perceptuelle. Six logopèdes expérimentés jugent 94 échantillons de voix masculines et 124 de voix féminines sur une échelle visuelle analogique de 5 cm. Ils évaluent le degré de pathologie des paramètres suivants : la raucité (R), le souffle (B), la sensation de forçage (S), et sensation de faiblesse (A). La concordance entre les juges est la plus élevée pour le

degré de pathologie (0.734), le souffle (0.698) et la raucité (0.646). La pathologie est d’ailleurs principalement déterminée par le souffle et la raucité.

A partir d'une revue de la littérature explorant 57 études de 1951 à 1990, Piccirillo et al (1998)[231] rapportent une haute fiabilité inter-juges pour chaque paramètre de l’échelle G.R.B.A.S. ((G) : 0.96 ; (R) :0.95 ; (B) :0.96 ; (A) :0.92 ; (S) : 0.93).

Kreiman et al (1990)[169] démontrent la supériorité de l'échelle G.R.B.A.S. par rapport à d'autres méthodes d'analyse perceptuelle pour lesquelles le niveau de reproductivité et de fiabilité variait de 18 à 100%. C'est le paramètre (G) de la dysphonie qui semble récolter un niveau de corrélation le plus important.

Olson et al (1998)[220] évaluent les résultats acoustiques et perceptuels d’une réinnervation par anastomose de l’anse cervicale sur le nerf récurrent. Cinq juges apprécient les paramètres G.R.B.A.S. sur une échelle de 12mm. La fiabilité intra-juges est excellente. Les patients montrent une amélioration sur les paramètres suivants : le Grade (G), le Souffle (B) et la sensation de forçage (A) (p<0.05). Olson et al soulignent que le grade est la mesure la plus simple et la plus adéquate pour évaluer la qualité vocale, tout en étant aussi la mesure la mieux corrélée avec le degré de satisfaction du patient.

Millet et al (1998)[201] rapportent des valeurs de fiabilité de 2 juges sur l’échelle G.R.B.A.S. concernant l’évaluation de 65 sujets dysphoniques. La corrélation intra- juges est plus élevée que la corrélation inter-juges. Le grade est plus fiable que le souffle et la raucité ((G) : 0.87 ; (R) :0.70 ; (B) : 0.69).

Carding et al (1999)[35] confirment l’efficacité d’une thérapie vocale chez 45 patients souffrant d’une dysphonie dysfonctionnelle. Quatre juges ont évalué le degré de sévérité de la dysphonie en se basant sur un seul paramètre de sévérité globale à partir de 90 échantillons vocaux. La fiabilité intra-juges s’étend de 0.94 à 0.99 indiquant un accord presque parfait. La cohérence inter-juges est de 0.89 (p<0.05).

3.2.2.3. L’échantillon.

Le matériau phonétique soulève des questions dans la mesure où les mesures objectives sont réalisées sur une voyelle tenue tandis que les mesures subjectives le sont sur un fragment de parole (Hammarberg et al (1980)[108]). A ce propos, les points

de vue divergent en fonction des auteurs. Les voyelles tenues sont limitées à leur partie stationnaire ce qui en fait un matériau appauvrissant pour l’analyse vocale. Il reste cependant l’apanage de tous (Kempster et al (1991)[161].

Rabinov et al (1995)[241]) Les arguments en faveur des voyelles sont plus pragmatiques et concernent plutôt les mesures objectives. Les arguments qui défendent le fragment de parole articulée sont plus théoriques et concernent l’analyse subjective.

Le discours spontané est souvent considéré comme le matériau le plus approprié étant donné qu’il contient un phénomène transitoire permettant l’analyse des dynamiques vocales en condition naturelle (Hammarberg[108]). La portion stable d’une voyelle isolée (le plus souvent [a]) offre des avantages pratiques pour le chercheur (Kreiman, Bassich, Childers, Wolfe,[in 256]). Elle n’est pas affectée par le facteur de co- articulation. Elle est utile dans l’analyse vocale objective pour l’obtention des mesures acoustiques et aérodynamiques (Giovanni 1994/1995[93]). Cependant, Bassich[256] souligne le caractère artificiel de ce matériau qui peut conduire à une sous-estimation des changements pathologiques. Sakata et al (1995)[263] montrent une différence dans l’évaluation perceptuelle d’une voyelle soutenue et du langage courant produits par différentes voix. Le Grade (G) est obtient une valeur plus élevée dans l’échelle pour la langage courant. La sensation de faiblesse (A) et la sensation de forçage (S) sont évaluées plus haut dans la voyelle soutenue.

de Krom et al (1994)[54] demandent à 6 juges d’évaluer le souffle et la raucité de 78 sujets dysphoniques. Les échantillons évalués perceptuellement comprennent la portion stable et la portion complète des voyelles (attaque et finale de l'émission comprises) ainsi que du langage continu. La cohérence est plus élevée entre le langage continu et les voyelles complètes qu’entre le langage continu et les voyelles stables. de Krom et al ne notent aucun effet significatif du choix de l’échantillon de parole, sur la concordance intra ou inter-juges dans l’évaluation du Grade, de la Raucité ou du Souffle. Revis et al (1999)[256] corroborent ces observations. Ils demandent à 7 juges d’évaluer 60 sujets dysphoniques et 20 sujets contrôles au moyen de l’échelle G.R.B.A.S.. Les 3 tâches sont identiques à celles proposées par de Krom et al[54]. Ils observent que les juges sont moins sévères lorsqu’ils jugent une voyelle soutenue stable qu’un échantillon de langage spontané, mais que les jugements sur la voyelle soutenue complète sont similaires aux jugements portés sur le langage spontané. A l’analyse perceptuelle, les juges portant leur évaluation sur la

portion initiale et stable d’une voyelle soutenue ne sous-estiment pas la dysphonie mais Revis et al soulignent que la production dans des conditions artificielles peut être un choix qui prête à confusion. Ils considèrent donc que le test de la voyelle tenue est sans doute pertinent pour une analyse vocale mais inadéquat pour une analyse perceptuelle.

de Krom et al (1995)[55] ont demandé à un jury d’analyser la qualité vocale de sujets normaux et dysphoniques sur base de 4 échantillons vocaux :

un fragment de parole, les 200 premières millisecondes (attaque) d’une voyelle, les 200 millisecondes de la partie stable de cette voyelle et la voyelle entière attaque incluse.

Ils rapportent que les fragments comprenant la voyelle dans sa totalité sont plus interprétables que la partie stable. Pour les sujets dysphoniques moyens, ce sont les parties instables du [a] (attaque et finale ou encore les transitoires d’entrée et de sortie) qui sont atteintes en premier.

Giovanni et al (1996)[93] insistent sur le fait que toutes les étapes de l’évaluation perceptuelle doivent être analysées et contrôlées pour permettre des comparaisons valables. Les biais peuvent être l’expérience, la sensibilité de l’auditeur, le choix du matériau à analyser et l’échelle choisie. En outre, les stratégies d’écoute des auditeurs doivent être approfondies pour améliorer leur fiabilité.

L’échelle G.R.B.A.S. permet d’évaluer la qualité vocale de sujets présentant pathologies diverses. Cependant, pour les troubles vocaux du chanteur, elle s’avère peu efficace. En effet, la voix parlée de certains patients dysodiques est souvent évaluée comme étant "normale", alors qu’en voix chantée le clinicien pourra percevoir du souffle, de la raucité ou encore de l’irrégularité vibratoire. Au point suivant, nous présentons donc une échelle perceptuelle qui est le fruit de notre travail personnel et qui a pour but d’étudier le vibrato.

Dans le document Contribution à la détermination de paramètres subjectifs et objectifs pour l'étude de la voix (Page 97-102)