• Aucun résultat trouvé

Évaluation subjective de la voix

Dans le Chapitre 2, nous avons discuté de différentes méthodes d’évaluation des propriétés acoustiques de la voix. Cependant, la voix ne se définit pas uniquement en termes acoustiques. En effet, il est également possible d’évaluer la voix de façon subjective selon des critères standardisés ou personnels sur différents plans, par exemple si la voix semble saine ou pathologique, belle ou désagréable, etc. L’étude de l’évaluation subjective de la voix, tout comme son étude objective décrite au chapitre précédent, a une longue tradition. Au 19e siècle déjà, Austin distingue les propriétés qualitatives de la voix, qu’elles soient positives (claire, douce,

uniforme, variée, flexible) ou négatives (indistincte, rugueuse, brisée, monotone et rigide), des caractéristiques quantitatives de la voix (le volume, la durabilité, la faiblesse) (Austin, 1806). L’étude de l’évaluation subjective de la voix gagne en popularité lorsque, au milieu du 20e siècle, des chercheurs observent une association

entre l’évaluation subjective de la voix, plus particulièrement l’enrouement8 perçu de la voix, et divers troubles

laryngés (Flanagan, 1958; Isshiki & von Leden, 1964). Diverses méthodes et divers outils sont développés par la suite pour répondre à l’intérêt grandissant porté à l’évaluation subjective de la voix (Kreiman & Gerratt, 2010; Kreiman, Gerratt, Kempster, Erman, & Berke, 1993).

Il est important de noter que l’évaluation de la voix, un des thèmes centraux de cette thèse, se distingue de l’évaluation et de la perception de la parole, qui vise à établir la capacité à identifier, discriminer et manipuler les phonèmes et syllabes du langage. Au contraire, l’évaluation de la voix ne porte pas sur les phonèmes ou les mots produits, mais sur la voix elle-même.

L’étude de l’évaluation subjective de la voix prend généralement deux formes, l’évaluation auditive- perceptuelle classique (c’est-à-dire l’évaluation de la qualité de la voix) et l’évaluation psychosociale de la voix (c’est-à-dire l’attribution de traits et de caractéristiques sociales à partir de la voix). Dans les sections suivantes, ces deux types d’évaluations sont présentés ainsi que les termes techniques, les outils et les protocoles fréquemment utilisés.

3.2.1. Évaluation auditive-perceptuelle de la voix

L’évaluation auditive-perceptuelle implique qu’un évaluateur écoute une voix puis évalue cette voix sur différentes échelles perceptives, dont les thèmes centraux (enrouement, bruit, etc.) ont peu changé depuis le

41

19e siècle (Kreiman & Gerratt, 2010). Cette approche est facile à appliquer et à comprendre, et est reconnue

mondialement pour mesurer la qualité perçue de la voix (Nemr et al., 2012). En contexte expérimental, il n’existe toutefois pas de directives claires quant aux conditions d’écoute recommandées pour l’évaluation auditive-perceptuelle de la voix. Afin de réduire les distractions, il peut être avantageux de réduire au minimum le bruit ambiant en procédant dans une salle calme ou insonorisée (Kreiman et al., 1993). L’intensité du volume peut également être ajustée à chaque participant (Kreiman et al., 1993; Zraick et al., 2011), puisque, contrairement aux tests d’audition qui évaluent la capacité à détecter des sons, il s’agit ici d’évaluer la qualité de la voix et non l’intensité nécessaire pour que celle-ci soit perçue.

Avant d’aborder les différents outils d’évaluation de la voix, certains attributs perceptuels vocaux doivent être définis puisqu’ils sont au cœur de l’évaluation auditive-perceptuelle de la voix et utilisés dans la majorité des outils d’évaluation reconnus. La raucité (« roughness ») réfère à l’irrégularité de la source vocale et à une voix grinçante (Omori, 2011) alors que la turbulence (« breathiness »), ou le souffle, renvoie à une fuite d’air audible dans la voix (ASHA, 2006). Une voix asthénique (« asthenicity ») équivaut à une voix faible, fragile ou fluette (Omori, 2011), et la tension (« strain ») signifie que la gorge est serrée par une tension musculaire excessive et est associée à une hyperfonction laryngée (ASHA, 2006; Omori, 2011). L’enrouement (« hoarseness ») correspond à tous ces attributs et est considéré comme le concept central de la qualité de la voix (Hirano, 1981).

Les approches pour évaluer la qualité perçue de la voix ont grandement évolué, de méthodes descriptives à des systèmes de codage précis (Karnell et al., 2007). Cependant, les deux tests les plus utilisés pour l’évaluation auditive-perceptuelle de la voix (le GRBAS et le CAPE-V) ont été conçus à des fins cliniques. En conséquence, l’évaluation perceptuelle de la voix normale a reçu très peu d’attention, l’évaluation perceptuelle de la voix vieillissante encore moins, et aucun outil de recherche standardisé n’existe. En contexte expérimental, ces outils sont donc tout de même utilisés malgré le fait que leur sensibilité pour l’étude de la voix normale ne soit pas démontrée.

L’échelle GRBAS a été créée par la société japonaise de Logopédie et de Phoniatrie et publicisée en anglais par Hirano en 1981 (Hirano, 1981). Depuis, cette mesure est largement utilisée pour évaluer l’enrouement et les troubles de qualité vocale (Carding, Wilson, MacKenzie, & Deary, 2009; Omori, 2011). Chaque paramètre de l’échelle GRBAS représente une dimension de la phonation : le G (« grade ») équivaut au degré général d’anormalité de la voix, le R représente la raucité, le B (« breathiness ») représente la turbulence, le A est pour l’asthénie et le S représente la tension (« strain »). Les paramètres sont évalués sur une échelle de type Likert à 4 points, de 0 (normal) à 3 (extrême). Le GRBAS a quelques inconvénients. En effet, il n’y a pas de protocole d’administration standardisé ni de lignes directrices pour son interprétation, et son échelle ordinale

42

ne permet pas de faire d’analyses paramétriques (Zraick et al., 2011). En conséquence, l’expertise des juges et le type d’échantillon vocal utilisé influencent grandement le résultat de l’évaluation (Kreiman, Gerratt, & Ito, 2007; Kreiman et al., 1993). La cotation de l’asthénie et de la tension se sont également révélées problématiques dans la littérature, démontrant des coefficients de fidélité intra- et inter-juge habituellement faibles (intra : r=0.28 [asthénie]; inter : r=0.17 [tension]) (De Bodt, Wuyts, Van De Heyning, & Croux, 1997). La fiabilité du GRBAS est donc parfois remise en question (Kempster, Gerratt, Abbott, Barkmeier-Kraemer, & Hillman, 2009).

Le Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V) est un outil développé lors d’une assemblée d’experts des troubles de la voix et de la perception humaine organisée par l’American Association for Speech, Language and Hearing (ASHA) et tenue en 2002. Les experts avaient pour objectif de développer des directives claires pour l’évaluation auditive-perceptuelle de la qualité de la voix basée sur des données probantes (ASHA, 2006). Le CAPE-V inclut une variété de tâches vocales (voyelle soutenue, lecture de phrases et conversation spontanée) selon un protocole détaillé pour évaluer la qualité de la voix. L’évaluation de six paramètres de la voix (sévérité globale, raucité, turbulence, tension, hauteur, intensité) s’effectue sur des échelles continues visuelles analogues de 100 millimètres, sur lesquelles l’évaluateur place un trait équivalant à la sévérité perçue (ASHA, 2006). En mesurant précisément la distance entre le zéro de l’échelle et le trait pour chaque paramètre, il est possible d’extraire des données continues entre zéro et 100. Ces données peuvent ensuite être utilisées facilement dans une analyse statistique, ce qui lui confère un net avantage sur le GRBAS (Zraick et al., 2011). Des études ont mis en évidence une grande correspondance entre le GRBAS et le CAPE-V, et en ont déduit que ce nouvel outil avait une bonne validité empirique (Karnell et al., 2007; Zraick et al., 2011). De plus, le CAPE-V obtient des accords intra- et inter-juge satisfaisants (intra : r=0.35 à 0.82; inter : r=0.28 à 0.76) et même légèrement supérieurs à ceux du GRBAS (Zraick et al., 2011).

3.2.2. Lien entre l’évaluation objective et subjective

de la voix

Le lien entre les propriétés acoustiques de la voix et l’évaluation subjective de la qualité qui en est faite est complexe (Yanagihara, 1967). Des instruments ont été développés dans les dernières années afin d’établir des liens directs entre les propriétés acoustiques de la voix et sa qualité perçue, tels que le « Dysphonia Severity Index » (Wuyts et al., 2000) et l’« Acoustic Voice Quality Index » (Maryn, De Bodt, & Roy, 2010), mais sans succès. En effet, puisqu’ils ne sont pas basés sur un modèle de qualité de voix, les changements dans une mesure acoustique ne sont pas facilement définis en termes perceptifs, ou même perçus (Kreiman &

43

Gerratt, 2010). Il n’y a pas d’association claire ni de relation causale entre une augmentation de jitter, par exemple, et un changement dans l’évaluation de la qualité perçue de la voix (Kreiman & Gerratt, 2010). Certaines études ont toutefois établi des corrélations significatives entre la stabilité de la voix mesurée par les indices de jitter, de shimmer et HNR et les degrés de turbulence et d’enrouement évalués grâce à l’échelle GRBAS (Dejonckere et al., 1996; Eskenazi et al., 1990; Wolfe & Martin, 1997). La raucité et la tension sont également significativement corrélées au degré d’énergie des harmoniques et à l’HNR (Whitehead & Whitehead, 1985; Yanagihara, 1967). L’écart-type de la f0 semble être un bon indicateur du tremblement perçu dans la voix, bien qu’il y ait une interaction entre le rythme, la régularité et l’amplitude du tremblement de façon à ce que l’influence perceptuelle d’une dimension soit dépendante de la valeur des autres dimensions(Kreiman, Gabelman, & Gerratt, 2003). Finalement, le taux de bruit présent dans la voix est associé à l’enrouement de la voix (Yanagihara, 1967; Yumoto et al., 1982, 1984). Des auteurs ont également démontré que les propriétés acoustiques de la voix associées à des dimensions perceptuelles par des évaluateurs experts et naifs étaient différentes pour des voix normales que des voix pathologiques (Kreiman, Gerratt, Precoda, & Berke, 1992). En somme, tous les paramètres acoustiques n’ont vraisemblablement pas la même saillance perceptive et la relation entre les propriétés acoustiques et l’évaluation perceptuelle de la voix mérite une étude approfondie.

3.2.3. Évaluation psychosociale de la voix

L’évaluation psychosociale est l’autre forme d’évaluation de la voix la plus étudiée. Alors que l’évaluation auditive-perceptuelle se concentre sur la qualité perçue de la voix en termes acoustiques, l’évaluation psychosociale de la voix sonde l’attribution de traits et de caractéristiques psychologiques et sociales à partir de la voix.

En plus de sa qualité perceptuelle, la voix humaine transmet en effet une multitude d’autres informations, dont les traits les plus saillants sont certainement le sexe et l’âge (Amir, Engel, Shabtai, & Amir, 2012; Ptacek & Sander, 1966; Schvartz & Chatterjee, 2012; Shipp & Hollien, 1969). De plus, entendre une voix permet de spéculer sur plusieurs autres traits du locuteur, tels que son apparence et son charme (Sandmann et al., 2014), sa féminité/masculinité (Ko, Judd, & Blair, 2006), son état émotionnel (Scherer, 1995) et sa sociabilité (Aronovitch, 1976; Benjamin, 1986; Markel, Phillis, Vargas, & Howard, 1972; McAleer, Todorov, & Belin, 2014; Mulac & Giles, 1996; Ryan & Capadano, 1978; Ryan & Johnston, 1987; Zuckerman & Driver, 1989). L’évaluation psychosociale de la voix pourrait jouer un rôle important dans la sélection du comportement à adopter, prosocial ou non, et ainsi influencer les relations interpersonnelles (Ambady, Krabbenhoft, & Hogan, 2006; Lallh & Rochet, 2000; McAleer et al., 2014; Mulac & Giles, 1996; Plank et al., 2011; Zuckerman &

44

Driver, 1989). Il est possible, en effet, que l’évaluateur souhaite moins interagir avec un locuteur s’il lui attribue des traits négatifs. Dans ce cas, l’attribution de traits psychosociaux négatifs basés sur la l’évaluation vocale pourrait avoir des conséquences sociales particulièrement importantes pour les personnes âgées (Mulac & Giles, 1996; Zuckerman & Driver, 1989), puisque des études observent que les participants associent à des personnes dont la voix est perçue comme âgée des caractéristiques plus négatives sur le plan notamment de l’initiative, de l’intelligence et de la flexibilité que des personnes dont la voix est perçue comme étant plus jeune (Benjamin, 1986; Ryan & Capadano, 1978). L’association possible entre l’évaluation psychosociale d’une voix et l’intention d’interagir avec le locuteur en question demeure cependant méconnue.

L’évaluation psychosociale de la voix requiert une écoute attentive d’échantillons vocaux. Malheureusement, il n’existe pas de lignes directrices dans la littérature sur les conditions expérimentales à réunir pour ce type de tâche. Il n’y a pas non plus d’outils standards de mesure des différentes caractéristiques des locuteurs. En conséquence, il existe une grande variabilité dans les types d’échantillons vocaux et d’instruments utilisés, ainsi que dans les traits évalués. Les échantillons de voix consistent habituellement en lectures de textes (Benjamin, 1986; McAleer et al., 2014; Ryan & Johnston, 1987) ou en conversations spontanées enregistrées (Aronovitch, 1976; Mulac & Giles, 1996). Les participants écoutent les échantillons puis évaluent si le locuteur leur semble, par exemple, plus ou moins énergique, chaleureux, anxieux, actif, intelligent, introverti, etc. (Ryan & Capadano, 1978; Ryan & Johnston, 1987). L’instrument de mesure est généralement composé de plusieurs échelles de type Likert de sept à neuf points (Aronovitch, 1976; Benjamin, 1986; McAleer et al., 2014).

3.3. Facteurs pouvant influencer l’évaluation