• Aucun résultat trouvé

environnement bruyant ________________________

4. P OSITIONNEMENT DE NOTRE ETUDE PAR RAPPORT A CES DIFFERENTES THEORIES ET

METHODOLOGIES

Dans le premier chapitre, nous avons posé l’hypothèse que le forçage est un dysfonctionnement de la régulation de l’effort et de sa gestion face à une situation de communication. Nous avons retenu dans un premier temps les environnements bruyants comme situation amenant les locuteurs à adapter leur effort.

Notre but est donc maintenant de chercher à caractériser le forçage vocal à travers les différences interindividuelles de stratégies d’adaptation à un environnement bruyant. Pour cela, nous allons commencer par explorer l’état des connaissances sur ce sujet dans la littérature, par mieux comprendre les mécanismes qui régissent l’adaptation de la parole dans le bruit et par recenser les facteurs influençant ces mécanismes à prendre en compte au niveau méthodologique dans nos protocoles d’étude.

1. L ES ACQUIS DES TRAVAUX ANTERIEURS

Avant toute chose, nous allons faire le bilan du travail qui a déjà été accompli dans la littérature en ce qui concerne les différences interindividuelles d’adaptation de la parole dans le bruit.

En fait, nous verrons que l’adaptation au bruit a déjà été largement étudiée dans divers objectifs (diagnostiquer la surdité, caractériser le forçage vocal, modéliser les variations de la parole, améliorer la robustesse de la reconnaissance automatique face à des conditions perturbées, perception de la parole dans des conditions d’intelligibilité dégradée) mais que ces différents buts ont plutôt conduit leurs auteurs à chercher une unique stratégie d’adaptation au bruit dont nous présenterons les caractéristiques principales. Les importantes différences interindividuelles observées sont alors très souvent considérées comme une variabilité gênante vis à vis de la modélisation de cette adaptation.

Quelques études se sont cependant intéressées à cette variabilité au niveau du genre du locuteur et de sa langue.

1.1. Des objectifs différents selon les champs disciplinaires

Toujours comme pour le problème de l’effet Lombard, le problème de l’adaptation de la parole a été envisagé de différentes façons dans la littérature, tant au niveau de l’interprétation des mécanismes qui la régissent qu’au niveau des méthodologies mises en oeuvre pour l’étudier. De la même façon, ces différences proviennent avant tout des différentes disciplines et domaines d’expertise s’étant intéressés à cette adaptation et à leurs différents objectifs. Nous commencerons donc par dresser le cadre disciplinaire et épistémologique dans lequel ont été menées les différentes études sur l’adaptation de la parole dans le bruit, afin de mieux en comprendre les différences de points de vue.

1.1.1. L’effet lombard en audiologie et en psychoacoustique

L’adaptation de la voix en environnement bruyant a en premier lieu été mis en évidence par Etienne Lombard, oto-rhino-laryngologiste, dans le but de trouver un test de détection de la surdité (unilatérale ou bilatérale). Il constate en effet que :

- les sourds par lésion de l’appareil labyrinthique élèvent anormalement la voix.

- de façon comparable, un locuteur sans problème auditif élève anormalement la voix lorsqu’il est immergé dans du bruit intense. « Il se crie en quelque sorte à lui-même comme on crie à l’oreille d’un sourd », et présente des caractéristiques vocales identiques à celles des sourds labyrinthiques bilatéraux (débit élevé, voix criarde, monotone, sans couleur…).

- l’immersion des sujets sourds dans du bruit n’ajoute pas d’effet sur leur façon de crier.

- l’application d’un bruit intense sur une oreille, puis sur les deux, d’un sourd unilatéral, ne provoque une élévation de la voix que lorsque l’oreille saine est assourdie.

Lombard déclare donc être en mesure de détecter avec certitude une surdité unilatérale et publie en 1911 « le signe de l’élévation de la voix » (Lombard 1911 [224]), article de référence sur l’ « effet Lombard ». Egan 1971 [79] a ensuite développé les observations de Lombard au cours de sa thèse portant sur la détection de la surdité et sa simulation, ainsi que sur la régulation de la parole par l’audition (Egan 1972 [80]). L’effet Lombard devient alors l’exemple typique de l’étude de la boucle audio-phonatoire en tant que système asservi (Badaoui 1997 [18] ; Korn 1954 [185] ; Tonkinson 1994

[353])

1. LES ACQUIS DES TRAVAUX ANTERIEURS

1.1.2. L’effet Lombard-Tarneaud en phoniatrie

Toujours dans le domaine médical, le test de type Lombard a été réutilisé par les phoniatres et les orthophonistes cette fois, afin de diagnostiquer ou de rééduquer certaines pathologies vocales, en particulier les dysphonies fonctionnelles (Tarneaud 1935 [343]). L’effet Lombard est mis à profit pour provoquer chez le patient une situation d’effort vocal plus naturelle qu’en lui demandant simplement de crier (Aronsson et al. 2005 [12] ; Dejonckere 1979 [63] ; Le Huche 1984 [202] ; Giovanni 2006 [113] ; Papon 2006 [265] ; La Machhia 2005 [189], Neils et al. 1987 [252] ; Schultz-Coulon et al.

1976 [305]).

1.1.3. La reconnaissance automatique et la modélisation phonétique de la parole Lombard

Ces modifications de la parole en environnement bruyant ne se limitent pourtant pas à une simple élévation de la voix et posent des problèmes au domaine de la reconnaissance de la parole. Le problème de la reconnaissance automatique de la parole Lombard (i.e. de la parole produite en environnement bruyant) réside en effet bien moins dans la détérioration du signal acoustique par le bruit ambiant que dans l’ensemble des adaptations acoustiques et phonétiques effectuées par rapport à la parole normale, diminuant considérablement la performance des systèmes automatiques basés sur des modèles de parole normale (Stanton 1988 [327] ; Junqua 1993 [171] ; Takizawa et al. 1990 [342]). Par conséquent, de nombreux projets ont été développés en collaboration avec des phonéticiens dans le but de modéliser ces modifications de la parole pour les intégrer aux systèmes de reconnaissance de la parole existant et pour améliorer leur robustesse (Stanton 1988 [327], Hanson et al. 1990 [134]). Le but n’est alors pas de décrire une adaptation individuelle ni de comprendre les mécanismes ou les motivations de cette adaptation.

Cela explique pourquoi ces études se sont orientées vers la recherche d’invariants et de profils moyens entre les locuteurs (Junqua 1993 [171] ; Castellanos et al. 1996 [46], Mokbel 1992 [245]…), ainsi que sur la constitution de bases de données de grande taille (European Esprit project ROARS (Robust Analytical Speech Recognition System), BDBruit (Zeiliger et al. 1994 [382]), Avicar (Lee et al. 2004 [204]), etc.)

1.1.4. La communication et l’intelligibilité en environnement bruyant

Enfin, de nombreuses études s’intéressent à la communication en environnement bruyant du point de vue du locuteur ou de l’auditeur : comment l’interlocuteur s’adapte-t-il pour être compris, et y parvient-il ? Au contraire, quels sont les indices robustes au bruit, sur lesquels l’auditeur se base pour percevoir le message, malgré la sérieuse détérioration du signal acoustique ?

Dans le premier cas, les caractéristiques de la parole Lombard sont interprétées sous un angle phonologique, afin de comprendre en quoi elles renseignent sur les intentions de communication du locuteur (Welby 2006 [375] ; Davis et al. 2006 [62]), ainsi que sur les mécanismes réflexes ou haut-niveau mis en jeu dans cette adaptation (Lane et al. 1971 [192]). Dans le deuxième cas, la parole étudiée n’est pas toujours produite dans du bruit, mais un bruit additionnel est ajouté aux enregistrements afin de mener des tests perceptifs d’intelligibilité auprès d’auditeurs (Miller et al.

1955 [242], Dohen 2005 [74]).

1.2. A la recherche d’une modélisation unique des modifications de la parole dans le bruit

Ces différents domaines d’expertise et leurs objectifs permettent de comprendre pourquoi les modifications de la parole Lombard ont jusqu’à maintenant plutôt été caractérisées en recherchant une même tendance commune ou moyenne à tous les locuteurs. Les résultats des études antérieures sont détaillés dans le tableau 3 de l’annexe Bib2. Nous en présentons ici une synthèse.

1.2.1. Caractéristiques acoustiques globales de la parole Lombard

Intensité vocale

L’intensité vocale moyenne est le principal paramètre de description de l’effet Lombard et elle augmente significativement dans toutes les études (Bond et al. 1989 [31] ; Castellanos et al.

1996 [46] ; Davis et al. 2006 [62] ; Dejonckere et al. 1983 [65] ; Egan 1972 [80] ; Junqua 1992 [173] ; Junqua 1993 [171] ; Kadiri 1998 [176] ; Kim et al. 2005 [179] ; Lane et al. 1970 [194] ; Mokbel 1992

[245] ; Pisoni et al. 1985 [272] ; Stanton 1988 [327] ; Ternström et al. 2002 [346] ; Ternström et al.

2006 [345] ; Van Summers et al. 1988 [361] ; Webster 1962 [372]). Cette augmentation de l’intensité est plus importante sur les voyelles que sur les consonnes (Junqua et al. 1990 [174] ; Fonagy et al. 1966 [94] ; Schulman 1989 [304] ; Draegert 1951 [76] ; Junqua 1993 [171] ; Castellanos et al. 1996

[46]).

Fréquence fondamentale

De même, une élévation de la fréquence fondamentale moyenne est observée dans toutes les études. Boril et al. 2005 [32] ont également examiné plus en détail la distribution des valeurs de fréquence fondamentale et observé un déplacement de cette distribution vers les fréquences aiguës.

Durée

Un ralentissement du débit de parole accompagne fréquemment ces modifications (Junqua 1993 [171] ; Kim 2005 [180] ; Kadiri 1998 [176] ; Pisoni et al. 1985 [272]), et concerne davantage l’allongement des voyelles que celui des consonnes. Cependant, certaines études ont observé un ralentissement non significatif, voire une accélération chez certains locuteurs (Kim 2005 [180]).

Répartition de l’énergie en fréquences

Au niveau du spectre de la voix, de nombreuses études rapportent un aplatissement de la pente spectrale dans les basses fréquences sur les voyelles, et une augmentation de la pente spectrale hautes-fréquences (Castellanos et al. 1996 [46] ; Van Summers et al. 1988 [361] ; Junqua 1993 [171] ; Mokbel 1992 [245] ; Pisoni et al. 1985 [272]). D’autres études examinent plutôt l’énergie spectrale par bandes de fréquences et notent un renforcement du spectre dans les médiums, ainsi que dans la zone 4-5 kHz pour les femmes (Castellanos et al. 1996 [46] ; Junqua 1993 [171] ; Stanton 1988 [327]).

1.2.2. Caractéristiques articulatoires globales de la parole Lombard

Peu d’études se sont intéressées à l’articulation en environnement bruyant. Plusieurs auteurs ont écrit que l’articulation était peu affectée par le bruit (Schliesser et Colemann 1968, Ringel et Steer 1963, Gammon et al. 1971 cités dans Garber et al. 1980 [101]). L’étude de Schulman 1989 [304] sur la voix forte reste une référence pour dire qu ‘une augmentation de l’ouverture de la mâchoire accompagne en général l’augmentation de l’intensité vocale. Depuis le début de notre travail, deux études ont montré que l’amplitude des mouvements articulatoires augmentait effectivement aussi pour la parole Lombard en particulier (Davis et al. 2006 [62] ; Kim et al. 2005 [179]).

1.2.3. Caractéristiques phonétiques de la parole Lombard

1.2.3.1. Du point de vue des indices intonatifs

Au niveau syllabique, aucune différence significative n’a été observée entre l’augmentation de la fréquence fondamentale sur la première ou la deuxième syllabe des mots (Bond et al. 1989

[31]). Welby 2006 [375] a en revanche émis l’hypothèse que le « coude » de la courbe mélodique (pouvant marquer la frontière entre le déterminant et le début d’un mot de contenu) soit renforcé dans le bruit, de même que l’accentuation secondaire sur des syntagmes de plus de 3 syllabes.

Ces tendances ont en en effet été observées, mais de façon non significative.

1.2.3.2. Du point de vue des caractéristiques acoustiques des différents phonèmes

Formants vocaliques

Toutes les études observent une augmentation du premier formant des voyelles (F1) dans le bruit ou durant un effort vocal. Cette élévation du F1 a également été observée pour les liquides et les nasales. En revanche, les résultats sont variables selon les études en ce qui concerne le deuxième et le troisième formant (respectivement F2 et F3).

Ainsi, Castellanos et al. 1996 [46], Davis et al. 2006 [62] observent une augmentation de F2 pour toutes les voyelles, Junqua 1993 [171] rapporte une augmentation de F2 seulement chez les femmes, et Junqua 1992 [173] et Boril et al. 2005 [32] une augmentation de F2 pour toutes les voyelles excepté pour les [i]. Enfin, Van Summers et al. 1988 [361] et Lienard et al. 1999 [215]

n’observent pas d’évolution significative de F2, tandis que Pisoni et al. 1985 [272] observent même une diminution de F2.

1. LES ACQUIS DES TRAVAUX ANTERIEURS

La plupart des études ne prêtent pas attention au 3ème formant ou bien ne constatent pas d’évolution particulière (Traunmüller et al. 2000 [356]). Au contraire, Davis et al. 2006 [62]

rapportent une augmentation importante de F3 dans le bruit, et cela pour toutes les voyelles quand Hansen et al. font cette même observation mais pour certaines voyelles seulement.

Certaines études ont alors moins regardé l’évolution isolée de chaque formant que l’évolution du triangle vocalique dans le plan F1*F2. Junqua 1992 [173] constate ainsi que l’espace vocalique dans le plan (F2-F1)*F1 est plus important dans le bruit, tandis qu’au contraire, Rostolland 1982 [289] observe une réduction de l’espace vocalique en voix criée, bien que le deuxième formant reste distinctif entre les voyelles. En revanche, cet auteur mentionne que les évolutions de F3 vont dans le sens d’une uniformisation de toutes les voyelles pour cette dimension formantique, excepté pour les [i] où le F3 reste plus important et pour le [u] où il reste plus faible.

Répartition de l’énergie en fréquences

L’exploration des modifications phonétiques par catégorie phonétique a fait l’objet de quelques études (Junqua 1993 [171] ; Castellanos et al. 1996 [46] ; Kim 2005 [180]).

La pente spectrale basses fréquences (en dessous de 3kHz) diminue dans le bruit pour les voyelles, les liquides et les nasales (Castellanos et al. 1996 [46] ; Junqua 1993 [171]), c’est-à-dire que l’énergie est renforcée dans les médiums. Castellanos et al. 1996 [46] observe également une diminution de cette pente spectrale pour les plosives, mais pas pour les fricatives non voisées.

La pente spectrale hautes fréquences (entre 3 et 8kHz) diminue pour la plupart des voyelles et des liquides (Junqua 1993 [171]), ainsi que pour les plosives voisées et les nasales dans Castellanos et al. 1996 [46], mais augmente au contraire pour les fricatives non voisées (Castellanos et al. 1996 [46]).

Lorsque l’énergie est examinée par bande de fréquences, les nasales voient leur énergie atténuée dans toutes les bandes de fréquences chez Stanton 1988 [327], tandis que Junqua 1993

[171] observe un renforcement de l’énergie pour ces consonnes entre 250 et 500Hz et une

diminution entre 3 et 8kHz.

L’énergie spectrale des liquides diminue également entre 0 et 500 Hz, augmente entre 500 et 3000 Hz, et diminue entre 5 et 8kHz (Junqua 1993 [171]).

L’énergie des fricatives comme celle des plosives est atténuée entre 0 et 500 Hz, et augmente entre 5 et 8kHz (Junqua 1993 [171]). En revanche, les fricatives sont aussi renforcées dans les médiums (entre 1 et 2,5kHz) tandis que les plosives sont plutôt renforcées entre 2 et 4kHz (Castellanos et al. 1996 [46]).

Durée

Au niveau de la durée des segments phonétiques, un raccourcissement des consonnes non voisées a été observé, en particulier des plosives non voisées (Kim 2005 [180], Stanton 1988

[327]). Kim 2005 [180] n’observe aucune modification significative de la durée des autres

consonnes voisées, nasales et liquides, au contraire de Stanton 1988 [327] qui note un allongement significatif de la durée des liquides en parole forte et Lombard.

1.3. Une « variabilité » individuelle importante

Nous pouvons voir que les différentes études sur la parole Lombard observent des résultats légèrement différents, voire parfois contraires. Les auteurs eux-mêmes soulignent la grande variabilité des adaptations entre leurs locuteurs (Holmberg et al. 1988 [153] ; Junqua 1993 [171]). Van Summers et al. 1988 [361] observent ainsi de grandes différences au niveau du premier formant selon les locuteurs.

Kim 2005 [180] rapporte également l’existence de tendances d’évolution différentes de la durée des nasales et des liquides dans le bruit, allongées ou raccourcies selon les locuteurs. Enfin, Egan 1972

[80] constate que la variabilité individuelle est plus marquée à forte intensité de bruit ambiant, et davantage chez les femmes.

Certains auteurs ont cherché à interpréter ces différences interindividuelles et à comparer en particulier les adaptations fournies par les locuteurs masculins et féminins, et par les locuteurs de langues différentes.

1.3.1 Selon le genre du locuteur

L’augmentation de l’intensité est souvent plus importante chez les hommes que chez les femmes (8 dB d’écart dans Rostolland 1982 [289]). Junqua 1992 [173] rapporte une augmentation de la fréquence fondamentale également plus importante pour les hommes, et plus faible pour les enfants. Tandis qu’au contraire, Kadiri 1998 [176] observe que l’augmentation du couple F0*

Intensité est plus importante chez les femmes que chez les hommes, et Ternström et al. 2002 [346]

et Sodersten et al. 2005 [322] constatent que l’étendue vocale des femmes est plus importante dans le bruit que celle des hommes.

Au niveau de la durée des segments phonétiques, Kim 2005 [180] observe que celle des consonnes diminue davantage dans le bruit pour les hommes que pour les femmes, tandis que celle des voyelles augmente davantage pour les femmes que pour les hommes. Ternström et al. 2002 [346] et Sodersten et al. 2005 [322] remarquent que le pourcentage de voisement augmente davantage dans le bruit chez les femmes que chez les hommes, bien que le temps de lecture augmente de façon comparable pour les deux genres. A l’inverse, Traunmüller et al. 2000 [356] observent que les hommes et les enfants marquent moins de pauses lorsque la distance entre les interlocuteurs augmente, contrairement aux femmes. Cependant, à très grande distance, les hommes finissent par augmenter également le nombre de pauses.

Au niveau spectral, de nombreuses études sur la voix criée ou sur la parole Lombard retrouvent un renforcement spectral chez les femmes autour de 4-5 kHz sur les voyelles, les consonnes nasales ou liquides, tandis que les hommes au contraire présentent un antiformant dans cette région, mais un renforcement spectral plus bas, entre 2 et 4kHz (Castellanos et al. 1996 [46] ; Junqua 1993 [171]).

Ternström et al. 2002 [346] constatent que le barycentre spectral reste constant chez les hommes, au-dessus de 600 Hz tandis qu’il est proportionnel à la fréquence fondamentale pour les femmes.

Enfin, Junqua 1993 [171] s’est intéressé au souffle sur la voix, relié à la différence d’amplitude des deux premières harmoniques, et a observé que les femmes réduisent beaucoup plus cette caractéristique en parole Lombard que les hommes.

Enfin au niveau formantique, Junqua 1993 [171] a observé que le deuxième formant augmentait dans le bruit seulement pour les femmes. Dans une étude précédente, il a également constaté des valeurs formantiques plus élevées dans le bruit chez les femmes, pouvant être interprétées comme le signe d’une parole plus « ouverte » (Junqua 1992 [173]).

1.3.2. Selon la langue du locuteur

La plupart des études concernent l'anglais américain (Junqua 1993 [171] ; Stanton 1988 [327]).

Cependant, quelques études sur le français (Kadiri 1998 [176] ; Mokbel 1992 [245]), sur l’espagnol (Castellanos et al. 1996 [46]), sur l’allemand (Mixdorff et al. 2006 [244]), sur le japonais (Takizawa et al. 1990 [342]), sur le coréen (Kim 2005 [180]), sur le suédois (Ternström et al. 2002 [346] ; Sodersten et al. 2005 [322] ; Ternström et al. 2006 [345]) et sur le tchèque (Boril et al. 2005 [32]) sont également recensées.

Aucune étude, à notre connaissance, n’a explicitement comparé les adaptations acoustiques et phonétiques selon la langue.

Les études sur le français ou l’espagnol semblent montrer quelques différences par rapport aux études anglophones en ce qui concerne la variation du second formant.

L’allongement de la durée des syllabes est également variable selon les langues étudiées. Ainsi, Bond et al. 1989 [31] observent sur l’anglais que la durée de la première voyelle d’un mot de structure CVCV n’augmente pas significativement dans le bruit, tandis que la deuxième devient significativement plus longue. Rostolland 1982 [288]a de façon comparable observé que la deuxième syllabe était davantage allongée en français que la première. Au contraire, Kim 2005 [180] note qu’en Coréen, la plus grande augmentation de durée concerne la première syllabe, et que le mot est d’autant moins allongé qu’il est constitué d’un nombre élevé de syllabes.

2. LES MECANISMES DE LADAPTATION DE LA PAROLE DANS LE BRUIT

2. L ES MECANISMES DE L ADAPTATION DE LA PAROLE DANS

Outline

Documents relatifs