• Aucun résultat trouvé

Règles du traitement du signal acoustique dans le système auditif (périphérique) 73

3 La production et la perception des tons lexicaux

3.2. Le système auditif et la perception du pitch tonal

3.2.2. Règles du traitement du signal acoustique dans le système auditif (périphérique) 73

Nous prêtons ici une attention particulière aux aspects du fonctionnement du système auditif qui concernent davantage notre recherche, en nous focalisant particulièrement sur ceux qui dominent dans la perception (ou la reconstitution) du pitch. Les informations exploitables pour la reconnaissance du pitch, ainsi que la plupart de leurs déficits, sont issues des analyses spectrales effectuées dans le système auditif périphérique (Montandon 1976). Ainsi, les notions auxquelles nous référerons ici renvoient aux caractéristiques des influx nerveux produits dans le système auditif périphérique.

Ce paragraphe doit énormément à l‟œuvre de Zwicker et Feldtkeller de 1980, traduit en français en 1981. Cette œuvre nous présente un panorama des aspects psychoacoustiques de l‟ouïe.

Modulation du son

Il a été mentionné dans la section précédente que les sons produits dans le mode de la voix modale et dans le mode du chuchotement n‟ont pas la même nature phonique.

Théoriquement, en voix modale, la vibration du larynx produit un son périodique. Ce dernier subit l‟effet du filtrage que le conduit vocal lui impose dans sa diffusion, et se transforme en un son complexe (celui qui présente une gamme des harmoniques dans le spectre). En voix chuchotée, un bruit blanc se produit au niveau glottique, qui devient un bruit de bande dans sa diffusion. Ce bruit présente, toutefois, une série de bandes dans son spectre qui ressemblent aux bandes formantiques du son complexe sinusoïdal.

Zwicker et Feldtkeller (1981 : 16) ont précisé que « Avec un filtre de distorsion

74

d’affaiblissement définie37, on peut extraire d’un bruit blanc un autre bruit ayant un niveau de densité d’intensité acoustique non plus constant mais fonction de la fréquence. ». En outre, « les oscillogrammes des bruits de bande sont comparables à des oscillogrammes de vibrations sinusoïdales modulées irrégulièrement en amplitude. » (Zwicker et Feldtkeller 1981 : 17) Ainsi, avant d‟étudier les caractéristiques des bruits de bande produits en voix chuchotée, il convient à préciser la notion de modulation du son.

La modulation d‟un signal sonore résulte de la superposition du signal original et d‟un signal modulant. Dans le domaine des télécommunications, les signaux sonores à transmettre sont modulés dans l‟objectif de minimaliser les déficits d‟origine du canal de transmission. Il existe en général deux types de modulation : la modulation en amplitude (AM) et la modulation de fréquence (FM). La figure 17 illustre un exemple la forme d‟un signal modulant, la forme d‟un son modulé en amplitude et la forme d‟un son modulé en fréquence. Les différences entre les deux signaux modulés, en bas dans la figure, démontrent que le son modulé en amplitude présente une régularité périodique dans la variation de l‟amplitude de vibration alors que celui modulé en fréquence présente une régularité périodique dans la variation de la fréquence de vibration. La périodicité de la variation en amplitude dans le premier son modulé correspond à celle de l‟amplitude du signal modulant ; et la périodicité de la variation en fréquence dans le deuxième son modulé correspond à celle du signal modulant.

Figure 17 : Un exemple de la modulation en amplitude et de la modulation en fréquence, avec un signal modulant à une fréquence basse superposé à des signaux à des fréquences hautes (adapté de Duffy et al.

2013).

37 Pour plus d‟informations sur la notion de distorsion, voir Rossi (1986 : 10.2.12).

75

Le signal d‟un bruit de bande combine ces deux types de modulation, et « …l’ouïe perçoit une modulation en amplitude comme une variation de force sonore du son et une modulation de fréquence comme une variation de hauteur, ... » (Zwicker et Feldtkeller 1981 : 18). Dans un bruit de bande, la variation d‟amplitude varie de manière plutôt irrégulière, et la variation de fréquence varie de manière périodique. Plus la bande est étroite, plus le bruit de bande ressemble à un son sinusoïdal, et « plus sera petite la vitesse de variation de l’amplitude » (Zwicker et Feldtkeller 1981 : 17).

Lorsque nous étudions un son complexe, ou un bruit de bande complexe, les caractéristiques acoustiques de chaque bande doivent être prises en considération.

Filtre auditif et bandes critiques

Le concept du filtre auditif a été proposé par Fletcher (1940). D‟après lui, le système auditif fonctionne comme « un banc de filtres qui se chevauchent et dont les fréquences centrales s'échelonnent continûment » (in Calliope et Fant 1989). La largeur de chaque filtre est appelée bande critique. La fonction des bandes critiques est de permettre à l'oreille de discriminer différentes harmoniques dans le même son complexe. Elle implique un écartement nécessaire en fréquence entre deux harmoniques discriminables à la perception. En l'occurrence, l‟ouïe est capable d‟établir une bande critique autour de n‟importe quelle fréquence centrale. La position de la bande critique sur l‟échelle des fréquences n'est donc pas préfixée mais dépendante des fréquences où se trouve le maximum de l‟énergie sonore. Dans la zone de fréquence de 20 Hz à 16 kHz, 24 bandes critiques ont été reconnues.

Du point de vue neurologique, ce filtrage est issu du fait mentionné supra, que les fibres du nerf auditif répondent de manière sélective aux sons dont les fréquences sont proches des leurs.

Afin de mesurer la largeur d‟une bande critique, Zwicker (1961) a établi l‟échelle Bark.

Elle vaut de 100 à 500 Hz et au-delà est égale à environ 20% de la fréquence centrale, équivalente à environ 1/ 3 octave. Au-dessous de 500 Hz, un Bark égale à 100 Mels (la notion de « Mel » sera immédiatement présentée dans le paragraphe suivant).

Traunmüller (1990) a proposé les formules suivantes pour l‟estimation de Bark à partir de la fréquence du son :

[ ]

76

Si résultat < 2, ajoute 0,15*(2-résultat) Si résultat > 20,1, ajoute 0,22*(résultat-20,1)

Avec z = nombre de Bark.

Rossi (1986) a précisé qu‟« ...à l’intérieur d’une bande critique, la sonie38 dépend essentiellement de la valeur efficace de la pression acoustique, alors que la sonie totale s’obtient par combinaison, ..., des sonies des différentes bandes critiques. » (Rossi 1986 : 528)

Ainsi, lorsque la largeur d‟une bande (de formant ou de bruit) dépasse celle de la bande critique qui correspond à sa fréquence centrale, les fréquences latérales qui tombent hors de la bande critique seront « masquées » par le système auditif périphérique.

Seuil de détection de la variation sonore

À part les bandes critiques, le système auditif périphérique connaît d'autres contraintes dans la détection des caractéristiques d'un son. Parmi ces contraintes, celles qui nous intéressent particulièrement sont les seuils de détection de la variation sonore. Dans la perception d‟un son, les plus petites variations audibles, appelées les seuils différentiels, existent au niveau temporel, au niveau de l‟intensité, au niveau de fréquence, etc. Un certain niveau d‟interaction existe entre ces seuils.

Pour percevoir la hauteur d‟un son isolé de manière assez précise, le son doit non seulement atteindre un certain niveau de l‟intensité acoustique mais aussi avoir une durée supérieure à 10 ms.

Pour les niveaux d'intensité sonores compris entre 40 et 70 dB (ceux qui correspondent aux signaux enregistrés dans notre recherche), le seuil différentiel de variation d‟intensité est de 1 dB. Aux mêmes conditions de l‟intensité sonore, le seuil de variation vaut 1,8 Hz lorsque la fréquence centrale est en dessous de 500 Hz. Il fait environ 3,5‰

de la fréquence centrale lorsque cette dernière dépasse 500 Hz (Buser et Imbert 1987, Zwicker et Feldtkeller 1981).

38 Le terme « sonie » définit le volume du son que l‟individu perçoit (Zwicker et Feldtkeller 1981, Ganévet et al. 1981, Scharf et al. 1983)

77

Dans la perception d‟un bruit de bande, le seuil différentiel de la variation de fréquence est naturellement supérieur à celui d'un son pur, puisque la pression acoustique fluctue et la perception de la translation en fréquence est perturbée par la modulation propre du bruit. (Zwicker et Feldtkeller 1981, Rossi 1986). Il est toutefois problématique de préciser ce seuil dans la perception d‟un bruit de bande. D‟après Zwicker et Feldtkeller (1981), s‟il s‟agit un bruit de bande passe-haut, le seuil sera indépendant du niveau de l‟intensité, comme celui dans un son pur ; et s‟il s‟agit d‟un bruit de bande passe-bas, le seuil augmente rapidement avec le niveau de l‟intensité39. Les figures ci-dessous donnent les seuils différentiels de variation de fréquence détectés pour des bruits de bande passe-haut et passe-bas limités à 1000 Hz. La figure 18 montre la variation du seuil en fonction de la fréquence de modulation, et la figure 19 la variation du seuil en fonction du niveau de l‟intensité.

Figure 18 : Seuil différentiel de fréquence (Δf) de bruit de bande passe-bas ou passe-haut, de fréquence de coupure 1000 Hz, en fonction de la fréquence de modulation (fmod) (adapté de Zwicker et Feldtkeller 1981).

Figure 19 : Seuil différentiel de fréquence (Δf) de bruit de bande passe-bas (tiret) ou passe-haut (pointillés), de fréquence de coupure 1000 Hz, en fonction du niveau de l‟intensité (LG) (adapté de Zwicker et Feldtkeller 1981).

39 Un bruit de bande passe-haut est un bruit qui préserve les hautes fréquences et éliminent les basses fréquences, alors qu‟un bruit de bande passe-bas est le contraire : il préserve les basses fréquences et éliminent les hautes fréquences.

78 Hauteur du son complexe

Un son harmonique produit dans la parole humaine est un son complexe, contenant une échelle d‟harmoniques. Bien que ses harmoniques contiennent des fréquences différentes, ils contribuent dans le système auditif à la formation d‟une seule sensation de hauteur sonore. En revanche, une série inharmonique peut donner à l‟oreille une sensation de hauteur ambiguë ou une sensation de hauteurs multiples (Demany 1987).

La relation entre la sensation de hauteur et la fréquence du son qui stimule le système auditif suit un ordre logarithmique40. L'échelle de Mel (Stevens et al. 1937) a été établie pour quantifier cette sensation harmonique. La conversion d‟Hertz en Mel se fait avec la formule suivante :

( )

La sensation de hauteur d'un son complexe est décrite comme la « hauteur mélodique ».

Elle est conséquente du traitement d'un ensemble de paramètres acoustiques dans le système auditif : les harmoniques se fondent les unes avec les autres à l‟oreille lorsqu'elles sont entendues simultanément, ou l'une après l'autre, formant cette hauteur mélodique. Elle ne correspond pas forcément à la hauteur de l'une des harmoniques du son et, dans la situation où elle ne correspond à aucune hauteur harmonique, sa valeur doit être recalculée. Cela est valable non seulement dans l'analyse d'un son complexe harmonique mais aussi dans l‟analyse d‟un bruit de bande étroite. Une condition doit être atteinte pour réussir cette modulation harmonique : le son complexe en question doit se composer d' « une série de son où la fréquence du son adjacent plus aigu peut être déduite de la fréquence du son précédent par une simple multiplication par un facteur constant » (Zwicker et Feldtkeller 1981 : 80).

Pour définir la hauteur et la grandeur sensorielle d‟un son, le terme « tonie » a été employé, avec le Mel comme unité de mesure. Quand on analyse un son pur à une fréquence en dessous de 500 Hz, on considère que la valeur de sa tonie est égale à celle de sa fréquence. Au-dessus de 500 Hz, le rapport entre la tonie et la fréquence suit l‟ordre logarithmique. Leur rapport peut être déduit à l‟aide d‟une courbe comme celle

40 Selon la loi JND (Just Noticeable Difference) de Fechner et selon la loi de Weber, toutes les sensations suivent une loi logarithmique dans leur augmentation (Stevens 1975).

79

illustrée dans la figure 20. Il y a 620 échelons de tonie estimés dans la zone entre 50 Hz et 20 kHz, chacun couvrant environ 4 Mels.

(Image manquante pour protéger le droit d’auteur)

Figure 20 : Tonie Z en mel d'un son pur en fonction de sa fréquence (Zwicker et Feldtkeller 1981 : Figure (31, 1)).

Si nous concentrons sur la méthodologie de l‟étude de F0 dans un son de la parole, il existe plusieurs échelles sur lesquelles la hauteur mélodique de F0 pourrait s‟exprimer.

Par exemple, la hauteur mélodique s‟exprime souvent en demi-tons dans le domaine de la prosodie, avec St comme l‟unité minimale. L‟échelle de demi-tons est d‟origine de la culture musicale occidentale classique, avec une octave divisée en 12 intervalles égaux, ou bien, en 12 demi-tons (Kuttner 1975).

La valeur de F0 en Hz pourrait être convertie en une hauteur mélodique relative en demi-tons, avec une valeur de référence. Fant et al. (2002) ont donné la formule de cette conversion, celle qui suit aussi un ordre logarithmique, comme la suivante :

[ ]

Cette formule propose donc une valeur de référence à 100 Hz.

De Looze et Hirst (2010) ont proposé une autre échelle qui exprime la hauteur mélodique de F0 sur une base d‟octave : l‟échelle OME (Octave-MEdiane). Cette échelle permet de calculer la variation de la hauteur mélodique à partir de la médiane de F0 dans un contour de F0 complexe. Elle est intéressante notamment pour des études sur les étendues du registre dans lesquelles s‟inscrivent les composantes prosodiques.

80

Perception du pitch tonal en voix modale et en voix chuchotée

Lehiste (1970) a constaté que les traits distinctifs prosodiques s‟appuient sur un éventail de caractéristiques acoustiques, tels que la fréquence fondamentale, l‟intensité et la durée. Les traits réalisés à travers ces caractéristiques du son sont considérés comme étant superposés sur le trait du voisement qui est un trait inhérent dans le langage. De plus, elle a souligné une différence importante entre la fonction des traits segmentaux et celle des traits suprasegmentaux. Elle explique ce constat par le fait que les valeurs phonologiques des traits segmentaux existent en elles-mêmes, et que celles des traits suprasegmentaux sont relativisées par rapport au contexte, ou bien, par rapport à l‟entourage. Dans un énoncé, on peut distinguer, par exemple, les occlusives sonores des occlusives sourdes par le simple geste du voisement. En revanche, on ne peut pas savoir à quel niveau prosodique une mélodie aiguë à la fin de l‟énoncé correspond, avant de connaître sa position dans la structure prosodique de tout l‟énoncé et de la comparer avec d‟autres séquences mélodiques dans la même structure.

De ce fait, la valeur tonale n'existe pas en valeur absolue au niveau de F0 mais plutôt en termes de qualité de contraste au niveau de ce F0 dans la réalisation des différentes unités tonales. Il a été démontré d‟ailleurs que non seulement la hauteur et la direction de la variation de F0 sont à prendre en compte dans le jugement du ton, mais aussi le timing de la variation de F0 (Shen 1990). D‟autres recherches sur la corrélation entre la durée et le ton ont été citées dans le chapitre précédent (cf. Section 2.3.), et donc ne seront pas répétées ici.

Autre que F0 et la durée, l‟intensité acoustique est aussi considérée comme ayant certaines corrélations avec le ton en parole. Lin (1965) a observé les contours de l'intensité et ont conclu que le ton 3 présente l‟intensité la plus basse et le ton 4 la plus haute. Whalen et Xu (1992) ont prêté leur attention plutôt au contour de l'intensité, et ont trouvé que le ton a un effet sur le niveau de l‟intensité. Fu et al. (1998) ont étudié la contribution de l‟intensité acoustique à la perception, et ont conclu que ce paramètre a un impact perceptif uniquement dans la distinction du ton 3 et du ton 4, et que l'utilisation des indices au niveau de l‟intensité varie largement entre différents individus.

Toutefois, Lin (1988) a constaté dans son étude qu'une manipulation du contour de l'intensité dans les signaux synthétiques n‟a pas d‟influence remarquable sur le résultat

81

de perception. Cette conclusion a été revisitée par Whalen et Xu (1992), qui considèrent que dans l‟expérience de Lin, la présence de F0 a peut-être perturbé la perception.

D‟après nous, cela nous indique que F0 fournirait au système auditif les indices primaires qui sont prioritaires, mais avec lesquels les indices secondaires ne s‟accordent pas nécessairement.

Dans notre recherche, la structure formantique nous intéresse particulièrement comme fournisseur d‟indices tonals. La production du ton exige des mouvements des organes (surtout dans la direction verticale) au niveau du larynx (Hirai et al. 1994, Honda et al.

1999). Ce processus modifie non seulement l‟activité vibratoire des plis vocaux mais également la longueur du conduit vocal. Dans cette situation-là, le spectre des formants (y compris les harmoniques autre que F0) varie donc de manière passive, en fonction du ton. Malgré cela, la structure formantique n‟influence pas de manière systématique le jugement du ton perçu en parole, et ce, en voix modale (Tseng et al. 1986). Pourtant, son effet reste inconnu dans la perception du ton chuchoté.

D‟autres études (relativement récentes) s‟intéressent davantage aux poids de la modulation de l‟‟amplitude et à ceux de la modulation de la fréquence dans la perception du ton, se centrant plus souvent sur deux facteurs importants du son pour l‟ouïe : temporal envelope, qui réfère au parcours de fluctuation de la pression acoustique sur l‟axe temporel, et fine structure, qui réfère à la variation instantanée du signal modulant (Flaganan 1972, O‟Shaughnessy 1987, Sheft et al. 2008, Fu et al. 1998, Fu et Zeng 2000). D‟une part, ces deux facteurs sont considérés comme étant indispensables pour l‟intelligibilité d‟un son de la parole. Lorsque l‟envelope de la parole est filtrée, les informations fournies par la seule fine structure ne sont pas suffisantes pour rendre la parole intelligible (Drullman et al. 1994a, 1994b). D‟autre part, la fine structure est supposée avoir plus de contribution que l‟envelope à la perception des mélodies complexes. Xu et Pfingst (2003) ont trouvé, à partir de tests de perception, que la perception des tons du mandarin s‟appuie plus souvent sur les indices de la fine structure et moins sur ceux de l'envelope, et que la fine structure préside dans la perception mélodique. Cela correspond aux constats de Smith et al. (2002, cité par Xu et Pfingst 2003) dans la perception de l'anglais. Moore (2008) a confirmé que les informations transmises par envelope et par TFS (temporal fine structure) sont toutes présentes dans le timing des charges neurales, et que les indices dans TFS jouent un rôle

82

important dans le masquage du son, dans la perception du pitch, ainsi que dans la perception de la parole.

Quant à la perception du pitch en parole chuchotée, malgré qu‟Abramson (1972) ne considère pas que les tons soient suffisamment reconstitués en voix chuchotée, une majorité des recherches sur la parole chuchotée confirme que le chuchotement préserve quand même certains effets acoustiques des traits tonals. Ces effets peuvent fonctionner en tant qu‟indices acoustiques dans la perception de la parole chuchotée. En général, les traits prosodiques peuvent s‟appuyer sur le contraste entre les voisés et les non-voisés41, à différents axes, ou sur le contraste entre les voisés divergentes.

La problématique de juger le ton dans un discours chuchoté reste compliquée en raison de l'absence de F0, ce qui est considéré comme étant critique pour la réalisation des traits tonals. Segerbäck (1965) considère cependant, à travers son étude sur le suédois, que l‟activité vibratoire des plis vocaux n'est pas indispensable pour la compréhension, même dans une langue tonale. Autrement dit, F0 n‟est pas irremplaçable dans la réalisation et la perception d‟un ton lexical. Liu et Samuel (2004) ont observé la capacité des auditeurs sinophones à utiliser des indices secondaires (étant donné que F0 fournit des indices primaires) de manière flexible, dans le jugement du ton. Ces indices secondaires, dus au fonctionnement de différents agents, contribuent ainsi à la conservation et à la représentation de la valeur tonale en l'absence de F0.

Certains chercheurs considèrent que le contexte linguistique contribue principalement au jugement du ton, tels que Miller (1934) et Panconcelli-Calzia (1955, cité par Abramson 1972). D‟autres chercheurs trouvent, toutefois, que cette présomption exagère la fonction sémantique que peut avoir ce contexte. À travers les tests de perception de la parole chuchotée, ils ont trouvé qu‟au moins une partie des informations prosodiques est retenue à l'intérieur du segment qui porte les traits prosodiques. Wise et al. (1957) constatent que les auditeurs sont capables de reconnaître 62% des tons dans des paires minimales tonales du mandarin alors que chez Kloster

Certains chercheurs considèrent que le contexte linguistique contribue principalement au jugement du ton, tels que Miller (1934) et Panconcelli-Calzia (1955, cité par Abramson 1972). D‟autres chercheurs trouvent, toutefois, que cette présomption exagère la fonction sémantique que peut avoir ce contexte. À travers les tests de perception de la parole chuchotée, ils ont trouvé qu‟au moins une partie des informations prosodiques est retenue à l'intérieur du segment qui porte les traits prosodiques. Wise et al. (1957) constatent que les auditeurs sont capables de reconnaître 62% des tons dans des paires minimales tonales du mandarin alors que chez Kloster

Documents relatifs