• Aucun résultat trouvé

2.2 De la mesure du tempo et de ses variations

2.2.1 Choix d'une unité de mesure

Mesurer le tempo de façon objective nécessite de mesurer séparément les éléments qui le com-posent, à savoir la vitesse d'élocution et les pauses. Dans la littérature, la vitesse d'élocution est basée sur la durée des unités linguistiques (e.g. la durée moyenne des syllabes) ou sur le nombre d'unités produites par unité de temps (e.g. le nombre de syllabes par seconde).

Les études basées sur la durée moyenne des unités linguistiques ou sur le nombre d'unités produites par unité de temps mesurent le débit d'élocution en termes de :

- durée totale du texte (Son & Pols, 1989),

- durée moyenne des phrases (Magen & Blumstein, 1991; Gandour, Tumtavitikul, & Sattham-nuwong, 2000),

- durée moyenne des mots (Adams, Weismer, & Kent, 1993; Arvaniti, 1999),

- nombre de mots par minute (Saint-Bonnet & Boe, 1977; Grosjean & Collins, 1979),

- nombre de mots par seconde (Goldman-Eisler, 1961; Lass & Deem, 1972; Fowler & Housum, 1987; Berkovits, 1991; Kessinger & Blumstein, 1997),

- durée moyenne des syllabes (Miller & Baer, 1983; Eefting, 1988; T. Crystal & House, 1990;

Beinum & Donzel, 1996; Ladd, Faulkner, Faulkner, & Schepman, 1999; Kirkham, 2002; Iga-rashi, 2004; Beller et al., 2006),

- nombre de syllabes par minute (Goldman-Eisler, 1956; Tsao & Weismer, 1997),

- nombre de syllabes par seconde (Grosjean & Deschamps, 1972a; Malecot et al., 1972; Lass

& Clegg, 1974; Saint-Bonnet & Boe, 1977; Bartkova, 1985; O'Shaughnessy, 1981; Walker et al., 1992; Ptzinger, Burger, & Heid, 1996; Duez, 1997; Fougeron & Jun, 1998; Ptzinger, 1998; Trouvain & Grice, 1999; Zellner, 1998; Cutugno & Savy, 1999; Dankovicova, 1999; Fon, 1999; Gros et al., 1999; Janse, Sennema, & Slis, 2000; Dellwo & Wagner, 2003; Hansson, 2003;

Verhoeven et al., 2004; Pasdeloup, Espesser, & Faraj, 2006),

- durée moyenne des phonèmes (Fónagy & Magdics, 1960; Osser & Peng, 1964; G. Fant, Kruckenberg, & Nord, 1991; Campbell & Sagisaka, 1992; Verhasselt & Martens, 1996; Batliner et al., 1997; Brøndsted, 1997; Heerden & Barnard, 2006),

- durée moyenne des voyelles (Bartkova, 1991; Carlson, 1991),

- durée moyenne des mores41 (Kuwabara, 1996; Ohno, Fukumiya, & Fujisaki, 1996; Koiso et al., 1998),

- nombre de phonèmes par seconde (Lobacz, 1976; Walker et al., 1992; Verhasselt & Martens, 1996; Ptzinger, 1998; Pasdeloup et al., 2006),

- nombre de voyelles par seconde (Pellegrino et al., 2004),

- nombre de mores par seconde (Takamaru, Hiroshige, Araki, & Tochinai, 2000; Hirose &

Kawanami, 2002).

Les unités linguistiques à partir desquelles le débit d'élocution est calculé sont donc le texte, la phrase, le mot, la syllabe, le phonème, la voyelle, ou encore la more. Parmi ces unités, les plus utilisées sont le mot, la syllabe, le phonème et la voyelle. La more sert à mesurer le débit d'élocution dans les langues isomoraïques42. La question qui se pose à présent est celle du choix d'une unité optimale pour mesurer le débit d'élocution et ses variations.

Pour y répondre, Trouvain (2004) s'appuie sur une liste de cinq critères : le degré de popularité de l'unité, la possibilité d'une étude inter-langues à partir de cette unité, la facilité de sa mesure, la facilité de sa dénition et le reet de sa variance temporelle. Pour notre part, nous pensons que trois critères sont essentiels : la possibilité d'une étude inter-langues, la variance temporelle et la façon dont l'unité rend compte du tempo perçu. Si l'on se base sur ces trois critères, il semble que le mot et la syllabe ne sont pas des mesures adéquates du débit d'élocution. En eet, la structure des mots et des syllabes peuvent aecter la mesure du débit, où les unités les plus complexes sont intrinsèquement marquées par un débit plus lent. Oller (1973) explique, par exemple, que si l'on cherche à comparer les débit d'élocution de locuteurs japonais et états-uniens, la syllabe ne peut être utilisée comme unité de mesure, du fait que les structurations syllabiques de ces deux langues sont très diérentes. Les auteurs rappellent les patrons syllabiques les plus fréquents de l'anglais et du japonais : d'un côté, l'anglais révèle des syllabes complexes de type CVS, CCVS, CCCVS, CVC, CVCC, CVCCC et CCVCCCC ; d'un autre côté, les structures syllabiques en japonais sont plus simples, de type V, CV, CVS et C (où C représente une consonne, V une voyelle et S une semi-voyelle). De la même façon,

41. La more est l'unité minimale

42. e.g. le japonais. Dans les langues isomoraïques, les mores successives (unités plus petites que la syllabe) sont dites de durée égale. Une more correspond, par exemple, à une voyelle brève ou à une voyelle brève et la consonne qui la précède.

une mesure du débit en termes de mots peut être aectée par la structure même du mot, structure qui, selon les langues, est plus ou moins complexe (e.g. langues agglutinantes). Oller (1973) suggère donc de mesurer le débit d'élocution en termes de phonèmes ; il rendrait aussi compte, de façon assez able, de la variance temporelle (Trouvain, 2004).

En revanche, dans son étude, Kohler (1986) démontre que le phonème, comme la syllabe, n'est pas une mesure adéquate du débit, et ce, pour deux raisons : d'un côté, ces mesures ne peuvent pas exprimer d'importants eets de tempo ; de l'autre, il est très peu probable que l'auditeur se base sur ces unités pour estimer le débit d'élocution d'un locuteur, du fait de la charge cognitive que demanderait une telle tâche.

Une mesure en termes de syllabes ou de phonèmes soulève aussi une autre question, celle de la distinction de la représentation sous-jacente et de la forme actuelle de ces unités. Koreman (2003, 2006) montre en eet que, pour mesurer au mieux le débit d'élocution, il est nécessaire de considérer à la fois la forme canonique (i.e. la représentation sous-jacente des unités) et leur forme actuelle (i.e. la réalisation de ces unités). En d'autres mots, mesurer le débit en termes de taux de phones réalisés uniquement (realised phones), i.e. en termes de phones réellement prononcés, n'est pas susant. Il faut aussi prendre en compte le taux de phones intentionnels (intended phones), i.e. le nombre de segments réalisables à partir de la forme canonique ou encore présents dans l'abstraction phonologique ou linguistique de l'extrait (Ptzinger et al., 1996).

Au vu de ces observations, il est dicile de déterminer quelle unité permet au mieux de mesurer le débit d'élocution. Trouvain (2004) explique qu'il n'existe pas d'unité optimale et que la sélection d'une unité dépend plutôt des objectifs que se xe l'étude. Ptzinger (1998) suggère, pour sa part, que la combinaison du taux de phones et du taux de syllabes permet une meilleure estimation du débit d'élocution. Alors que la corrélation entre le taux de phones et le débit perçu et la corrélation entre le taux de syllabes et le débit perçu sont respectivement de 0.73 et 0.81, la corrélation entre la combinaison linéaire des taux des syllabes et des phones et le débit perçu est, elle, de 0.88. Dans l'étude de Roach (1998), les auditeurs perçoivent l'italien et le français comme ayant un tempo plus rapide que le néerlandais et l'allemand.

Ces intuitions sont conrmées par l'étude lorsque le débit d'élocution est mesuré en syllabes mais non lorsqu'il est mesuré en phonèmes. Hirst (2006) propose que cette impression reète le fait qu'en italien et en français, les syllabes contiennent généralement moins de phonèmes que les syllabes en néerlandais et en allemand. L'auteur suggère aussi que l'asymétrie entre production et perception peut être aussi une explication de l'impression qu'ont les auditeurs du tempo d'une langue.

Campbell (1992) propose, quant à lui, une autre façon de mesurer le débit d'élocution. Selon l'auteur, quantier le débit en terme du nombre de segments par unités de temps n'est pas

susant pour rendre compte de ses variations. Parce que les durées moyennes des phonèmes peuvent être très diérentes, le nombre de phonèmes par unité de temps peut être biaisé par la prédominance de phones longs ou courts. De même, parce que la durée moyenne d'une unité dépend du nombre de segments dans cette unité et du caractère accentuel de l'unité, elle ne estimer correctement le débit d'élocution. Ou alors, cela nécessite, en amont, de gommer l'eet de ces facteurs. L'auteur propose donc deux alternatives. La première consiste en une normalisation des durées segmentales et révèle ainsi des diérences de longueur43; la seconde compare les durées prédites des phonèmes (i.e. les durées moyennes des phonèmes) et celles des durées observées44. Le résidu obtenu permet ainsi de décrire les eets du débit d'élocution sur les changements de durée. Ces deux mesures semblent d'ailleurs reéter l'impression auditive.

En eet, les auditeurs appliqueraient des techniques de normalisation pour juger le débit d'élocution d'un locuteur (Campbell & Sagisaka, 1992; Monaghan, 2001). Campbell (1988) observe, par ailleurs, une assez bonne corrélation entre la diérence des valeurs prédites et observées, et les changements perçus du débit d'élocution, en lecture oralisée. En revanche, Koiso et al. (1998) n'optent pas pour une normalisation des mores, dans leur étude du débit en japonais, du fait qu'elle ne reète pas forcément le débit d'élocution perçu.

Pour notre part, parce que la diérence entre les valeurs prédites et les valeurs observées répond aux trois critères de sélection que nous nous étions xée, elle sera utilisée comme mesure du débit d'élocution dans nos chapitres expérimentaux (chapitre 3).

Outre le choix d'une unité optimale de mesure du débit d'élocution, il faut aussi faire celui, dès lors que l'on cherche à mesurer le tempo, de la durée de la pause silencieuse. Nous avons pu voir, dans la dénition du tempo que nous donnons plus haut, que pour déterminer une pause, soit les auteurs se basent uniquement sur des critères acoustiques, i.e. toute pause visible, acoustique, au-delà d'un seuil xé est annotée, soit ils s'appuient plutôt sur le jugement perceptif du locuteur, i.e. toute pause est annotée si elle est perçue. Nous ne reviendrons pas sur ce point que nous avons développé dans la dénition du tempo mais il est important de le noter, du fait que la durée des pauses mais aussi leur nombre jouent un rôle important dans la perception du tempo global d'un locuteur (Goldman-Eisler, 1968; Lass & Clegg, 1974; Eefting

& Rietveld, 1989; Dellwo, 2006; Koreman, 2006).

Mesurer le tempo en fonction du débit d'élocution et des pauses, de façon objective, n'assure pas cependant la parfaite correspondance entre tempo objectif et tempo perçu. En eet, cela requiert aussi de déterminer le seuil à partir duquel les auditeurs perçoivent des diérences de tempo, ou encore à partir duquel ils détectent des changements de tempo intra-locuteurs.

Cette variation est par exemple estimée aux alentours des 20% dans les études de

Goldman-43. cf. aussi Campbell et Isard (1991), Pfau, Faltlhauser, et Ruske (2000), Ptzinger (2002) et Heerden et Barnard (2006).

44. cf. aussi Cedergren et Perreault (1994).

Eisler (1968), Grosjean et Deschamps (1975) et Miller et al. (1984), aux alentours des 10%

dans les études de Lehiste (1970). Mesurer le tempo nécessite encore de considérer l'ensemble des facteurs qui participent à la perception du tempo.