• Aucun résultat trouvé

Lors d'une communication téléphonique, il est aisé de reconnaître notre interlocuteur par la seule écoute de sa voix. L'indice qui nous permet cette identication est ce que l'on appelle le timbre de la voix. Ce terme est assez dicile à dénir objectivement et la dénition donnée par l'American Standards Association emploie même le terme de sensation :  ... that attribute of sensation in terms of which a listener can judge that two sounds having the same loudness and pitch are dissimilar . Le timbre reposerait donc sur un jugement subjectif de l'auditeur. Ceci montre une inuence de l'auditeur sur les critères et la stratégie mise en place pour discriminer deux voix par rapport à leur timbre. Un autre point serait que le timbre est indépendant de la force sonore et du pitch.

Dans la suite, nous allons présenter quelques enjeux et applications issus de la pro-blématique de caractérisation de la voix, puis nous présenterons quelques résultats qui reètent la diculté de caractériser l'identité d'une voix. Nous terminerons ce para-graphe par un bilan des principaux paramètres acoustiques utilisés dans ce domaine.

1.6.1 Enjeux et applications

La parole fait intervenir les trois niveaux linguistique, para-linguistique et extra-linguistique. Le niveau para-linguistique regroupe les facteurs qui caractérisent le locu-teur à un niveau comportemental, par exemple ses émotions. Le niveau extra-linguisti-que est caractérisé par les propriétés physiologiextra-linguisti-ques et physiextra-linguisti-ques de l'appareil phonatoire

d'un locuteur. Kuwabara et Sagisaka (1995) distinguent la dimension socio/psycholo-gique de la dimension physiolosocio/psycholo-gique. La première est à rapprocher du niveau para-linguistique et comprend des facteurs tels que l'âge le statut social, le dialecte et la communauté d'appartenance.

On peut noter que les facteurs impliqués sur les plans para-linguistique et extra-linguistique peuvent varier non seulement entre deux locuteurs mais également pour un même locuteur. Comme l'indique Atal (1976), la problématique est alors de déterminer quels paramètres permettent d'expliquer la variabilité inter-locuteur de la voix, tout en étant insensibles à la variabilité intra-locuteur. Ainsi, le lien entre les facteurs qui inuencent la perception de la voix et les paramètres acoustiques doit être déterminé. Il dénit également les caractéristiques idéales de ces paramètres :

 La représentation de l'information dépendante du locuteur doit être ecace.  L'acquisition du paramètre doit être facile.

 Le paramètre doit se montrer stable à travers le temps.

 Il doit apparaître naturellement et fréquemment dans la parole.  Un imitateur ne doit pas pouvoir le reproduire.

De nombreux travaux de recherche existent sur la caractérisation de l'identité d'une voix. Les applications de ses travaux se situent au niveau de la biométrie ou encore de la synthèse de la parole. Dans le premier cas, il s'agit d'identier une personne par les caractéristiques de sa voix. Les conséquences juridiques de cette application ne sont pas anodines et il convient d'être prudent (Bonastre et al., 2003). Pour ce qui concerne la synthèse de parole, connaître les caractéristiques qui font l'identité d'une voix permettrait d'améliorer le naturel des voix de synthèse mais aussi de diversier les voix de synthèse en modiant les paramètres acoustiques importants.

1.6.2 Études perceptives

Pour identier les caractéristiques propres à la voix d'un locuteur, on peut s'intéres-ser à la manière dont les auditeurs distinguent les voix les unes des autres. Ainsi, Hollien et al. (1982) montrent que le fait d'être familier avec un locuteur permet de l'identier de manière assez able. Dans le cas contraire, une accoutumance est nécessaire pour atteindre un score plus élevé que le hasard. Ils montrent également que si un locuteur déguise sa voix, cela provoque une certaine confusion pour tous les auditeurs, même pour ceux qui sont familiers de la voix du locuteur en question.

Concernant les facteurs qui permettent d'identier une voix, de nombreuses études dont les résultats sont souvent contradictoires existent. Certaines montrent l'importance de paramètres de nature supra-segmentale (débit et mélodie pour (Voiers, 1979; Atal,

1972)), d'autres présentent le F0 moyen, la pente spectrale de l'onde de glotte et les trois premiers formants comme des facteurs prépondérants (Matsumoto et al., 1973).

Necioglu et al. (1998) établissent une distinction entre voix d'hommes et voix de femmes, et classent les critères retenus par ordre d'importance perceptive. Pour les premières, la valeur médiane du pitch, puis la longueur du conduit vocal seraient les facteurs dominants tandis que pour les voix de femmes, il s'agirait de la valeur médiane du pitch, suivie de la pente spectrale de la source et de la durée moyenne des segments voisés.

En outre, ces diérents travaux permettent de montrer qu'il existe des dicultés pour identier les caractéristiques de la voix à travers des expériences perceptives. Dans celles-ci, l'auditeur joue un rôle central puisque chaque auditeur va appliquer des stra-tégies de reconnaissance diérentes. Notamment, les auditeurs modient leur stratégie suivant qu'il faut identier une voix d'homme ou de femme (Singh et Murry, 1978). Les travaux de Schmidt-Nielsen et Crystal (2000) montrent que la tâche de vérication du locuteur est dicile pour un être humain et que les performances sont très variables suivant l'auditeur.

1.6.3 Principaux paramètres acoustiques

Dans le cadre d'une étude sur la reconnaissance automatique du locuteur, Atal (1976) dresse un bilan des principaux paramètres acoustiques utiles à la caractérisation de la voix :

 Intensité. Il s'agit de l'un des paramètres les plus faciles à obtenir. Pour des signaux non stationnaires comme la parole, l'intensité est dénie en fonction du temps par E(t) = Rt+T/2

t−T /2 s2(τ)dτ, où T est choisi arbitrairement. Sa valeur est habituellement comprise entre 10 et 30ms. Les variations de l'intensité de la parole sont causées par la variation de la pression sub-glottique et la forme du conduit vocal. Elle est liée à des caractéristiques dépendantes du locuteur.

 Pitch. La réalisation acoustique du pitch est la fréquence fondamentale, F0. Les variations temporelles du pitch représentent une caractéristique importante de la parole et des travaux ont montré leurs importance pour la reconnaissance auto-matique du locuteur (Atal, 1972).

 Spectre à court-terme. Il s'agit d'une représentation à trois dimensions de la structure temps-fréquence du signal de parole. Le spectre à court-terme ore une description complète des caractéristiques acoustiques du signal. Cette information semble ecace pour la reconnaissance automatique du locuteur même si elle n'est pas très compacte.

 Coecients de prédiction. La prédiction linéaire est une méthode ecace pour représenter les propriétés spectrales du signal de parole. Avec cette méthode, un échantillon est vu comme une combinaison linéaire des p échantillons passés.  Fréquence et bande passante des formants. Les fréquences centrales des

formants sont dénies comme les fréquences de résonance du conduit vocal et sont dépendantes du locuteur. La principale diculté consiste à estimer de manière ecace les formants à partir du spectre à court-terme.

 Coarticulation nasale. En parole continue, la forme du conduit vocal à un instant t dépend non seulement du phonème courant mais également des pho-nèmes voisins. Le phénomène de coarticulation résulte de l'inuence du contexte phonémique sur le mouvement des articulateurs. Des travaux montrent que la co-articulation pendant la production de nasales permet de diérencier les locuteurs.  Corrélation spectrale. Un degré signicatif de corrélation existe entre les spec-tres à court-terme à diérentes fréquences. Ces corrélations sont obtenues par des moyennes de spectres sur le long terme et elles varient de manière consistante d'un locuteur à un autre.

 Débit d'élocution et événements temporels. La durée de certains événe-ments dans la parole est diérente d'un locuteur à un autre. Doddington (1985) propose de mettre en relation les événements de deux locuteurs par une déforma-tion non linéaire de l'axe du temps.

Comme le notent Kuwabara et Sagisaka (1995), il n'existe pas de paramètre unique pour contrôler l'identité d'une voix. Au contraire, chaque paramètre acoustique joue un rôle dans l'identité de la voix. Necioglu et al. (1998) constatent également que c'est l'utilisation conjointe des diérents paramètres qui peut donner de bons résultats dans le cadre de l'identication du locuteur.