• Aucun résultat trouvé

Chapitre 4. Variabilité du signal de parole

4.2 Variabilité extrinsèque

La variabilité extrinsèque de la parole est liée aux conditions de transmission et d’acquisition du signal de parole [Benzeghiba et al., 2006]. Comme tout signal audio, le signal de parole émis transite par un milieu intermédiaire avant d’être perçu par le système auditif [Boite et al., 2000]. Une transduction de la pression acoustique est alors effectuée dans l’oreille interne humaine [Calliope, 1989]. Lors d’un enregistrement audio, la variation de pression est captée par un microphone puis convertie en une grandeur électrique [Mariani, 2002]. Ce milieu intermédiaire composé de l’air puis le cas échéant du matériel d’enregistrement et de restitution n’est pas neutre. On considère alors comme principe général que tout canal de transmission contient des sources de bruit perturbant le signal transmis [Shannon et al., 1949].

Les perturbations liées à la transmission du signal viennent corrompre le signal de parole émis en sortie du conduit vocal (Figure 4.2). Ces perturbations sont de divers ordres :

- des bruits additifs peuvent s’ajouter au signal de parole. Ces bruits additifs peuvent être dus à la qualité de transmission (bruit aléatoire) ou à la superposition d’évènements audio additionnels (environnement, mélange de voix) [Grenier et al., 1981].

- des bruits convolutifs peuvent modifier la forme de l’onde du signal de parole par des effets acoustiques de type écho par exemple [Hermansky et al., 1993; Ehlers et al., 1997]. Les perturbations dues au canal de transmission du signal de parole, par exemple par le passage à travers un réseau téléphonique filaire ou GSM, sont également génératrices de bruit convolutif [Hermansky et al., 1999].

- l’enregistrement puis la restitution du signal de parole peuvent modifier ce signal suite à sa conversion sous forme d’onde électrique, sous forme analogique ou encore sous forme numérique (fonction de transfert du microphone, numérisation) [Menéndez-Pidal et al., 2001].

microphone canal de

transmission émission du

signal de parole

réception du signal de

parole

bruit de fond bruit d’enregistrement bruit de restitution

Figure 4.2 : Chaîne générale de bruitage d’un signal de parole

Un bruit additif peut être distingué lors de la présence d’un bruit de fond perturbant le signal de parole initial pendant sa transmission. Si ce bruit de fond est considéré stationnaire à moyen terme, tel un bruit gaussien, alors on admet que la répartition de son énergie est constante à travers l’ensemble de l’amplitude fréquentielle selon l’échelle temporelle utilisée [Treurniet et al., 1994]. Dans ce cas, à l’échelle de la parole, un bruit additif est considéré stationnaire dès qu’il est stable en fréquence à partir d’une échelle de grandeur de l’ordre de 200 ms [Boite et al., 2000]. A cette échelle, le bruit de fond peut se détecter par la présence d’énergies moyennes cumulatives dans certaines plages de fréquence [Hellwarth et al., 1968].

A ce moment, des techniques de compensation du signal de parole peuvent être mises en œuvre afin d’annuler la présence de ces énergies moyennes [Chen et al., 2001]. Cependant, un bruit additif créant une perturbation évoluant en fréquence à cette échelle est difficile à discriminer. Parmi ces autres types de bruit additifs, le bruit de type impulsion est caractéristique par sa forme théorique d’impulsion de Dirac tels un bruit de marteau piqueur ou celui d’un claquement de porte [Vaseghi et al., 1995]. Par ailleurs, l’intervention simultanée d’autres locuteurs que celui porteur du message dans le signal de parole est également considérée comme un bruit perturbateur nécessitant une adaptation du système de RAP [Divoux et al., 1990]. Cette interférence est connue sous le nom d’effet « cocktail party » [Hong et al., 2000]. Ce type de bruit est difficilement détectable car ses caractéristiques spectrales et temporelles sont proches de celle du signal de parole à analyser [Denbigh et al., 1994].

Un bruit convolutif peut être distingué lors de la présence d’effets d’écho, de réverbération, de délai ou encore lors d’une modification du signal de parole par une fonction de transfert perturbatrice [Claes et al., 1996]. L’ensemble de ces effets produit un mélange acoustique du signal de parole initial. Par exemple, la réverbération, appelée effet de salle, résulte en majeure partie d’un mélange audio à partir du signal de parole d’origine et de la réflexion des ondes sonores de ce signal sur les parois de l’environnement [Harris et al., 1990]. Ces caractéristiques sont liées à la configuration géométrique de la salle et à la capacité d’absorption acoustique de la nature des matériaux composant les surfaces. Le traitement adéquat de ces effets nécessite alors une analyse particulière de l’harmonicité du signal résultant [Culling et al., 1994; Kingsbury, 1998].

Lors de l’enregistrement, un effet de compression du signal de parole peut apparaître dans la chaîne d’acquisition [Menéndez-Pidal et al., 2001]. Cet effet génère une réduction de la dynamique du signal. A ce moment, les faibles niveaux de pression acoustique du signal de parole restent inchangés alors que les hauts niveaux de pression acoustique sont réduits en fonction d’une courbe de filtre statique. Lors de cette dégradation, la dynamique du signal de parole est amoindrie, détériorant ainsi la détection des formants. Par ailleurs, l’effet

d’égalisation modifie le signal de parole d’origine en atténuant ou en amplifiant certaines fréquences du signal [Mauuari, 1998]. Ainsi les rapports d’énergie entre sous-bandes de fréquence du signal de parole peuvent être altérés par l’application d’un tel effet d’égalisation.

De surcroît, la numérisation du signal de parole durant son acquisition convertit ce signal continu en une séquence de nombres binaires [Young et al., 2006]. Il s’agit de mesurer à des intervalles de temps réguliers l’amplitude de l’onde acoustique produite par le signal de parole. Cette numérisation s’effectue en deux temps. Tout d’abord, un échantillonnage permet de découper de manière régulière le signal de parole acquis lors de l’enregistrement. Une séquence d’échantillons successifs permet alors de représenter la forme d’onde du signal acoustique. Il est donc nécessaire d’adapter la fréquence d’échantillonnage afin de conserver les caractéristiques utiles de la forme d’onde originale [Boite et al., 2000]. Lors d’une analyse spectrale, le signal de parole analysé est représenté sous la forme d’une somme de sinusoïdes.

Il est alors nécessaire de tenir compte de l’effet de crénelage produit par un repli du spectre durant cette opération afin d’éviter toute confusion dans la représentation par sinusoïdes.

Ainsi, suivant le théorème de Nyquist-Shannon, la fréquence d’échantillonnage doit être au moins égale au double de la plus grande des fréquences composant le signal utile [Shannon, 1949]. Afin d’assurer la restitution de la plage complète de fréquence utile du signal de parole autour de 4 kHz, la fréquence d’échantillonnage doit être supérieure ou égale à 8 kHz. Dans un second temps, les échantillons du signal de parole sont conservés sous la forme de valeurs binaires. Ces valeurs binaires sont obtenues par une quantification scalaire de la valeur des échantillons. Ainsi, la dynamique du signal de parole est représentée par ces valeurs quantifiées.

Le stockage du signal de parole peut également s’effectuer par l’usage d’outils de compression avec perte, comme par exemple la sauvegarde sous forme de fichier au format MP3 [Shlien, 1994; Rault et al., 1995]. Ce type de compression dite destructrice est réalisé en perdant une certaine partie de l’information du signal [Le Guyader et al., 2000]. Ainsi, le signal obtenu est différent du signal de parole d’origine échantillonné. Les techniques utilisées à cet effet visent à analyser le signal afin de déterminer les sons inaudibles à l’oreille humaine pour les supprimer [Pan, 1995]. En théorie, les caractéristiques utiles du signal de parole ne devraient pas être affectées par ce type de compression. En pratique, il est nécessaire de vérifier que la dégradation du signal audio ne détruise pas tout ou partie de l’information utile issue du signal de parole. Ainsi, un encodage de format MP3 à 64 kbps permet une réduction d’environ 25 fois la taille d’un fichier de signal audio initialement enregistré en qualité compact disque audio. Toutefois, dans ce cas, la qualité d’écoute du fichier sonore est alors dégradée.

Les perturbations liées à la variabilité extrinsèque modifient donc le signal de parole original ( en y ajoutant des paramètres additifs et convolutifs de telle sorte que le signal résultant \ ( est obtenu par [Boite et al., 2000] :

> ( ( ] ^ ( 3 ( (4.1)

avec ^ ( la réponse impulsionnelle d’un filtre inconnu et 3 ( la somme des bruits additifs.

La variabilité du signal de parole et la difficulté de sa reconnaissance automatique dépendent alors de l’ensemble des possibilités de ces variabilités extrinsèque et intrinsèque.

Ainsi, dans un système de RAP, le signal acoustique de parole initial émis en sortie du conduit vocal ne peut pas être directement exploité. De surcroît, ce signal de parole n’est pas une réalisation idéale de la prononciation du message linguistique émis. Il est alors nécessaire d’extraire les paramètres acoustiques utiles à la RAP à partir du signal issu de l’acquisition sonore. Ce signal contient des perturbations du signal de parole provenant autant de la variabilité intrinsèque que de la variabilité extrinsèque. Cette paramétrisation acoustique intègre des mécanismes pour rendre la RAP robuste à certains types de variabilité [Mokbel, 1992]. Dans la section suivante, diverses représentations acoustiques du signal de parole sont présentées. Ces représentations sont utilisées comme paramètres acoustiques pour les systèmes de RAP.