• Aucun résultat trouvé

Chapitre 3. Traitement des données audio-visuelles, extraction des caractéristiques

3.4.  Techniques d’analyse-synthèse du signal acoustique

3.4.2.  Modélisation « Harmonique plus Bruit »

La modélisation « Harmonique plus Bruit », introduite par Stylianou (Stylianou, 1990) et plus connue sous l’acronyme HNM (pour Harmonic plus Noise Model), suppose que le signal de parole x(n) peut se décomposer en une partie dite harmonique, h(n), modélisant les structures quasi-périodiques du signal, et en une partie dite « bruitée », b(n), qui décrit les composantes apériodiques comme les bruits de friction et les variations inter-périodes de l’excitation glottale.

Le signal x(n) peut ainsi s’écrire :

x(n)=h(n)+b(n) (Équation 3.17)

Le codeur HNM agit différemment selon la caractéristique voisée ou non-voisée du signal ; la première étape du codage est donc une analyse de la fréquence fondamentale46. Dans le cas d’un segment non-voisé, la composante harmonique est considérée comme nulle et le signal est décrit à l’aide d’un modèle autorégressif obtenu par prédiction linéaire (analyse LPC). Une estimation à intervalles réguliers de la variance du signal permet de définir un gain (variable) pour le filtre « tout pôle ». Dans le cas d’un segment voisé, le spectre du signal est décomposé en deux sous-bandes de fréquence, délimitées par la « fréquence maximale de voisement ». Cette dernière, variable dans le temps, est définie comme la dernière harmonique « visible » de la fréquence fondamentale f0 (Figure 3.13). Elle s’obtient à l’aide d’une analyse de la structure fine du spectre basée sur la détection d’irrégularités dans la répartition des harmoniques (les partiels).

Figure 3.13 : Codage HNM – Décomposition du spectre en bandes « harmonique » et « bruit » délimitées par la fréquence maximale de voisement fm (f0 est la fréquence fondamentale)

46 De multiples méthodes pour l’estimation de la fréquence fondamentale ont été proposées dans la littérature. Pour une synthèse des principales approches, le lecteur pourra par exemple consulter (Doval, 1994).

La composante harmonique h(n) d’un segment voisé du signal x(n), est alors décrite à l’aide d’un modèle sinusoïdal tel que47 :

h(n)= Ak(nai)ej2πkf0(nai)(n−nai)

k=−L(nai) L(nai)

avec nai+1=nai + f0−1(nai)

L(nai)=E f⎡⎣ m(nai) / f0(nai)⎤⎦

Ak∈ et A−k =Ak

(Équation 3.18)

Les nai sont les instants d’analyse, définis de façon « pitch-synchrone », c’est-à-dire espacés d’une période fondamentale. f0 et fm sont respectivement la fréquence fondamentale et la fréquence maximale de voisement (normalisées), et L, le nombre d’harmoniques résultant (E est la fonction partie entière). Les amplitudes (complexes) Ak de ces harmoniques sont les paramètres du modèle à estimer à partir du signal. En considérant ces derniers constants sur une fenêtre d’analyse de taille 2N échantillons centrée sur l’instant d’analyse nai (avec N ≈1 / f0(nai)), une approche par minimisation au sens des moindres carrés (pondérées) fournit l’expression analytique suivante :

Ak =

ω2(n)x(n)ej2πkf0n

n=nai−N nai+N

ω2(n)

n=nai−N nai+N

(Équation 3.19)

avec ω(n) une fenêtre de pondération qui vise à donner plus d’importance aux échantillons proches de l’instant d’analyse (fenêtre de Hamming par exemple).

Une fois la partie harmonique h(n) estimée, la partie bruitée b(n) peut se définir, dans le domaine temporel, comme le signal résiduel suivant :

b(n)= x(n)h(n) (Équation 3.20)

Comme dans le cas d’une trame non-voisée, ce signal est alors décrit par un modèle autorégressif obtenu par prédiction linéaire48. Une estimation de la variance du signal aux instants d’analyse nai fournit le gain du filtre tout-pôle.

L’implémentation de la technique d’analyse-synthèse « Harmonique plus Bruit » utilisée dans le cadre de cette étude, présente certaines spécificités par rapport à celle décrite dans

47 La formulation utilisée ici est dérivée du modèle « HNM1 » décrit dans (Stylianou, 1990).

48 Dans (Stylianou, 1990), l’extraction de la partie bruitée s’effectue par modélisation autorégressive du signal original et non du signal résiduel. La partie bruitée n’est donc pas obtenue en phase d’analyse mais en

(Stylianou, 1990). Dans l’équation 3.18, L(nai) (nombre de paramètres utilisés pour décrire la partie harmonique) varie d’un instant d’analyse à l’autre. Afin d’obtenir un système de codage présentant un nombre constant de paramètres, une modélisation autorégressive de la partie harmonique estimée est également effectuée. Un schéma général de l’approche mise en œuvre est proposé à la Figure 3.14.

Figure 3.14 : Schéma général de fonctionnement du système d’analyse-synthèse « Harmonique plus Bruit » mis en œuvre dans le cadre de cette étude. Gh et Gb sont respectivement les gains

des modèles AR (autorégressifs) des parties harmonique et bruit. K et L sont l’ordre de ces modèles et sont fixés respectivement à 12 et 16 pour un signal échantillonné à 16 kHz.

Ce schéma fait également apparaître une représentation des coefficients des modèles AR des parties harmonique et bruit, par des coefficients LSF (Line Spectrum Frequencies) (Itakura, 1975). Soit F(z) un modèle AR d’ordre p défini tel que :

F(z)= 1

A(z)= 1 1+ akz−k

k=1

p (Équation 3.21)

Les coefficients LSF sont définis comme la suite des racines (entrelacées) des polynômes P et Q, définis par :

P(z)= A(z)+z(p+1)A(z1)

Q(z)= A(z)z−(p+1)A(z−1) (Équation 3.22)

La représentation d’un modèle AR à l’aide de coefficients LSF est connue comme étant plus robuste que la simple utilisation des coefficients du filtre tout-pôle. En effet, une faible variation d’un seul de ces coefficients peut suffire à rendre le modèle AR instable. En revanche, une propriété simple sur les coefficients LSF garantit la stabilité du modèle. En effet, un modèle AR décrit par des coefficients LSF est stable si et seulement si la suite formée par ces coefficients est strictement croissante. Cette propriété rend la représentation LSF particulièrement bien adaptée à une utilisation dans un contexte d’apprentissage artificiel. En effet, tant que l’ordre des coefficients LSF n’est pas affecté, une erreur de prédiction effectuée sur un ou plusieurs de ces coefficients n’empêche pas la synthèse du signal. Aussi, afin de garantir cette relation d’ordre lors de l’inférence, nous remplaçons le vecteur des coefficients LSF par un vecteur construit en calculant les différences (positives) entre deux coefficients consécutifs. Ainsi, les vecteurs [lsfh1,...,lsfhK]et [lsfb1,...,lsfbL] (voir Figure 3.14) sont respectivement remplacées, pour la conversion visuo-acoustique, par les vecteurs

[lsfh1,lsfh2lsfh1,...,lsfhKlsfh(K1)] et [lsfb1,lsfb2lsfb1,...,lsfbLlsfb(L1)].

Enfin, à l’aide de son schéma d’analyse-synthèse « pitch-synchrone », la technique HNM permet d’effectuer, de façon assez simple et directe, des transformations du signal du type

« correction de la hauteur » (en anglais pitch-shifting ) et « déformation temporelle » (en anglais time-stretching )49. Cette propriété a notamment motivé l’utilisation de HNM dans le cadre de l’approche indirecte de la conversion visuo-acoustique, qui sera introduite au dernier chapitre.