• Aucun résultat trouvé

Etude prospective : ondelettes appliquées aux signaux de parole

Avant d’aborder une méthode développée au LIMSI, certaines observations des propriétés de l’analyse en ondelettes des signaux vocaux vont être présentées.

3.2.1 Observations

Observons l’analyse par ondelettes des deux signaux de parole assez caractéristiques pré- sentés en figure 3.3. Les deux signaux sont voisés mais le deuxième présente clairement moins d’harmoniques : sa pente spectrale est plus prononcée. Cette observation se confirme sur la repré- sentation en ondelettes, où les échelles supérieures présentent davantage d’informations dans le cas du premier signal. L’ondelette utilisée pour les analyses présentées par la suite suit l’équation 3.3 explicitée par la suite.

187 375 750 1500 3000 6000 temps signal ondelettes

Signal riche en harmoniques

temps

Signal pauvre en harmoniques

Figure3.3 – Analyse par ondelettes de deux segments de signaux vocaux. La richesse spectrale visible sur le signal se traduit par l’observation des différentes échelles de décomposition.

Sur ces deux signaux, la périodicité se retrouve à toutes les échelles, par un effet de modulation des harmoniques à la fréquence fondamentale du signal. On ne retrouve cependant pas de strict alignement des maxima à travers les échelles. De plus, l’impulsion acoustique conséquente à la fermeture glottique est masquée par le filtrage de l’onde de débit glottique et par le conduit vocal atténuant alors très fortement les hautes fréquences. Peut-être n’y a-t-il même pas de fermeture ni d’impulsion dans ce cas ?

3.2.2 Liens avec le modèle de production linéaire

La transformée en ondelettes d’un train d’impulsions est présentée sur la figure 3.4. On retrouve directement les résultats prédits par Mallat [Mallat et Hwang, 1992], à savoir que chaque impulsion (vue comme une singularité dans le signal) provoque une oscillation sur toutes les échelles et que les maxima locaux sont synchronisés au moment de l’impulsion.

Pour un train d’impulsions de période T δT(t), les harmoniques sont synchronisés, le retard

est donc nul à toutes les fréquences. Mais lorsque le signal est filtré par un filtre à phase non linéaire comme une période glottique g(t), un retard apparaît qui peut décaler les maxima à travers les échelles. Pour un filtre à phase linéaire, ce retard temporel est constant pour toutes les fréquences, les maxima ne sont donc pas décalés. C’est ce qu’on visualise sur la figure 3.5 qui présente le train d’impulsions précédent filtré par une onde dérivée de débit glottique.

s(t) = [g∗ δT](t)

Contrairement à la proposition de Mallat, il est choisi de visualiser directement la sortie des bancs de filtres à chaque échelle et non l’énergie. Ce choix apporte plus de robustesse à la visualisation, sous condition que la polarisation du signal soit connue. En effet, les extrêmes qui pointent sur les singularités du train d’impulsions sont maintenant les minima du signal (argmin

t (s(t))), le

gain du filtre étant négatif.

On constate que de cette manière la détection des instants de fermeture glottique par les ondelettes est extrêmement sensible à la polarisation du signal, mais beaucoup plus robuste sous condition que le signal soit convenablement polarisé. On observe aussi sur les figures 3.7 et 3.8 que les basses fréquences (dans la région proche du formant glottique) sont décalées par rapport aux hautes fréquences. Ce phénomène est tout à fait attendu : le retard de groupe appliqué au train d’impulsions par le filtre de l’onde de débit glottique n’est pas nul et présente un maximum au voisinage du formant glottique comme pour tout filtre du second ordre.

temps

sig. ondelettes

Figure 3.4 – Analyse par ondelettes d’un train d’impulsions, on retrouve bien l’alignement des maxima à travers les échelles.

temps

sig. ondelettes

Figure 3.5 – Analyse par ondelettes d’une DODG, le filtrage du train d’impusions à l’origine de l’onde décale les maxima à travers les échelles.

Une étape supplémentaire dans l’analyse de l’effet du modèle de production linéaire sur l’analyse en ondelettes consiste en l’application d’un filtre vocalique au signal précédent. On choisit la voyelle /a/ de réponse impulsionnelle f(t), présentée sur la figure 3.6.

s(t) = [f∗ g ∗ δT](t)

On remarque que le décalage des maxima est sensiblement identique à celui de la figure précédente et cela pour trois raisons :

– Pour le signal choisi, le formant glottique est nettement inférieur en fréquence et plus énergétique que le premier formant vocalique. Le décalage en basse fréquence est donc conditionné en majorité par la DODG.

– La fréquence fondamentale choisie permet une séparation complète des contributions du filtre et de la source : la réponse impulsionnelle du filtre pour un GCI est négligeable lors du GCI suivant. Lorsqu’il n’y a pas de repliement temporel de cette réponse impulsionnelle, les formants agissent peu sur le décalage des maxima lors des GCI. Des exemples seront donnés par la suite où ce repliement joue un rôle majeur dans le décalage des maxima. – Le décalage temporel des maxima est fonction du retard de groupe et inversement propor-

tionnel à la fréquence. Ainsi, les formants vocaliques placés dans le haut du spectre décalent peu les maxima en temps. En toute logique, le maximum de précision sur le GCI est obtenu en haute fréquence, en faisant abstraction des bandes où le bruit est trop présent.

temps

sig. ondelettes

Figure 3.6 – Analyse par ondelettes d’un signal synthétique - signal de la figure 3.5 filtré par la fonction de transfert d’une voyelle /a/. Le filtre vocalique modifie d’avantage l’alignement des maxima.

3.2.3 Parcourir les lignes

Les travaux [Tuan et d’Alessandro, 1999] qui ont inspiré ceux présentés dans ce chapitre, ont montré que la combinaison des propriétés d’amplitude et d’alignement de phase des signaux temporels issus des bancs de filtre en ondelettes permet de retrouver les instants de fermeture glottique directement sur le signal de parole en descendant les maxima depuis les hautes fré- quences. Cette méthode est appelée LoMA (Lines of Maximum Amplitude) car elle consiste essentiellement à tracer le chemin le plus court passant par les maxima de la représentation.

Il a été présenté précédemment qu’on retrouvait les propriétés d’un signal comportant des singularités par l’analyse en ondelettes d’un signal vocal, mais que l’alignement des maxima au travers des échelles d’analyse n’était pas maintenu suite aux différents filtrages (ODG + conduit vocal). Le parcours des lignes permet donc de compenser ce manque d’alignement (figure 3.7), nécessitant tout de même un algorithme approprié pour choisir convenablement le parcours à travers les échelles.

Soit le signal de TF S(ω) = F (ω)G(ω)δF0(ω) et le décalage en phase eΦ(ω) détecté par le

parcours des lignes. Dans le cas idéal on cherche :

e−Φ(ω) = F (ω)G(ω)

|F (ω)G(ω)| Afin de retrouver le signal compensé ˜s tel que :

˜

S(ω) = S(ω)eΦ(ω)

= |F (ω)G(ω)|δF0(ω) (3.2)

Alors ˜s(t) ∝ δT(t) dans le cas où T F−1|F (ω)G(ω)| est principalement contenu autour de 0

(amortissement fort).

Le parcours des lignes en but de compenser le décalage de phase des filtres glottique et vocalique revient donc à une déconvolution partielle selon l’équation 3.2. L’effet précis de la compensation de phase vis à vis de l’utilisation d’un banc de filtre à facteur de qualité constant sera vu par la suite, lorsque nous chercherons à déterminer la forme exacte des lignes trouvées. 3.2.4 Forme des lignes

La forme des lignes est tout aussi intéressante que leur parcours (figure 3.8). En effet, le déca- lage de chaque maximum dans une échelle par rapport au GCI est fonction du retard de groupe

temps

sig. ondelettes

GCI

Figure3.7 – Localisation du GCI par la position haute fréquence de la ligne (en rouge).

temps

sig. ondelettes

décalage

autour de la fréquence centrale de cette échelle. Dans le cas où formant glottique et vocalique sont nettement séparables, on peut montrer que le décalage du maximum dans l’échelle la plus basse - celle comportant le fondamental - est une fonction du quotient ouvert. Un développement analytique et une série d’expériences seront réalisées à la section 3.6.

3.3 Méthode LoMA pour la détection de GCI