• Aucun résultat trouvé

Poursuites des paramètres harmoniques le long des trames

1.4 Des techniques pour améliorer les estimations

1.4.2 Poursuites des paramètres harmoniques le long des trames

trames

Les méthodes de poursuite des paramètres harmoniques sont utilisées pour relier les estimations des trames successives de signal. Elles permettent alors d’as- signer à chaque source une trajectoire temporelle des paramètres d’un modèle. La poursuite a pour but d’éliminer les changements brutaux au bord des fenêtres d’analyse, mais également d’interpoler les paramètres non résolus lors de l’ana- lyse du mélange.

• Appariement des pics harmoniques

Une méthode de poursuite bien connue et utilisée pour l’Analyse/synthèse si- nusoïdale a été développée par Mac Aulay et Quatieri [13]. Cette dernière cherche

à apparier les pics spectraux de trames adjacentes : pour les Mk fréquences fon-

damentales estimées de la trame k, la procédure de poursuite, consiste à assigner à chaque fréquence de la trame k, l’une des fréquences de la trame k + 1.

• prédiction linéaire de la fréquence fondamentale

Cette méthode a été proposé par Parsons en 1976 pour la séparation de deux locuteurs [3]. Elle s’appuie sur l’hypothèse que pour des signaux de parole, la fréquence fondamentale varie peu entre deux trames consécutives. Ainsi pour la kieme trame courante, une procédure en deux étapes est utilisée pour l’apparie-

ment :

1. les deux fréquences fondamentales bfk

1 et bf2k estimées sont assignées à l’une

des deux voix, à l’aide de fréquences prédites sur la (k − 1)ime trame, notées

e

f1k−1 et ef2k−1.

2. à partir des fréquences fondamentales assignées, deux nouvelles prédictions e

fk

1 et ef2k sont calculées.

L’ étape 1 qui fait alors intervenir 2 prédictions et 2 estimations, correspond au calcul de quatre distances entre fréquences estimées et fréquences prédites sur la trame précédente. L’affectation des fréquences estimées à une voix se fait en considérant la distance minimale. Le prédicteur utilisé est un filtre à mémoire fixe qui ajuste une fonction affine aux trois plus récentes valeurs de fondamentales et donne une prédiction de la fréquence par extrapolation.

• Poursuite par la methode cepstrale ou la corrélation spectrale

Cette autre méthode de poursuite développée dans le cadre de la séparation de deux signaux de parole voisée, a été proposée par Mumolo [11]. Pour chaque seg- ment de signal, un nombre de fréquences fondamentales candidates est estimé. Le but de la poursuite fréquentielle est alors de sélectionner parmi ces valeurs celles qui représentent les fréquences fondamentales des deux locuteurs et de dé- terminer les contours ou trajectoires temporelles correspondantes. L’algorithme de poursuite proposé est composé de 5 étapes :

1.4. Des techniques pour améliorer les estimations 39 1. Détermination de points fixes : à partir des fréquences fondamentales esti-

mées sur toute la durée d’analyse, les plus grandes valeurs des pics corres- pondant sont sélectionnées comme points d’ancrage.

2. Normalisation : parce que les amplitudes des pics peuvent varier fortement pour plusieurs raisons, l’algorithme normalise les amplitudes et on a pour le pic n d’amplitude a(n) :

a(n) = a(n)

0.2 Pn+5i=n+1a(i) (1.39)

3. Elimination des harmoniques : Pour chaque trame, le pic de plus grande amplitude normalisée est trouvé et ses multiples sont marqués.

4. Poursuite : en commençant par les points fixes, une poursuite de fréquence de fondamentale est appliquée à droite et à gauche de la trame courante, en choisissant la valeur de la fréquence fondamentale dont l’amplitude nor- malisée est la plus proche de celle de la trame précédente.

5. Répétition : On recommence à partir de l’étape 4) jusqu’à ce qu’un critère choisi soit satisfait.

Le critère correspond à une valeur de seuil qui stoppe l’algorithme lorsque l’am- plitude du pic se trouve en dessous. Il se rapproche d’ une mesure de voisement.

• Utilisation de critères psychoacoustiques

Virtanen et Klapuri ont développé une approche quelque peu différente, qui cherche à décomposer les composantes spectrales du mélange pour les assigner aux sources à l’aide de critères psychoacoustiques [35]. Ils utilisent la modélisa- tion sinusoïdale pour représenter les sources par des trajectoires sinusoïdales. Les fréquences et amplitudes des sinusoïdes sont obtenues avec une analyse de Fourier à court terme et une méthode statistique initialement développée par Thomsom appelée “F-test” [36]. Les interruptions courtes dans les trajectoires, causées par des modulations d’amplitude et de fréquence, des transitoires ou du bruit sont supprimées par interpolation linéaire.

Le système effectue une classification des trajectoires en calculant la distance "perceptive" entre paires à l’aide de deux critères psychoacoustiques différents :

les changements synchrones des composantes et la concordance harmonique. Ces critères, introduit par Bregman, sont liés aux principes d’association dans l’organisation de l’audition humaine [37].

La distance "perceptive" utilisée pour la classification est alors constituée de trois distances pondérées. Les deux premières permettent de mesurer les changements de fréquence et d’amplitude, tandis que la troisième effectue une mesure de la relation harmonique entre trajectoires. Les pondérations sont différentes et sont choisies en tenant compte du fait que les fréquences ne vont pas varier autant que les amplitudes et que l’organisation perceptive est largement basée sur la distance harmonique.

Après estimation de la proximité entre paires de trajectoires, les sources sont séparées en utilisant une méthode de classification qui, à partir de deux jeux ini- tiaux représentant les sources, va ajouter les trajectoires une à une en choisissant la trajectoire minimisant la distance.

Cette méthode de classification reste très sommaire, car elle nécessite des signaux sources ayant des temps d’attaque différents pour permettre l’initialisation des jeux de départ.

Il est à noter que cette méthode prend en compte les recouvrements d’harmo- niques, qui se traduisent par des trajectoires commune aux deux sources. Le phénomène est détecté en utilisant la distance harmonique, qui est dans ce cas très faible pour les deux son. Le système utilise alors une valeur seuil et interpole les amplitudes des trajectoires communes à l’aide des autres trajectoires.

1.5

Des techniques pour la synthèse des sources

Bien que la synthèse n’est pas l’unique finalité du problème de séparation, comme nous l’avons évoqué au début de ce chapitre, nous lui consacrons une par- tie de notre état de l’art, d’une part parce qu’elle est intervenue dès les premières méthodes proposées en parole et d’autre part parce qu’elle est étroitement liée aux méthodes d’estimation itératives de fréquences fondamentales, qui font appel à une étape de soustraction des paramètres ou des modèles de sources successi- vement estimés.

Nous présentons, tout d’abord deux méthodes courantes pour la synthèse de signaux harmoniques, puis nous décrirons des techniques qui tout comme la syn- thèse, permettent d’extraire du mélange une source dans le but bien précis d’une écoute. L’extraction se fait alors par atténuation des signaux indésirables et par rehaussement des signaux cibles.

1.5. Des techniques pour la synthèse des sources 41