Méthodes historiques de séparation de sources

3. État de l'art 19

3.2. Rehaussement de la parole

3.2.3. Méthodes historiques de séparation de sources

Même si nous avons établi que notre cas d'application nécessite plutôt le rehaussement

d'une source, il est important de passer rapidement en revue les techniques de séparation

30 Chapitre 3. État de l'art

de sources. Ces deux domaines ne se sont pas développés de façon disjointe mais se sont

au contraire inuencés l'un l'autre.

Séparation aveugle de sources Les méthodes dites de séparation aveugle sont des

mé-thodes non supervisées qui s'appuient uniquement sur l'hypothèse que les signaux cibles,

issus de sources diérentes, sont indépendants. Les premières méthodes ont été

dévelop-pées dans les années 1990 pour les mélanges instantanés de sources, où la convolution de

l'équation (3.3) est une simple multiplication :

c

(n) =h

t

(n). (3.28)

L'algorithme JADE [62] estime les sources grâce à la diagonalisation conjointe de tranches

de cumulants d'ordre 4. L'analyse en composantes indépendantes (ACI) généralise ce

principe à d'autres mesures de l'indépendance et diérents algorithmes d'optimisation

[63].

L'algorithme SOBI [64] relâche l'hypothèse d'indépendance des échantillons pour une

même source en les considérant temporellement correlées. Les algorithmes utilisant la

non-stationnarité considèrent quant à eux que les échantillons ne sont pas identiquement

distribués et possèdent une variance qui évolue au cours du temps [65]. Les informations

apportées par cette variation des statistiques d'ordre 2, avec l'hypothèse d'indépendance

des sources, permettent de maximiser une fonction de vraisemblance et d'estimer les

sources.

Les méthodes conçues pour des mélanges instantanés ont été adaptées à des mélanges

convolutifs de sources. On remarque en eet que l'expression fréquentielle du mélange

(3.11), qui repose sur l'hypothèse de bande étroite, correspond à un mélange instantané

dans chaque bande de fréquence [66]. Outre l'approximation due à cette hypothèse,

l'ap-plication des méthodes de séparation instantanées dans chaque bande de fréquence crée

des ambiguïtés de permutation entre les bandes, car les sources sont estimées dans un

ordre arbitraire. Pour les résoudre, les solutions proposées s'appuient sur la similarité

de l'enveloppe temporelle des signaux entre les bandes de fréquence adjacentes [67], sur

l'estimation des directions d'arrivée, ou bien sur une combinaison de ces méthodes [68],

avec des résultats cependant mitigés.

Une autre limitation critique des algorithmes d'ACI est qu'ils ne peuvent être utilisés

que dans le cas déterminé, où le mélangexcontient autant de canaux que le nombre de

sourcesI à trouver.

Méthodes utilisant la parcimonie Les méthodes de masquage temps-fréquence

per-mettent de traiter des cas sous-déterminés. Le masque M

_c_i

(t, f) estime la présence du

signal c

au point(t, f). Il prend des valeurs dans {0, 1} s'il s'agit d'un masque binaire

ou dans le segment [0, 1] pour un masque continu. Le signal c

(t, f) est ensuite estimé à

partir du mélange x(t, f) :

ˆ

3.2. Rehaussement de la parole 31

Ces masques peuvent être estimés par des techniques de regroupement des points

temps-fréquence s'appuyant sur des caractéristiques communes. L'algorithme DUET [39] utilise

des informations de localisation, à savoir les diérences interaurales de temps et de niveau

(ITD, interaural time dierence et ILD, interaural level dierence) dans leur forme

pleine-bande. MESSL [69] utilise de surcroît des GMMs an d'exploiter ces informations de

façon plus robuste. Cependant, l'approche pleine-bande est problématique en présence de

réverbération, puisque l'information spatiale est aectée diéremment dans chaque bande

de fréquence. Le regroupement en bandes étroites apporte une solution à ce problème

mais nécessite une étape supplémentaire pour résoudre les ambiguïtés de permutation

entre les diérentes bandes de fréquence.

Modèle probabiliste gaussien Des hypothèses statistiques supplémentaires permettent

également de traiter le cas sous-déterminé, que ce soit pour des mélanges instantanés

[70, 71] ou réverbérants [72]. Dans le cadre probabiliste gaussien, on suppose qu'une

image spatiale c

(t, f) prend des valeurs indépendantes en chaque point (t, f), suivant

une distribution gaussienne complexe isotrope centrée de matrice de covarianceR

cici

(t, f)

qui prend la forme suivante :

c

(t, f)∼ N(0,R

_c_i_c_i

(t, f))avec R

_c_i_c_i

(t, f) =v

(t, f)R

(f). (3.30)

v

(t, f)∈_R

est la densité spectrale de puissance et R

(f) est la matrice de covariance

spatiale (indépendante du temps pour une source immobile) associées à la source i.

Lesv

(t, f)etR

(f)peuvent être estimées itérativement grâce à un algorithme

d'espérance-maximisation (EM) [73]. Les estimations des images spatialesˆc

(t, f)sont alors obtenues

à partir du mélange grâce à un ltre de Wiener variant dans le temps (voir aussi la

partie3.2.2) :

ˆ

c

(t, f) =R

_c_i_c_i

(t, f)R

_xx

(t, f)

⁻¹

x(t, f) (3.31)

avec R

(t, f) =P

R

cici

(t, f) la matrice de covariance du mélangex(t, f).

Factorisation matricielle positive L'utilisation de la factorisation en matrices à valeurs

positives (NMF, non-negative matrix factorization) fait quant à elle des hypothèses fortes

sur la structure des signaux à reconstruire. Les spectres d'amplitude ou de puissance

des signaux sont supposés être constitués d'une somme d'éléments de rang 1, chacun

décomposable en produit d'un spectre de base et d'une séquence d'amplitudes [74]. Cela

correspond par exemple à la décomposition de la parole en phonèmes, ou de la musique

en notes, et à la signature spectro-temporelle spécique de chacun de ces éléments. Une

telle grandeurV est alors modélisée par

ˆ

V(t, f) =^X

b

(f)h

(t) (3.32)

où b

= [b

(0), ..., b

(F)]

et h

= [h

(0), ..., h

(T)] sont des vecteurs à valeurs

posi-tives représentant respectivement les motifs spectraux et les activations temporelles de

l'élémentk.

32 Chapitre 3. État de l'art

Ces éléments peuvent être estimés de façon non-supervisée par un algorithme de

parti-tionnement de type k-moyennes [75] combiné à une estimation itérative des paramètres

par EM. Les résultats ne sont satisfaisants que si les sources à séparer ont des supports

susamment disjoints. Des versions supervisées de la NMF ont donc été développées,

im-pliquant un apprentissage préalable de dictionnaires spectraux [76]. Cela nécessite d'avoir

accès aux sources de manière indépendante pendant un laps de temps avant de traiter

leur mélange. Enn, des techniques intermédiaires dites semi-supervisées initient

l'ap-prentissage des dictionnaires spectraux hors-ligne, puis anent cet apl'ap-prentissage à partir

du mélange [77]. Ces diérentes variantes sont initialement conçues pour être appliquées

à un mélange monocanal, mais des versions multicanales ont également été mises au

point [78]. La NMF a classiquement été combinée avec le modèle probabiliste Gaussien

présenté dans le paragraphe précédent [78]. Dans ce cas, la NMF modélise la variance

d'une source ou d'un mélange de source. Si chaque composante NMF représente une

source, la séparation est directement obtenue. En revanche, si une source est représentée

par plusieurs composantes, il est de surcroît nécessaire de regrouper ces composantes, ce

qui peut par exemple être fait selon un critère spatial [78].

Dans le document Localisation et rehaussement de sources de parole au format Ambisonique (Page 49-52)

Méthodes historiques de séparation de sources

3. État de l'art 19

3.2. Rehaussement de la parole

3.2.3. Méthodes historiques de séparation de sources

Même si nous avons établi que notre cas d'application nécessite plutôt le rehaussement

d'une source, il est important de passer rapidement en revue les techniques de séparation

30 Chapitre 3. État de l'art

de sources. Ces deux domaines ne se sont pas développés de façon disjointe mais se sont

au contraire inuencés l'un l'autre.

Séparation aveugle de sources Les méthodes dites de séparation aveugle sont des

mé-thodes non supervisées qui s'appuient uniquement sur l'hypothèse que les signaux cibles,

issus de sources diérentes, sont indépendants. Les premières méthodes ont été

dévelop-pées dans les années 1990 pour les mélanges instantanés de sources, où la convolution de

l'équation (3.3) est une simple multiplication :

c

(n) =h

t

(n). (3.28)

L'algorithme JADE [62] estime les sources grâce à la diagonalisation conjointe de tranches

de cumulants d'ordre 4. L'analyse en composantes indépendantes (ACI) généralise ce

principe à d'autres mesures de l'indépendance et diérents algorithmes d'optimisation

[63].

L'algorithme SOBI [64] relâche l'hypothèse d'indépendance des échantillons pour une

même source en les considérant temporellement correlées. Les algorithmes utilisant la

non-stationnarité considèrent quant à eux que les échantillons ne sont pas identiquement

distribués et possèdent une variance qui évolue au cours du temps [65]. Les informations

apportées par cette variation des statistiques d'ordre 2, avec l'hypothèse d'indépendance

des sources, permettent de maximiser une fonction de vraisemblance et d'estimer les

sources.

Les méthodes conçues pour des mélanges instantanés ont été adaptées à des mélanges

convolutifs de sources. On remarque en eet que l'expression fréquentielle du mélange

(3.11), qui repose sur l'hypothèse de bande étroite, correspond à un mélange instantané

dans chaque bande de fréquence [66]. Outre l'approximation due à cette hypothèse,

l'ap-plication des méthodes de séparation instantanées dans chaque bande de fréquence crée

des ambiguïtés de permutation entre les bandes, car les sources sont estimées dans un

ordre arbitraire. Pour les résoudre, les solutions proposées s'appuient sur la similarité

de l'enveloppe temporelle des signaux entre les bandes de fréquence adjacentes [67], sur

l'estimation des directions d'arrivée, ou bien sur une combinaison de ces méthodes [68],

avec des résultats cependant mitigés.

Une autre limitation critique des algorithmes d'ACI est qu'ils ne peuvent être utilisés

que dans le cas déterminé, où le mélangexcontient autant de canaux que le nombre de

sourcesI à trouver.

Méthodes utilisant la parcimonie Les méthodes de masquage temps-fréquence

per-mettent de traiter des cas sous-déterminés. Le masque M

(t, f) estime la présence du

signal c

au point(t, f). Il prend des valeurs dans {0, 1} s'il s'agit d'un masque binaire

ou dans le segment [0, 1] pour un masque continu. Le signal c

(t, f) est ensuite estimé à

partir du mélange x(t, f) :

ˆ

3.2. Rehaussement de la parole 31

Ces masques peuvent être estimés par des techniques de regroupement des points

temps-fréquence s'appuyant sur des caractéristiques communes. L'algorithme DUET [39] utilise

des informations de localisation, à savoir les diérences interaurales de temps et de niveau

(ITD, interaural time dierence et ILD, interaural level dierence) dans leur forme

pleine-bande. MESSL [69] utilise de surcroît des GMMs an d'exploiter ces informations de

façon plus robuste. Cependant, l'approche pleine-bande est problématique en présence de

réverbération, puisque l'information spatiale est aectée diéremment dans chaque bande

de fréquence. Le regroupement en bandes étroites apporte une solution à ce problème

mais nécessite une étape supplémentaire pour résoudre les ambiguïtés de permutation

entre les diérentes bandes de fréquence.

Modèle probabiliste gaussien Des hypothèses statistiques supplémentaires permettent

également de traiter le cas sous-déterminé, que ce soit pour des mélanges instantanés

[70, 71] ou réverbérants [72]. Dans le cadre probabiliste gaussien, on suppose qu'une

image spatiale c

(t, f) prend des valeurs indépendantes en chaque point (t, f), suivant

une distribution gaussienne complexe isotrope centrée de matrice de covarianceR

(t, f)

qui prend la forme suivante :

c

(t, f)∼ N(0,R

(t, f))avec R

(t, f) =v

(t, f)R

(f). (3.30)

v

(t, f)∈R

est la densité spectrale de puissance et R

(f) est la matrice de covariance

(t, f)∈_R

V(t, f) =^X