3. État de l'art 19
3.2. Rehaussement de la parole
3.2.3. Méthodes historiques de séparation de sources
Même si nous avons établi que notre cas d'application nécessite plutôt le rehaussement
d'une source, il est important de passer rapidement en revue les techniques de séparation
30 Chapitre 3. État de l'art
de sources. Ces deux domaines ne se sont pas développés de façon disjointe mais se sont
au contraire inuencés l'un l'autre.
Séparation aveugle de sources Les méthodes dites de séparation aveugle sont des
mé-thodes non supervisées qui s'appuient uniquement sur l'hypothèse que les signaux cibles,
issus de sources diérentes, sont indépendants. Les premières méthodes ont été
dévelop-pées dans les années 1990 pour les mélanges instantanés de sources, où la convolution de
l'équation (3.3) est une simple multiplication :
c
i(n) =h
it
i(n). (3.28)
L'algorithme JADE [62] estime les sources grâce à la diagonalisation conjointe de tranches
de cumulants d'ordre 4. L'analyse en composantes indépendantes (ACI) généralise ce
principe à d'autres mesures de l'indépendance et diérents algorithmes d'optimisation
[63].
L'algorithme SOBI [64] relâche l'hypothèse d'indépendance des échantillons pour une
même source en les considérant temporellement correlées. Les algorithmes utilisant la
non-stationnarité considèrent quant à eux que les échantillons ne sont pas identiquement
distribués et possèdent une variance qui évolue au cours du temps [65]. Les informations
apportées par cette variation des statistiques d'ordre 2, avec l'hypothèse d'indépendance
des sources, permettent de maximiser une fonction de vraisemblance et d'estimer les
sources.
Les méthodes conçues pour des mélanges instantanés ont été adaptées à des mélanges
convolutifs de sources. On remarque en eet que l'expression fréquentielle du mélange
(3.11), qui repose sur l'hypothèse de bande étroite, correspond à un mélange instantané
dans chaque bande de fréquence [66]. Outre l'approximation due à cette hypothèse,
l'ap-plication des méthodes de séparation instantanées dans chaque bande de fréquence crée
des ambiguïtés de permutation entre les bandes, car les sources sont estimées dans un
ordre arbitraire. Pour les résoudre, les solutions proposées s'appuient sur la similarité
de l'enveloppe temporelle des signaux entre les bandes de fréquence adjacentes [67], sur
l'estimation des directions d'arrivée, ou bien sur une combinaison de ces méthodes [68],
avec des résultats cependant mitigés.
Une autre limitation critique des algorithmes d'ACI est qu'ils ne peuvent être utilisés
que dans le cas déterminé, où le mélangexcontient autant de canaux que le nombre de
sourcesI à trouver.
Méthodes utilisant la parcimonie Les méthodes de masquage temps-fréquence
per-mettent de traiter des cas sous-déterminés. Le masque M
ci(t, f) estime la présence du
signal c
iau point(t, f). Il prend des valeurs dans {0, 1} s'il s'agit d'un masque binaire
ou dans le segment [0, 1] pour un masque continu. Le signal c
i(t, f) est ensuite estimé à
partir du mélange x(t, f) :
ˆ
3.2. Rehaussement de la parole 31
Ces masques peuvent être estimés par des techniques de regroupement des points
temps-fréquence s'appuyant sur des caractéristiques communes. L'algorithme DUET [39] utilise
des informations de localisation, à savoir les diérences interaurales de temps et de niveau
(ITD, interaural time dierence et ILD, interaural level dierence) dans leur forme
pleine-bande. MESSL [69] utilise de surcroît des GMMs an d'exploiter ces informations de
façon plus robuste. Cependant, l'approche pleine-bande est problématique en présence de
réverbération, puisque l'information spatiale est aectée diéremment dans chaque bande
de fréquence. Le regroupement en bandes étroites apporte une solution à ce problème
mais nécessite une étape supplémentaire pour résoudre les ambiguïtés de permutation
entre les diérentes bandes de fréquence.
Modèle probabiliste gaussien Des hypothèses statistiques supplémentaires permettent
également de traiter le cas sous-déterminé, que ce soit pour des mélanges instantanés
[70, 71] ou réverbérants [72]. Dans le cadre probabiliste gaussien, on suppose qu'une
image spatiale c
i(t, f) prend des valeurs indépendantes en chaque point (t, f), suivant
une distribution gaussienne complexe isotrope centrée de matrice de covarianceR
cici(t, f)
qui prend la forme suivante :
c
i(t, f)∼ N(0,R
cici(t, f))avec R
cici(t, f) =v
i(t, f)R
i(f). (3.30)
v
i(t, f)∈R
+est la densité spectrale de puissance et R
i(f) est la matrice de covariance
spatiale (indépendante du temps pour une source immobile) associées à la source i.
Lesv
i(t, f)etR
i(f)peuvent être estimées itérativement grâce à un algorithme
d'espérance-maximisation (EM) [73]. Les estimations des images spatialesˆc
i(t, f)sont alors obtenues
à partir du mélange grâce à un ltre de Wiener variant dans le temps (voir aussi la
partie3.2.2) :
ˆ
c
i(t, f) =R
cici(t, f)R
xx(t, f)
−1x(t, f) (3.31)
avec R
xx(t, f) =P
i
R
cici(t, f) la matrice de covariance du mélangex(t, f).
Factorisation matricielle positive L'utilisation de la factorisation en matrices à valeurs
positives (NMF, non-negative matrix factorization) fait quant à elle des hypothèses fortes
sur la structure des signaux à reconstruire. Les spectres d'amplitude ou de puissance
des signaux sont supposés être constitués d'une somme d'éléments de rang 1, chacun
décomposable en produit d'un spectre de base et d'une séquence d'amplitudes [74]. Cela
correspond par exemple à la décomposition de la parole en phonèmes, ou de la musique
en notes, et à la signature spectro-temporelle spécique de chacun de ces éléments. Une
telle grandeurV est alors modélisée par
ˆ
V(t, f) =X
k
b
k(f)h
k(t) (3.32)
où b
k= [b
k(0), ..., b
k(F)]
Tet h
k= [h
k(0), ..., h
k(T)] sont des vecteurs à valeurs
posi-tives représentant respectivement les motifs spectraux et les activations temporelles de
l'élémentk.
32 Chapitre 3. État de l'art
Ces éléments peuvent être estimés de façon non-supervisée par un algorithme de
parti-tionnement de type k-moyennes [75] combiné à une estimation itérative des paramètres
par EM. Les résultats ne sont satisfaisants que si les sources à séparer ont des supports
susamment disjoints. Des versions supervisées de la NMF ont donc été développées,
im-pliquant un apprentissage préalable de dictionnaires spectraux [76]. Cela nécessite d'avoir
accès aux sources de manière indépendante pendant un laps de temps avant de traiter
leur mélange. Enn, des techniques intermédiaires dites semi-supervisées initient
l'ap-prentissage des dictionnaires spectraux hors-ligne, puis anent cet apl'ap-prentissage à partir
du mélange [77]. Ces diérentes variantes sont initialement conçues pour être appliquées
à un mélange monocanal, mais des versions multicanales ont également été mises au
point [78]. La NMF a classiquement été combinée avec le modèle probabiliste Gaussien
présenté dans le paragraphe précédent [78]. Dans ce cas, la NMF modélise la variance
d'une source ou d'un mélange de source. Si chaque composante NMF représente une
source, la séparation est directement obtenue. En revanche, si une source est représentée
par plusieurs composantes, il est de surcroît nécessaire de regrouper ces composantes, ce
qui peut par exemple être fait selon un critère spatial [78].
Dans le document
Localisation et rehaussement de sources de parole au format Ambisonique
(Page 49-52)