Dénition du problème

3. État de l'art 19

3.2. Rehaussement de la parole

3.2.1. Dénition du problème

Séparation de sources et rehaussement de la parole Dans une situation de cocktail

party, les voix de plusieurs locuteurs se mêlent dans un environnement bruyant et

réver-bérant (voir Figure3.2). Face à ce problème, plusieurs objectifs peuvent être poursuivis :

si l'on cherche à obtenir les signaux audio séparés de tous les locuteurs, on parle de

sépa-ration de sources. Si le but est de nettoyer un ou plusieurs signaux de parole, ce qui

peut inclure le débruitage et la déréverbération en plus de la séparation de sources, on

parle de rehaussement de la parole [36]. Les signaux séparés ou rehaussés peuvent être

destinés à l'écoute ou à un post-traitement tel que la reconnaissance vocale.

Dans le cas d'un signal destiné à l'écoute, une simple erreur quadratique entre le signal

visé et le signal estimé est rarement pertinente. Plusieurs indicateurs estimant le degré

de séparation et de distorsion du signal ont été proposés [37]. Le rapport signal sur

interférences mesure le rapport de puissance entre le signal cible et les interférences ou

le bruit provenant d'autres sources sonores. Le rapport signal sur artefacts évalue la

quantité de bruits musicaux présents dans le signal estimé.

Dans notre cas, on considère un problème de rehaussement avec un seul locuteur cible.

L'objectif est ici la reconnaissance vocale. La qualité perceptive du signal de parole estimé

importe nalement peu ; la métrique nale s'appuie sur la validité de la transcription de

celui-ci, mesurée par le taux d'erreur sur les mots, ou WER, déni dans la partie5.2.5.

3.2. Rehaussement de la parole 23

Figure 3.2.

Exemple de cocktail party : un goûter

d'anniversaire avec deux enfants

enre-gistrés par deux microphones.

Formulation temporelle D'un point de vue mathématique, la situation de cocktail party

peut être décrite par l'équation

x(n) =

I−1

X

i=0

c

(n) +n

⁽ⁿ⁾ (3.2)

où nest un échantillon temporel donné,x(n)est le signal multicanal capté comprenant

J canaux (dans le cas du FOA, J = 4), I est le nombre de sources présentes dans

le mélange, les c

(n) sont les contributions multicanales de chaque source au mélange

appelées images spatiales des sources etn

⁽ⁿ⁾ est un bruit additionnel provenant

de sources spatialement diuses ou de la mesure. Lesc

(n) résultent de la propagation

acoustique des signaux émis par les sources jusqu'au point de mesure modélisée par une

convolution :

c

(n) =

∞

X

m=0

h

(m)∗t

(n−m). (3.3)

h

(m)est le vecteur des réponses impulsionnelles caractérisant le chemin acoustique entre

la source i et l'antenne de microphones et t

(n) est le signal émis par la source i. On

considère les sources immobiles à l'échelle du temps d'analyse,h

(m) est donc constant

au cours du temps.

La séparation de sources vise à reconstituer soit les images spatialesc

(n), soit les signaux

émist

(n) [38].

Pour notre application de rehaussement de la parole, si la métrique est claire (la validité

de la transcription), le choix du signal intermédiaire que l'on vise à isoler n'est pas

évident. On peut chercher à reconstituer c

(n), ou bien sa version déréverbérée t

(n),

ou encore un canal de c

(n), puisqu'il sut d'un signal monocanal pour procéder à la

RAP. Cet objectif intermédiaire dépend notamment du système de RAP utilisé, plus ou

moins robuste à la réverbération, aux distorsions, au bruit ambiant ou aux interférences

24 Chapitre 3. État de l'art

directionnelles. On peut poser le problème de la façon suivante :

x(n) =s(n) +n(n) (3.4)

où s(n) est un signal multicanal contenant le locuteur cible, tandis que n(n) contient

tous les locuteurs interférents et le bruit dius. Selon l'application, on cherche à estimer

s(n)ou un signal monocanal sous-jacent, par exemple l'un de ses canaux.

Formulation temps-fréquence Dans le paragraphe précédent, le problème est formulé

dans le domaine temporel. En pratique, il est plus facile de travailler dans le domaine

temps-fréquence qui permet de faire apparaître la parcimonie des signaux et facilite leur

séparation [39].

La représentation choisie est généralement la TFCT. L'étape d'analyse consiste à

déter-miner la représentation fréquentielle d'un signal à partir de sa version temporelle. Ceci

est fait grâce à l'application d'une fenêtre d'analyse glissante w

(n)de longueurN, avec

un pas H entre chaque application de la fenêtre. Une version fenêtrée s

(n) du signal

s(n) est extraite à chaque tramet:

s

(n) =w

(n)s(tH+n) avecw

(n) = 0pour n /∈ {0, ..., N −1}. (3.5)

On procède ensuite à la transformation de Fourier du signal fenêtré, ce qui fournit une

représentation du signal dans chaque trame t et bande de fréquence f. On choisit en

général une représentation fréquentielle sur un nombre de points égal à la longueurN de

la fenêtre d'analyse. Les coecients de la TFCT du signals(n) sont donnés par :

s(t, f) =

N−1

X

n=0

s

(n)e

⁻²^{iπnf /N}

. (3.6)

Pour un signal s(n) réel, la transformée de Fourier étant symétrique hermitienne, on ne

considère que la moitié des bandes de fréquencef ∈ {0, ..., N/2}.

L'opération inverse, qui permet de reconstituer un signal temporel à partir de ses

coe-cients de Fourier, s'appelle la synthèse. Dans un premier temps, il s'agit d'appliquer une

transformation de Fourier inverse às(t, f) :

s

(n) = ¹

N

N−1

X

f=0

s(t, f)e

²^{iπnf /N}

avec n∈ {0, ..., N −1} (3.7)

puis le signal temporels(n)peut être reconstitué par la méthode dite d'overlap and add :

s(n) =^X

s

(n−tH)w

(n−tH). (3.8)

An que la reconstruction soit exacte, le pas H et les fenêtres d'analyse w

(n) et de

synthèsew

(n) doivent vérier le critère suivant :

X

3.2. Rehaussement de la parole 25

Bien qu'il soit courant de choisir une fenêtre d'analyse qui permette de satisfaire ce critère

sans recours à une fenêtre de synthèse, par exemple une fenêtre de Hamming, cela pose

problème lorsque des manipulations sont eectuées dans le domaine temps-fréquence : des

discontinuités peuvent apparaître dans la reconstruction temporelle du signal, notamment

à la frontière entre les trames. Pour limiter ces discontinuités, il est préférable d'utiliser

une fenêtre de synthèse [40]. Dans notre cas, nous utiliserons la fonction sinus pour les

deux fenêtres, avec un pasH =N/2.

Les équations (3.2) et (3.3) peuvent être réécrites dans le domaine temps-fréquence :

x(t, f) =

I−1

X

i=0

c

(t, f) +n

⁽^{t, f}⁾^. (3.10)

Sous l'hypothèse de bande étroite, c'est-à-dire si la fenêtre d'analyse est susamment

grande par rapport au temps caractéristique de réverbération, la convolution dans (3.3)

peut être approchée par une multiplication dans le domaine fréquentiel :

c

(t, f) =h

(f)t

(t, f), (3.11)

où h

(f) est la transformée de Fourier discrète de tailleN de h

(n). En pratique, cette

hypothèse est rarement vériée [41,42]. Nous baserons notre travail sur l'équation issue

de (3.4)

x(t, f) =s(t, f) +n(t, f). (3.12)

Dans le document Localisation et rehaussement de sources de parole au format Ambisonique (Page 42-45)

3. État de l'art 19

3.2. Rehaussement de la parole

3.2.1. Dénition du problème

Séparation de sources et rehaussement de la parole Dans une situation de cocktail

party, les voix de plusieurs locuteurs se mêlent dans un environnement bruyant et

réver-bérant (voir Figure3.2). Face à ce problème, plusieurs objectifs peuvent être poursuivis :

si l'on cherche à obtenir les signaux audio séparés de tous les locuteurs, on parle de

sépa-ration de sources. Si le but est de nettoyer un ou plusieurs signaux de parole, ce qui

peut inclure le débruitage et la déréverbération en plus de la séparation de sources, on

parle de rehaussement de la parole [36]. Les signaux séparés ou rehaussés peuvent être

destinés à l'écoute ou à un post-traitement tel que la reconnaissance vocale.

Dans le cas d'un signal destiné à l'écoute, une simple erreur quadratique entre le signal

visé et le signal estimé est rarement pertinente. Plusieurs indicateurs estimant le degré

de séparation et de distorsion du signal ont été proposés [37]. Le rapport signal sur

interférences mesure le rapport de puissance entre le signal cible et les interférences ou

le bruit provenant d'autres sources sonores. Le rapport signal sur artefacts évalue la

quantité de bruits musicaux présents dans le signal estimé.

Dans notre cas, on considère un problème de rehaussement avec un seul locuteur cible.

L'objectif est ici la reconnaissance vocale. La qualité perceptive du signal de parole estimé

importe nalement peu ; la métrique nale s'appuie sur la validité de la transcription de

celui-ci, mesurée par le taux d'erreur sur les mots, ou WER, déni dans la partie5.2.5.

3.2. Rehaussement de la parole 23

Exemple de cocktail party : un goûter

d'anniversaire avec deux enfants

enre-gistrés par deux microphones.

Formulation temporelle D'un point de vue mathématique, la situation de cocktail party

peut être décrite par l'équation

x(n) =

X

c

(n) +n

(n) (3.2)

où nest un échantillon temporel donné,x(n)est le signal multicanal capté comprenant

J canaux (dans le cas du FOA, J = 4), I est le nombre de sources présentes dans

le mélange, les c

(n) sont les contributions multicanales de chaque source au mélange

appelées images spatiales des sources etn

(n) est un bruit additionnel provenant

de sources spatialement diuses ou de la mesure. Lesc

(n) résultent de la propagation

acoustique des signaux émis par les sources jusqu'au point de mesure modélisée par une

convolution :

c

(n) =

X

h

(m)∗t

(n−m). (3.3)

h

(m)est le vecteur des réponses impulsionnelles caractérisant le chemin acoustique entre

la source i et l'antenne de microphones et t

(n) est le signal émis par la source i. On

considère les sources immobiles à l'échelle du temps d'analyse,h

(m) est donc constant

au cours du temps.

La séparation de sources vise à reconstituer soit les images spatialesc

(n), soit les signaux

émist

(n) [38].

Pour notre application de rehaussement de la parole, si la métrique est claire (la validité

de la transcription), le choix du signal intermédiaire que l'on vise à isoler n'est pas

évident. On peut chercher à reconstituer c

(n), ou bien sa version déréverbérée t

(n),

ou encore un canal de c

(n), puisqu'il sut d'un signal monocanal pour procéder à la

RAP. Cet objectif intermédiaire dépend notamment du système de RAP utilisé, plus ou

moins robuste à la réverbération, aux distorsions, au bruit ambiant ou aux interférences

24 Chapitre 3. État de l'art

directionnelles. On peut poser le problème de la façon suivante :

x(n) =s(n) +n(n) (3.4)

où s(n) est un signal multicanal contenant le locuteur cible, tandis que n(n) contient

tous les locuteurs interférents et le bruit dius. Selon l'application, on cherche à estimer

s(n)ou un signal monocanal sous-jacent, par exemple l'un de ses canaux.

Formulation temps-fréquence Dans le paragraphe précédent, le problème est formulé

dans le domaine temporel. En pratique, il est plus facile de travailler dans le domaine

temps-fréquence qui permet de faire apparaître la parcimonie des signaux et facilite leur

séparation [39].

La représentation choisie est généralement la TFCT. L'étape d'analyse consiste à

⁽ⁿ⁾ (3.2)

⁽ⁿ⁾ est un bruit additionnel provenant

(n) = ¹

s(n) =^X

⁽^{t, f}⁾^. (3.10)