• Aucun résultat trouvé

Ensembles d'apprentissage et de validation

4. Localisation de sources par réseau de neurones convolutif et récurrent 53

4.2. Protocole expérimental

4.2.3. Ensembles d'apprentissage et de validation

SRIRs simulées pour l'apprentissage Pour l'apprentissage, il est nécessaire de

consti-tuer une base de données d'exemples audio qui permette au réseau de généraliser en

conditions de test réelles. Deux approches sont possibles pour cela :

Utiliser une base d'enregistrements réels. Le réseau est ainsi confronté pendant

l'apprentissage à toute la complexité du problème, y compris des phénomènes qui

ne sont pas toujours modélisés par des SRIRs simulées comme par exemple la

diraction ou la directivité des sources. Cependant, acquérir une base de données

de taille conséquente est très coûteux en temps et en matériel, en particulier si l'on

veut varier les conditions de mesure (lieu d'enregistrement, personnes eectuant les

manipulations, sources audio, matériel de capture...). De plus, ces enregistrements

sont soumis à une incertitude lors de l'acquisition de la vérité terrain, ce qui peut

compromettre l'apprentissage.

Utiliser une base constituée à partir de SRIRs simulées. La simulation utilise un

modèle simplié par rapport à la réalité, mais il est possible de générer un grand

nombre de SRIRs avec des conditions variées pour toutes les directions d'arrivée

possibles.

Une comparaison qualitative d'une SRIR réelle et d'une SRIR simulée est présentée sur

la Figure4.3. On observe que la SRIR simulée représente le champ direct et les premières

réexions avec des pics très nets, tandis que la SRIR réelle est beaucoup plus bruitée.

Nous avons choisi la dernière méthode en synthétisant une base de SRIRs selon la

mé-thode présentée dans l'Algorithme1. Nous utilisons la méthode image [135] implémentée

dans le générateur de Habets [179], que nous avons modié an de générer des SRIRs

selon l'encodage FOA parfait (2.25).

Puisque le but nal est d'estimer les directions d'arrivée des sources présentes dans un

mé-lange, il est nécessaire que tout l'espace des directions sur la sphère unité soit représenté

dans la base de données. Pour cela, nous commençons par sélectionner aléatoirement une

direction sur la sphère (appeléeDoA

0

dans l'Algorithme 1) en utilisant un tirage

quasi-uniforme

1

. Il est important de sélectionner DoA

0

en premier an qu'aucune contrainte,

comme par exemple la géométrie de la salle, ne puisse biaiser l'uniformité du tirage. Les

caractéristiques de la salle sont choisies dans un deuxième temps : les dimensions

hori-zontales sont tirées aléatoirement entre 2,5 et 10 mètres, la hauteur entre 2 et 3 mètres et

le TR60 entre 200 et 800 millisecondes. L'antenne de microphones est positionnée à plus

de 0,5 mètre des parois et la distance entre les sources et l'antenne est xée entre 1 et 3

mètres. Enn, dans un dernier temps, deux autres sources sont tirées aléatoirement dans

la salle, ce qui permet de constituer des mélanges comprenant jusqu'à trois sources. Les

directions ne sont donc pas uniformément représentées dans l'ensemble d'apprentissage,

mais elles le sont sur au moins un tiers de l'ensemble, ce qui permet de s'assurer que

toutes les directions possibles seront rencontrées un nombre signicatif de fois. Les

his-togrammes récapitulant les tirages aléatoires pour l'ensemble des SRIRs d'apprentissage

sont présentés en AnnexeB.

58 Chapitre 4. Localisation de sources par réseau de neurones convolutif et récurrent

Figure 4.3. Comparaison entre une SRIR FOA réelle (gauche) et simulée (droite). La SRIR réelle correspond à une source située à (71, -5) et la SRIR simulée à une source située à (77, 5). Les salles sont, de fait, diérentes.

Au total, 42 900 salles sont générées, avec 3 SRIRs dans chaque salle, pour un total de

128 700 SRIRs. Les graines aléatoires sont imposées à chaque itération an de s'assurer

que toutes les salles et SRIRs sont diérentes.

Signaux audio pour l'apprentissage L'ensemble d'apprentissage est constitué de deux

sous-ensembles :

Une source avec du bruit dius : ce sous-ensemble contient des extraits audio longs

de 1 s contenant une seule source ponctuelle et du bruit dius. Les scènes sonores

sont générées en convoluant chacune des 128 700 SRIRs de la base simulée avec un

signal de parole. Le bruit dius est synthétisé par convolution entre un bruit de

foule et une SRIR diuse. Pour chaque bruit dius, on crée une SRIR diuse en

faisant la moyenne des parties diuses de deux SRIRs piochées aléatoirement dans

une base de SRIRs enregistrées dans une salle réverbérante. Le SNR entre la source

ponctuelle et le bruit dius est tiré aléatoirement entre 0 et 20 dB.

Deux sources avec du bruit dius : ici, tous les extraits audio contiennent deux

sources et du bruit dius. Chacune des SRIRs de la base est utilisée tour à tour

pour générer l'image spatiale de la première source, tandis que la deuxième est

générée avec une des deux autres SRIRs correspondant à la même conguration de

salle, choisie au hasard. Les signaux de parole piochés pour chacune des deux sources

4.2. Protocole expérimental 59

Algorithme 1 Protocole pour déterminer les paramètres des SRIRs simulées. δ est la

distance angulaire (4.4).

1:

pour toute direction DoA

0

tiré aléatoirement sur la sphère :

2:

répéter

3:

procédure Salle

4:

l=rand(2,5; 10)

5:

L=rand(2,5; 10) . en mètres

6:

h=rand(2; 3)

7:

T R

60

=rand(0,2; 0,8) .en secondes

8:

n procédure

9:

10:

procédure Position du micro et de la première source

11:

d

mic−srcs

=rand(1; 3) .en mètres, pour toutes les sources

12:

x

0

, y

0

, z

0

∈salle

13:

x

mic

, y

mic

, z

mic

∈ salle . à plus de 0,5 m des murs

14:

tels que : arg(x

mic

−x

0

, y

mic

−y

0

, z

mic

−z

0

) =DoA

0

15:

n procédure

16:

17:

procédure Positions des autres sources

18:

Tirer aléatoirementDoA

1,2

19:

avec δ(DoA

i

, DoA

j

)>10

pour tout (i, j)∈ {0,1,2}

2

20:

n procédure

21:

jusqu'à ce qu' une conguration plausible soit trouvée.

22:

n pour

durent 1 s et sont diérents l'un de l'autre. Le rapport d'énergie entre la première

et la deuxième source (SIR, signal-to-interference ratio) est tiré aléatoirement entre

0 et 10 dB. La première source est donc presque toujours prépondérante dans le

mélange. Un bruit de foule dius est ajouté avec un SNR de 20 dB par rapport à

la première source.

Pour chacun des deux ensembles, on crée donc 128 700 mélanges de 1 s. Les signaux de

parole sont extraits d'un sous-ensemble du corpus Bref [180]. Ce sous-ensemble contient

5 h de parole prononcée par 44 locuteurs diérents. Les bruits de foule sont piochés

aléa-toirement parmi un ensemble de 33 minutes sélectionné manuellement sur Freesound

2

.

Deux sous-ensembles de validation (à une et deux sources) permettant d'ajuster les

hyper-paramètres sont générés de la même façon, avec pour chaque ensemble 1 287 SRIRs

dif-férentes de celles de l'ensemble d'apprentissage mais synthétisées dans les mêmes

condi-tions. Les locuteurs et bruits sont issus de Bref et Freesound mais n'ont pas été rencontrés

à l'apprentissage.

Le réseau est d'abord appris avec l'ensemble à une source jusqu'à ce que les performances

ne s'améliorent plus sur l'ensemble de validation à une source. L'apprentissage est ensuite

60 Chapitre 4. Localisation de sources par réseau de neurones convolutif et récurrent

ané sur l'ensemble à deux sources, avec une interruption de l'apprentissage lorsque les

performances ne s'améliorent plus sur l'ensemble de validation à deux sources. Au total,

514 800 séquences sont utilisées pour l'apprentissage, pour un total de près de 115 h de

signal.