4. Localisation de sources par réseau de neurones convolutif et récurrent 53
4.2. Protocole expérimental
4.2.3. Ensembles d'apprentissage et de validation
SRIRs simulées pour l'apprentissage Pour l'apprentissage, il est nécessaire de
consti-tuer une base de données d'exemples audio qui permette au réseau de généraliser en
conditions de test réelles. Deux approches sont possibles pour cela :
Utiliser une base d'enregistrements réels. Le réseau est ainsi confronté pendant
l'apprentissage à toute la complexité du problème, y compris des phénomènes qui
ne sont pas toujours modélisés par des SRIRs simulées comme par exemple la
diraction ou la directivité des sources. Cependant, acquérir une base de données
de taille conséquente est très coûteux en temps et en matériel, en particulier si l'on
veut varier les conditions de mesure (lieu d'enregistrement, personnes eectuant les
manipulations, sources audio, matériel de capture...). De plus, ces enregistrements
sont soumis à une incertitude lors de l'acquisition de la vérité terrain, ce qui peut
compromettre l'apprentissage.
Utiliser une base constituée à partir de SRIRs simulées. La simulation utilise un
modèle simplié par rapport à la réalité, mais il est possible de générer un grand
nombre de SRIRs avec des conditions variées pour toutes les directions d'arrivée
possibles.
Une comparaison qualitative d'une SRIR réelle et d'une SRIR simulée est présentée sur
la Figure4.3. On observe que la SRIR simulée représente le champ direct et les premières
réexions avec des pics très nets, tandis que la SRIR réelle est beaucoup plus bruitée.
Nous avons choisi la dernière méthode en synthétisant une base de SRIRs selon la
mé-thode présentée dans l'Algorithme1. Nous utilisons la méthode image [135] implémentée
dans le générateur de Habets [179], que nous avons modié an de générer des SRIRs
selon l'encodage FOA parfait (2.25).
Puisque le but nal est d'estimer les directions d'arrivée des sources présentes dans un
mé-lange, il est nécessaire que tout l'espace des directions sur la sphère unité soit représenté
dans la base de données. Pour cela, nous commençons par sélectionner aléatoirement une
direction sur la sphère (appeléeDoA
0dans l'Algorithme 1) en utilisant un tirage
quasi-uniforme
1. Il est important de sélectionner DoA
0en premier an qu'aucune contrainte,
comme par exemple la géométrie de la salle, ne puisse biaiser l'uniformité du tirage. Les
caractéristiques de la salle sont choisies dans un deuxième temps : les dimensions
hori-zontales sont tirées aléatoirement entre 2,5 et 10 mètres, la hauteur entre 2 et 3 mètres et
le TR60 entre 200 et 800 millisecondes. L'antenne de microphones est positionnée à plus
de 0,5 mètre des parois et la distance entre les sources et l'antenne est xée entre 1 et 3
mètres. Enn, dans un dernier temps, deux autres sources sont tirées aléatoirement dans
la salle, ce qui permet de constituer des mélanges comprenant jusqu'à trois sources. Les
directions ne sont donc pas uniformément représentées dans l'ensemble d'apprentissage,
mais elles le sont sur au moins un tiers de l'ensemble, ce qui permet de s'assurer que
toutes les directions possibles seront rencontrées un nombre signicatif de fois. Les
his-togrammes récapitulant les tirages aléatoires pour l'ensemble des SRIRs d'apprentissage
sont présentés en AnnexeB.
58 Chapitre 4. Localisation de sources par réseau de neurones convolutif et récurrent
Figure 4.3. Comparaison entre une SRIR FOA réelle (gauche) et simulée (droite). La SRIR réelle correspond à une source située à (71◦, -5◦) et la SRIR simulée à une source située à (77◦, 5◦). Les salles sont, de fait, diérentes.
Au total, 42 900 salles sont générées, avec 3 SRIRs dans chaque salle, pour un total de
128 700 SRIRs. Les graines aléatoires sont imposées à chaque itération an de s'assurer
que toutes les salles et SRIRs sont diérentes.
Signaux audio pour l'apprentissage L'ensemble d'apprentissage est constitué de deux
sous-ensembles :
Une source avec du bruit dius : ce sous-ensemble contient des extraits audio longs
de 1 s contenant une seule source ponctuelle et du bruit dius. Les scènes sonores
sont générées en convoluant chacune des 128 700 SRIRs de la base simulée avec un
signal de parole. Le bruit dius est synthétisé par convolution entre un bruit de
foule et une SRIR diuse. Pour chaque bruit dius, on crée une SRIR diuse en
faisant la moyenne des parties diuses de deux SRIRs piochées aléatoirement dans
une base de SRIRs enregistrées dans une salle réverbérante. Le SNR entre la source
ponctuelle et le bruit dius est tiré aléatoirement entre 0 et 20 dB.
Deux sources avec du bruit dius : ici, tous les extraits audio contiennent deux
sources et du bruit dius. Chacune des SRIRs de la base est utilisée tour à tour
pour générer l'image spatiale de la première source, tandis que la deuxième est
générée avec une des deux autres SRIRs correspondant à la même conguration de
salle, choisie au hasard. Les signaux de parole piochés pour chacune des deux sources
4.2. Protocole expérimental 59
Algorithme 1 Protocole pour déterminer les paramètres des SRIRs simulées. δ est la
distance angulaire (4.4).
1:
pour toute direction DoA
0tiré aléatoirement sur la sphère :
2:
répéter
3:procédure Salle
4:l=rand(2,5; 10)
5:L=rand(2,5; 10) . en mètres
6:h=rand(2; 3)
7:T R
60=rand(0,2; 0,8) .en secondes
8:n procédure
9:10:
procédure Position du micro et de la première source
11:
d
mic−srcs=rand(1; 3) .en mètres, pour toutes les sources
12:
x
0, y
0, z
0∈salle
13:
x
mic, y
mic, z
mic∈ salle . à plus de 0,5 m des murs
14:
tels que : arg(x
mic−x
0, y
mic−y
0, z
mic−z
0) =DoA
015:
n procédure
16:
17:
procédure Positions des autres sources
18:
Tirer aléatoirementDoA
1,219:
avec δ(DoA
i, DoA
j)>10
◦pour tout (i, j)∈ {0,1,2}
220:
n procédure
21:
jusqu'à ce qu' une conguration plausible soit trouvée.
22:
n pour
durent 1 s et sont diérents l'un de l'autre. Le rapport d'énergie entre la première
et la deuxième source (SIR, signal-to-interference ratio) est tiré aléatoirement entre
0 et 10 dB. La première source est donc presque toujours prépondérante dans le
mélange. Un bruit de foule dius est ajouté avec un SNR de 20 dB par rapport à
la première source.
Pour chacun des deux ensembles, on crée donc 128 700 mélanges de 1 s. Les signaux de
parole sont extraits d'un sous-ensemble du corpus Bref [180]. Ce sous-ensemble contient
5 h de parole prononcée par 44 locuteurs diérents. Les bruits de foule sont piochés
aléa-toirement parmi un ensemble de 33 minutes sélectionné manuellement sur Freesound
2.
Deux sous-ensembles de validation (à une et deux sources) permettant d'ajuster les
hyper-paramètres sont générés de la même façon, avec pour chaque ensemble 1 287 SRIRs
dif-férentes de celles de l'ensemble d'apprentissage mais synthétisées dans les mêmes
condi-tions. Les locuteurs et bruits sont issus de Bref et Freesound mais n'ont pas été rencontrés
à l'apprentissage.
Le réseau est d'abord appris avec l'ensemble à une source jusqu'à ce que les performances
ne s'améliorent plus sur l'ensemble de validation à une source. L'apprentissage est ensuite
60 Chapitre 4. Localisation de sources par réseau de neurones convolutif et récurrent
ané sur l'ensemble à deux sources, avec une interruption de l'apprentissage lorsque les
performances ne s'améliorent plus sur l'ensemble de validation à deux sources. Au total,
514 800 séquences sont utilisées pour l'apprentissage, pour un total de près de 115 h de
signal.
Dans le document
Localisation et rehaussement de sources de parole au format Ambisonique
(Page 77-80)