3. État de l'art 19
3.3. Localisation de sources sonores
3.3.4. L'apprentissage neuronal
Les réseaux de neurones profonds ont été appliqués avec succès à de nombreux problèmes
en audio. Pour l'application qui nous intéresse, les assistants vocaux domestiques, ils ont
été appliqués dans l'ordre inverse de la chaîne de traitement. D'abord utilisés pour la
reconnaissance vocale (partie 3.1), puis le rehaussement de la parole (partie 3.2.4), ce
n'est que récemment qu'ils ont été utilisés pour la localisation, en premier lieu grâce la
robotique [142,143, 151, 152]. L'utilisation de réseaux de neurones profonds permet de
modéliser une réalité acoustique diverse, rendant les modèles robustes aux conditions
acoustiques diciles incluant du bruit et de la réverbération [142].
Architectures Diverses architectures ont été testées et sont résumées dans le Tableau3.1.
Les premiers réseaux utilisent simplement des couches FF [142, 146]. Ils ont par la
suite été remplacés par des réseaux convolutifs. Parmi les variantes de ces approches,
les réseaux résiduels permettent l'apprentissage de réseaux très profonds [151, 156] ; les
convolutions dilatées augmentent la taille du champ récepteur du réseau sans augmenter
le nombre de paramètres (de façon intéressante, Chakrabarty et Habets [149] les
uti-lisent pour augmenter le nombre de microphones de l'antenne, et non pour prendre en
compte un contexte temporel important) ; les réseaux de neurones convolutifs et
récur-rents (CRNN) [147, 148, 150, 153,157] prennent en compte le caractère séquentiel des
signaux audios. Aucun système ne s'appuie cependant sur des réseaux purement
récur-rents.
Les travaux de Comminiello [150] considèrent les échantillons temporels des signaux FOA
comme des quaternions et utilisent une adaptation des couches convolutives à cette
re-présentation dans un Q-CRNN (quaternion convolutional and recurrent neural network).
Paramétrisation des données De multiples paramétrisations des signaux sont utilisées
dans la littérature. Elles dépendent du mode de capture, auquel succède en général un
post-traitement explicite pour transformer les données brutes. Certains réseaux
s'ap-puient simplement sur les méthodes classiques : ils utilisent en entrée les corrélations
croisées généralisées entre les microphones [142,146], les vecteurs propres des matrices
de corrélation (comme MUSIC) [143], ou encore les résultats d'un SRP an d'en optimiser
la normalisation [154]. Grâce aux couches convolutives, d'autres sont capables d'extraire
l'information de données de plus bas niveau, comme les spectrogrammes [147, 151] ou
leur phase uniquement [144]. Certains travaux explorent même la possibilité d'utiliser des
données temporelles brutes [150,156]. Cependant, plus les données d'entrée sont de bas
niveau, plus le modèle doit être complexe et plus le corpus d'apprentissage et la puissance
de calcul doivent être importants. Il est donc (pour l'instant) intéressant d'utiliser des
données d'entrée adaptées à la localisation, par exemple les indices binauraux ITD et
ILD [152], les cosinus et sinus des diérences de phase [155], ou les vecteurs d'intensité
acoustique [153].
3.3. Localisation de sources sonores 45
Espace des directions d'arrivée L'utilisation des réseaux de neurones ne résout pas
pour autant le problème de la localisation. Pour assurer la généralisation, un maximum
de situations doivent être rencontrées lors de l'apprentissage. En plus des conditions
acoustiques variées précédemment citées, cela implique de rencontrer tout l'éventail des
directions à estimer. Plus il est grand, plus la capacité de modélisation doit être
impor-tante. Pour cette raison, la plupart des techniques d'apprentissage supervisées (neuronales
ou non) se limitent à estimer l'azimut, sans considérer la sphère unité complète ce
qui est de toute façon impossible géométriquement pour les antennes de microphones
linéaires. Or, ajouter un degré de liberté complique signicativement le problème. Les
travaux d'Adavanne [147,148] s'intéressent malgré tout à ce cas (voir Tableau 3.1). La
scène y est captée au format FOA, dont l'isotropie est un avantage majeur.
Mode d'estimation Une question se pose lorsque l'on traite un problème par
appren-tissage automatique : doit-il être considéré comme un problème de classication ou de
régression ? Étant donné le caractère ordonné et continu de l'azimut et de l'élévation,
l'es-timation des directions d'arrivée semble naturellement être un problème de régression.
Le fait que l'azimut soit cyclique doit être pris en compte. Pour cela, il a été proposé
d'estimer les coordonnées cartésiennes (x, y, z) sur la sphère unité correspondant à la
direction (θ, φ) [148].
Cependant, comme le montre le Tableau3.1, une large majorité des systèmes considèrent
la localisation comme un problème de classication. Il a été raporté dans une note de
bas de page dans l'article de Xiao et al. [142] que les résultats sont en eet meilleurs de
cette façon. Dans ce cas, l'espace des directions d'arrivée est discrétisé en n
DOAclasses.
Puisqu'aucune relation d'ordre n'apporte d'information complémentaire, il est nécessaire
d'avoir un grand nombre d'exemples d'apprentissage pour chaque classe [153]. Pour
véri-er la généralisation, le système doit être testé y compris pour des directions qui sont pas
exactement égales à celles représentant les classes. L'apprentissage doit donc également
inclure des exemples de telles directions d'arrivées.
An de réintroduire une structure dans l'espace discret d'arrivée, au lieu d'un résultat
binaire pour chaque classe, il a été proposé d'estimer la probabilité de chacune d'entres
elles [151]. Les classes voisines de la classe réelle (au sens de la distance angulaire) se
voient alors attribuer une probabilité non nulle, ce qui est censé aider l'apprentissage.
Les résultats ne sont pas comparés à ceux obtenus en considérant une cible binaire. Nous
avons eectué une expérience similaire, présentée dans la partie4.5.4.
Enn, traiter la localisation comme un problème de classication permet de s'attaquer à
un cas important : la localisation simultanée de plusieurs sources.
Le problème des sources multiples La localisation de plusieurs sources simultanées
soulève deux types de dicultés. D'une part, le problème est intrinsèquement plus dicile
à résoudre : il est donc nécessaire d'utiliser des réseaux avec une capacité d'apprentissage
susante et de les confronter à tous les cas de gure possibles lors de l'apprentissage.
D'autre part, cela présente également un dé pour concevoir l'architecture du réseau :
comment estimer plusieurs directions d'arrivée ?
46 Chapitre 3. État de l'art
Avec la régression, il serait nécessaire d'intégrer la connaissance du nombre de sources
n
srcdans l'architecture même du réseau, qui aurait alors n
src×2 sorties (pour
l'azi-mut et l'élévation). L'ensemble des paires d'étiquettes possibles doit être ordonné an
d'éviter toute ambiguïté d'étiquette qui perturberait l'apprentissage (Figure3.8a). Dans
la version proposée par Adavanne et al. [148], la localisation est jointe à une tâche de
classication du type d'évènement sonore. Une direction d'arrivée est alors estimée pour
chaque type d'évènement, en utilisant (x, y, z) = (0,0,0)lorsqu'un type n'est pas
repré-senté. Cependant, il ne peut y avoir de cette façon plus d'une source localisée par type
d'évènement. Cette méthode n'est donc pas adaptée à la situation multi-locuteurs.
Figure 3.8. Implémentations permettant l'estimation de plusieurs directions. Dans cet exemple, pour plus de lisibilité, seul l'azimut est estimé. Pour la classication,
nDOA = 5. (a) Estimation par régression, (b) par classicationnDOA×nsrc neu-rones en sortie [143], (c) avec un nombre de classes xe égal ànDOA.
La plupart des systèmes de localisation adoptent une approche de classication.
Connais-sant le nombre de sources, Takeda et al. [143] proposent une architecture avecn
DOA×n
srcsorties (Figure3.8b), an d'avoir exactement une distribution de probabilité par source.
Il est alors nécessaire d'imposer un ordre dans les étiquettes pour éviter le problème
d'am-biguïté d'étiquettes et d'apprendre un réseau pour chaque conguration (n
DOA, n
src).
Les autres systèmes utilisent un réseau avec n
DOAsorties (Figure 3.8c), où les sorties
correspondant à la direction d'une source doivent être proche 1 et les autres proches de
0. Pour plusieurs sources, cela ne correspond plus à une distribution de probabilité ; il est
donc impossible d'utiliser la non-linéarité softmax avant la dernière couche et la fonction
de coût de corrélation croisée associée, qui permettent pourtant un apprentissage ecace.
On utilise à la place la non-linéarité sigmoïde. Elle peut être associée à la fonction de
coût aux moindres carrés MSE (mean square error) ou à l'entropie croisée binaire ou
multiclasse. Lorsque le nombre de sources est connu, on peut sélectionner de manière
adéquate les directions les plus vraisemblables parmi les estimations (à supposer que
toutes les sources aient des directions diérentes). Cette approche a un avantage majeur
par rapport à celle de Takeda et al. [143] : un seul réseau est nécessaire quel que soit le
3.4. Visualisation 47
Dans le document
Localisation et rehaussement de sources de parole au format Ambisonique
(Page 64-67)