L'apprentissage neuronal - Localisation de sources sonores

3. État de l'art 19

3.3. Localisation de sources sonores

3.3.4. L'apprentissage neuronal

Les réseaux de neurones profonds ont été appliqués avec succès à de nombreux problèmes

en audio. Pour l'application qui nous intéresse, les assistants vocaux domestiques, ils ont

été appliqués dans l'ordre inverse de la chaîne de traitement. D'abord utilisés pour la

reconnaissance vocale (partie 3.1), puis le rehaussement de la parole (partie 3.2.4), ce

n'est que récemment qu'ils ont été utilisés pour la localisation, en premier lieu grâce la

robotique [142,143, 151, 152]. L'utilisation de réseaux de neurones profonds permet de

modéliser une réalité acoustique diverse, rendant les modèles robustes aux conditions

acoustiques diciles incluant du bruit et de la réverbération [142].

Architectures Diverses architectures ont été testées et sont résumées dans le Tableau3.1.

Les premiers réseaux utilisent simplement des couches FF [142, 146]. Ils ont par la

suite été remplacés par des réseaux convolutifs. Parmi les variantes de ces approches,

les réseaux résiduels permettent l'apprentissage de réseaux très profonds [151, 156] ; les

convolutions dilatées augmentent la taille du champ récepteur du réseau sans augmenter

le nombre de paramètres (de façon intéressante, Chakrabarty et Habets [149] les

uti-lisent pour augmenter le nombre de microphones de l'antenne, et non pour prendre en

compte un contexte temporel important) ; les réseaux de neurones convolutifs et

récur-rents (CRNN) [147, 148, 150, 153,157] prennent en compte le caractère séquentiel des

signaux audios. Aucun système ne s'appuie cependant sur des réseaux purement

récur-rents.

Les travaux de Comminiello [150] considèrent les échantillons temporels des signaux FOA

comme des quaternions et utilisent une adaptation des couches convolutives à cette

re-présentation dans un Q-CRNN (quaternion convolutional and recurrent neural network).

Paramétrisation des données De multiples paramétrisations des signaux sont utilisées

dans la littérature. Elles dépendent du mode de capture, auquel succède en général un

post-traitement explicite pour transformer les données brutes. Certains réseaux

s'ap-puient simplement sur les méthodes classiques : ils utilisent en entrée les corrélations

croisées généralisées entre les microphones [142,146], les vecteurs propres des matrices

de corrélation (comme MUSIC) [143], ou encore les résultats d'un SRP an d'en optimiser

la normalisation [154]. Grâce aux couches convolutives, d'autres sont capables d'extraire

l'information de données de plus bas niveau, comme les spectrogrammes [147, 151] ou

leur phase uniquement [144]. Certains travaux explorent même la possibilité d'utiliser des

données temporelles brutes [150,156]. Cependant, plus les données d'entrée sont de bas

niveau, plus le modèle doit être complexe et plus le corpus d'apprentissage et la puissance

de calcul doivent être importants. Il est donc (pour l'instant) intéressant d'utiliser des

données d'entrée adaptées à la localisation, par exemple les indices binauraux ITD et

ILD [152], les cosinus et sinus des diérences de phase [155], ou les vecteurs d'intensité

acoustique [153].

3.3. Localisation de sources sonores 45

Espace des directions d'arrivée L'utilisation des réseaux de neurones ne résout pas

pour autant le problème de la localisation. Pour assurer la généralisation, un maximum

de situations doivent être rencontrées lors de l'apprentissage. En plus des conditions

acoustiques variées précédemment citées, cela implique de rencontrer tout l'éventail des

directions à estimer. Plus il est grand, plus la capacité de modélisation doit être

impor-tante. Pour cette raison, la plupart des techniques d'apprentissage supervisées (neuronales

ou non) se limitent à estimer l'azimut, sans considérer la sphère unité complète ce

qui est de toute façon impossible géométriquement pour les antennes de microphones

linéaires. Or, ajouter un degré de liberté complique signicativement le problème. Les

travaux d'Adavanne [147,148] s'intéressent malgré tout à ce cas (voir Tableau 3.1). La

scène y est captée au format FOA, dont l'isotropie est un avantage majeur.

Mode d'estimation Une question se pose lorsque l'on traite un problème par

appren-tissage automatique : doit-il être considéré comme un problème de classication ou de

régression ? Étant donné le caractère ordonné et continu de l'azimut et de l'élévation,

l'es-timation des directions d'arrivée semble naturellement être un problème de régression.

Le fait que l'azimut soit cyclique doit être pris en compte. Pour cela, il a été proposé

d'estimer les coordonnées cartésiennes (x, y, z) sur la sphère unité correspondant à la

direction (θ, φ) [148].

Cependant, comme le montre le Tableau3.1, une large majorité des systèmes considèrent

la localisation comme un problème de classication. Il a été raporté dans une note de

bas de page dans l'article de Xiao et al. [142] que les résultats sont en eet meilleurs de

cette façon. Dans ce cas, l'espace des directions d'arrivée est discrétisé en n

_DOA

classes.

Puisqu'aucune relation d'ordre n'apporte d'information complémentaire, il est nécessaire

d'avoir un grand nombre d'exemples d'apprentissage pour chaque classe [153]. Pour

véri-er la généralisation, le système doit être testé y compris pour des directions qui sont pas

exactement égales à celles représentant les classes. L'apprentissage doit donc également

inclure des exemples de telles directions d'arrivées.

An de réintroduire une structure dans l'espace discret d'arrivée, au lieu d'un résultat

binaire pour chaque classe, il a été proposé d'estimer la probabilité de chacune d'entres

elles [151]. Les classes voisines de la classe réelle (au sens de la distance angulaire) se

voient alors attribuer une probabilité non nulle, ce qui est censé aider l'apprentissage.

Les résultats ne sont pas comparés à ceux obtenus en considérant une cible binaire. Nous

avons eectué une expérience similaire, présentée dans la partie4.5.4.

Enn, traiter la localisation comme un problème de classication permet de s'attaquer à

un cas important : la localisation simultanée de plusieurs sources.

Le problème des sources multiples La localisation de plusieurs sources simultanées

soulève deux types de dicultés. D'une part, le problème est intrinsèquement plus dicile

à résoudre : il est donc nécessaire d'utiliser des réseaux avec une capacité d'apprentissage

susante et de les confronter à tous les cas de gure possibles lors de l'apprentissage.

D'autre part, cela présente également un dé pour concevoir l'architecture du réseau :

comment estimer plusieurs directions d'arrivée ?

46 Chapitre 3. État de l'art

Avec la régression, il serait nécessaire d'intégrer la connaissance du nombre de sources

n

src

dans l'architecture même du réseau, qui aurait alors n

src

×2 sorties (pour

l'azi-mut et l'élévation). L'ensemble des paires d'étiquettes possibles doit être ordonné an

d'éviter toute ambiguïté d'étiquette qui perturberait l'apprentissage (Figure3.8a). Dans

la version proposée par Adavanne et al. [148], la localisation est jointe à une tâche de

classication du type d'évènement sonore. Une direction d'arrivée est alors estimée pour

chaque type d'évènement, en utilisant (x, y, z) = (0,0,0)lorsqu'un type n'est pas

repré-senté. Cependant, il ne peut y avoir de cette façon plus d'une source localisée par type

d'évènement. Cette méthode n'est donc pas adaptée à la situation multi-locuteurs.

Figure 3.8. Implémentations permettant l'estimation de plusieurs directions. Dans cet exemple, pour plus de lisibilité, seul l'azimut est estimé. Pour la classication,

n_DOA = 5. (a) Estimation par régression, (b) par classicationn_DOA×n_src neu-rones en sortie [143], (c) avec un nombre de classes xe égal àn_DOA.

La plupart des systèmes de localisation adoptent une approche de classication.

Connais-sant le nombre de sources, Takeda et al. [143] proposent une architecture avecn

_DOA

×n

src

sorties (Figure3.8b), an d'avoir exactement une distribution de probabilité par source.

Il est alors nécessaire d'imposer un ordre dans les étiquettes pour éviter le problème

d'am-biguïté d'étiquettes et d'apprendre un réseau pour chaque conguration (n

_DOA

, n

src

).

Les autres systèmes utilisent un réseau avec n

_DOA

sorties (Figure 3.8c), où les sorties

correspondant à la direction d'une source doivent être proche 1 et les autres proches de

0. Pour plusieurs sources, cela ne correspond plus à une distribution de probabilité ; il est

donc impossible d'utiliser la non-linéarité softmax avant la dernière couche et la fonction

de coût de corrélation croisée associée, qui permettent pourtant un apprentissage ecace.

On utilise à la place la non-linéarité sigmoïde. Elle peut être associée à la fonction de

coût aux moindres carrés MSE (mean square error) ou à l'entropie croisée binaire ou

multiclasse. Lorsque le nombre de sources est connu, on peut sélectionner de manière

adéquate les directions les plus vraisemblables parmi les estimations (à supposer que

toutes les sources aient des directions diérentes). Cette approche a un avantage majeur

par rapport à celle de Takeda et al. [143] : un seul réseau est nécessaire quel que soit le

3.4. Visualisation 47

Dans le document Localisation et rehaussement de sources de parole au format Ambisonique (Page 64-67)