Résultats pour une source - Localisation de sources par réseau de neurones convolutif et récurr

4. Localisation de sources par réseau de neurones convolutif et récurrent 53

4.3. Résultats

4.3.1. Résultats pour une source

Le Tableau 4.1 permet de comparer les résultats des trois systèmes sur les ensembles

de test à une source décrits dans la partie 4.2.4. Ces résultats peuvent également être

visualisés sur les diagrammes en violon de la Figure 4.6.

SRIRs simulées Sur cet ensemble proche de l'ensemble d'apprentissage, on voit dans

le Tableau 4.1a que les CRNNs surpassent largement le VVM, qui ne repose pas sur

un apprentissage supervisé. Avec 58,5% de séquences classiées correctement, le

CRNN-Intensité est plus performant que le CRNN-FOA, qui en classie correctement 54,8%.

Les deux réseaux de neurones présentent très peu de résultats aberrants (c'est-à-dire

anormalement mauvais), avec une précision à 15

◦

supérieure à 95%.

Les Figures4.7aet4.7bmontrent la répartition des erreurs angulaires de chaque système

en fonction du SNR et du TR60. Pour tous les systèmes, un SNR plus faible favorise

l'apparition de résultats aberrants. En revanche, si l'on observe les trois premiers

quar-tiles, on constate que tous les systèmes sont robustes aux conditions de SNR diciles.

Concernant le TR60, les performances du VVM se détériorent régulièrement avec

l'aug-mentation du temps de réverbération, tandis que les performances des CRNNs en sont

indépendantes.

4.3. Résultats 63

Figure 4.6. Performances de localisation sur chaque ensemble de test contenant une seule source. Les boîtes montrent les premier et troisième quartiles, ainsi que la médiane. L'extrémité supérieure (respectivement inférieure) des moustaches correspond à la plus grande (respectivement la plus petite) valeur située à moins de 1,5 fois l'écart interquartile du quartile supérieur (respectivement inférieur).

(a) (b)

Figure 4.7. Performances de localisation des diérents systèmes sur l'ensemble de SRIRs si-mulées contenant une seule source (a) en fonction du SNR (b) en fonction du TR60.

SRIRs réelles Pour cet ensemble de test, les performances du VVM reportées dans

le Tableau 4.1b sont comparables à celles du CRNN-FOA. Le CRNN-Intensité leur est

supérieur, notamment en terme de précision ne, avec 28,0% des séquences localisées

avec moins de 5

◦

d'erreur, contre 24,9% pour le CRNN-FOA.

L'une des dicultés de cette salle est que les enceintes générant les sweeps sont directives,

à la diérence des sources simulées omnidirectionnelles vues lors de l'apprentissage par

les CRNNs. Ici, l'antenne de microphones peut se situer derrière l'enceinte. On observe

dans la Figure 4.8que tous les systèmes ont des résultats satisfaisants lorsque le

micro-64 Chapitre 4. Localisation de sources par réseau de neurones convolutif et récurrent

Précision (%) Err. ang. (

◦

)

Algo. <5

◦

<10

◦

<15

◦

classif. moy. méd.

VVM [127] 20,6 55,4 78,9 24,7 10,6 9,1

CRNN-FOA 48,2 87,8 95,8 54,8 7,2 5,2

CRNN-Intensité 51,2 93,3 98,1 58,5 6,2 4,9

(a) SRIRs simulées

Précision (%) Err. ang. (

◦

)

Algorithme <5

◦

<10

◦

<15

◦

classif. moy. méd.

VVM [127] 24,0 64,1 83,6 31,7 10,5 8,1

CRNN-FOA 24,9 66,4 85,3 31,3 11,2 7,7

CRNN-Intensité 28,0 71,0 89,1 36,2 10,1 7,3

(b) SRIRs réelles

Précision (%) Err. ang. (

◦

)

Algorithme <5

◦

<10

◦

<15

◦

classif. moy. méd.

VVM [127] 10,4 41,9 66,0 23,7 14,7 10,1

CRNN-FOA 22,3 60,3 81,0 36,3 11,3 7,1

CRNN-Intensité 29,1 86,1 96,4 46,3 8,1 5,7

TABLEAU 4.1. Performances de localisation des algorithmes sur les diérents ensembles de test contenant une seule source ponctuelle : (a) construit avec les SRIRs simulées, (b) construit avec les SRIRs réelles, (c) enregistrements réels. Les meilleures performances sont indiquées en gras. Lorsque plusieurs algorithmes présentent un résultat en gras, la diérence entre ceux-ci n'est pas statistiquement signi-cative. Les intervalles de conance à 95% varient entre±0,4%et±2,9%pour la précision, et±0,8^◦ et ±1,7^◦ pour l'erreur angulaire.

phone est situé en face ou sur le côté de l'enceinte. Les résultats se dégradent pour un

microphone derrière l'enceinte, avec notamment beaucoup plus de résultats aberrants.

On peut raisonnablement supposer que ceux-ci sont dûs au fait que le champ direct est

faible voire inexistant par rapport à la réverbération ou aux premières réexions qui sont

dans cas très énergétiques. Le CRNN-Intensité reste plus performant au niveau des deux

premiers quartiles.

Enregistrements Pour les enregistrements eectués dans un salon avec un microphone

posé sur une table basse (voir Tableau4.1c), le CRNN-Intensité surpasse le CRNN-FOA,

avec une augmentation de la précision à 15

◦

de 22,3 à 29,1%. Le CRNN-FOA est

lui-même supérieur au VVM, qui ne classie que 10,4% des séquences avec une précision

inférieure à 5

◦

. On observe sur la Figure4.6que le VVM généralise beaucoup moins bien

4.3. Résultats 65

(a) ^(b)

Figure 4.8. (a) Performances de localisation des diérents systèmes sur l'ensemble de SRIRs réelles contenant une seule source en fonction de l'orientation micro-phone/enceinte. (b) Séparation de l'espace entre les orientations face , côté et derrière .

aux enregistrements réels que les CRNNs.

L'un des enjeux de cette situation est de distinguer le son direct de la première réexion,

précoce et énergétique, due à la table. Pour analyser les capacités des systèmes à faire

cette distinction, on peut observer dans la Figure4.9la répartition des erreurs angulaires

selon le côté de la table où a été émise la parole. Le microphone étant posé près d'un

bord, cette première réexion sera moins présente pour une locutrice située du même côté.

Les performances du VVM et du CRNN-FOA se dégradent signicativement lorsque, au

contraire, le locuteur est de l'autre côté de la table, tandis que le CRNN-Intensité est

ro-buste à cette situation. Les paramètres d'entrée dérivés du vecteur d'intensité acoustique

lui permettent vraisemblablement de distinguer les sons directs des premières réexions.

On constate sur la Figure 4.9que dans la situation où le locuteur et le microphone sont

du même côté, l'erreur n'est jamais inférieure à 5

◦

. Cela est un artefact dû aux positions

des locuteurs et à la grille d'estimation : sur cet ensemble de test, 8 positions sur 14 sont

telles qu'il est impossible d'avoir une erreur inférieure à 5

◦

. C'est en particulier le cas de

toutes les positions situées du même côté que le microphone.

Dans le document Localisation et rehaussement de sources de parole au format Ambisonique (Page 82-85)