4. Localisation de sources par réseau de neurones convolutif et récurrent 53
4.3. Résultats
4.3.1. Résultats pour une source
Le Tableau 4.1 permet de comparer les résultats des trois systèmes sur les ensembles
de test à une source décrits dans la partie 4.2.4. Ces résultats peuvent également être
visualisés sur les diagrammes en violon de la Figure 4.6.
SRIRs simulées Sur cet ensemble proche de l'ensemble d'apprentissage, on voit dans
le Tableau 4.1a que les CRNNs surpassent largement le VVM, qui ne repose pas sur
un apprentissage supervisé. Avec 58,5% de séquences classiées correctement, le
CRNN-Intensité est plus performant que le CRNN-FOA, qui en classie correctement 54,8%.
Les deux réseaux de neurones présentent très peu de résultats aberrants (c'est-à-dire
anormalement mauvais), avec une précision à 15
◦supérieure à 95%.
Les Figures4.7aet4.7bmontrent la répartition des erreurs angulaires de chaque système
en fonction du SNR et du TR60. Pour tous les systèmes, un SNR plus faible favorise
l'apparition de résultats aberrants. En revanche, si l'on observe les trois premiers
quar-tiles, on constate que tous les systèmes sont robustes aux conditions de SNR diciles.
Concernant le TR60, les performances du VVM se détériorent régulièrement avec
l'aug-mentation du temps de réverbération, tandis que les performances des CRNNs en sont
indépendantes.
4.3. Résultats 63
Figure 4.6. Performances de localisation sur chaque ensemble de test contenant une seule source. Les boîtes montrent les premier et troisième quartiles, ainsi que la médiane. L'extrémité supérieure (respectivement inférieure) des moustaches correspond à la plus grande (respectivement la plus petite) valeur située à moins de 1,5 fois l'écart interquartile du quartile supérieur (respectivement inférieur).
(a) (b)
Figure 4.7. Performances de localisation des diérents systèmes sur l'ensemble de SRIRs si-mulées contenant une seule source (a) en fonction du SNR (b) en fonction du TR60.
SRIRs réelles Pour cet ensemble de test, les performances du VVM reportées dans
le Tableau 4.1b sont comparables à celles du CRNN-FOA. Le CRNN-Intensité leur est
supérieur, notamment en terme de précision ne, avec 28,0% des séquences localisées
avec moins de 5
◦d'erreur, contre 24,9% pour le CRNN-FOA.
L'une des dicultés de cette salle est que les enceintes générant les sweeps sont directives,
à la diérence des sources simulées omnidirectionnelles vues lors de l'apprentissage par
les CRNNs. Ici, l'antenne de microphones peut se situer derrière l'enceinte. On observe
dans la Figure 4.8que tous les systèmes ont des résultats satisfaisants lorsque le
micro-64 Chapitre 4. Localisation de sources par réseau de neurones convolutif et récurrent
Précision (%) Err. ang. (
◦)
Algo. <5
◦<10
◦<15
◦classif. moy. méd.
VVM [127] 20,6 55,4 78,9 24,7 10,6 9,1
CRNN-FOA 48,2 87,8 95,8 54,8 7,2 5,2
CRNN-Intensité 51,2 93,3 98,1 58,5 6,2 4,9
(a) SRIRs simulées
Précision (%) Err. ang. (
◦)
Algorithme <5
◦<10
◦<15
◦classif. moy. méd.
VVM [127] 24,0 64,1 83,6 31,7 10,5 8,1
CRNN-FOA 24,9 66,4 85,3 31,3 11,2 7,7
CRNN-Intensité 28,0 71,0 89,1 36,2 10,1 7,3
(b) SRIRs réelles
Précision (%) Err. ang. (
◦)
Algorithme <5
◦<10
◦<15
◦classif. moy. méd.
VVM [127] 10,4 41,9 66,0 23,7 14,7 10,1
CRNN-FOA 22,3 60,3 81,0 36,3 11,3 7,1
CRNN-Intensité 29,1 86,1 96,4 46,3 8,1 5,7
(c) Enregistrements
TABLEAU 4.1. Performances de localisation des algorithmes sur les diérents ensembles de test contenant une seule source ponctuelle : (a) construit avec les SRIRs simulées, (b) construit avec les SRIRs réelles, (c) enregistrements réels. Les meilleures performances sont indiquées en gras. Lorsque plusieurs algorithmes présentent un résultat en gras, la diérence entre ceux-ci n'est pas statistiquement signi-cative. Les intervalles de conance à 95% varient entre±0,4%et±2,9%pour la précision, et±0,8◦ et ±1,7◦ pour l'erreur angulaire.
phone est situé en face ou sur le côté de l'enceinte. Les résultats se dégradent pour un
microphone derrière l'enceinte, avec notamment beaucoup plus de résultats aberrants.
On peut raisonnablement supposer que ceux-ci sont dûs au fait que le champ direct est
faible voire inexistant par rapport à la réverbération ou aux premières réexions qui sont
dans cas très énergétiques. Le CRNN-Intensité reste plus performant au niveau des deux
premiers quartiles.
Enregistrements Pour les enregistrements eectués dans un salon avec un microphone
posé sur une table basse (voir Tableau4.1c), le CRNN-Intensité surpasse le CRNN-FOA,
avec une augmentation de la précision à 15
◦de 22,3 à 29,1%. Le CRNN-FOA est
lui-même supérieur au VVM, qui ne classie que 10,4% des séquences avec une précision
inférieure à 5
◦. On observe sur la Figure4.6que le VVM généralise beaucoup moins bien
4.3. Résultats 65
(a) (b)
Figure 4.8. (a) Performances de localisation des diérents systèmes sur l'ensemble de SRIRs réelles contenant une seule source en fonction de l'orientation micro-phone/enceinte. (b) Séparation de l'espace entre les orientations face , côté et derrière .