2.4.1 Base de sons construite
Il existe peu de bases de données disponibles contenant des sons de la vie courante d’êtres
humains. Les signaux de paroles et de musique sont facilement accessibles sur internet, mais
des signaux représentatifs des 2 autres classes (impacts, sons d’environnement) ne sont pas
directement disponibles. Nous avons donc choisi de construire une base de données à partir
de deux bases de données existantes :
— La base proposée par [TC02] : c’est de cette base qu’est extraite la majorité des signaux
de paroles et de musiques de la base utilisée ici.
— [Vac+14] a crée un corpus multimodal dans lequel un être humain accomplit des
activi-tés de la vie courante (vaisselle, aspirateur, sieste, etc...) dans un appartement contenant
7 microphones répartis dans les différentes pièces et 4 caméras (figure 2.10) . M. Vacher
et al. nous ayant gracieusement donné accès à ce corpus, nous avons pu extraire des
événements correspondants aux éléments de la taxonomie proposée et les inclure dans
la base de données utilisée ici.
Figure 2.10 – Extrait de l’enregistrement du corpus "sweet home", où un être humain est
filmé et enregistré en train d’effectuer une succession d’activités
Au terme de cette labellisation, nous avons pu obtenir une base contenant des exemples
de signaux les plus variés possibles répondant à la taxonomie proposée (tableau 2.10).
Parole Musique Impact Sons d’environnement Total
27 30 16 17 90
Table2.10 – Nombre d’échantillons par classes dans la base de donnée proposée.
2.4.2 Sélection et performance des caractéristiques
Le belief-KNN utilisant la distance euclidienne pour attribuer les croyances, il est nécessaire
de prendre en compte la dynamique des données pour ne pas favoriser sans raison certaines
caractéristiques. C’est pourquoi on procède à une normalisation classique caractéristique par
caractéristique, qui préserve les distances relatives au sein des classes considérées.
Un grand nombre de caractéristiques n’étant pas forcément une garantie d’une meilleure
clas-sification, on souhaite ici sélectionner les caractéristiques les plus pertinentes pour la
classifica-tion, c’est à dire les caractéristiques qui séparent le mieux les classes individuellement.Pour ce
faire on se propose d’utiliser une mesure simple de séparation de données. Pour chaque paire
de classe et chaque caractéristique de la représentation finale du signal on calcule la quantité
suivante :
DC
i,C
j= Dinter(Ci, Cj)
Dintra(Ci) +Dintra(Cj) (2.27)
où Dintra représente la distance moyenne intra-classe, et Dinter la distance moyenne
inter-classe pour la caractéristique concernée.
Dinter = 1
Ni·Nj
N
iX
k=1
N
2X
l=j
|xk−yl| (2.28)
Dintra = 2
Ni·(Ni−1)
N
iX
k=1
N
1X
l=k
|xk−yl| (2.29)
où Niet Nj sont respectivement le nombre d’élémentsxketyldes classe Ciet Cj. Ainsi, on
souhaite choisir les caractéristiques obtenant les plus haut DC
i,C
j. Les caractéristiques donnant
le meilleur score sont montrées dans le tableau 2.11. On sélectionne ainsi ces caractéristiques
pour la classification.
Parole Musique Impact Son d’environnement
Parole ~ var(MFCC2) LE var(MFCC4)
Musique var(MFCC2) ~ mean(MFCC5) var(SF)
Impact LE mean(MFCC5) ~ mean(SR)
Son d’environnement var(MFCC4) var(SF) mean(SR) ~
Table2.11 – Meilleure caractéristique pour séparer les classes 2 à 2
On obtient donc comme représentation finale pour chaque signal un vecteur de
dimen-sion 6 : la variance des MFCC 2 et 4 (var(MFCC2), var(MFCC4)), la moyenne du MFCC
5 (mean(MFCC5)), le pourcentage de trames à basse énergie (LE), la variance du flux
spec-tral (var(SF)) et la moyenne du rolloff specspec-tral (mean(SR)). On a donc une caractéristique
temporelle, deux caractéristiques "spectrales" et trois caractéristiques "transformées".
2.4.3 Résultats de classification
Pour la classification, on suit un processus de validation croisée. On divise la base de
données en deux parties, une base d’apprentissage qui contiendra des éléments représentatifs
qu’on utilisera pour rechercher les plus proches voisins, et une base de test qui permettra
d’obtenir les performances de classification. La manière dont on répartit les éléments de la
base de données est décrite dans le tableau 2.12.
Classe Nb d’éléments d’entraînements Nb d’éléments de test
Parole 11 16
Musique 11 19
Impact 5 11
Sons d’environnement 5 12
Total 32 58
Table 2.12 – Séparation des sons en une base d’entraînement et une base de test
On tire 1000 fois chacune des deux bases de manière aléatoire et procède à la
classifica-tion de la base de test. Pour la prise de décision sur la classe de l’élément, [Den95] propose
l’utilisation de probabilité pignistique, soit la transformation de la masse de croyance
obte-nue en probabilité en répartissant de manière équitable la masse donnée sur l’ignorance entre
les différentes hypothèses qui composent l’espace de discernement. Dans notre cas, on choisit
simplement l’hypothèse recevant le maximum de croyance,Ωinclus, nous donnant ainsi
natu-rellement une "classe de rejet", ou classe de doute.
La base de sons dont nous disposons étant de petite taille, on s’intéresse au nombre
d’élé-ments ayant été mal classifiés. Les résultats de la classification sont visibles dans le tableau
2.13, en comparaison avec un algorithme de classification classique de la littérature : la
ma-chine à vecteurs de support (Support Vector Mama-chine, SVM). Pour les expériences suivantes
nous avons choisi un nombre de voisins de 5, arbitrairement bas, pour rester en cohérence avec
la taille de la base de données.
Parole Musique Impact Environnement Doute Total
Belief-KNN 1.4 (8.4%) 1.3 (6.8%) 0.7 (6.3%) 1.1 (9.1%) 4.1 (7%) 8.6 (14.8%)
SVM 0.6 (5.4%) 2.5 (13.1%) 2 (18.1%) 1.1 (9.1%) 6.3 (10.8%)
Table2.13 – Résultats (nombre moyen de signaux mal classifiés)
Comme on peut le voir, les résultats des deux algorithmes sont comparables. Concernant
le résultat global de classification, la machine à vecteurs de support produit de meilleurs
ré-sultats (10.8% de mauvaises classification contre 14.8% pour le belief-KNN). Cependant, il est
important de prendre en compte la classe de doute apportée par le belief-KNN : ces sons
clas-sifiés comme "objet de doute" n’ont pas à être considérés comme de mauvaises classifications,
car ils atteignent précisément le but recherché (permettre au robot de différencier les cas où il
est incapable de prédire la classe d’un élément). Ainsi, si on considère que la catégorie "doute"
ne fait pas partie des mauvaises classifications, les performances du belief-KNN deviennent
meilleures (4.5 échantillons mal classés en moyenne, soit 7,7% contre 10.8% pour la SVM).
Ceci s’explique intuitivement de la manière suivante : lorsque les éléments à classifier font
partie de classes très séparées linéairement, les algorithmes se comportent de manière
simi-laire. Cependant, lorsqu’un élément présente des problèmes pour la classification (classes trop
dispersées, voisins éloignés, plusieurs voisins de classes différentes), l’algorithme pourra
pro-duire des erreurs de classification, tandis que le belief-KNN aura tendance à classifier de tels
éléments comme étant douteux.
L’objectif fixé en début de chapitre est donc atteint : la classification est performante, et
les éléments impossibles à classifier sont ajoutés à la classe de doute, ce qui correspond au
comportement attendu. En effet, le système étant destiné à être implémenté sur un robot, qui
sera en mesure d’aller enquêter sur la nature du son entendu, une information partielle est
préférable à une information erronée.
Dans le document
Fusions multimodales pour la recherche d'humains par un robot mobile
(Page 39-43)