Résultats

2.4.1 Base de sons construite

Il existe peu de bases de données disponibles contenant des sons de la vie courante d’êtres

humains. Les signaux de paroles et de musique sont facilement accessibles sur internet, mais

des signaux représentatifs des 2 autres classes (impacts, sons d’environnement) ne sont pas

directement disponibles. Nous avons donc choisi de construire une base de données à partir

de deux bases de données existantes :

— La base proposée par [TC02] : c’est de cette base qu’est extraite la majorité des signaux

de paroles et de musiques de la base utilisée ici.

— [Vac+14] a crée un corpus multimodal dans lequel un être humain accomplit des

activi-tés de la vie courante (vaisselle, aspirateur, sieste, etc...) dans un appartement contenant

7 microphones répartis dans les différentes pièces et 4 caméras (figure 2.10) . M. Vacher

et al. nous ayant gracieusement donné accès à ce corpus, nous avons pu extraire des

événements correspondants aux éléments de la taxonomie proposée et les inclure dans

la base de données utilisée ici.

Figure ^{2.10 – Extrait de l’enregistrement du corpus "sweet home", où un être humain est}

filmé et enregistré en train d’effectuer une succession d’activités

Au terme de cette labellisation, nous avons pu obtenir une base contenant des exemples

de signaux les plus variés possibles répondant à la taxonomie proposée (tableau 2.10).

Parole Musique Impact Sons d’environnement Total

27 30 16 17 90

Table^{2.10 – Nombre d’échantillons par classes dans la base de donnée proposée.}

2.4.2 Sélection et performance des caractéristiques

Le belief-KNN utilisant la distance euclidienne pour attribuer les croyances, il est nécessaire

de prendre en compte la dynamique des données pour ne pas favoriser sans raison certaines

caractéristiques. C’est pourquoi on procède à une normalisation classique caractéristique par

caractéristique, qui préserve les distances relatives au sein des classes considérées.

Un grand nombre de caractéristiques n’étant pas forcément une garantie d’une meilleure

clas-sification, on souhaite ici sélectionner les caractéristiques les plus pertinentes pour la

classifica-tion, c’est à dire les caractéristiques qui séparent le mieux les classes individuellement.Pour ce

faire on se propose d’utiliser une mesure simple de séparation de données. Pour chaque paire

de classe et chaque caractéristique de la représentation finale du signal on calcule la quantité

DC

,C

= ^D^inter(^Cⁱ^{, C}^j⁾

D_intra(C_i) +D_intra(C_j) ^(2.27)

où D_intra représente la distance moyenne intra-classe, et D_inter la distance moyenne

inter-classe pour la caractéristique concernée.

Dinter = ¹

Ni·Nj

N

X

k=1

N

X

l=j

|xk−yl| (2.28)

D_intra = ²

Ni·(Ni−1)

N

X

k=1

N

X

l=k

|x_k−yl| (2.29)

où N_iet N_j sont respectivement le nombre d’élémentsx_kety_ldes classe C_iet C_j. Ainsi, on

souhaite choisir les caractéristiques obtenant les plus haut D_C

_,C

. Les caractéristiques donnant

le meilleur score sont montrées dans le tableau 2.11. On sélectionne ainsi ces caractéristiques

pour la classification.

Parole Musique Impact Son d’environnement

Parole ~ var(MFCC2) LE var(MFCC4)

Musique var(MFCC2) ~ mean(MFCC5) var(SF)

Impact LE mean(MFCC5) ~ mean(SR)

Son d’environnement var(MFCC4) var(SF) mean(SR) ~

Table^{2.11 – Meilleure caractéristique pour séparer les classes 2 à 2}

On obtient donc comme représentation finale pour chaque signal un vecteur de

dimen-sion 6 : la variance des MFCC 2 et 4 (var(MFCC2), var(MFCC4)), la moyenne du MFCC

5 (mean(MFCC5)), le pourcentage de trames à basse énergie (LE), la variance du flux

spec-tral (var(SF)) et la moyenne du rolloff specspec-tral (mean(SR)). On a donc une caractéristique

temporelle, deux caractéristiques "spectrales" et trois caractéristiques "transformées".

2.4.3 Résultats de classification

Pour la classification, on suit un processus de validation croisée. On divise la base de

données en deux parties, une base d’apprentissage qui contiendra des éléments représentatifs

qu’on utilisera pour rechercher les plus proches voisins, et une base de test qui permettra

d’obtenir les performances de classification. La manière dont on répartit les éléments de la

base de données est décrite dans le tableau 2.12.

Classe Nb d’éléments d’entraînements Nb d’éléments de test

Parole 11 16

Musique 11 19

Impact 5 11

Sons d’environnement 5 12

Total 32 58

Table ^{2.12 – Séparation des sons en une base d’entraînement et une base de test}

On tire 1000 fois chacune des deux bases de manière aléatoire et procède à la

classifica-tion de la base de test. Pour la prise de décision sur la classe de l’élément, [Den95] propose

l’utilisation de probabilité pignistique, soit la transformation de la masse de croyance

obte-nue en probabilité en répartissant de manière équitable la masse donnée sur l’ignorance entre

les différentes hypothèses qui composent l’espace de discernement. Dans notre cas, on choisit

simplement l’hypothèse recevant le maximum de croyance,Ωinclus, nous donnant ainsi

natu-rellement une "classe de rejet", ou classe de doute.

La base de sons dont nous disposons étant de petite taille, on s’intéresse au nombre

d’élé-ments ayant été mal classifiés. Les résultats de la classification sont visibles dans le tableau

2.13, en comparaison avec un algorithme de classification classique de la littérature : la

ma-chine à vecteurs de support (Support Vector Mama-chine, SVM). Pour les expériences suivantes

nous avons choisi un nombre de voisins de 5, arbitrairement bas, pour rester en cohérence avec

la taille de la base de données.

Parole Musique Impact Environnement Doute Total

Belief-KNN 1.4 (8.4%) 1.3 (6.8%) 0.7 (6.3%) 1.1 (9.1%) 4.1 (7%) 8.6 (14.8%)

SVM 0.6 (5.4%) 2.5 (13.1%) 2 (18.1%) 1.1 (9.1%) 6.3 (10.8%)

Table^{2.13 – Résultats (nombre moyen de signaux mal classifiés)}

Comme on peut le voir, les résultats des deux algorithmes sont comparables. Concernant

le résultat global de classification, la machine à vecteurs de support produit de meilleurs

ré-sultats (10.8% de mauvaises classification contre 14.8% pour le belief-KNN). Cependant, il est

important de prendre en compte la classe de doute apportée par le belief-KNN : ces sons

clas-sifiés comme "objet de doute" n’ont pas à être considérés comme de mauvaises classifications,

car ils atteignent précisément le but recherché (permettre au robot de différencier les cas où il

est incapable de prédire la classe d’un élément). Ainsi, si on considère que la catégorie "doute"

ne fait pas partie des mauvaises classifications, les performances du belief-KNN deviennent

meilleures (4.5 échantillons mal classés en moyenne, soit 7,7% contre 10.8% pour la SVM).

Ceci s’explique intuitivement de la manière suivante : lorsque les éléments à classifier font

partie de classes très séparées linéairement, les algorithmes se comportent de manière

simi-laire. Cependant, lorsqu’un élément présente des problèmes pour la classification (classes trop

dispersées, voisins éloignés, plusieurs voisins de classes différentes), l’algorithme pourra

pro-duire des erreurs de classification, tandis que le belief-KNN aura tendance à classifier de tels

éléments comme étant douteux.

L’objectif fixé en début de chapitre est donc atteint : la classification est performante, et

les éléments impossibles à classifier sont ajoutés à la classe de doute, ce qui correspond au

comportement attendu. En effet, le système étant destiné à être implémenté sur un robot, qui

sera en mesure d’aller enquêter sur la nature du son entendu, une information partielle est

préférable à une information erronée.

Dans le document Fusions multimodales pour la recherche d'humains par un robot mobile (Page 39-43)

2.4.1 Base de sons construite

Il existe peu de bases de données disponibles contenant des sons de la vie courante d’êtres

humains. Les signaux de paroles et de musique sont facilement accessibles sur internet, mais

des signaux représentatifs des 2 autres classes (impacts, sons d’environnement) ne sont pas

directement disponibles. Nous avons donc choisi de construire une base de données à partir

de deux bases de données existantes :

— La base proposée par [TC02] : c’est de cette base qu’est extraite la majorité des signaux

de paroles et de musiques de la base utilisée ici.

— [Vac+14] a crée un corpus multimodal dans lequel un être humain accomplit des

activi-tés de la vie courante (vaisselle, aspirateur, sieste, etc...) dans un appartement contenant

7 microphones répartis dans les différentes pièces et 4 caméras (figure 2.10) . M. Vacher

et al. nous ayant gracieusement donné accès à ce corpus, nous avons pu extraire des

événements correspondants aux éléments de la taxonomie proposée et les inclure dans

la base de données utilisée ici.

Figure 2.10 – Extrait de l’enregistrement du corpus "sweet home", où un être humain est

filmé et enregistré en train d’effectuer une succession d’activités

Au terme de cette labellisation, nous avons pu obtenir une base contenant des exemples

de signaux les plus variés possibles répondant à la taxonomie proposée (tableau 2.10).

Parole Musique Impact Sons d’environnement Total

27 30 16 17 90

Table2.10 – Nombre d’échantillons par classes dans la base de donnée proposée.

2.4.2 Sélection et performance des caractéristiques

Le belief-KNN utilisant la distance euclidienne pour attribuer les croyances, il est nécessaire

de prendre en compte la dynamique des données pour ne pas favoriser sans raison certaines

caractéristiques. C’est pourquoi on procède à une normalisation classique caractéristique par

caractéristique, qui préserve les distances relatives au sein des classes considérées.

Un grand nombre de caractéristiques n’étant pas forcément une garantie d’une meilleure

clas-sification, on souhaite ici sélectionner les caractéristiques les plus pertinentes pour la

classifica-tion, c’est à dire les caractéristiques qui séparent le mieux les classes individuellement.Pour ce

faire on se propose d’utiliser une mesure simple de séparation de données. Pour chaque paire

de classe et chaque caractéristique de la représentation finale du signal on calcule la quantité

suivante :

DC

,C

= Dinter(Ci, Cj)

Dintra(Ci) +Dintra(Cj) (2.27)

où Dintra représente la distance moyenne intra-classe, et Dinter la distance moyenne

inter-classe pour la caractéristique concernée.

Dinter = 1

Ni·Nj

N

X

k=1

N

X

l=j

|xk−yl| (2.28)

Dintra = 2

Ni·(Ni−1)

N

X

k=1

N

X

l=k

|xk−yl| (2.29)

où Niet Nj sont respectivement le nombre d’élémentsxketyldes classe Ciet Cj. Ainsi, on

souhaite choisir les caractéristiques obtenant les plus haut DC

,C

. Les caractéristiques donnant

le meilleur score sont montrées dans le tableau 2.11. On sélectionne ainsi ces caractéristiques

pour la classification.

Parole Musique Impact Son d’environnement

Parole ~ var(MFCC2) LE var(MFCC4)

Musique var(MFCC2) ~ mean(MFCC5) var(SF)

Impact LE mean(MFCC5) ~ mean(SR)

Son d’environnement var(MFCC4) var(SF) mean(SR) ~

Table2.11 – Meilleure caractéristique pour séparer les classes 2 à 2

On obtient donc comme représentation finale pour chaque signal un vecteur de

dimen-sion 6 : la variance des MFCC 2 et 4 (var(MFCC2), var(MFCC4)), la moyenne du MFCC

5 (mean(MFCC5)), le pourcentage de trames à basse énergie (LE), la variance du flux

spec-tral (var(SF)) et la moyenne du rolloff specspec-tral (mean(SR)). On a donc une caractéristique

temporelle, deux caractéristiques "spectrales" et trois caractéristiques "transformées".

2.4.3 Résultats de classification

Pour la classification, on suit un processus de validation croisée. On divise la base de

données en deux parties, une base d’apprentissage qui contiendra des éléments représentatifs

qu’on utilisera pour rechercher les plus proches voisins, et une base de test qui permettra

d’obtenir les performances de classification. La manière dont on répartit les éléments de la

base de données est décrite dans le tableau 2.12.

Figure ^{2.10 – Extrait de l’enregistrement du corpus "sweet home", où un être humain est}

Table^{2.10 – Nombre d’échantillons par classes dans la base de donnée proposée.}

= ^D^inter(^Cⁱ^{, C}^j⁾

D_intra(C_i) +D_intra(C_j) ^(2.27)

où D_intra représente la distance moyenne intra-classe, et D_inter la distance moyenne

Dinter = ¹

D_intra = ²

|x_k−yl| (2.29)

où N_iet N_j sont respectivement le nombre d’élémentsx_kety_ldes classe C_iet C_j. Ainsi, on

souhaite choisir les caractéristiques obtenant les plus haut D_C

_,C

Table^{2.11 – Meilleure caractéristique pour séparer les classes 2 à 2}

Table ^{2.12 – Séparation des sons en une base d’entraînement et une base de test}

Table^{2.13 – Résultats (nombre moyen de signaux mal classifiés)}