Dans la section, nous présentons les résultats de l’expérimentation de classification de
vecteurs de scène. Celle-ci est évaluée suivant une méthode de validation croisée stratifiée à
10 sous-ensembles et dans les trois configurations de capteurs introduites à la section 5.1.1
(REF,REF_SAetREF_AccAud).
5.3.1 CorpusREF
La table 5.3 résume les performances moyennes de reconnaissance des différents
classi-fieurs sur les dix sous-ensembles du corpus de la validation croisée. Les classiclassi-fieurs les plus
performants sont l’arbre de décision C4.5 et la forêt d’arbres décisionnels (RF), avec des taux
de classification très proches, autour de 90 % (pour rappel, le taux de classification défini
dans la section 5.1.2 indique le pourcentage de vecteurs correctement identifiés). Viennent
ensuite le DNN et le GMM avec des taux respectivement de 68,9 % et 40,8 %. Enfin, le
ré-seau bayésien naïf NB affiche 10,5 %, à peine plus que la probabilité de tirer aléatoirement
la bonne classe parmi les 11 présentes dans le corpusREF.
T
ABLE5.3: Taux de classification moyen et écart-type calculés sur les 10 sous-ensembles de
la validation croisée, pour la configuration de corpusREF
C4.5 RF NB GMM DNN Hasard
Taux de classification 89,7±0,2 90,3±0,2 10,5±0,5 40,8±1,8 68,9±0,6 9,1
Nous formulons plusieurs hypothèses pour expliquer ces tendances de performance.
D’abord, il faut remarquer que le découpage du corpus en dix sous-ensembles ne distingue
ni les enregistrements ni les situations d’origine. Ainsi, différents vecteurs d’un même
en-registrement et d’une même situation peuvent être placés dans les corpus d’entraînement
et de test. Nous pensons que cela a un effet sur les capacités de distinction des
classi-fieurs à arbres C4.5 et RF, dont l’algorithme d’entraînement vise à diviser le corpus en
sous-ensembles homogènes et identifiables par une succession de tests. En effet, si des vecteurs
d’une même situation se retrouvent dans les deux corpus d’entraînement et d’évaluation,
certains des tests appris pendant l’entraînement peuvent correspondre à des vecteurs du
corpus d’évaluation.
Le fonctionnement du NB repose sur l’hypothèse de la dépendance conditionnelle
di-recte de la classe aux variables d’entrée, c’est-à-dire les descripteurs des vecteurs. Nous
pen-sons que cette hypothèse est incorrecte et notre définition de scène de la section 4.1.3
sug-gère une composition avec des éléments intermédiaires. Les faibles scores du NB, proches
des valeurs obtenues par tirage aléatoire, confortent l’idée d’absence de dépendance
condi-tionnelle directe.
Les deux classifieurs GMM et DNN sont réputés nécessiter un grand nombre de
don-nées pour l’entraînement. Nous pensons que la composition du corpus est insuffisante pour
ces modèles. En outre, ces modèles ont des paramètres qu’il est nécessaire d’adapter pour
améliorer la reconnaissance. Malgré cela, le DNN présente des valeurs de rappel proches
de 80 % pour certaines classes comme lebus, lavoiture, lebureau, letrainou letramway
(voir table 5.5). Ainsi, il peut y avoir une autre explication aux performances médiocres
de ces deux classifieurs. Nous étudions les matrices de confusion de ces deux classifieurs
(tables 5.4 et 5.5) pour tenter de compléter l’explication.
Les matrices présentées sont le résultat de la somme des matrices de confusion obtenues
sur les dix sous-ensembles de test de la validation croisée stratifiée, normalisées en rappel
(soit par le nombre de vecteurs à retrouver dans chaque scène). Dans la table 5.5 de la
ma-trice du DNN, les rappels des scènes dudomicile, de laréunion, de lapause, durestaurant
et dumagasinsont inférieurs à 70 % et descendent parfois très bas (seulement 5,3 % pour
la pause). De plus, ces scènes présentent des confusions entre elles. Concernant le GMM,
les scores de rappel des scènes sont globalement plus bas (voir la table 5.4). Aux confusions
observées pour le DNN, s’ajoutent celles avec lebus, lavoiture, lebureauet larue.
T
ABLE5.4: Matrice de confusion du GMM
a b c d e f g h i j k ←Reconnu 33.2 7.2 2.8 22.7 1.5 3.0 4.7 8.9 3.7 6.7 5.6 a = Bus 4.7 57.6 0.7 12.3 3.6 1.0 0.7 3.0 0.8 13.0 2.5 b = Voiture 0.6 0.8 24.0 27.2 7.6 26.5 7.0 2.7 2.8 0.5 0.3 c = Domicile 0.6 0.6 16.3 46.4 8.2 19.7 2.3 2.8 2.3 0.3 0.4 d = Réunion 1.4 1.1 8.7 2.7 40.2 34.3 2.2 4.7 3.5 0.2 0.9 e = Pause 0.3 0.6 14.2 12.9 5.6 56.3 1.2 1.0 1.2 6.6 0.1 f = Bureau 1.2 1.6 13.0 5.3 11.4 28.7 19.8 9.9 7.0 1.6 0.6 g = Restaurant 2.6 1.6 9.8 7.3 2.3 8.6 13.5 40.3 6.1 5.7 2.2 h = Magasin 3.1 1.6 7.8 8.2 2.0 8.3 8.2 8.0 49.0 1.8 1.9 i = Rue 0.8 4.5 0.7 0.0 0.1 11.0 0.0 1.8 0.4 75.2 5.6 j = Train 2.6 1.1 5.3 8.5 1.2 6.8 4.3 5.3 2.1 10.3 52.7 k = Tramway
T
ABLE5.5: Matrice de confusion du DNN
a b c d e f g h i j k ←Reconnu 76.8 2.7 2.2 1.7 0.0 5.8 1.4 2.8 2.1 0.0 4.5 a = Bus 5.2 78.5 2.7 1.9 0.0 3.4 3.8 0.4 0.3 2.4 1.3 b = Voiture 0.5 0.2 67.5 3.3 0.0 20.4 6.5 0.3 1.2 0.0 0.2 c = Domicile 0.4 0.2 26.6 43.8 0.0 21.0 5.1 0.3 2.1 0.0 0.6 d = Réunion 0.6 0.1 15.4 7.3 5.3 54.1 9.0 0.9 5.9 0.1 1.1 e = Pause 0.1 0.1 8.7 4.0 0.0 84.0 2.2 0.1 0.7 0.0 0.2 f = Bureau 0.3 0.2 17.3 3.6 0.1 11.8 63.5 0.4 2.0 0.1 0.7 g = Restaurant 3.9 0.2 18.4 6.1 0.0 7.5 8.0 43.6 9.1 0.0 3.2 h = Magasin 1.8 0.5 8.4 2.3 0.0 5.1 7.0 2.4 70.7 0.1 1.8 i = Rue 0.1 5.2 7.8 0.2 0.0 4.5 0.9 0.1 0.2 79.0 2.0 j = Train 5.3 0.4 3.8 1.8 0.0 4.4 4.0 1.2 2.7 0.4 76.0 k = TramwayContrairement aux classifieurs C4.5 et RF, l’entraînement des GMM et DNN vise à
spéci-fier les valeurs des paramètres d’un modèle de représentation des scènes. La confusion des
matrices laisse imaginer que certaines scènes ont des représentations très proches suivant
les descripteurs employés. Intuitivement, on imagine la variabilité qu’il peut y avoir dans
les situations d’une même scène. Par exemple, la perception d’un dîner au restaurant
dé-pend fortement du lieu et du cadre (ambiance lumineuse et sonore par exemple). Pourtant,
deux situations de dîner portent la même étiquette dans le corpus. Également, puisque la
scène s’exprime, entre autres, par les actions effectuées par le porteur du smartphone, une
conversation audomicileet uneréunionau bureau ont probablement des points communs
dans leurs représentations, mais portent deux étiquettes différentes dans le corpus. Ainsi,
nous suggérons que la complexité des scènes à représenter ainsi que la quantité de données
limitée explique probablement les performances limitées des classifieurs GMM et DNN.
5.3.2 Comparaison des performances suivant les capteurs employés
La table 5.6 résume les performances moyennes sur les dix sous-ensembles de test de
la validation et suivant les trois configurations de capteurs étudiées (les descripteurs
sé-lectionnés pour la configurationREF_SA sont issus des conclusions de la section 5.2). Les
tendances de rang et d’écart de performances suivant les classifieurs sont identiques dans
les trois configurations. Par ailleurs, on note une baisse généralisée des performances après
la sélection d’attributs, sauf pour le RF (et le NB qui est déjà très bas). Cette observation
peut être expliquée par la possible perte d’information due au retrait de certains
descrip-teurs. La stabilité de résultat de la forêt d’arbres décisionnels (RF) peut provenir de
l’en-traînement particulier qui repose sur plusieurs sous-ensembles de descripteurs, ce qui peut
réduire l’impact de l’absence de certains d’entre eux. La configurationREF_AccAud
compo-sée des seuls descripteurs d’accélération et acoustiques montre des performances encore
diminuées. Toutefois, les scores du C4.5 et du RF restent très honorables.
T
ABLE5.6: Taux de classification moyen et écart-type sur dans les trois configurations de
capteurs, en validation croisée à dix sous-ensembles
C4.5 RF NB GMM DNN Hasard
ConfigurationREF_SA 83,1±0,1 91,0±0,1 12,5±0,1 31,4±2,2 61,9±0,1 9,1 ConfigurationREF_AccAud 71,6±0,1 77,2±0,1 12,1±0,1 37,0±0,4 53,9±0,3 Configuration REF 89,7±0,2 90,3±0,2 10,5±0,5 40,8±1,8 68,9±0,6