Résultats expérimentaux en validation croisée

Dans la section, nous présentons les résultats de l’expérimentation de classification de

vecteurs de scène. Celle-ci est évaluée suivant une méthode de validation croisée stratifiée à

10 sous-ensembles et dans les trois configurations de capteurs introduites à la section 5.1.1

(REF,REF_SAetREF_AccAud).

5.3.1 CorpusREF

La table 5.3 résume les performances moyennes de reconnaissance des différents

classi-fieurs sur les dix sous-ensembles du corpus de la validation croisée. Les classiclassi-fieurs les plus

performants sont l’arbre de décision C4.5 et la forêt d’arbres décisionnels (RF), avec des taux

de classification très proches, autour de 90 % (pour rappel, le taux de classification défini

dans la section 5.1.2 indique le pourcentage de vecteurs correctement identifiés). Viennent

ensuite le DNN et le GMM avec des taux respectivement de 68,9 % et 40,8 %. Enfin, le

ré-seau bayésien naïf NB affiche 10,5 %, à peine plus que la probabilité de tirer aléatoirement

la bonne classe parmi les 11 présentes dans le corpusREF.

T

ABLE

5.3: Taux de classification moyen et écart-type calculés sur les 10 sous-ensembles de

la validation croisée, pour la configuration de corpusREF

C4.5 RF NB GMM DNN Hasard

Taux de classification 89,7_±0,2 90,3_±0,2 10,5_±0,5 40,8_±1,8 68,9_±0,6 9,1

Nous formulons plusieurs hypothèses pour expliquer ces tendances de performance.

D’abord, il faut remarquer que le découpage du corpus en dix sous-ensembles ne distingue

ni les enregistrements ni les situations d’origine. Ainsi, différents vecteurs d’un même

en-registrement et d’une même situation peuvent être placés dans les corpus d’entraînement

et de test. Nous pensons que cela a un effet sur les capacités de distinction des

classi-fieurs à arbres C4.5 et RF, dont l’algorithme d’entraînement vise à diviser le corpus en

sous-ensembles homogènes et identifiables par une succession de tests. En effet, si des vecteurs

d’une même situation se retrouvent dans les deux corpus d’entraînement et d’évaluation,

certains des tests appris pendant l’entraînement peuvent correspondre à des vecteurs du

corpus d’évaluation.

Le fonctionnement du NB repose sur l’hypothèse de la dépendance conditionnelle

di-recte de la classe aux variables d’entrée, c’est-à-dire les descripteurs des vecteurs. Nous

pen-sons que cette hypothèse est incorrecte et notre définition de scène de la section 4.1.3

sug-gère une composition avec des éléments intermédiaires. Les faibles scores du NB, proches

des valeurs obtenues par tirage aléatoire, confortent l’idée d’absence de dépendance

condi-tionnelle directe.

Les deux classifieurs GMM et DNN sont réputés nécessiter un grand nombre de

don-nées pour l’entraînement. Nous pensons que la composition du corpus est insuffisante pour

ces modèles. En outre, ces modèles ont des paramètres qu’il est nécessaire d’adapter pour

améliorer la reconnaissance. Malgré cela, le DNN présente des valeurs de rappel proches

de 80 % pour certaines classes comme lebus, lavoiture, lebureau, letrainou letramway

(voir table 5.5). Ainsi, il peut y avoir une autre explication aux performances médiocres

de ces deux classifieurs. Nous étudions les matrices de confusion de ces deux classifieurs

(tables 5.4 et 5.5) pour tenter de compléter l’explication.

Les matrices présentées sont le résultat de la somme des matrices de confusion obtenues

sur les dix sous-ensembles de test de la validation croisée stratifiée, normalisées en rappel

(soit par le nombre de vecteurs à retrouver dans chaque scène). Dans la table 5.5 de la

ma-trice du DNN, les rappels des scènes dudomicile, de laréunion, de lapause, durestaurant

et dumagasinsont inférieurs à 70 % et descendent parfois très bas (seulement 5,3 % pour

la pause). De plus, ces scènes présentent des confusions entre elles. Concernant le GMM,

les scores de rappel des scènes sont globalement plus bas (voir la table 5.4). Aux confusions

observées pour le DNN, s’ajoutent celles avec lebus, lavoiture, lebureauet larue.

T

ABLE

5.4: Matrice de confusion du GMM

a b c d e f g h i j k ←Reconnu 33.2 7.2 2.8 22.7 1.5 3.0 4.7 8.9 3.7 6.7 5.6 a = Bus 4.7 57.6 0.7 12.3 3.6 1.0 0.7 3.0 0.8 13.0 2.5 b = Voiture 0.6 0.8 24.0 27.2 7.6 26.5 7.0 2.7 2.8 0.5 0.3 c = Domicile 0.6 0.6 16.3 46.4 8.2 19.7 2.3 2.8 2.3 0.3 0.4 d = Réunion 1.4 1.1 8.7 2.7 40.2 34.3 2.2 4.7 3.5 0.2 0.9 e = Pause 0.3 0.6 14.2 12.9 5.6 56.3 1.2 1.0 1.2 6.6 0.1 f = Bureau 1.2 1.6 13.0 5.3 11.4 28.7 19.8 9.9 7.0 1.6 0.6 g = Restaurant 2.6 1.6 9.8 7.3 2.3 8.6 13.5 40.3 6.1 5.7 2.2 h = Magasin 3.1 1.6 7.8 8.2 2.0 8.3 8.2 8.0 49.0 1.8 1.9 i = Rue 0.8 4.5 0.7 0.0 0.1 11.0 0.0 1.8 0.4 75.2 5.6 j = Train 2.6 1.1 5.3 8.5 1.2 6.8 4.3 5.3 2.1 10.3 52.7 k = Tramway

T

ABLE

5.5: Matrice de confusion du DNN

a b c d e f g h i j k ←Reconnu 76.8 2.7 2.2 1.7 0.0 5.8 1.4 2.8 2.1 0.0 4.5 a = Bus 5.2 78.5 2.7 1.9 0.0 3.4 3.8 0.4 0.3 2.4 1.3 b = Voiture 0.5 0.2 67.5 3.3 0.0 20.4 6.5 0.3 1.2 0.0 0.2 c = Domicile 0.4 0.2 26.6 43.8 0.0 21.0 5.1 0.3 2.1 0.0 0.6 d = Réunion 0.6 0.1 15.4 7.3 5.3 54.1 9.0 0.9 5.9 0.1 1.1 e = Pause 0.1 0.1 8.7 4.0 0.0 84.0 2.2 0.1 0.7 0.0 0.2 f = Bureau 0.3 0.2 17.3 3.6 0.1 11.8 63.5 0.4 2.0 0.1 0.7 g = Restaurant 3.9 0.2 18.4 6.1 0.0 7.5 8.0 43.6 9.1 0.0 3.2 h = Magasin 1.8 0.5 8.4 2.3 0.0 5.1 7.0 2.4 70.7 0.1 1.8 i = Rue 0.1 5.2 7.8 0.2 0.0 4.5 0.9 0.1 0.2 79.0 2.0 j = Train 5.3 0.4 3.8 1.8 0.0 4.4 4.0 1.2 2.7 0.4 76.0 k = Tramway

Contrairement aux classifieurs C4.5 et RF, l’entraînement des GMM et DNN vise à

spéci-fier les valeurs des paramètres d’un modèle de représentation des scènes. La confusion des

matrices laisse imaginer que certaines scènes ont des représentations très proches suivant

les descripteurs employés. Intuitivement, on imagine la variabilité qu’il peut y avoir dans

les situations d’une même scène. Par exemple, la perception d’un dîner au restaurant

dé-pend fortement du lieu et du cadre (ambiance lumineuse et sonore par exemple). Pourtant,

deux situations de dîner portent la même étiquette dans le corpus. Également, puisque la

scène s’exprime, entre autres, par les actions effectuées par le porteur du smartphone, une

conversation audomicileet uneréunionau bureau ont probablement des points communs

dans leurs représentations, mais portent deux étiquettes différentes dans le corpus. Ainsi,

nous suggérons que la complexité des scènes à représenter ainsi que la quantité de données

limitée explique probablement les performances limitées des classifieurs GMM et DNN.

5.3.2 Comparaison des performances suivant les capteurs employés

La table 5.6 résume les performances moyennes sur les dix sous-ensembles de test de

la validation et suivant les trois configurations de capteurs étudiées (les descripteurs

sé-lectionnés pour la configurationREF_SA sont issus des conclusions de la section 5.2). Les

tendances de rang et d’écart de performances suivant les classifieurs sont identiques dans

les trois configurations. Par ailleurs, on note une baisse généralisée des performances après

la sélection d’attributs, sauf pour le RF (et le NB qui est déjà très bas). Cette observation

peut être expliquée par la possible perte d’information due au retrait de certains

descrip-teurs. La stabilité de résultat de la forêt d’arbres décisionnels (RF) peut provenir de

l’en-traînement particulier qui repose sur plusieurs sous-ensembles de descripteurs, ce qui peut

réduire l’impact de l’absence de certains d’entre eux. La configurationREF_AccAud

compo-sée des seuls descripteurs d’accélération et acoustiques montre des performances encore

diminuées. Toutefois, les scores du C4.5 et du RF restent très honorables.

T

ABLE

5.6: Taux de classification moyen et écart-type sur dans les trois configurations de

capteurs, en validation croisée à dix sous-ensembles

C4.5 RF NB GMM DNN Hasard

ConfigurationREF_SA 83,1±0,1 91,0±0,1 12,5±0,1 31,4±2,2 61,9±0,1 9,1 ConfigurationREF_AccAud 71,6±0,1 77,2±0,1 12,1±0,1 37,0±0,4 53,9±0,3 Configuration REF 89,7_±0,2 90,3_±0,2 10,5_±0,5 40,8_±1,8 68,9_±0,6

Dans le document Reconnaissance de scènes multimodale embarquée (Page 110-113)