6.2 Approche par combinaison
6.2.1 Expérimentation de reconnaissance d’activité physique
Nous rapportons les travaux d’une étude que nous avons menée sur la reconnaissance
d’activité physique d’une personne et du contexte du smartphone (Blachon et coll. (2014a)).
Les objectifs étaient multiples :
— évaluer la pertinence du microphone en comparaison avec l’accéléromètre pour la
re-connaissance de l’activité physique ;
— évaluer la capacité à reconnaître la position du smartphone sur la personneviaune
méthode d’apprentissage supervisé ;
— déterminer l’apport de la connaissance de la position du smartphone dans la
recon-naissance de l’activité physique en intégrant cette conrecon-naissance dans le vecteur de
descripteurs.
Concernant les concepts à reconnaître, nous avons considéré des activités physiques
simples (suivant le sens donné dans la section 2.2.3) au cours desquelles les personnes
peuvent porter le smartphone : la marche, la montée et descente d’escaliers, le saut et la
course. Nous avons aussi considéré des attitudes immobiles en position debout, assise ou
couchée. Ces attitudes sont observables dans de nombreuses situations (par exemple : les
transports, le déjeuner, le travail sur bureau). Enfin, nous avons considéré le cas où le
télé-phone est posé sur une surface plane.
Le contexte du smartphone a déjà été évoqué dans la section 2.2.4 où l’on a
notam-ment décrit son impact sur les mesures effectuées et potentiellenotam-ment sur la tâche de
re-connaissance. Dans les travaux de l’état de l’art, la prise en compte du contexte est
limi-tée à la position et à l’orientation. Nous avons proposé une représentation plus vaste
(Bla-chon et coll. (2014a)), incluant la quantité de mouvement de l’appareil, l’usage et la
posi-tion. Chacun des trois éléments est décrit par des valeurs nominatives d’un ensemble fini.
La quantité de mouvement peut être nulle, faible ou forte ; l’usage est décrit par deux valeurs
(smartphone utilisé ou non) ; les positions considérées sont le sac, la poche du pantalon ou
la main.
Le corpus de données qui a servi à l’expérimentation est décrit dans la section 3.4.2
du chapitre 3. Brièvement, 19 volontaires ont été équipés avec plusieurs smartphones
si-tués dans les trois positions évoquées. Ils ont réalisé une séquence d’actions décrites dans
des scénarios et supervisée par un expérimentateur. Le corpus exploitable est constitué de
408 minutes (un peu moins de 7 heures) et représentatif de 16 volontaires. Les données sont
annotées avec les activités et attitudes mentionnées précédemment, ainsi qu’avec les
posi-tions du smartphone.
Le corpus de données a permis d’extraire un ensemble de descripteurs
d’accéléra-tions et d’ambiance sonore. Les descripteurs acoustiques sont calculés sur des fenêtres de
1024 échantillons puis moyennés sur une période équivalente de 2 secondes. Le calcul est
similaire à ce qui a été décrit précédemment : ce sont des coefficients d’énergie de 40 filtres
linéaires sur une échelle Mel, de bande équivalente à [0;22050H z]. Les descripteurs
d’accé-lération sont calculés sur des fenêtres de 2 secondes (synchronisées avec les fenêtres
acous-tiques moyennées). Les descripteurs incluent des mesures statisacous-tiques (moyenne, variance
et énergie de la norme d’accélération, variance des accélération des 3 axes) et spectrales
(coefficients d’énergie des bandes à 3 et 4 Hz). Un vecteur représente l’agrégation des
des-cripteurs des deux sources, sur une fenêtre de 2 secondes.
Grâce au corpus de vecteurs annotés, nous avons mis en place plusieurs
expérimenta-tions de classification pour évaluer les trois hypothèses présentées précédemment. Le
clas-sifieur est entraîné et évalué suivant la méthode de validation croisée à 10 sous-ensembles
avec répartition uniforme des activités annotées dans chaque sous-ensemble. Les
classi-fieurs C4.5 et forêt d’arbres décisionnels sont employés dans les expérimentations. Le C4.5 a
été entraîné avec élagage et un minimum de 100 vecteurs par feuille. La forêt d’arbres
déci-sionnels est composée de 50 arbres de décision. Nous avons utilisé l’outil Weka pour
l’expé-rimentation.
Nous présentons dans la figure 6.5 les résultats des expérimentations pour la forêt
d’arbres décisionnels qui a obtenu les meilleures performances. Le diagramme de gauche
illustre la f-mesure calculée pour la forêt d’arbres décisionnels dans la tâche de
reconnais-sance d’activité physique, suivant trois configurations. La configuration deréférence
repré-sente le cas où la position du smartphone est inconnue. La configuration intituléevérité
ter-rainreprésente le cas où l’information de position est intégrée au vecteur de descripteurs ;
inférence, un classifieur intermédiaire est entraîné pour reconnaître la position du
smart-phone. La prédiction est intégrée au vecteur des descripteurs pour la tâche de
reconnais-sance d’activité physique. Enfin, le graphique de droite illustre la f-mesure calculée pour
la tâche de reconnaissance de la position du smartphone, évaluée en validation croisée à
10 sous-ensembles.
Référence Vérité terrain Inférence
50
60
70
80
90
100
6567 69 65
71
67
73 76 74
Activité physique
F-mesur
e
(%)
Accél. Audio Accél. et audio
50
60
70
80
90
100
84
8993
Position smartphone
F-mesur
e
(%)
F
IGURE6.5: F-mesures calculées pour la reconnaissance d’activités physiques et de
posi-tion du smartphone, en validaposi-tion croisée à 10 sous-ensembles avec le classifieur de forêt
d’arbres décisionnels (RF)
Concernant l’objectif d’évaluation de la pertinence des données acoustiques dans la
tâche de reconnaissance d’activité physique, on constate que pour les trois configurations,
la f-mesure est plus élevée avec les descripteurs acoustiques qu’avec les descripteurs
d’ac-célération. En outre, la combinaison des deux sources permet d’obtenir des résultats encore
plus élevés que lorsqu’une seule des deux sources est employée.
La comparaison des résultats des configurationsvérité terrainetréférence indique que
l’intégration de la position du smartphone dans le vecteur de descripteurs à évaluer permet
d’augmenter la performance de 3 à 4 points suivant les ensembles de descripteurs
considé-rés. La configurationvérité terrain représente une estimation théorique de la performance
car l’information de la position du smartphone est connue avec certitude. En comparaison,
l’expérimentation où la position est inférée ne permet pas d’atteindre des performances
si-milaires. Pour expliquer ce résultat, nous décrivons d’abord le graphique de droite de la
fi-gure 6.5 qui indique les valeurs de f-mesure pour la classification de position du smartphone.
Les valeurs sont très élevées, quelle que soit la configuration de descripteurs choisis. Ces
va-leurs sont obtenues suivant une validation croisée à 10 sous-ensembles. Dans le cadre de
l’expérimentation d’inférence, le classifieur de position du smartphone a été entraîné sur
une sous-partie du corpus, ce qui a réduit le nombre d’exemples considéré pendant
l’en-traînement et probablement affecté la reconnaissance de la position. Par suite, l’attribut de
position a pu être considéré comme peu pertinent dans l’apprentissage, ce qui pourrait
ex-pliquer les résultats très similaires à laréférence.
Les résultats sont encourageants pour la réalisation de modules dédiés à la
reconnais-sance de l’activité physique et de la position du smartphone. Cependant, afin d’intégrer ces
modules dans un système composite de reconnaissance de scènes, les vecteurs de scènes
doivent être annotés avec les informations d’activité physique et de position du smartphone.
Nous n’avons pas ces informations, c’est pourquoi nous proposons une solution alternative
dans la section suivante.
Dans le document
Reconnaissance de scènes multimodale embarquée
(Page 136-139)