Expérimentation de reconnaissance d’activité physique

6.2 Approche par combinaison

6.2.1 Expérimentation de reconnaissance d’activité physique

Nous rapportons les travaux d’une étude que nous avons menée sur la reconnaissance

d’activité physique d’une personne et du contexte du smartphone (Blachon et coll. (2014a)).

Les objectifs étaient multiples :

— évaluer la pertinence du microphone en comparaison avec l’accéléromètre pour la

re-connaissance de l’activité physique ;

— évaluer la capacité à reconnaître la position du smartphone sur la personneviaune

méthode d’apprentissage supervisé ;

— déterminer l’apport de la connaissance de la position du smartphone dans la

recon-naissance de l’activité physique en intégrant cette conrecon-naissance dans le vecteur de

descripteurs.

Concernant les concepts à reconnaître, nous avons considéré des activités physiques

simples (suivant le sens donné dans la section 2.2.3) au cours desquelles les personnes

peuvent porter le smartphone : la marche, la montée et descente d’escaliers, le saut et la

course. Nous avons aussi considéré des attitudes immobiles en position debout, assise ou

couchée. Ces attitudes sont observables dans de nombreuses situations (par exemple : les

transports, le déjeuner, le travail sur bureau). Enfin, nous avons considéré le cas où le

télé-phone est posé sur une surface plane.

Le contexte du smartphone a déjà été évoqué dans la section 2.2.4 où l’on a

notam-ment décrit son impact sur les mesures effectuées et potentiellenotam-ment sur la tâche de

re-connaissance. Dans les travaux de l’état de l’art, la prise en compte du contexte est

limi-tée à la position et à l’orientation. Nous avons proposé une représentation plus vaste

(Bla-chon et coll. (2014a)), incluant la quantité de mouvement de l’appareil, l’usage et la

posi-tion. Chacun des trois éléments est décrit par des valeurs nominatives d’un ensemble fini.

La quantité de mouvement peut être nulle, faible ou forte ; l’usage est décrit par deux valeurs

(smartphone utilisé ou non) ; les positions considérées sont le sac, la poche du pantalon ou

la main.

Le corpus de données qui a servi à l’expérimentation est décrit dans la section 3.4.2

du chapitre 3. Brièvement, 19 volontaires ont été équipés avec plusieurs smartphones

si-tués dans les trois positions évoquées. Ils ont réalisé une séquence d’actions décrites dans

des scénarios et supervisée par un expérimentateur. Le corpus exploitable est constitué de

408 minutes (un peu moins de 7 heures) et représentatif de 16 volontaires. Les données sont

annotées avec les activités et attitudes mentionnées précédemment, ainsi qu’avec les

posi-tions du smartphone.

Le corpus de données a permis d’extraire un ensemble de descripteurs

d’accéléra-tions et d’ambiance sonore. Les descripteurs acoustiques sont calculés sur des fenêtres de

1024 échantillons puis moyennés sur une période équivalente de 2 secondes. Le calcul est

similaire à ce qui a été décrit précédemment : ce sont des coefficients d’énergie de 40 filtres

linéaires sur une échelle Mel, de bande équivalente à [0;22050H z]. Les descripteurs

d’accé-lération sont calculés sur des fenêtres de 2 secondes (synchronisées avec les fenêtres

acous-tiques moyennées). Les descripteurs incluent des mesures statisacous-tiques (moyenne, variance

et énergie de la norme d’accélération, variance des accélération des 3 axes) et spectrales

(coefficients d’énergie des bandes à 3 et 4 Hz). Un vecteur représente l’agrégation des

des-cripteurs des deux sources, sur une fenêtre de 2 secondes.

Grâce au corpus de vecteurs annotés, nous avons mis en place plusieurs

expérimenta-tions de classification pour évaluer les trois hypothèses présentées précédemment. Le

clas-sifieur est entraîné et évalué suivant la méthode de validation croisée à 10 sous-ensembles

avec répartition uniforme des activités annotées dans chaque sous-ensemble. Les

classi-fieurs C4.5 et forêt d’arbres décisionnels sont employés dans les expérimentations. Le C4.5 a

été entraîné avec élagage et un minimum de 100 vecteurs par feuille. La forêt d’arbres

déci-sionnels est composée de 50 arbres de décision. Nous avons utilisé l’outil Weka pour

l’expé-rimentation.

Nous présentons dans la figure 6.5 les résultats des expérimentations pour la forêt

d’arbres décisionnels qui a obtenu les meilleures performances. Le diagramme de gauche

illustre la f-mesure calculée pour la forêt d’arbres décisionnels dans la tâche de

reconnais-sance d’activité physique, suivant trois configurations. La configuration deréférence

repré-sente le cas où la position du smartphone est inconnue. La configuration intituléevérité

ter-rainreprésente le cas où l’information de position est intégrée au vecteur de descripteurs ;

inférence, un classifieur intermédiaire est entraîné pour reconnaître la position du

smart-phone. La prédiction est intégrée au vecteur des descripteurs pour la tâche de

reconnais-sance d’activité physique. Enfin, le graphique de droite illustre la f-mesure calculée pour

la tâche de reconnaissance de la position du smartphone, évaluée en validation croisée à

10 sous-ensembles.

Référence Vérité terrain Inférence

50

60

70

80

90

100 65⁶⁷ ⁶⁹ 65

71

67 73 ⁷⁶ ⁷⁴

Activité physique

F-mesur

e

(%)

Accél. Audio Accél. et audio

50

60

70

80

90

100

84 89⁹³

Position smartphone

F-mesur

e

(%)

F

IGURE

6.5: F-mesures calculées pour la reconnaissance d’activités physiques et de

posi-tion du smartphone, en validaposi-tion croisée à 10 sous-ensembles avec le classifieur de forêt

d’arbres décisionnels (RF)

Concernant l’objectif d’évaluation de la pertinence des données acoustiques dans la

tâche de reconnaissance d’activité physique, on constate que pour les trois configurations,

la f-mesure est plus élevée avec les descripteurs acoustiques qu’avec les descripteurs

d’ac-célération. En outre, la combinaison des deux sources permet d’obtenir des résultats encore

plus élevés que lorsqu’une seule des deux sources est employée.

La comparaison des résultats des configurationsvérité terrainetréférence indique que

l’intégration de la position du smartphone dans le vecteur de descripteurs à évaluer permet

d’augmenter la performance de 3 à 4 points suivant les ensembles de descripteurs

considé-rés. La configurationvérité terrain représente une estimation théorique de la performance

car l’information de la position du smartphone est connue avec certitude. En comparaison,

l’expérimentation où la position est inférée ne permet pas d’atteindre des performances

si-milaires. Pour expliquer ce résultat, nous décrivons d’abord le graphique de droite de la

fi-gure 6.5 qui indique les valeurs de f-mesure pour la classification de position du smartphone.

Les valeurs sont très élevées, quelle que soit la configuration de descripteurs choisis. Ces

va-leurs sont obtenues suivant une validation croisée à 10 sous-ensembles. Dans le cadre de

l’expérimentation d’inférence, le classifieur de position du smartphone a été entraîné sur

une sous-partie du corpus, ce qui a réduit le nombre d’exemples considéré pendant

l’en-traînement et probablement affecté la reconnaissance de la position. Par suite, l’attribut de

position a pu être considéré comme peu pertinent dans l’apprentissage, ce qui pourrait

ex-pliquer les résultats très similaires à laréférence.

Les résultats sont encourageants pour la réalisation de modules dédiés à la

reconnais-sance de l’activité physique et de la position du smartphone. Cependant, afin d’intégrer ces

modules dans un système composite de reconnaissance de scènes, les vecteurs de scènes

doivent être annotés avec les informations d’activité physique et de position du smartphone.

Nous n’avons pas ces informations, c’est pourquoi nous proposons une solution alternative

dans la section suivante.

Dans le document Reconnaissance de scènes multimodale embarquée (Page 136-139)

Expérimentation de reconnaissance d’activité physique

6.2 Approche par combinaison

6.2.1 Expérimentation de reconnaissance d’activité physique

Nous rapportons les travaux d’une étude que nous avons menée sur la reconnaissance

d’activité physique d’une personne et du contexte du smartphone (Blachon et coll. (2014a)).

Les objectifs étaient multiples :

— évaluer la pertinence du microphone en comparaison avec l’accéléromètre pour la

re-connaissance de l’activité physique ;

— évaluer la capacité à reconnaître la position du smartphone sur la personneviaune

méthode d’apprentissage supervisé ;

— déterminer l’apport de la connaissance de la position du smartphone dans la

recon-naissance de l’activité physique en intégrant cette conrecon-naissance dans le vecteur de

descripteurs.

Concernant les concepts à reconnaître, nous avons considéré des activités physiques

simples (suivant le sens donné dans la section 2.2.3) au cours desquelles les personnes

peuvent porter le smartphone : la marche, la montée et descente d’escaliers, le saut et la

course. Nous avons aussi considéré des attitudes immobiles en position debout, assise ou

couchée. Ces attitudes sont observables dans de nombreuses situations (par exemple : les

transports, le déjeuner, le travail sur bureau). Enfin, nous avons considéré le cas où le

télé-phone est posé sur une surface plane.

Le contexte du smartphone a déjà été évoqué dans la section 2.2.4 où l’on a

notam-ment décrit son impact sur les mesures effectuées et potentiellenotam-ment sur la tâche de

re-connaissance. Dans les travaux de l’état de l’art, la prise en compte du contexte est

limi-tée à la position et à l’orientation. Nous avons proposé une représentation plus vaste

(Bla-chon et coll. (2014a)), incluant la quantité de mouvement de l’appareil, l’usage et la

posi-tion. Chacun des trois éléments est décrit par des valeurs nominatives d’un ensemble fini.

La quantité de mouvement peut être nulle, faible ou forte ; l’usage est décrit par deux valeurs

(smartphone utilisé ou non) ; les positions considérées sont le sac, la poche du pantalon ou

la main.

Le corpus de données qui a servi à l’expérimentation est décrit dans la section 3.4.2

du chapitre 3. Brièvement, 19 volontaires ont été équipés avec plusieurs smartphones

si-tués dans les trois positions évoquées. Ils ont réalisé une séquence d’actions décrites dans

des scénarios et supervisée par un expérimentateur. Le corpus exploitable est constitué de

408 minutes (un peu moins de 7 heures) et représentatif de 16 volontaires. Les données sont

annotées avec les activités et attitudes mentionnées précédemment, ainsi qu’avec les

posi-tions du smartphone.

Le corpus de données a permis d’extraire un ensemble de descripteurs

d’accéléra-tions et d’ambiance sonore. Les descripteurs acoustiques sont calculés sur des fenêtres de

1024 échantillons puis moyennés sur une période équivalente de 2 secondes. Le calcul est

similaire à ce qui a été décrit précédemment : ce sont des coefficients d’énergie de 40 filtres

linéaires sur une échelle Mel, de bande équivalente à [0;22050H z]. Les descripteurs

d’accé-lération sont calculés sur des fenêtres de 2 secondes (synchronisées avec les fenêtres

acous-tiques moyennées). Les descripteurs incluent des mesures statisacous-tiques (moyenne, variance

et énergie de la norme d’accélération, variance des accélération des 3 axes) et spectrales

(coefficients d’énergie des bandes à 3 et 4 Hz). Un vecteur représente l’agrégation des

des-cripteurs des deux sources, sur une fenêtre de 2 secondes.

Grâce au corpus de vecteurs annotés, nous avons mis en place plusieurs

expérimenta-tions de classification pour évaluer les trois hypothèses présentées précédemment. Le

clas-sifieur est entraîné et évalué suivant la méthode de validation croisée à 10 sous-ensembles

avec répartition uniforme des activités annotées dans chaque sous-ensemble. Les

classi-fieurs C4.5 et forêt d’arbres décisionnels sont employés dans les expérimentations. Le C4.5 a

été entraîné avec élagage et un minimum de 100 vecteurs par feuille. La forêt d’arbres

déci-sionnels est composée de 50 arbres de décision. Nous avons utilisé l’outil Weka pour

l’expé-rimentation.

Nous présentons dans la figure 6.5 les résultats des expérimentations pour la forêt

d’arbres décisionnels qui a obtenu les meilleures performances. Le diagramme de gauche

illustre la f-mesure calculée pour la forêt d’arbres décisionnels dans la tâche de

reconnais-sance d’activité physique, suivant trois configurations. La configuration deréférence

repré-sente le cas où la position du smartphone est inconnue. La configuration intituléevérité

ter-rainreprésente le cas où l’information de position est intégrée au vecteur de descripteurs ;

inférence, un classifieur intermédiaire est entraîné pour reconnaître la position du

smart-phone. La prédiction est intégrée au vecteur des descripteurs pour la tâche de

reconnais-sance d’activité physique. Enfin, le graphique de droite illustre la f-mesure calculée pour

la tâche de reconnaissance de la position du smartphone, évaluée en validation croisée à

10 sous-ensembles.

Référence Vérité terrain Inférence

50

60

70

80

90

100

6567 69 65

71

67

73 76 74

Activité physique

F-mesur

e

(%)

65⁶⁷ ⁶⁹ 65

73 ⁷⁶ ⁷⁴

89⁹³