Cadre expérimental - Reconnaissance de scènes multimodale embarquée

À partir des objectifs industriels, des contraintes de collecte et de notre définition de

scène, nous formulons plusieurs hypothèses qui s’appliquent aux expérimentations

réali-sées pour répondre aux problèmes posés. Celles-ci sont décrites dans un second temps.

4.2.1 Hypothèses générales pour les expérimentations

Nous commençons par définir les scènes, lieux et actions considérés dans les

expéri-mentations de la thèse. Par notre définition, chaque scène est décomposée en un lieu et une

action. Nous énumérons les scènes considérées et les décomposons dans la table 4.5 :

do-micile,restaurant,commerce,bureau,réunion,pause,rue,train,tramway,voitureetbus. Les

scènes sont choisies parmi les annotations les plus fréquentes collectées afin d’avoir le plus

grand nombre d’instances de scènes. Les lieux qui composent ces scènes sont au nombre

de cinq : intérieur privé,intérieur public,lieu de travail,extérieur ettransport motorisé. Ils

reprennent les premiers nœuds de l’arbre de la figure 4.2. En outre, le bureau est l’unique

lieu de travail considéré et pour lequel des données sont disponibles.

T

ABLE

4.5: Composition en lieux et actions des scènes étudiées

Scène ^{Environnement} ^Action

Int. Priv. Int. Pub. Lieu trav. Ext. Transp. Mot. Travail ordi. Particip. Réu. Déplcmt à pied Repos

Domicile ✓ ✓ ✓ Restaurant _✓ _✓ _✓ Commerce ✓ ✓ ✓ Bureau ✓ ✓ ✓ Réunion _✓ _✓ _✓ _✓ Pause ✓ ✓ ✓ Rue _✓ _✓ _✓ Train ✓ ✓ Tramway ✓ ✓ Voiture _✓ _✓ Bus ✓ ✓

Les actions considérées sont représentatives des actions principales réalisées dans les

scènes précédemment citées. Les étiquettes choisies sont le résultat d’un compromis entre

les annotations des scènes et les définitions du Compendium d’activités physiques (2011).

On y trouve les actions suivantes :travailler sur ordinateur,participer à une réunion,se

dé-placer à pied,être au repos. Les deux premières actions sont spécifiques aux environnements

du lieu de travail. L’action de déplacement à pied est associée aux scènes où celui-ci est

fré-quent comme ledomicile, lerestaurant, lecommerce, larueainsi que dans la scène depause

où les personnes peuvent se déplacer d’un lieu à un autre. Enfin, l’action de repos englobe les

attitudes et activités exercées en posture assise, debout ou allongée, autres que celles du

tra-vail sur ordinateur et de la réunion. Par exemple, le dîner au restaurant ou l’attente dans un

véhicule sont considérés comme des actions de repos. En outre, les scènes du lieu de travail

sont également associées à cette action lorsque la personne n’est plus impliquée dans une

autre action. Par l’observation de la table, nous remarquons que notre définition de la scène

est très générale. En effet, les actions de déplacement à pied et de repos sont présentes dans

toutes les scènes. Cela peut rendre difficile l’identification du lieu à partir de l’identification

de l’action.

Par sa nature incertaine, la transition entre deux scènes est représentée dans le corpus

par une étiquette distincte "incertain". Les transitions ne chevauchent pas les scènes, aussi

une transition démarre lorsque l’on n’est plus sûr d’être dans la scène. Inversement, une

transition s’arrête lorsque l’on est certain d’être dans une nouvelle scène.

Nous formulons également deux hypothèses sur le contexte du smartphone :

Hypothèse 1 Le smartphone est soit porté par l’utilisateur, soit posé à

proxi-mité immédiate de celui-ci, de sorte que les mesures effectuées puissent être

assimilées à la scène de l’utilisateur.

Hypothèse 2 Le smartphone est porté par une seule personne.

La première hypothèse considère la proximité de l’appareil et de l’utilisateur pour

pou-voir affirmer que les données collectées sont représentatives du contexte de l’utilisateur.

Pour rappel, nous avons vu dans l’état de l’art que le smartphone dispose d’un contexte qui

lui est propre, notamment marqué par sa position relativement à l’utilisateur et son

orienta-tion. Nous avons proposé une modélisation du contexte plus vaste (Blachon et coll.2014a),

qui tient compte de la présence d’interaction (décrite par une valeur binaire) et de la quantité

de mouvement de l’appareil (exprimée par trois valeurs symboliques : nulle, faible à

modé-rée, forte), en plus de la position de l’appareil (décrite par quatre valeurs : à la main, dans la

poche, dans un sac ou posé sur une surface). Dans le cadre de la thèse, nous nous limitons à

l’hypothèse 1 qui est plus générale.

La seconde hypothèse considère l’unicité de l’utilisateur du smartphone, qui permet de

considérer que les situations mesurées par l’appareil sont vécues par une personne unique.

Cette hypothèse est pertinente pour la création d’un système de reconnaissance adapté à

l’utilisateur.

4.2.2 Description des expérimentations

Nous décrivons dans cette section les expérimentations effectuées pour répondre aux

problèmes posés. Les deux premières expérimentations proposent deux solutions au

pro-blème de reconnaissance de scène et constituent des références de performance. Dans un

second temps, nous proposons deux expérimentations plus exploratoires. D’abord, nous

souhaitons compléter la réflexion sur la connaissance de la scène par l’étude non-supervisée

des vecteurs, dans le but de mettre en évidence des motifs qui pourraient être identifiés.

Éga-lement, nous souhaitons proposer une solution alternative au problème de reconnaissance

de scène, plus flexible et plus ouverte aux améliorations que la solution par classification

décrite ci-après.

Reconnaissance de scène par classification des vecteurs

Le problème de la reconnaissance de scène est abordé en considérant un système centré

sur un utilisateur, suivant les scènes qu’il a vécues. Cela représente un cadre de

fonctionne-ment réaliste pour le système final, où les modèles sont entraînés à partir des données

col-lectées pendant l’utilisation. En outre, ce cadre permet de tirer profit du déséquilibre entre

les participants dans les données collectées.

Dans ce cadre, nous proposons un système de classification des vecteurs de descripteurs.

L’évaluation du système est effectuée suivant différentes combinaisons de sources de

don-nées et de descripteurs : quand l’ensemble des capteurs considérés est disponible ; lorsque

seuls l’accéléromètre et le microphone fournissent des mesures ; avec les données tous les

capteurs considérés, après une sélection des attributs les plus pertinents. Nous effectuons

cette évaluation pour confronter et compléter les résultats de la comparaison de sources de

données menée dans la section 2.3 de l’état de l’art.

L’expérimentation est menée suivant deux méthodes de validation qui représentent des

fonctionnements différents du système. La première méthode est dite à validation croisée

stratifiée à dix sous-ensembles (ou en anglais, 10-fold Stratified Cross-Validation, abrégée

parFOLD-CV dans la suite). Elle consiste en un découpage du corpus en 10 groupes

conte-nant chacun le même nombre de vecteurs. Un groupe est arbitrairement affecté au corpus de

test pour évaluer le classifieur entraîné sur l’ensemble des neuf autres. L’opération est

répé-tée 10 fois, de sorte que chaque groupe serve une fois à l’évaluation. Les performances sont

moyennées sur l’ensemble des dix répétitions. En outre, nous appliquons cette méthode en

vérifiant que chaque scène est équitablement répartie dans tous les groupes. Cependant,

nous ne tenons pas compte de l’instance de scène dont proviennent les vecteurs. Ainsi, deux

vecteurs différents d’une même instance de scène peuvent se retrouver dans le corpus

d’en-traînement et dans le corpus de test. Cette configuration représente un cas de

fonctionne-ment où le système est adapté à des données collectées dans un passé très proche.

La seconde méthode se différencie de la précédente par la répartition uniforme des

vec-teurs de scènes dans le corpus d’entraînement. Elle est justifiée par la volonté d’éviter les

biais dus aux classes majoritaires dans le corpus d’entraînement. Contrairement à la

mé-thode précédente, celle-ci n’est effectuée qu’une seule fois. La comparaison des mesures

de classification obtenues à celles de la validation précédente permet d’évaluer l’impact du

déséquilibre des classes durant l’entraînement.

Détection des transitions entre les scènes

Nous proposons une seconde approche pour la reconnaissance de scène, basée sur la

détection des transitions. Elle repose sur l’hypothèse que les transitions entre scènes,

défi-nies comme des situations incertaines et associées à aucune scène connue, sont marquées

par des ruptures qu’il est possible d’identifier. Par exemple, le changement de lieu peut être

perçu par le changement d’ambiance sonore ou par le déplacement de la personne.

De tels changements peuvent être occasionnés lorsque la scène ne change pas, c’est

pourquoi il est raisonnable de penser que le nombre de fausses détections puisse être élevé.

Nous envisageons de compléter le système avec un classifieur dont le rôle est de "lisser" les

prédictions de transitions afin d’éliminer les fausses prédictions. Toutefois,

l’expérimenta-tion proposée se limite à la détecl’expérimenta-tion de transil’expérimenta-tions et ne vise pas l’évalual’expérimenta-tion du classifieur

"lisseur".

Cette approche s’oppose à la classification de vecteurs indépendants présentée

précé-demment car, pour la détection de ruptures, le système considère des séquences de vecteurs

consécutifs.

Approche de découverte des données

La seconde partie des expérimentations est guidée par une approche plus exploratoire.

Dans un premier temps, nous proposons un travail d’interprétation des données dans le but

de compléter notre proposition de modèle de scène. Pour cela, nous présentons des résultats

de regroupement de données réalisé de manière non-supervisé. Les groupes obtenus sont

interprétés par des hypothèses sur la composition des scènes.

Le regroupement est effectué sur les vecteurs contenant les descripteurs d’accélérations

et d’ambiance sonore. Nous distinguons d’abord les deux sources de données. L’étude des

groupes de vecteurs d’accélérations seuls est justifiée par l’interprétation physique des

des-cripteurs employés (moyenne et variance d’accélération) qui peuvent être associés à des

orientations du téléphone ou des quantités de mouvement. En outre, la comparaison des

groupes obtenus avec les scènes permet des hypothèses complémentaires sur le sens à

don-ner aux groupes ou sur la composition des scènes.

Les descripteurs acoustiques ne peuvent pas être évalués de manière absolue car les

co-efficients d’énergie des filtres sont normalisés. Cependant, il est possible de comparer les

groupes entre eux ainsi qu’avec les scènes. La comparaison des groupes avec les scènes

re-pose sur des hypothèses faites sur l’ambiance sonore des scènes. Nous étudions la

vraisem-blance de ces hypothèses par la mise en évidence de signatures acoustiques dans les groupes

de vecteurs concernés. Ces signatures sont observées dans les histogrammes de coefficients

d’énergie des groupes.

L’interprétation des groupes de vecteurs acoustiques et d’accélérations repose sur l’idée

que la considération de vecteurs avec les deux sources de données mènera à un

regroupe-ment différent. Ainsi, nous comparons les groupes obtenus dans ce cas avec les groupes des

deux cas précédents.

Approche par combinaison d’éléments de scènes

La dernière expérimentation présentée propose un système de reconnaissance de scène

composite. Dans le système, la scène est représentée suivant la notion de composition que

nous avons introduite à la section 4.1.3. Ainsi, le système cherche à reconnaître les deux

éléments de lieu et d’action qui la composent pour inférer la scène la plus vraisemblable.

Ce système représente une solution à plusieurs des problèmes de la thèse. D’abord, la

description de la scène reconnue par le système est plus détaillée qu’avec l’usage d’une

seule étiquette, ce qui peut être un avantage pour une application industrielle, tant en terme

de qualité d’information qu’en terme de gestion de capteurs. En effet, l’usage de modules

intermédiaires permet d’envisager l’exploitation différenciée des sources de données. Par

exemple, un module emploie l’accéléromètre et un autre le microphone. Ainsi, si les

don-nées d’une source sont manquantes, le système peut fournir une estimation de scène et une

description avec les propositions des modules valides.

La réalisation d’un tel système requiert, d’une part, la création des modules

intermé-diaires et, d’autre part, la mise en place d’une stratégie de combinaison des estimations des

modules. Pour les modules intermédiaires de reconnaissance de lieu et d’action, nous

choi-sissons des classifieurs dont les détails d’entraînement et d’évaluation sont précisés dans la

section 6.2.

La stratégie de combinaison adoptée s’appuie sur la théorie de fusion d’évidence de

Dempster-Shafer (1968;1976). Cette théorie a l’avantage de représenter la quantité

d’incer-titude de réalisation d’un concept, qui complète la simple probabilité de réalisation, que

l’on retrouve dans l’inférence bayésienne. Dans le cadre de l’expérimentation, l’usage des

classifieurs implique la représentation par des probabilités et la théorie de Dempster-Shafer

peut paraître inadaptée. Cependant, cette méthode peut s’avérer pertinente dans le cadre

d’un plus grand nombre de modules intermédiaires d’inférence avec, en particulier,

l’in-tégration d’informations issues de sources événementielles sur l’usage du téléphone (par

exemple l’activation de l’écran ou l’usage d’une application).

Dans le document Reconnaissance de scènes multimodale embarquée (Page 96-101)