À partir des objectifs industriels, des contraintes de collecte et de notre définition de
scène, nous formulons plusieurs hypothèses qui s’appliquent aux expérimentations
réali-sées pour répondre aux problèmes posés. Celles-ci sont décrites dans un second temps.
4.2.1 Hypothèses générales pour les expérimentations
Nous commençons par définir les scènes, lieux et actions considérés dans les
expéri-mentations de la thèse. Par notre définition, chaque scène est décomposée en un lieu et une
action. Nous énumérons les scènes considérées et les décomposons dans la table 4.5 :
do-micile,restaurant,commerce,bureau,réunion,pause,rue,train,tramway,voitureetbus. Les
scènes sont choisies parmi les annotations les plus fréquentes collectées afin d’avoir le plus
grand nombre d’instances de scènes. Les lieux qui composent ces scènes sont au nombre
de cinq : intérieur privé,intérieur public,lieu de travail,extérieur ettransport motorisé. Ils
reprennent les premiers nœuds de l’arbre de la figure 4.2. En outre, le bureau est l’unique
lieu de travail considéré et pour lequel des données sont disponibles.
T
ABLE4.5: Composition en lieux et actions des scènes étudiées
Scène Environnement Action
Int. Priv. Int. Pub. Lieu trav. Ext. Transp. Mot. Travail ordi. Particip. Réu. Déplcmt à pied Repos
Domicile ✓ ✓ ✓ Restaurant ✓ ✓ ✓ Commerce ✓ ✓ ✓ Bureau ✓ ✓ ✓ Réunion ✓ ✓ ✓ ✓ Pause ✓ ✓ ✓ Rue ✓ ✓ ✓ Train ✓ ✓ Tramway ✓ ✓ Voiture ✓ ✓ Bus ✓ ✓
Les actions considérées sont représentatives des actions principales réalisées dans les
scènes précédemment citées. Les étiquettes choisies sont le résultat d’un compromis entre
les annotations des scènes et les définitions du Compendium d’activités physiques (2011).
On y trouve les actions suivantes :travailler sur ordinateur,participer à une réunion,se
dé-placer à pied,être au repos. Les deux premières actions sont spécifiques aux environnements
du lieu de travail. L’action de déplacement à pied est associée aux scènes où celui-ci est
fré-quent comme ledomicile, lerestaurant, lecommerce, larueainsi que dans la scène depause
où les personnes peuvent se déplacer d’un lieu à un autre. Enfin, l’action de repos englobe les
attitudes et activités exercées en posture assise, debout ou allongée, autres que celles du
tra-vail sur ordinateur et de la réunion. Par exemple, le dîner au restaurant ou l’attente dans un
véhicule sont considérés comme des actions de repos. En outre, les scènes du lieu de travail
sont également associées à cette action lorsque la personne n’est plus impliquée dans une
autre action. Par l’observation de la table, nous remarquons que notre définition de la scène
est très générale. En effet, les actions de déplacement à pied et de repos sont présentes dans
toutes les scènes. Cela peut rendre difficile l’identification du lieu à partir de l’identification
de l’action.
Par sa nature incertaine, la transition entre deux scènes est représentée dans le corpus
par une étiquette distincte "incertain". Les transitions ne chevauchent pas les scènes, aussi
une transition démarre lorsque l’on n’est plus sûr d’être dans la scène. Inversement, une
transition s’arrête lorsque l’on est certain d’être dans une nouvelle scène.
Nous formulons également deux hypothèses sur le contexte du smartphone :
Hypothèse 1 Le smartphone est soit porté par l’utilisateur, soit posé à
proxi-mité immédiate de celui-ci, de sorte que les mesures effectuées puissent être
assimilées à la scène de l’utilisateur.
Hypothèse 2 Le smartphone est porté par une seule personne.
La première hypothèse considère la proximité de l’appareil et de l’utilisateur pour
pou-voir affirmer que les données collectées sont représentatives du contexte de l’utilisateur.
Pour rappel, nous avons vu dans l’état de l’art que le smartphone dispose d’un contexte qui
lui est propre, notamment marqué par sa position relativement à l’utilisateur et son
orienta-tion. Nous avons proposé une modélisation du contexte plus vaste (Blachon et coll.2014a),
qui tient compte de la présence d’interaction (décrite par une valeur binaire) et de la quantité
de mouvement de l’appareil (exprimée par trois valeurs symboliques : nulle, faible à
modé-rée, forte), en plus de la position de l’appareil (décrite par quatre valeurs : à la main, dans la
poche, dans un sac ou posé sur une surface). Dans le cadre de la thèse, nous nous limitons à
l’hypothèse 1 qui est plus générale.
La seconde hypothèse considère l’unicité de l’utilisateur du smartphone, qui permet de
considérer que les situations mesurées par l’appareil sont vécues par une personne unique.
Cette hypothèse est pertinente pour la création d’un système de reconnaissance adapté à
l’utilisateur.
4.2.2 Description des expérimentations
Nous décrivons dans cette section les expérimentations effectuées pour répondre aux
problèmes posés. Les deux premières expérimentations proposent deux solutions au
pro-blème de reconnaissance de scène et constituent des références de performance. Dans un
second temps, nous proposons deux expérimentations plus exploratoires. D’abord, nous
souhaitons compléter la réflexion sur la connaissance de la scène par l’étude non-supervisée
des vecteurs, dans le but de mettre en évidence des motifs qui pourraient être identifiés.
Éga-lement, nous souhaitons proposer une solution alternative au problème de reconnaissance
de scène, plus flexible et plus ouverte aux améliorations que la solution par classification
décrite ci-après.
Reconnaissance de scène par classification des vecteurs
Le problème de la reconnaissance de scène est abordé en considérant un système centré
sur un utilisateur, suivant les scènes qu’il a vécues. Cela représente un cadre de
fonctionne-ment réaliste pour le système final, où les modèles sont entraînés à partir des données
col-lectées pendant l’utilisation. En outre, ce cadre permet de tirer profit du déséquilibre entre
les participants dans les données collectées.
Dans ce cadre, nous proposons un système de classification des vecteurs de descripteurs.
L’évaluation du système est effectuée suivant différentes combinaisons de sources de
don-nées et de descripteurs : quand l’ensemble des capteurs considérés est disponible ; lorsque
seuls l’accéléromètre et le microphone fournissent des mesures ; avec les données tous les
capteurs considérés, après une sélection des attributs les plus pertinents. Nous effectuons
cette évaluation pour confronter et compléter les résultats de la comparaison de sources de
données menée dans la section 2.3 de l’état de l’art.
L’expérimentation est menée suivant deux méthodes de validation qui représentent des
fonctionnements différents du système. La première méthode est dite à validation croisée
stratifiée à dix sous-ensembles (ou en anglais, 10-fold Stratified Cross-Validation, abrégée
parFOLD-CV dans la suite). Elle consiste en un découpage du corpus en 10 groupes
conte-nant chacun le même nombre de vecteurs. Un groupe est arbitrairement affecté au corpus de
test pour évaluer le classifieur entraîné sur l’ensemble des neuf autres. L’opération est
répé-tée 10 fois, de sorte que chaque groupe serve une fois à l’évaluation. Les performances sont
moyennées sur l’ensemble des dix répétitions. En outre, nous appliquons cette méthode en
vérifiant que chaque scène est équitablement répartie dans tous les groupes. Cependant,
nous ne tenons pas compte de l’instance de scène dont proviennent les vecteurs. Ainsi, deux
vecteurs différents d’une même instance de scène peuvent se retrouver dans le corpus
d’en-traînement et dans le corpus de test. Cette configuration représente un cas de
fonctionne-ment où le système est adapté à des données collectées dans un passé très proche.
La seconde méthode se différencie de la précédente par la répartition uniforme des
vec-teurs de scènes dans le corpus d’entraînement. Elle est justifiée par la volonté d’éviter les
biais dus aux classes majoritaires dans le corpus d’entraînement. Contrairement à la
mé-thode précédente, celle-ci n’est effectuée qu’une seule fois. La comparaison des mesures
de classification obtenues à celles de la validation précédente permet d’évaluer l’impact du
déséquilibre des classes durant l’entraînement.
Détection des transitions entre les scènes
Nous proposons une seconde approche pour la reconnaissance de scène, basée sur la
détection des transitions. Elle repose sur l’hypothèse que les transitions entre scènes,
défi-nies comme des situations incertaines et associées à aucune scène connue, sont marquées
par des ruptures qu’il est possible d’identifier. Par exemple, le changement de lieu peut être
perçu par le changement d’ambiance sonore ou par le déplacement de la personne.
De tels changements peuvent être occasionnés lorsque la scène ne change pas, c’est
pourquoi il est raisonnable de penser que le nombre de fausses détections puisse être élevé.
Nous envisageons de compléter le système avec un classifieur dont le rôle est de "lisser" les
prédictions de transitions afin d’éliminer les fausses prédictions. Toutefois,
l’expérimenta-tion proposée se limite à la détecl’expérimenta-tion de transil’expérimenta-tions et ne vise pas l’évalual’expérimenta-tion du classifieur
"lisseur".
Cette approche s’oppose à la classification de vecteurs indépendants présentée
précé-demment car, pour la détection de ruptures, le système considère des séquences de vecteurs
consécutifs.
Approche de découverte des données
La seconde partie des expérimentations est guidée par une approche plus exploratoire.
Dans un premier temps, nous proposons un travail d’interprétation des données dans le but
de compléter notre proposition de modèle de scène. Pour cela, nous présentons des résultats
de regroupement de données réalisé de manière non-supervisé. Les groupes obtenus sont
interprétés par des hypothèses sur la composition des scènes.
Le regroupement est effectué sur les vecteurs contenant les descripteurs d’accélérations
et d’ambiance sonore. Nous distinguons d’abord les deux sources de données. L’étude des
groupes de vecteurs d’accélérations seuls est justifiée par l’interprétation physique des
des-cripteurs employés (moyenne et variance d’accélération) qui peuvent être associés à des
orientations du téléphone ou des quantités de mouvement. En outre, la comparaison des
groupes obtenus avec les scènes permet des hypothèses complémentaires sur le sens à
don-ner aux groupes ou sur la composition des scènes.
Les descripteurs acoustiques ne peuvent pas être évalués de manière absolue car les
co-efficients d’énergie des filtres sont normalisés. Cependant, il est possible de comparer les
groupes entre eux ainsi qu’avec les scènes. La comparaison des groupes avec les scènes
re-pose sur des hypothèses faites sur l’ambiance sonore des scènes. Nous étudions la
vraisem-blance de ces hypothèses par la mise en évidence de signatures acoustiques dans les groupes
de vecteurs concernés. Ces signatures sont observées dans les histogrammes de coefficients
d’énergie des groupes.
L’interprétation des groupes de vecteurs acoustiques et d’accélérations repose sur l’idée
que la considération de vecteurs avec les deux sources de données mènera à un
regroupe-ment différent. Ainsi, nous comparons les groupes obtenus dans ce cas avec les groupes des
deux cas précédents.
Approche par combinaison d’éléments de scènes
La dernière expérimentation présentée propose un système de reconnaissance de scène
composite. Dans le système, la scène est représentée suivant la notion de composition que
nous avons introduite à la section 4.1.3. Ainsi, le système cherche à reconnaître les deux
éléments de lieu et d’action qui la composent pour inférer la scène la plus vraisemblable.
Ce système représente une solution à plusieurs des problèmes de la thèse. D’abord, la
description de la scène reconnue par le système est plus détaillée qu’avec l’usage d’une
seule étiquette, ce qui peut être un avantage pour une application industrielle, tant en terme
de qualité d’information qu’en terme de gestion de capteurs. En effet, l’usage de modules
intermédiaires permet d’envisager l’exploitation différenciée des sources de données. Par
exemple, un module emploie l’accéléromètre et un autre le microphone. Ainsi, si les
don-nées d’une source sont manquantes, le système peut fournir une estimation de scène et une
description avec les propositions des modules valides.
La réalisation d’un tel système requiert, d’une part, la création des modules
intermé-diaires et, d’autre part, la mise en place d’une stratégie de combinaison des estimations des
modules. Pour les modules intermédiaires de reconnaissance de lieu et d’action, nous
choi-sissons des classifieurs dont les détails d’entraînement et d’évaluation sont précisés dans la
section 6.2.
La stratégie de combinaison adoptée s’appuie sur la théorie de fusion d’évidence de
Dempster-Shafer (1968;1976). Cette théorie a l’avantage de représenter la quantité
d’incer-titude de réalisation d’un concept, qui complète la simple probabilité de réalisation, que
l’on retrouve dans l’inférence bayésienne. Dans le cadre de l’expérimentation, l’usage des
classifieurs implique la représentation par des probabilités et la théorie de Dempster-Shafer
peut paraître inadaptée. Cependant, cette méthode peut s’avérer pertinente dans le cadre
d’un plus grand nombre de modules intermédiaires d’inférence avec, en particulier,
l’in-tégration d’informations issues de sources événementielles sur l’usage du téléphone (par
exemple l’activation de l’écran ou l’usage d’une application).
Dans le document
Reconnaissance de scènes multimodale embarquée
(Page 96-101)