6.2 Approche par combinaison
6.2.4 Combinaison des éléments par fusion
6.2.4.3 Résultats de la fusion et commentaires
Nous avons effectué l’expérimentation en validation croisée sur 10 sous-ensembles. Le
taux de classification est de 71,5 %. Pour rappel, le taux de classification de la forêt d’arbres
décisionnels dans la même configuration de sources et en validation croisée stratifiée à
10 sous-ensembles est de 90,3 % (voir section 5.3.1). La première observation consiste à dire
que le système de reconnaissance par fusion n’est pas aussi bon que le système de
classifi-cation du chapitre 5.
Nous présentons les mesures de rappel et de précision pour chacune des scènes dans
la table 6.16. On remarque une grande disparité dans la reconnaissance des scènes avec le
bateau, le bus, la réunion, la pause, le magasinet letrain qui ne sont jamais identifiés. À
l’inverse, les autres scènes sont souvent reconnues et prédites par le classifieur. Nous
expli-quons cette observation par les associations de lieux et de scènes, qui sont très restrictives,
avec des croyances très marquées. Par exemple, l’intérieur professionnelest associé au
bu-reauavec une croyance de 0,650, très forte relativement aux associations avec lapauseet de
laréunion, respectivement de 0,056 et 0,294. Ainsi, la combinaison de la prédiction du lieu
avec les associations de lieux et de scènes favorise la scène la plus vraisemblable pour le lieu
à la probabilité la plus élevée.
Les associations d’actions aux scènes ne mettent pas plus en valeur les scènes "faibles".
L’action diteagitéest associée au bureausuivant une croyance de 0,070, à laréunionavec
0,056 et à lapauseavec 0,028. L’action diteposéest associée aubureauavec une croyance de
0,493. Enfin, l’action ditecalmeest associée aubureauavec 0,169, à laréunionavec 0,142 et
à lapauseavec 0,037.
La même observation est possible pour les scènes durestaurantet dumagasin.
Concer-nant lestransports, l’action dite calmepermet la distinction entre letramwayet la voiture
(qui est le transport le plus représenté) avec des croyances respectives de 0,084 et 0,015. La
croyance dans lebusest aussi plus élevée que dans lavoiture(0,046). Cela justifie pourquoi
deux scènes des transports sont reconnues pendant la fusion (contrairement aux autre
en-vironnements où la scène avec la plus grande croyance est la seule proposée).
T
ABLE6.16: Mesures de rappel et précision des scènes
Bateau Bus Voiture Domicile Réunion Pause Bureau Restau. Magasin Rue Train Tramway Rappel 0,0 0,0 94,1 93,6 0,0 0,0 96,0 85,9 0,0 90,0 0,0 44,1 Précision 0,0 0,0 60,5 94,0 0,0 0,0 63,9 63,9 0,0 77,2 0,0 49,6
expérimentation est encourageant. Le système pourrait être enrichi de nouveaux modules
et la stratégie de Dempster-Shafer permettrait d’intégrer des sources aux formats différents.
Ainsi, une évolution possible serait de prendre en compte des sources événementielles du
fonctionnement de l’appareil telles que les informations d’applications utilisées ou l’état de
l’écran (allumé ou éteint) et de les intégrer sous forme de module. La modélisation de ces
sources peut être heuristique (par exemple, si l’identifiant de la borne Wi-Fi de mon domicile
est reconnue, alors il y a 95 % de chance que je sois chez moi, à l’intérieur).
Le fonctionnement par modules permet de fournir des informations différentes sur la
scène. Certes, l’information d’environnement peut être directement déduite de la scène
sui-vant notre modélisation. Mais l’information d’action est complémentaire au lieu pour
esti-mer l’action de la personne. Avec l’ajout d’une source supplémentaire comme l’interaction
de l’utilisateur avec l’appareil, on peut imaginer différencier les actions dues à l’interaction
de celles simplement dues au mouvement ou au déplacement de la personne. Cette
ap-proche hiérarchique permet de réduire la dépendance au matériel grâce à la multiplication
et la diversité des sources d’information. Par exemple, si une source est indisponible
tem-porairement, l’estimation des hypothèses de scènes est possible grâce aux autres sources
disponibles. Un autre avantage de cette solution est l’adaptation des poids à la personne
(par exemple, par un apprentissage spécifique).
6.3 Bilan du chapitre
La première conclusion du chapitre porte sur la complexité des scènes considérées et
perçues par les humains relativement aux observations issues de mesures physiques. L’étude
menée dans la section 6.1 n’a pas permis d’aboutir à une interprétation très poussée de la
scène. Cependant, nous avons montré la cohérence des groupes issus du regroupement
non-supervisé, ce qui justifie de vouloir interpréter les groupes. L’étude des ambiances sonores
présentée est aussi très limitée par le manque d’annotations sur les ambiances considérées.
La seconde conclusion porte sur la représentation de la scène qui est très simple pour
le moment. Les éléments de lieu et d’action sont nécessaires mais insuffisants pour la
réa-lisation d’un système de reconnaissance composite. La mise en évidence d’éléments
sup-plémentaires pourrait permettre d’améliorer le système de reconnaissance par fusion
d’évi-dences. Celui-ci présente des avantages relativement aux objectifs industriels, mais reste
li-mité par le nombre de sources et de modules de représentation employés. La théorie de
fusion ne peut être pleinement appliquée car la considération de classifieurs empêche la
représentation de l’incertitude. Ainsi, l’étude d’autres sources de données pour découvrir
d’autres motifs de la composition d’une scène devrait permettre une meilleure
7
Conclusion
7.1 Bilan
Le manuscrit rapporte le travail de thèse réalisé dans l’objectif de construire un système
embarqué sur un smartphone capable de reconnaître la scène de l’utilisateur à partir des
sources de données disponibles. Très tôt au cours du doctorat, nous avons considéré que,
pour atteindre cet objectif, un ensemble d’objectifs intermédiaires devait être atteint.
Ceux-ci sont la conséquence de contraintes sCeux-cientifiques telles que le manque de connaissance sur
le concept de scène ; ou de contraintes pratiques comme l’absence d’un corpus de données
correspondant aux critères fixés ; d’autres sont des objectifs industriels tels que le souhait
de pouvoir décrire une scène suivant plusieurs niveaux d’abstraction. Le travail décrit s’est
efforcé de remplir ces objectifs ; les contributions sont les suivantes.
La première contribution de la thèse est notre système de classification, présenté au
cha-pitre 5, qui répond au problème principal de l’identification des scènes. Le système a été
évalué dans des conditions réalistes (les données proviennent de situations réelles) suivant
une méthodologie qui simule aussi un cas réaliste d’apprentissage centré sur un utilisateur
et tenant compte de vecteurs de données acquis dans un passé proche. En outre, l’évaluation
considère plusieurs configurations de capteurs et de descripteurs de données ainsi que le
déséquilibre de la représentation des scènes dans l’apprentissage. Dans le cas d’une
valida-tion croisée stratifiée à 10 sous-ensembles, sur un corpus composé de données d’un seul
vo-lontaire, la forêt d’arbres décisionnels (RF) a obtenu le meilleur rappel de classification avec
la valeur de 90,3 %. L’arbre de décision C4.5 présente aussi un résultat très proche. Les autres
classifieurs sont moins satisfaisants. Ces résultats constituent une référence de
classifica-tion et confirment la possibilité de reconnaître directement une scène, dans des condiclassifica-tions
d’expérimentation et, notamment, si toutes les sources de données évaluées sont présentes.
Pour parvenir à ce résultat de classification, nous avons fait le choix d’une approche par
apprentissage automatique supervisé qui nécessite des données annotées. L’appareil visé
par le sujet (le smartphone) nous a incité à faire l’acquisition d’un corpus de données
col-lecté sur un appareil du genre. En outre, le concept souhaité (la scène de la vie quotidienne)
a orienté le choix vers des données réelles, collectéesin vivo. D’autres contraintes
d’annota-tions et de sources de données ont mené à une recherche infructueuse de corpus existants.
Suite à cela, nous avons fait le choix d’effectuer notre propre collecte de données. Plusieurs
contraintes ont été rencontrées lors de l’établissement du protocole de collecte de données.
Le procédé d’annotation a dû être renforcé pour vérifier les annotations renseignées à la
vo-lée par les volontaires. La sécurité des données est un autre problème, qu’il a fallu traiter lors
des différentes étapes d’acquisition, de transfert et de stockage. La gestion de la vie privée
et l’anonymat des données ont aussi représenté une contrainte, gérée par des mesures de
protection sur toute la chaîne de traitement, à commencer par l’enregistrement sur
l’appa-reil. Finalement, deux collectes ont été effectuées, annotées et exploitées, dont la principale
est celle portant sur les scènes. Elle totalise plus de 500 heures de données réparties dans
80 enregistrements uniques ; plus d’une vingtaine de volontaires ont participé, dont 6 qui
ont collecté des scènes dans leur vie quotidienne ; plus de dix smartphones de différentes
marques et gammes ont servi aux collectes ; et des lieux essentiellement locaux (la région
de Grenoble) mais aussi d’autres régions de France, d’Irlande, de Hongrie et de Singapour.
L’ensemble du corpus collecté et annoté ainsi que l’application de collecte R
ECORDM
Esont
deux contributions de la thèse et répondent à l’objectif d’acquisition d’un corpus.
Le travail de thèse décrit dans le manuscrit s’inscrit dans un contexte où le concept de
scène et les situations visées par l’application industrielle sont mal connues. En effet, d’une
part, les situations visées dans l’application finale par le partenaire industriel sont peu
dé-crites ; d’autre part, la notion de scène est floue dans l’état de l’art et les travaux effectués
l’abordent en ne considérant que certains des éléments qui la composent (par exemple :
re-connaissance du lieu, de l’activité, de l’ambiance sonore). Pour parvenir à l’objectif principal
de reconnaissance de scène, nous avons considéré nécessaire d’approfondir la
compréhen-sion du concept de scène. Nous proposons une définition dans le chapitre 4 qui résulte de
l’étude de travaux existants et des annotations du corpus. L’étude combinée de la notion de
contexte, proche de la scène, et des travaux de reconnaissance effectués a permis de mettre
en évidence la notion de composition. Les éléments de lieu et d’action sont apparus comme
nécessaires. L’étude des annotations a confirmé leur importance mais a aussi montré les
li-mites de la description. La définition que nous proposons est générale, ce qui permet de
considérer de nombreuses situations, mais elle manque encore de précision. Elle représente
une première approximation qui peut être exploitée pour la modélisation d’une scène, mais
son imprécision requiert encore du travail pour améliorer la compréhension.
Une autre contribution de la thèse est la confirmation de la pertinence de l’usage du
mi-crophone, en complément de l’accéléromètre. L’usage de ce dernier a été montré dans les
tâches de reconnaissance d’activité physique, de reconnaissance de la position du
smart-phone ainsi que dans des activités humaines plus complexes, qui peuvent être associées à
des lieux ou des scènes (par exemple, la préparation du repas se réalise la plupart du temps
dans une cuisine). Nous avons vu dans l’état de l’art que le microphone est pertinent pour
la reconnaissance d’ambiance sonore telle que celle de lieux particuliers. Plusieurs résultats
décrits dans le manuscrit confirment la pertinence de l’usage du microphone. La sélection
d’attributs effectuée dans le chapitre 5 a retenu 10 coefficients d’énergie acoustique,
loca-lisés dans une bande de fréquence de 0 à 1077 Hz. L’expérimentation de reconnaissance
d’activité physique et de position du smartphone décrite dans la section 6.2.1 du chapitre 6
a montré que l’usage du microphone peut amener à des résultats équivalents à celui de
l’ac-céléromètre. Les résultats indiquent aussi que l’usage commun des deux sources dépasse les
résultats obtenus pour les sources individuelles.
Nous avons exploité le modèle de scène en présentant une solution de reconnaissance
alternative dans le chapitre 6. Il s’agit d’un système composé de modules (des classifieurs)
dédiés à la reconnaissance des éléments de lieu et d’action qui caractérisent les scènes
consi-dérées. Le module procède à une combinaison des prédictions des deux classifieurs suivant
la théorie de fusion de Dempster-Shafer. Les prédictions sont transformées en fonctions de
masse associées aux différentes valeurs de variables considérées. Les essais effectués avec
le système ne sont pas concluants pour le moment mais nous proposons plusieurs
explica-tions à cela. D’abord, comme cela a déjà été dit, le modèle de scène est encore très général
et imprécis, ce qui peut avoir une influence sur la description des scènes. En outre, l’usage
de classifieurs impose de considérer des probabilités, ce qui ne permet pas de tirer profit de
la représentation d’incertitude et de la considération de réalisations multiples simultanées
proposées par la théorie de Dempster-Shafer. En outre, cette théorie permet d’unifier des
re-présentation continues et symboliques, ce qui permettrait de prendre en compte les sources
de données du fonctionnement du téléphone pour compléter les modules du système. Dans
l’état actuel, ce système ne représente pas une solution aboutie, mais il ouvre des pistes de
recherche au-delà de la thèse.
Dans le document
Reconnaissance de scènes multimodale embarquée
(Page 147-152)