Résultats de la fusion et commentaires - Combinaison des éléments par fusion

6.2 Approche par combinaison

6.2.4 Combinaison des éléments par fusion

6.2.4.3 Résultats de la fusion et commentaires

Nous avons effectué l’expérimentation en validation croisée sur 10 sous-ensembles. Le

taux de classification est de 71,5 %. Pour rappel, le taux de classification de la forêt d’arbres

décisionnels dans la même configuration de sources et en validation croisée stratifiée à

10 sous-ensembles est de 90,3 % (voir section 5.3.1). La première observation consiste à dire

que le système de reconnaissance par fusion n’est pas aussi bon que le système de

classifi-cation du chapitre 5.

Nous présentons les mesures de rappel et de précision pour chacune des scènes dans

la table 6.16. On remarque une grande disparité dans la reconnaissance des scènes avec le

bateau, le bus, la réunion, la pause, le magasinet letrain qui ne sont jamais identifiés. À

l’inverse, les autres scènes sont souvent reconnues et prédites par le classifieur. Nous

expli-quons cette observation par les associations de lieux et de scènes, qui sont très restrictives,

avec des croyances très marquées. Par exemple, l’intérieur professionnelest associé au

bu-reauavec une croyance de 0,650, très forte relativement aux associations avec lapauseet de

laréunion, respectivement de 0,056 et 0,294. Ainsi, la combinaison de la prédiction du lieu

avec les associations de lieux et de scènes favorise la scène la plus vraisemblable pour le lieu

à la probabilité la plus élevée.

Les associations d’actions aux scènes ne mettent pas plus en valeur les scènes "faibles".

L’action diteagitéest associée au bureausuivant une croyance de 0,070, à laréunionavec

0,056 et à lapauseavec 0,028. L’action diteposéest associée aubureauavec une croyance de

0,493. Enfin, l’action ditecalmeest associée aubureauavec 0,169, à laréunionavec 0,142 et

à lapauseavec 0,037.

La même observation est possible pour les scènes durestaurantet dumagasin.

Concer-nant lestransports, l’action dite calmepermet la distinction entre letramwayet la voiture

(qui est le transport le plus représenté) avec des croyances respectives de 0,084 et 0,015. La

croyance dans lebusest aussi plus élevée que dans lavoiture(0,046). Cela justifie pourquoi

deux scènes des transports sont reconnues pendant la fusion (contrairement aux autre

en-vironnements où la scène avec la plus grande croyance est la seule proposée).

T

ABLE

6.16: Mesures de rappel et précision des scènes

Bateau Bus Voiture Domicile Réunion Pause Bureau Restau. Magasin Rue Train Tramway Rappel 0,0 0,0 94,1 93,6 0,0 0,0 96,0 85,9 0,0 90,0 0,0 44,1 Précision 0,0 0,0 60,5 94,0 0,0 0,0 63,9 63,9 0,0 77,2 0,0 49,6

expérimentation est encourageant. Le système pourrait être enrichi de nouveaux modules

et la stratégie de Dempster-Shafer permettrait d’intégrer des sources aux formats différents.

Ainsi, une évolution possible serait de prendre en compte des sources événementielles du

fonctionnement de l’appareil telles que les informations d’applications utilisées ou l’état de

l’écran (allumé ou éteint) et de les intégrer sous forme de module. La modélisation de ces

sources peut être heuristique (par exemple, si l’identifiant de la borne Wi-Fi de mon domicile

est reconnue, alors il y a 95 % de chance que je sois chez moi, à l’intérieur).

Le fonctionnement par modules permet de fournir des informations différentes sur la

scène. Certes, l’information d’environnement peut être directement déduite de la scène

sui-vant notre modélisation. Mais l’information d’action est complémentaire au lieu pour

esti-mer l’action de la personne. Avec l’ajout d’une source supplémentaire comme l’interaction

de l’utilisateur avec l’appareil, on peut imaginer différencier les actions dues à l’interaction

de celles simplement dues au mouvement ou au déplacement de la personne. Cette

ap-proche hiérarchique permet de réduire la dépendance au matériel grâce à la multiplication

et la diversité des sources d’information. Par exemple, si une source est indisponible

tem-porairement, l’estimation des hypothèses de scènes est possible grâce aux autres sources

disponibles. Un autre avantage de cette solution est l’adaptation des poids à la personne

(par exemple, par un apprentissage spécifique).

6.3 Bilan du chapitre

La première conclusion du chapitre porte sur la complexité des scènes considérées et

perçues par les humains relativement aux observations issues de mesures physiques. L’étude

menée dans la section 6.1 n’a pas permis d’aboutir à une interprétation très poussée de la

scène. Cependant, nous avons montré la cohérence des groupes issus du regroupement

non-supervisé, ce qui justifie de vouloir interpréter les groupes. L’étude des ambiances sonores

présentée est aussi très limitée par le manque d’annotations sur les ambiances considérées.

La seconde conclusion porte sur la représentation de la scène qui est très simple pour

le moment. Les éléments de lieu et d’action sont nécessaires mais insuffisants pour la

réa-lisation d’un système de reconnaissance composite. La mise en évidence d’éléments

sup-plémentaires pourrait permettre d’améliorer le système de reconnaissance par fusion

d’évi-dences. Celui-ci présente des avantages relativement aux objectifs industriels, mais reste

li-mité par le nombre de sources et de modules de représentation employés. La théorie de

fusion ne peut être pleinement appliquée car la considération de classifieurs empêche la

représentation de l’incertitude. Ainsi, l’étude d’autres sources de données pour découvrir

d’autres motifs de la composition d’une scène devrait permettre une meilleure

7 Conclusion

7.1 Bilan

Le manuscrit rapporte le travail de thèse réalisé dans l’objectif de construire un système

embarqué sur un smartphone capable de reconnaître la scène de l’utilisateur à partir des

sources de données disponibles. Très tôt au cours du doctorat, nous avons considéré que,

pour atteindre cet objectif, un ensemble d’objectifs intermédiaires devait être atteint.

Ceux-ci sont la conséquence de contraintes sCeux-cientifiques telles que le manque de connaissance sur

le concept de scène ; ou de contraintes pratiques comme l’absence d’un corpus de données

correspondant aux critères fixés ; d’autres sont des objectifs industriels tels que le souhait

de pouvoir décrire une scène suivant plusieurs niveaux d’abstraction. Le travail décrit s’est

efforcé de remplir ces objectifs ; les contributions sont les suivantes.

La première contribution de la thèse est notre système de classification, présenté au

cha-pitre 5, qui répond au problème principal de l’identification des scènes. Le système a été

évalué dans des conditions réalistes (les données proviennent de situations réelles) suivant

une méthodologie qui simule aussi un cas réaliste d’apprentissage centré sur un utilisateur

et tenant compte de vecteurs de données acquis dans un passé proche. En outre, l’évaluation

considère plusieurs configurations de capteurs et de descripteurs de données ainsi que le

déséquilibre de la représentation des scènes dans l’apprentissage. Dans le cas d’une

valida-tion croisée stratifiée à 10 sous-ensembles, sur un corpus composé de données d’un seul

vo-lontaire, la forêt d’arbres décisionnels (RF) a obtenu le meilleur rappel de classification avec

la valeur de 90,3 %. L’arbre de décision C4.5 présente aussi un résultat très proche. Les autres

classifieurs sont moins satisfaisants. Ces résultats constituent une référence de

classifica-tion et confirment la possibilité de reconnaître directement une scène, dans des condiclassifica-tions

d’expérimentation et, notamment, si toutes les sources de données évaluées sont présentes.

Pour parvenir à ce résultat de classification, nous avons fait le choix d’une approche par

apprentissage automatique supervisé qui nécessite des données annotées. L’appareil visé

par le sujet (le smartphone) nous a incité à faire l’acquisition d’un corpus de données

col-lecté sur un appareil du genre. En outre, le concept souhaité (la scène de la vie quotidienne)

a orienté le choix vers des données réelles, collectéesin vivo. D’autres contraintes

d’annota-tions et de sources de données ont mené à une recherche infructueuse de corpus existants.

Suite à cela, nous avons fait le choix d’effectuer notre propre collecte de données. Plusieurs

contraintes ont été rencontrées lors de l’établissement du protocole de collecte de données.

Le procédé d’annotation a dû être renforcé pour vérifier les annotations renseignées à la

vo-lée par les volontaires. La sécurité des données est un autre problème, qu’il a fallu traiter lors

des différentes étapes d’acquisition, de transfert et de stockage. La gestion de la vie privée

et l’anonymat des données ont aussi représenté une contrainte, gérée par des mesures de

protection sur toute la chaîne de traitement, à commencer par l’enregistrement sur

l’appa-reil. Finalement, deux collectes ont été effectuées, annotées et exploitées, dont la principale

est celle portant sur les scènes. Elle totalise plus de 500 heures de données réparties dans

80 enregistrements uniques ; plus d’une vingtaine de volontaires ont participé, dont 6 qui

ont collecté des scènes dans leur vie quotidienne ; plus de dix smartphones de différentes

marques et gammes ont servi aux collectes ; et des lieux essentiellement locaux (la région

de Grenoble) mais aussi d’autres régions de France, d’Irlande, de Hongrie et de Singapour.

L’ensemble du corpus collecté et annoté ainsi que l’application de collecte R

ECORD

M

sont

deux contributions de la thèse et répondent à l’objectif d’acquisition d’un corpus.

Le travail de thèse décrit dans le manuscrit s’inscrit dans un contexte où le concept de

scène et les situations visées par l’application industrielle sont mal connues. En effet, d’une

part, les situations visées dans l’application finale par le partenaire industriel sont peu

dé-crites ; d’autre part, la notion de scène est floue dans l’état de l’art et les travaux effectués

l’abordent en ne considérant que certains des éléments qui la composent (par exemple :

re-connaissance du lieu, de l’activité, de l’ambiance sonore). Pour parvenir à l’objectif principal

de reconnaissance de scène, nous avons considéré nécessaire d’approfondir la

compréhen-sion du concept de scène. Nous proposons une définition dans le chapitre 4 qui résulte de

l’étude de travaux existants et des annotations du corpus. L’étude combinée de la notion de

contexte, proche de la scène, et des travaux de reconnaissance effectués a permis de mettre

en évidence la notion de composition. Les éléments de lieu et d’action sont apparus comme

nécessaires. L’étude des annotations a confirmé leur importance mais a aussi montré les

li-mites de la description. La définition que nous proposons est générale, ce qui permet de

considérer de nombreuses situations, mais elle manque encore de précision. Elle représente

une première approximation qui peut être exploitée pour la modélisation d’une scène, mais

son imprécision requiert encore du travail pour améliorer la compréhension.

Une autre contribution de la thèse est la confirmation de la pertinence de l’usage du

mi-crophone, en complément de l’accéléromètre. L’usage de ce dernier a été montré dans les

tâches de reconnaissance d’activité physique, de reconnaissance de la position du

smart-phone ainsi que dans des activités humaines plus complexes, qui peuvent être associées à

des lieux ou des scènes (par exemple, la préparation du repas se réalise la plupart du temps

dans une cuisine). Nous avons vu dans l’état de l’art que le microphone est pertinent pour

la reconnaissance d’ambiance sonore telle que celle de lieux particuliers. Plusieurs résultats

décrits dans le manuscrit confirment la pertinence de l’usage du microphone. La sélection

d’attributs effectuée dans le chapitre 5 a retenu 10 coefficients d’énergie acoustique,

loca-lisés dans une bande de fréquence de 0 à 1077 Hz. L’expérimentation de reconnaissance

d’activité physique et de position du smartphone décrite dans la section 6.2.1 du chapitre 6

a montré que l’usage du microphone peut amener à des résultats équivalents à celui de

l’ac-céléromètre. Les résultats indiquent aussi que l’usage commun des deux sources dépasse les

résultats obtenus pour les sources individuelles.

Nous avons exploité le modèle de scène en présentant une solution de reconnaissance

alternative dans le chapitre 6. Il s’agit d’un système composé de modules (des classifieurs)

dédiés à la reconnaissance des éléments de lieu et d’action qui caractérisent les scènes

consi-dérées. Le module procède à une combinaison des prédictions des deux classifieurs suivant

la théorie de fusion de Dempster-Shafer. Les prédictions sont transformées en fonctions de

masse associées aux différentes valeurs de variables considérées. Les essais effectués avec

le système ne sont pas concluants pour le moment mais nous proposons plusieurs

explica-tions à cela. D’abord, comme cela a déjà été dit, le modèle de scène est encore très général

et imprécis, ce qui peut avoir une influence sur la description des scènes. En outre, l’usage

de classifieurs impose de considérer des probabilités, ce qui ne permet pas de tirer profit de

la représentation d’incertitude et de la considération de réalisations multiples simultanées

proposées par la théorie de Dempster-Shafer. En outre, cette théorie permet d’unifier des

re-présentation continues et symboliques, ce qui permettrait de prendre en compte les sources

de données du fonctionnement du téléphone pour compléter les modules du système. Dans

l’état actuel, ce système ne représente pas une solution aboutie, mais il ouvre des pistes de

recherche au-delà de la thèse.

Dans le document Reconnaissance de scènes multimodale embarquée (Page 147-152)