• Aucun résultat trouvé

4.3 Extension de l’approche CuDi3D à des problématiques connexes

4.4.3 Résultats de la détection précoce

Nous présentons dans cette section les résultats de deux expérimentations menées sur la base MSRC-12 [FMKN12] afin d’évaluer les deux systèmes proposés pour faire de la détection précoce. Il existe peu de travaux ayant considéré la détection précoce d’actions dans un flot non segmenté de données squelettiques. La plupart des travaux sur la détection précoce ont été effectués en utilisant des vidéos RGB sur des actions pré- segmentées [Ryo11, CBB+13, DT06, LF12, LCS14] et, par conséquent, une comparaison

directe n’est pas possible. Néanmoins, nous avons trouvé une approche proposée par Bloom et al. [BAM17] qui s’est intéressée à cette problématique. Pour permettre une comparaison avec les résultats présentés dans [BAM17], nous utilisons les données de la modalité "vidéo + texte" en suivant le même protocole de validation croisée à 10 folds. De plus, seules les actions iconiques sont considérées pour ces évaluations, à savoir : s’accroupir (G2), placer des lunettes (G4), tirer (G6), lancer (G8), changer d’arme (G10) et donner un coup de pied (G12).

La première expérimentation est conduite suivant le protocole d’évaluation que nous avons qualifié précédemment de détection précoce simplifiée. Il s’agit en fait du protocole le moins contraint où l’évaluation est conduite trame par trame indépendamment. Pour ce premier cas, nous nous basons sur la même métrique initialement proposée par Lan et al. [LCS14] qui utilisent la distance temporelle (en nombre de trames) pour rapporter les performances. Cette métrique consiste en fait à calculer les performances pour chaque trame située, au plus, à -20 trames du point d’action de chaque instance de test. Une moyenne est ainsi donnée pour chaque trame située dans l’intervalle [Point d’action - 20 trames, Point d’action].

Les approches auxquelles nous nous comparons sont : Clustered Spatio-Temporal Ma- nifolds, Random Forests, AdaBoost, Dynamic Feature Selection. Ce sont en réalité des approches OAD qui ont été adaptées par [BAM17] pour des fins de détection précoce. En fait, avant l’étape de détection finale, ces approches classifient d’abord chaque trame, ce qui permet de considérer ces résultats pour une évaluation en détection précoce. Les résultats de l’approche E-CuDi3D et ceux obtenus par les approches de [BAM17] sont rapportés dans la Figure 4.16. Nous rapportons aussi dans cette figure les résultats des approches CuDi3D-10 et CuDi3D-100 utilisant un seul modèle ayant respectivement une taille de 10% et 100%.

Sur la base des résultats de la Figure 4.16, il est possible de voir que l’approche à trois modèles est globalement meilleure que la plus performante des approches proposées par [BAM17]. En particulier, notre approche se distingue pour les instants les plus éloignés du point d’action. Ceci suggère notamment que, du point de vue de la précocité, notre

Figure 4.16 – Détection précoce simplifiée, MSRC-12 : Résultats obtenus pour 20 trames avant les points d’actions sur la base MSRC-12 en détection précoce simplifiée. L’éva- luation est menée sur six classes d’actions suivant le protocole leave-subjects-out. E- CuDi3D = notre approche ; CuDi3D-10 et CuDi3D-100 sont les modèles à 10% et 100% de tailles curvilignes ; CSTM = Clustered Spatio-Temporal Manifolds [BAM17] ; RF = Ran- dom Forests [BAM17] ; AdaB = AdaBoost [BAM17], DFS = Dynamic Feature Selection [BAM17].

approche est plus intéressante alors que l’approche CSTM de [BAM17] prend légèrement le dessus en se rapprochant des points d’actions. Cela caractérise la robustesse de la notion de fenêtres curvilignes qui permettent d’adresser les problèmes de variabilités temporelles et la puissance de représentation des descripteurs HIF3D. En outre, par rapport aux deux courbes, traduisant les performances des deux approches de CuDi3D-10 et CuDi3D- 100, l’approche E-CuDi3D est supérieure et permet en effet de combiner les avantages de chacune d’elles.

Dans la deuxième expérimentation, nous évaluons l’approche E-CuDi3D dans le cadre plus complexe de la détection précoce au sens donné par le premier protocole. Suivant ce protocole, dès qu’une erreur est produite elle entraîne une erreur sur l’action. Comme pour le protocole précédent, une validation croisée est réalisée. Néanmoins lors de l’évaluation, nous calculons la mesure F _score qui combine précision et rappel et dans laquelle les faux positifs et les faux négatifs sont comptabilisés (cf. équation 4.12). Les résultats sont

Figure 4.17 – Détection précoce, MSRC-12 : Résultats obtenus pour 20 trames avant les points d’action sur la base MSRC-12 en détection précoce.

donnés sous forme de courbe dans la Figure 4.17.

Vu qu’aucune approche n’a considéré auparavant ce contexte d’évaluation, nous avons rapporté non seulement les résultats de notre approche (E-CuDi3D) mais aussi ceux des trois modèles séparément, à savoir CuDi3D-10, CuDi3D-50 et CuDi3D-100. Nous relevons alors que l’approche E-CuDi3D permet de combiner les avantages de chacun des trois modèles et réussit à atteindre des scores intéressants bien avant l’instant du point d’action. Ces résultats peuvent servir de référence pour de futurs travaux considérant ce cadre d’évaluation plus complexe mais aussi plus proche d’une exploitation réaliste de la détection précoce.

4.5

Conclusion

Dans ce chapitre, nous avons considéré la problématique de détection en-ligne d’ac- tions squelettiques dans un flot non segmenté. Il s’agit d’une problématique ayant plus d’intérêt pratique que la reconnaissance d’actions pré-segmentées, mais elle est plus com- plexe que cette dernière. Dans le cadre de notre étude, nous avons d’abord spécifié trois types de difficultés qu’une approche de la OAD devrait considérer, à savoir les variabi- lités temporelles, les variabilités spatiales inter-classes ainsi que les variabilités spatiales intra-classe. Nous avons ensuite proposé une approche originale de la OAD, dénommée CuDi3D, qui permet de mieux adresser ces difficultés.

En particulier, en ce qui concerne les variabilités temporelles, nous avons introduit le concept de fenêtre curviligne. Une telle fenêtre englobe des segments de trajectoire de longueur homogène et ce indépendamment du temps passé par un sujet à effectuer ce mouvement. Ceci est fondamentalement différent des approches de l’état de l’art dans la mesure où elles utilisent des fenêtres glissantes temporelles qui ne permettent d’extraire des descripteurs que sur des segments d’une durée pré-définie, et donc sont sensibles aux variations de vitesse. Ensuite, pour aborder les variabilités spatiales inter-classes, nous proposons de lancer plusieurs classifieurs curvilignes en parallèle pour analyser le flot d’entrée avec différentes fenêtres curvilignes. Enfin, nous adressons les variabilités spatiales intra-classe au moyen d’un système de fusion dans lequel les décisions locales et les scores de confiance sont combinés. Le but est de détecter les actions en cours le plus tôt possible tout en réduisant les confusions possibles entre les classes.

Cette nouvelle approche a été adaptée et étendue pour résoudre deux autres problèmes. En effet, d’une part nous avons proposé une nouvelle approche pour résoudre le problème de reconnaissance d’actions pré-segmentées, déjà abordé dans le chapitre 3. Cette approche se base sur une analyse trame par trame de la séquence d’action en utilisant à chaque fois le classifieur de plus grande taille curviligne possible. Les scores de confiance donnés par chaque classifieur sont cumulés dans un histogramme global, qui sert à la fin du traitement pour décider de la classe identifiée. D’autre part, nous avons proposé une autre approche pour adresser le problème de détection précoce d’actions non segmentées. Cette autre variante combine trois modèles de détection à base de fenêtres curvilignes, où chaque modèle utilise des tailles curvilignes différentes de manière à scruter le flot de données à court, moyen et long terme.

Nous avons d’abord évalué l’approche CuDi3D sur trois bases de données squelet- tiques dans le contexte de la détection en-ligne d’actions non segmentées. De meilleurs résultats ont été obtenus, attestant de la supériorité de cette approche par rapport aux autres approches de la littérature. Nous avons aussi isolé la contribution de chacun des

composants de l’approche et avons montré l’intérêt de chacun. En particulier, le fait de remplacer dans notre approche les fenêtres curvilignes par des fenêtres temporelles conven- tionnelles a détérioré les performances de l’approche. L’approche proposée est d’autant plus intéressante que les paramètres nécessaires, en particulier les seuils de confiance, sont automatiquement optimisés à partir des données d’apprentissage.

Nous avons ensuite montré que l’approche, ayant été adaptée pour la reconnaissance d’actions pré-segmentées, réalise de meilleures performances que celles obtenues par des approches de l’état de l’art, notamment les approches récentes à base d’apprentissage pro- fond (deep learning). Enfin, nous avons obtenu des résultats prometteurs avec l’approche à trois modèles dans le contexte de la détection précoce suivant un protocole d’évaluation réaliste.

Applications

5.1

Introduction

Dans ce dernier chapitre, nous présentons trois travaux dans lesquels nous avons ap- pliqué les approches de reconnaissance et de détection proposées dans les chapitres pré- cédents. Tout d’abord, nous présentons une approche de reconnaissance de gestes dyna- miques de la main ayant été conçue sur la base des descripteurs HIF3D (cf. chapitre 3). Dans un deuxième temps, nous présentons un système d’interaction sous forme d’un jeu, où un sujet utilise des gestes de la main pour contrôler et faire déplacer un humain virtuel. Dans la dernière section, nous discutons de l’utilisabilité de notre approche de détection et de la notion de distance curviligne pour améliorer l’animation d’humain virtuel en temps réel.