Comparaison à l’état de l’art

3.4 Notre Approche

3.5.9 Comparaison à l’état de l’art

Nous comparer à Shotton et al. [52] membre par membre n’est pas possible car nous

n’estimons pas la position des mêmes articulations. Cependant, nous pouvons fournir une

comparaison sur les performances générales de l’algorithme.

Pour notre ensemble de postures de test qui contient un ensemble de postures variées

avec des personnes au sol et une rotation complète du corps, nous obtenons une P mg

de 0:591. Girschick obtient, avec 300000 images dans un contexte similaire, une P mg de

0:711. L’implémentation des algorithmes de Shotton et al. [52] n’est pas disponible, il est

donc impossible de nous comparer à eux sur notre base de test de postures de chute. Les

moyens limités dont nous disposons ne nous permettent pas de faire des apprentissages

avec autant d’images et par conséquent, la comparaison est non pertinente.

Les implémentations de ces algorithmes dans Nite fournissent une posture …ltrée. La

comparaison avec ces algorithmes sera réalisée dans le chapitre 4 de …ltrage. On peut

cependant donner un exemple de comparaison qualitative sur une posture de chute comme

illustré sur la …gure 3-29 où sont représentées les positions des modes les plus importants

pour notre algorithme et la sortie …nale pour Nite. Nous pouvons voir que sur cette

posture, Nite ne parvient pas a donner des positions satisfaisantes pour la grande majorité

des articulations. Notre algorithme, malgré une erreur pour le coude gauche, est bien plus

performant.

a) Estimation de pose par Nite.

b) Estimation de posture par notre

implémentation.

Figure 3-29: Position des articulations sur une posture de chute par Nite et notre

algo-rithme.

3.6 Conclusion

Nous avons développé et mis en oeuvre un pipeline complet de génération de données

d’apprentissage ; allant de la motion capture à la création d’images d’apprentissage pour

notre algorithme. L’apprentissage a ensuite été réalisé grâce aux données générées à l’aide

de ce pipeline. La création de cet ensemble algorithmique nous permet, en un temps court,

de nous adapter à de nouvelles applications.

Sur des algorithmes existants de Random Forests pour l’estimation de posture, nous

avons réglé certains paramètres qui n’avaient pas été étudiés dans les approches nominales.

Au niveau des caractéristiques à calculer sur les images, nous avons montré que l’ajout

de la hauteur du pixel dans la scène permet un gain de performances. L’équilibrage de la

collection d’apprentissage a aussi été évalué et nous en avons déterminé les apports. Les

résultats étant prometteurs, il pourrait être intéressant de les approfondir, par exemple,

en évaluant d’autres idées pour l’équilibrage de la collection ou d’autres types de

carac-téristiques. Il faudra toutefois garder à l’esprit que celles-ci doivent-être rapides à calculer

sous peine de voir le temps d’apprentissage augmenter de façon prohibitive.

Notre algorithme fournissant un certain nombre de prédictions pour la position 3D de

chaque articulation, il nous faut maintenant utiliser la cohérence spatio-temporelle pour

trouver à chaque instant la plus probable. C’est l’objet des travaux présentés dans le

chapitre suivant.

Chapitre 4

Filtrage multi-modal et levée

d’ambiguïté entre parties

corporelles

4.1 Introduction

L’algorithme décrit dans le chapitre précédent nous fournit un certain nombre d’hypothèses

pour la position de chaque membre du corps humain. Ce nombre dépend du membre

con-sidéré et varie à chaque nouvelle image. A la sortie de notre algorithme, nous ne souhaitons

avoir qu’une seule prédiction la plus robuste possible pour la position de chacune des

ar-ticulations du corps. Il faut alors choisir à chaque instant la prédiction la plus probable en

s’appuyant sur l’information spatio-temporelle. De plus, nous avons montré qu’un certain

nombre de points de prédiction pour un membre se trouvent proches du membre du côté

opposé pour les articulations en paires. Cela induit une ambiguïté droite/gauche qu’il

convient de traiter.

Pour traiter ce problème, nous utilisons une approche de …ltrage bayésien mis en oeuvre

sous la forme d’un mélange de gaussiennes. Rappelons que l’approche …ltrage bayésien

consiste à propager la probabilité de l’état d’intérêt conditionnellement aux observations.

Cette propagation est classiquement réalisée en deux étapes : prédiction puis correction.

Nous allons d’abord présenter quelques travaux similaires puis présenter nos deux

algorithmes de …ltrages et leurs performances respectives. Le premier algorithme permet

de …ltrer chaque membre indépendamment en propageant plusieurs hypothèses. Le second

algorithme incrémente sur le premier et traite spéci…quement l’ambigüité droite/gauche

sur les paires de membres. Les performances sur des séquences de chute surpassent celles

de l’implémentation de Nite.

4.2 Travaux similaires

Nous présentons dans cette partie les travaux de …ltrage les plus similaires aux nôtres.

Dans le cas linéaire gaussien, la solution optimale est le …ltre de Kalman. Dans le cas

non-linéaire gaussien, une approximation linéaire locale des fonctions de dynamique et

d’observation conduisent au …ltre dit de Kalman étendu. A noter que cette approche

n’est valide que dans le cas où la solution est mono-modale. Dans le cas général,

non-linéaire, non-gaussien et donnant lieu à une solution multi-modale, on opte souvent pour

une solution nommée …ltrage particulaire comme présenté par Tenorth et al dans [57] ou

encore Deutscher et al dans [21] et [22]. Cette approche repose sur l’approximation de la

solution, la densité de probabilité de l’état conditionnellement aux observations, sous la

forme d’une somme pondérée de mesures de Dirac. Un très grand nombre d’approches

utilisent cette stratégie comme recensé par Peursum et al dans [47]. Les stratégies se sont

révélées payantes dans le contexte du suivi 2D comme présenté dans Agarwal et al. dans

[6]. Les stratégies de …ltrage particulaire sont toutefois coûteuses en temps CPU. Certains

travaux utilisent les contraintes sur la posture humaine comme Riu et al. dans [58].

Les travaux de Sminchisescu et al. dans [54] utilisent une modélisation gaussienne

des modes dans une distribution d’état du …ltrage particulaire pour traquer une posture

humaine dans des images couleurs monoculaires. Mais les travaux utilisant les mélanges

de gaussiennes pour le …ltrage restent rares.

Nous présenterons dans un premier temps notre algorithme de …ltrage multi-modal

considérant les membres indépendants les uns des autres. Puis nous présenterons une

amélioration de cet algorithme qui …ltre les membres par paires droite/gauche.

Dans le document Estimation de la posture humaine par capteur RGB-D (Page 77-80)