3.4 Notre Approche
3.5.9 Comparaison à l’état de l’art
Nous comparer à Shotton et al. [52] membre par membre n’est pas possible car nous
n’estimons pas la position des mêmes articulations. Cependant, nous pouvons fournir une
comparaison sur les performances générales de l’algorithme.
Pour notre ensemble de postures de test qui contient un ensemble de postures variées
avec des personnes au sol et une rotation complète du corps, nous obtenons une P mg
de 0:591. Girschick obtient, avec 300000 images dans un contexte similaire, une P mg de
0:711. L’implémentation des algorithmes de Shotton et al. [52] n’est pas disponible, il est
donc impossible de nous comparer à eux sur notre base de test de postures de chute. Les
moyens limités dont nous disposons ne nous permettent pas de faire des apprentissages
avec autant d’images et par conséquent, la comparaison est non pertinente.
Les implémentations de ces algorithmes dans Nite fournissent une posture …ltrée. La
comparaison avec ces algorithmes sera réalisée dans le chapitre 4 de …ltrage. On peut
cependant donner un exemple de comparaison qualitative sur une posture de chute comme
illustré sur la …gure 3-29 où sont représentées les positions des modes les plus importants
pour notre algorithme et la sortie …nale pour Nite. Nous pouvons voir que sur cette
posture, Nite ne parvient pas a donner des positions satisfaisantes pour la grande majorité
des articulations. Notre algorithme, malgré une erreur pour le coude gauche, est bien plus
performant.
a) Estimation de pose par Nite.
b) Estimation de posture par notre
implémentation.
Figure 3-29: Position des articulations sur une posture de chute par Nite et notre
algo-rithme.
3.6 Conclusion
Nous avons développé et mis en oeuvre un pipeline complet de génération de données
d’apprentissage ; allant de la motion capture à la création d’images d’apprentissage pour
notre algorithme. L’apprentissage a ensuite été réalisé grâce aux données générées à l’aide
de ce pipeline. La création de cet ensemble algorithmique nous permet, en un temps court,
de nous adapter à de nouvelles applications.
Sur des algorithmes existants de Random Forests pour l’estimation de posture, nous
avons réglé certains paramètres qui n’avaient pas été étudiés dans les approches nominales.
Au niveau des caractéristiques à calculer sur les images, nous avons montré que l’ajout
de la hauteur du pixel dans la scène permet un gain de performances. L’équilibrage de la
collection d’apprentissage a aussi été évalué et nous en avons déterminé les apports. Les
résultats étant prometteurs, il pourrait être intéressant de les approfondir, par exemple,
en évaluant d’autres idées pour l’équilibrage de la collection ou d’autres types de
carac-téristiques. Il faudra toutefois garder à l’esprit que celles-ci doivent-être rapides à calculer
sous peine de voir le temps d’apprentissage augmenter de façon prohibitive.
Notre algorithme fournissant un certain nombre de prédictions pour la position 3D de
chaque articulation, il nous faut maintenant utiliser la cohérence spatio-temporelle pour
trouver à chaque instant la plus probable. C’est l’objet des travaux présentés dans le
chapitre suivant.
Chapitre 4
Filtrage multi-modal et levée
d’ambiguïté entre parties
corporelles
4.1 Introduction
L’algorithme décrit dans le chapitre précédent nous fournit un certain nombre d’hypothèses
pour la position de chaque membre du corps humain. Ce nombre dépend du membre
con-sidéré et varie à chaque nouvelle image. A la sortie de notre algorithme, nous ne souhaitons
avoir qu’une seule prédiction la plus robuste possible pour la position de chacune des
ar-ticulations du corps. Il faut alors choisir à chaque instant la prédiction la plus probable en
s’appuyant sur l’information spatio-temporelle. De plus, nous avons montré qu’un certain
nombre de points de prédiction pour un membre se trouvent proches du membre du côté
opposé pour les articulations en paires. Cela induit une ambiguïté droite/gauche qu’il
convient de traiter.
Pour traiter ce problème, nous utilisons une approche de …ltrage bayésien mis en oeuvre
sous la forme d’un mélange de gaussiennes. Rappelons que l’approche …ltrage bayésien
consiste à propager la probabilité de l’état d’intérêt conditionnellement aux observations.
Cette propagation est classiquement réalisée en deux étapes : prédiction puis correction.
Nous allons d’abord présenter quelques travaux similaires puis présenter nos deux
algorithmes de …ltrages et leurs performances respectives. Le premier algorithme permet
de …ltrer chaque membre indépendamment en propageant plusieurs hypothèses. Le second
algorithme incrémente sur le premier et traite spéci…quement l’ambigüité droite/gauche
sur les paires de membres. Les performances sur des séquences de chute surpassent celles
de l’implémentation de Nite.
4.2 Travaux similaires
Nous présentons dans cette partie les travaux de …ltrage les plus similaires aux nôtres.
Dans le cas linéaire gaussien, la solution optimale est le …ltre de Kalman. Dans le cas
non-linéaire gaussien, une approximation linéaire locale des fonctions de dynamique et
d’observation conduisent au …ltre dit de Kalman étendu. A noter que cette approche
n’est valide que dans le cas où la solution est mono-modale. Dans le cas général,
non-linéaire, non-gaussien et donnant lieu à une solution multi-modale, on opte souvent pour
une solution nommée …ltrage particulaire comme présenté par Tenorth et al dans [57] ou
encore Deutscher et al dans [21] et [22]. Cette approche repose sur l’approximation de la
solution, la densité de probabilité de l’état conditionnellement aux observations, sous la
forme d’une somme pondérée de mesures de Dirac. Un très grand nombre d’approches
utilisent cette stratégie comme recensé par Peursum et al dans [47]. Les stratégies se sont
révélées payantes dans le contexte du suivi 2D comme présenté dans Agarwal et al. dans
[6]. Les stratégies de …ltrage particulaire sont toutefois coûteuses en temps CPU. Certains
travaux utilisent les contraintes sur la posture humaine comme Riu et al. dans [58].
Les travaux de Sminchisescu et al. dans [54] utilisent une modélisation gaussienne
des modes dans une distribution d’état du …ltrage particulaire pour traquer une posture
humaine dans des images couleurs monoculaires. Mais les travaux utilisant les mélanges
de gaussiennes pour le …ltrage restent rares.
Nous présenterons dans un premier temps notre algorithme de …ltrage multi-modal
considérant les membres indépendants les uns des autres. Puis nous présenterons une
amélioration de cet algorithme qui …ltre les membres par paires droite/gauche.
Dans le document
Estimation de la posture humaine par capteur RGB-D
(Page 77-80)