• Aucun résultat trouvé

Modélisation dynamique pour le suivi 2-D

TRACKING LEARNING

FIG. 3.3 – Une vue d’ensemble du processus d’apprentissage de notre modèle dynamique pour le

suivi 2-D.

3.2 Modélisation dynamique pour le suivi 2-D du mouvement humain

Les mouvements humains peuvent être rapides et très variés, et il est souvent difficile de les suivre en raison de leur complexité, des occultations fréquents qui limitent l’observabilité, et de leur vitesse qui provoque non seulement de grandes déplacements entre images, mais aussi un flou de mouvement significatif. Un bon suivi demande un modèle dynamique qui est à la fois prédictif et bien adaptée aux variations d’apparence. On ne peut pas utiliser le même modèle d’apparence 2-D pour les vues de face et de côté, et le suivi doit aussi s’adapter aux changements d’aspect du modèle. Par exemple, quand le sujet avance, tourne, et retrace ses pas, le modèle doit suivre non seulement le mouvement complexe du tournant, mais aussi deux changements d’aspect – de la vue du côté gauche, à la vue d’en face, à la vue du côté droit.

Pour faire face à ce problème, nous avons développé une approche adaptative qui permet l’ap-prentissage d’un modèle dynamique performant qui incorpore les transitions entre aspects. Un mo-dèle 2-D de type « scaled prismatic model » qui suffit pour représenter les différents poses et aspects est créé et ajusté (pour l’instant à la main) sur une base de séquences d’apprentissage. À partir de cette information, un modèle auto-régressif linéaire par morceaux est appris, dont les différentes régions linéaires encodent les différentes zones dynamiques et/ou aspects du modèle. L’apprentis-sage se fait de la façon suivante (voir la figure 3.3). (i) L’espace des paramètres est partitionné par un groupement « K-means » initial. Cette partition segmente les trajectoires en morceaux, et as-socie les segments similaires des différentes trajectoires. (ii) Dans chaque partition, la dimension de l’espace des paramètres est réduite par une analyse en composantes principales (ACP) linéaire; un modèle auto-régressive linéaire stabilisé de deuxième ordre est appris; et le modèle qui résulte est « haussé » à l’espace original en inversant l’ACP. (Afin de ne pas reprojeter à chaque étape le système dans le sous-espace ACP, le modèle haussé prédit en effet le changement d’état et pas l’état lui même). Ce processus de réduction-rehaussement permet une estimation plus stable du modèle auto-régressif. (iii) Un processus itératif analogue à l’Expectation-Maximisation met à jour la

par-3.3. CONCLUSIONS ET PERSPECTIVES 27

tition, en regroupant les exemples d’apprentissage selon le modèle linéaire qui les prédit le mieux, et en re-estimant les modèles selon les exemples qui y sont attribués.

Le modèle final est capable de suivre la marche, la course, et quelques transitions simples entre les aspects du modèle comme un tournant. La figure 3.4 montre quelques exemples. Cependant, la méthode reste expérimentale et une implantation plus performante reste à faire.

Ce travail avec mon doctorant Ankur AGARWALfut publié au 2004 European Conference on

Computer Vision [AT04d] (article #6 du mémoire associé).

3.3 Conclusions et perspectives

Ce chapitre a présenté deux méthodes de traitement d’images d’humains fondées sur la modé-lisation 2-D articulaire: un détecteur où la programmation dynamique sélectionne et articule des hypothèses de pose des membres du corps issues des détecteurs de membre de type machine à vec-teur de support; et une méthode de suivi articulaire 2-D dont l’originalité est d’apprendre un modèle dynamique non-linéaire qui épouse les détails du mouvement humain.

Le détecteur actuel a plusieurs limitations. Même avec une discrétisation grossière de l’espace de recherche, il est lourd en temps de calcul parce qu’il lance tous les détecteurs de base à tous les angles possibles (ainsi qu’à toutes les positions et à toutes les échelles image, comme ailleurs). Aussi, il n’intègre ni modèle d’occultation ni modèle d’interaction d’apparence entre les différents membres, ce qui limite ses performances. Afin d’alléger le calcul, il serait intéressant de voir si on ne pouvait pas remplacer les détecteurs individuels par un classificateur unifié (par exemple une méthode de type arbre de décision) qui traite à la fois toutes les poses de tous les membres. Aussi, une discrétisation fine de l’espace de recherche (position-échelle-angle) étant hors de question en raison de sa dimension élevée, on peut probablement améliorer la qualité des résultats en incorpo-rant dans la recherche de sous-arbres cinématiques une étape d’optimisation locale qui raffine les solutions partielles prometteuses.

En ce qui concerne la méthode de suivi 2-D, il est prévu de réimplanter les fonctions traitement d’image, d’y ajouter une (re)initialisation automatique basée sur la détection de personnes, et ainsi d’augmenter significativement l’ensemble d’exemples d’apprentissage afin de rendre plus robuste le suivi et de traiter une gamme plus étendue de mouvements. Nous voudrons aussi étendre l’approche au suivi de geste, où le corps entier n’est pas forcément visible et il devient plus important de suivre les détails des mains et du visage.

FIG. 3.4 – Quelques exemples du suivi 2-D avec notre modèle dynamique. Première ligne: Avant

la phase d’apprentissage, la configuration du modèle est marqué à la main dans chaque image d’apprentissage. Ici on montre trois images et les configurations correspondantes du modèle, avec leurs cartes de visibilité. Lignes 2–3: Une athlète qui court. Le modèle a été appris sur une autre athlète, mais suit bien le mouvement de celle ci, sauf le bras gauche qui était invisible lors de l’étape d’initialisation. Dernière trois lignes: le suivi d’un tournant pendant la marche. Le modèle 2-D du corps change d’aspect – de la vue d’en face à la marche à droite – mais le modèle dynamique appris arrive à suivre le mouvement.

Chapitre 4

Approche 3-D par apprentissage

4.1 Introduction

Revenons sur la question de la capture du mouvement 3-D, monoculaire et non-instrumentée déjà abordée au chapitre 2, où nous avons adopté une approche basée sur la modélisation explicite du corps humain articulé, l’enjeu principal étant l’optimisation des paramètres du modèle face aux problèmes de dimension, de minima locaux, etc. Cette optimisation s’est montrée possible grâce au développement d’algorithmes performantes, mais elle reste complexe a mettre en oeuvre et lourde en temps de calcul. La robustesse pratique du suivi à été améliorée considérablement, mais ne saurait pas encore satisfaire à la plupart des applications réelles. On peut légitimement se demander si l’approche basée modèle est la bonne.

Heureusement on sait que les humains savent suivre et reconstruire le mouvement humain sans difficulté, au moins de façon qualitative. Aussi, on pouvait constater que les méthodes citées précé-demment passent beaucoup de leur temps à examiner des configurations qui – quoiqu’en principe

possibles pour une personne au plan cinématique – n’ont rien d’habituel ni de confortable. Leur

modèle est donc trop général: il faut trouver une façon de représenter ce qui est « typique » où « caractéristique » d’une personne, et ne pas essayer de représenter en premier lieu tout ce qui est possible en principe.

Ceci remet en question la nature du modèle. Pour décrire les poses qui sont possibles au plan cinématique, il suffit de se limiter à la « géométrie » (biomécanique, biométrie), mais pour la ques-tion plus subtile de ce qui est typique, il faut plutôt étudier le comportement humain in vivo. La géométrie seule ne suffit plus, et il devient très difficile de construire à la main un modèle adé-quat. La solution est de faire appel aux techniques de l’apprentissage et de la modélisation flexible statistique, afin d’apprendre une représentation effective à partir d’une base d’exemples.

À ce point on peut aussi remettre en question la démarche « générative », où le modèle est surtout utilisé pour la synthèse d’images hypothétiques, qui sont ainsi comparées avec les images réelles afin d’inverser le processus et d’en déduire les paramètres cachés du modèle qui corres-pondent aux images observées. Cette démarche a certes ses avantages – elle est explicite et intuitive, et elle permet une utilisation très flexible du modèle – mais elle est plutôt indirecte, et en particulier elle ne met pas en évidence quels aspects du modèle sont critiques pour une inversion réussie, et lesquels sont superflus. Ne serait il pas possible d’apprendre un modèle (une fonction) « inverse » qui estime directement les paramètres voulus à partir de l’image d’entrée donnée? C’est-à-dire, ne serait il pas possible de créer une méthode de reconstruction du mouvement de forme «

(a) extraire la silhouette

(b) échantillonner les points le long les bords

(c) évaluer leurs shape contexts

(d) distribution dans l’espace des shape contexts

(e) quantification vectorielle de la distribution

FIG. 4.1 – Le processus d’extraction de descripteur de silhouette. Les descripteurs « shape context »

sont calculés à des points régulièrement espacés le long de la silhouette, et la distribution des réponses est encode dans une histogramme 100-D par quantification vectorielle.

tique » plutôt que « générative ».

Le travail présenté dans ce chapitre représente un premier pas dans cette direction, le but du jeu étant de voir jusqu’où peut mener l’apprentissage pur adoptant une approche d’estimation de fonction entrée-sortie « boîte noire » minimaliste, sans modèle 3-D explicite. La formulation est en-tièrement diagnostique: on renonce ainsi à l’approche générative et à tous ses accessoires (le rendu d’image, l’optimisation de pose et de correspondance, etc). En revanche, on suppose l’existence d’un ensemble d’exemples à partir de laquelle on peut apprendre un modèle effectif qui est adéquat à la tâche à exécuter – dans ce cas, l’estimation de la pose et du mouvement 3-D d’une personne à partir d’images 2-D monoculaires.