• Aucun résultat trouvé

Chapitre 2 Capture de mouvements : principales m´ ethodes 7

2.4 Discussion

Les approches monoculaires tentent de d´eterminer les param`etres du mod`ele afin de le faire correspondre aux observables de la sc`ene, seulement `a partir d’une image de la personne `a cap-ter. Les temps d’ex´ecution de ce type de processus d´ependent des primitives caract´eristiques et du mod`ele utilis´es. Lorsque la silhouette est utilis´ee, il est possible de capter le mouvement en temps interactif, mais une silhouette particuli`ere peut correspondre `a plusieurs poses. De plus il n’est pas rare que certains membres de cette personne soient occult´es et ainsi ne soient pas suivis correctement. Enfin en pr´esence de plusieurs personnes, les occultations deviennent encore plus importantes et ces m´ethodes ne sont en g´en´erale pas capables de fournir de r´esultats corrects.

Les approches multi-cam´era permettent de compenser les occultations pr´esentes dans cer-taines cam´eras, par l’information apport´ee par les autres cam´eras. Ayant pr´ealablement calibr´e le syst`eme, il devient possible de d´eterminer la posture 3D pr´ecise des personnes captur´ees. Dans le cadre de cette th`ese, nous faisons le choix de travailler sur un syst`eme multi-cam´era, qui am`ene une robustesse suppl´ementaire face aux occultations.

La plupart des approches de capture de mouvements optiques sans marqueur ont pour objec-tifs de fournir un suivi pr´ecis des articulations, au d´etriment du temps de calcul. Ces m´ethodes tendent de plus en plus `a recaler des mod`eles d’humano¨ıdes complexes avec les donn´ees obser-v´ees. Ces recalages ou mises en correspondances sont g´en´eralement r´ealis´es par l’utilisation de proc´edures de minimisation, consommatrices de ressources de calcul. A l’oppos´e, nous d´ evelop-pons `a travers cette th`ese des m´ethodes dont les objectifs principaux peuvent ˆetre ordonn´es de la fa¸con suivante :

1. La vitesse d’ex´ecution : Il existe actuellement un compromis entre la vitesse d’ex´ecution et la pr´ecision avec laquelle l’estimation de mouvements est effectu´ee. Les approches temps r´eel ne peuvent avoir les mˆemes r´esultats que les approches hors ligne. Dans notre contexte d’interaction homme-machine, il est indispensable que le suivi se fasse en temps r´eel.

2. La pr´ecision : La pr´ecision est une donn´ee importante lorsque les applications de la cap-ture de mouvements le n´ecessitent, comme par exemple pour l’animation de personnages virtuels pour les jeux vid´eos ou encore le cin´ema d’animation. Dans notre contexte une pr´ecision de l’ordre de quelques centim`etres s’av`ere suffisante.

3. Le degr´e d’automatisation : Nous souhaitons proposer un syst`eme en direction du grand public, ainsi il est important que le syst`eme soit le plus automatique possible. Certaines approches n´ecessitent une initialisation semi-automatique voir manuelle. Ainsi lorsque le suivi tombe en ´echec le syst`eme n’est pas capable de se r´einitialiser. Dans notre contexte

2.4. Discussion il est important que le syst`eme puisse d´etecter l’´echec du suivi, et soit capable de se r´ eini-tialiser automatiquement.

4. Le mat´eriel employ´e : L’une des limitations majeures des syst`emes commerciaux provient de leur prix. Dans notre contexte nous souhaitons proposer un syst`eme d’acquisition de mouvements accessible, c’est `a dire qu’il ne doit pas n´ecessiter de mat´eriel sp´ecifique en dehors d’un ordinateur de bureau et de quelques webcams.

L’une des caract´eristiques commune `a l’ensemble des m´ethodes d’acquisition de mouvements optiques sans marqueur, r´eside dans la mise en place de m´ecanismes qui minimisent l’espace de recherche de solutions. En premier lieu, nous proposons de profiter de l’information g´eom´etrique provenant du calibrage des cam´eras afin de r´eduire cet espace. La premi`ere ´etape du syst`eme consiste `a estimer en temps r´eel le volume 3D des personnes. Ensuite, capter leur mouvement revient `a estimer pour chaque pas de temps, les points 3D de cette reconstruction volumique, qui correspondent aux articulations.

Premi`ere partie

Reconstruction 3D temps r´eel `a

Introduction

Fig. 1 – Retour sur le sch´ema du processus de capture de mouvements adopt´e : ´etape de reconstruction.

Notre objectif principal est de proposer une m´ethode d’acquisition sans marqueur et en temps r´eel, du mouvement de plusieurs personnes. Dans les syst`eme commerciaux les plus r´epandus, des marqueurs sont plac´es sur des parties caract´eristiques du corps `a acqu´erir afin de les re-p´erer facilement dans les images et ainsi calculer leur position 3D pr´ecis´ement. En absence de marqueurs, le probl`eme devient plus difficile. Acqu´erir le mouvement de personnes revient `a d´eterminer l’information pertinente dans les images issues d’une ou plusieurs vues. Dans cette th`ese nous faisons le choix d’extraire des primitives de bas niveaux dans les images 2D pour estimer la forme 3D des personnes film´ees, afin d’en extraire la position des articulations di-rectement en 3D (voir Figure 1). Dans cette premi`ere partie du document, nous traitons de la probl´ematique de reconstruction 3D en temps r´eel d’objets articul´es `a partir de plusieurs vues.

La reconstruction de la forme 3D d’objets `a partir de plusieurs images est l’une des probl´ ema-tiques les plus anciennes du domaine de la vision par ordinateur. A notre connaissance, la litt´ e-rature propose peu de m´ethodes temps r´eel, qui estiment pr´ecis´ement la forme 3D d’objets film´es par une ou plusieurs cam´eras. L’approche Shape-From-Silhouette offre un compromis int´eressant entre efficacit´e algorithmique et pr´ecision de la reconstruction. Cette m´ethode estime en temps r´eel une forme 3D englobant les objets `a partir de leurs silhouettes issues de chaque cam´eras. De par sa simplicit´e de mise en œuvre, cette approche est devenue particuli`erement populaire. Cependant elle souffre de plusieurs limitations. L’approche Shape-From-Silhouette classique est capable de reconstruire uniquement les objets enti`erement visibles par toutes les cam´eras, ce qui

impose des contraintes de placement des cam´eras par rapport aux objets. Comme nous venons de le pr´eciser, Shape-From-Silhouette construit une forme englobante des objets d’int´erˆet. Ainsi cette approche construit des artefacts qui ne contiennent aucun objet r´eel. La forme 3D calcul´ee par Shape-From-Silhouette d´epend des silhouettes en entr´ee. Ainsi toute erreur d’extraction de silhouette influe directement sur la qualit´e de reconstruction.

Dans la suite, proposons plusieurs contributions qui r´epondent `a chacune de ces limitations, afin de rendre Shape-From-Silhouette apte au monde r´eel. Nous proposons une m´ethode d’es-timation de forme 3D temps r´eel `a partir des silhouettes des objets d’int´erˆet, qui construit moins d’artefacts que Shape-From-Silhouette. De plus cette nouvelle approche n’impose pas de contrainte forte sur le placement des cam´eras et se r´ev`ele robuste aux bruits dans les silhouettes.

Apr`es un ´etat de l’art des principales m´ethodes de reconstruction de la g´eom´etrie `a partir d’images, nous pr´esentons en d´etail l’approche Shape-From-Silhouette en identifiant les verrous les plus importants. Nous exposons ensuite nos diff´erentes contributions li´ees `a ces probl´ ema-tiques. Enfin les r´esultats obtenus soulignent de l’efficacit´e et la robustesse des m´ethodes propo-s´ees.

Chapitre 3

Principales m´ethodes de

reconstruction 3D optiques

La probl´ematique de la reconstruction g´eom´etrique est un domaine de recherche tr`es vaste. Depuis le d´ebut des ann´ees 70, il a suscit´e beaucoup d’int´erˆet aussi bien dans les domaines de la recherche que pour des applications industrielles. Cette discipline est construite sur le d´eveloppement d’analyse de donn´ees num´eriques provenant de diverses modalit´es : les approches par contacts physiques et les approches sans contact. Parmi les m´ethodes sans contact, les cam´eras num´eriques sont les capteurs les plus couramment utilis´es. L’environnement est ainsi per¸cu `a partir d’images num´eriques qu’il convient d’analyser. Plusieurs approches `a partir de cam´eras sont apparues : les approches monoculaires qui estiment la g´eom´etrie de la sc`ene `a partir d’une seule vue ; les approches multi-vues construites sur l’utilisation de plusieurs vues prises simultan´ement ; ou encore les approches construites sur l’analyse d’une ou plusieurs vues prises `a instants diff´erents. Selon les applications vis´ees, ces techniques œuvrent en lumi`ere ambiante, n´ecessitent une lumi`ere contrˆol´ee qui peut parfois projeter un motif structur´e.

Dans la suite nous revenons sur les principales m´ethodes d’estimation de la g´eom´etrie `a partir d’images.