• Aucun résultat trouvé

Chapitre 2 Capture de mouvements : principales m´ ethodes 7

3.2 Approches multi-vues

a la modulation d’amplitude de r´ef´erence. Le d´ephasage entre l’onde ´emise et l’onde re¸cue est fonction du temps de vol de la lumi`ere r´efl´echie par les objets de la sc`ene. En mesurant l’intensit´e de lumi`ere per¸cue en chaque pixel, il devient possible de calculer le d´ephasage correspondant et donc la distance entre les objets de la sc`ene et la cam´era.

Ces cam´eras estiment directement la carte de profondeur de la sc`ene, mais se limitent pour le moment `a de faibles r´esolutions, de l’ordre de 160× 120 pixels pour les capteurs actuels, comme par exemple pour la cam´era SwissRanger 4000 propos´ee par la soci´et´e MESA. Une description d´etaill´ee de l’approche par temps de vol est d´ecrite dans [GYB04].

Ces nouveaux capteurs am`enent une solution alternative aux approches par st´er´eo-vision, mais leur coˆut reste important. De plus ceux-ci ne fournissent qu’une information 2,5D de la sc`ene. Ainsi pour estimer le g´eom´etrie 3D, il est n´ecessaire d’utiliser plusieurs de ces p´eriph´ e-riques, en utilisant par exemple la m´ethode propos´ee par [BG08]. Son son coˆut ´elev´e fait que ce type de capteur, quoique prometteur, n’est pas conforme aux contexte que nous nous sommes fix´e.

3.2 Approches multi-vues

Les approches monoculaires permettent l’estimation de la g´eom´etrie de la sc`ene `a partir de l’extraction de primitives depuis un seul point de vue. La pr´esence de conditions

environne-3.2. Approches multi-vues mentales d´efavorables influe directement sur les r´esultats de ces approches. Afin de les rendre plus robustes et pr´ecises, une solution est de travailler sur l’analyse de plusieurs images prises simultan´ement depuis plusieurs points de vues.

3.2.1 St´er´eo

Le probl`eme de reconstruction de forme `a partir de deux images appel´ee st´er´eo-vision a suscit´e beaucoup d’int´erˆet dans les domaines de la vision par ordinateur [KKB+93]. La difficult´e principale provient du probl`eme de la mise en correspondance, c’est `a dire de trouver les points dans chaque image, qui correspondent `a un mˆeme point dans la sc`ene 3D [Fau96]. Une fois la correspondance trouv´ee pour tout couple de points issus des deux cam´eras, ces points peuvent ˆ

etre triangul´es pour d´eterminer le point 3D de la sc`ene correspondant. La mise en correspondance peut ˆetre facilit´ee en utilisant des contraintes g´eom´etriques et en faisant certaines hypoth`eses sur la sc`ene [MP77, Bak81].

Supposant les param`etres de calibrage connus (voir annexe A), la contrainte ´epipolaire ga-rantit qu’un point dans une image appartient `a la droite ´epipolaire de ce point dans l’autre image.

Avec un objet opaque la contrainte d’unicit´e impose qu’un point dans une image a un unique correspondant dans l’autre image. Cependant en pratique il est possible que les correspondances soient multiples, par exemple lorsque l’objet a une seule couleur. Ainsi cette seconde contrainte n’est pas suffisante pour garantir un mise en correspondance correcte, mais elle peut ˆetre utilis´ee pour v´erifier une correspondance calcul´ee par une autre m´ethode.

Lorsqu’un objet de couleur uniforme doit ˆetre reconstruit par une approche st´er´eo, il peut ˆ

etre int´eressant d’utiliser la contrainte de continuit´e, qui suppose que la surface de l’objet est lisse. Des correspondances erron´ees qui produisent des profondeurs inconsistantes peuvent ainsi ˆ

etre supprim´ees.

Enfin la contrainte d’ordre impose que les correspondances entre pixels des images sont dans le mˆeme ordre sur la droite ´epipolaire de chaque image (except´e lorsque les parties `a traiter contiennent des occultations ou diff´erents objets). Ainsi les correspondances pour une seule sur-face peuvent ˆetre v´erifi´ees.

Les associations denses r´esolvent le probl`eme de mise en correspondance, en recherchant plusieurs associations entre les images, de fa¸con a obtenir une carte de profondeur dense. Il existe deux principales m´ethodes pour estimer une mise en correspondance dense. La premi`ere recherche les correspondances pour chaque pixel par des approches d’auto-correlation normali-s´ee : en comparant une fenˆetre autour de ce pixel dans l’autre image en utilisant une mesure de similarit´e pour d´ecider de l’association [Bak81, MMHM02]. Cette premi`ere m´ethode s’av`ere sensible aux images bruit´ees et aux diff´erences de conditions d’´eclairage pour chaque vue. De plus elle calcule des estimations de profondeur de faible pr´ecision pour des r´egions d’intensit´e

Fig. 3.4 – Estimation de la carte de profondeur de la sc`ene `a partir des images de gauche et du centre. L’image de droite a ´et´e calcul´ee en utilisant l’approche de Klaus et al. [KSK06]

similaire. Enfin cette approche se r´ev`ele lente `a cause du nombre important de comparaisons a r´ealiser pour chaque paire d’images (une par pixel). Le second type d’approche pour la st´er´eo dense, tire avantage de caract´eristiques dans les images, telles que les r´egions homog`enes, les contours [ZM96], les droites ou encore les coins [JB02]. Ainsi pour que la carte de profondeur soit dense, il est n´ecessaire que les images contiennent beaucoup de primitives caract´eristiques. Une analyse exp´erimentale des techniques de st´er´eo vision denses peut ˆetre trouv´ee dans [SZ00]. La figure 3.4 pr´esente l’estimation d’une carte de profondeur par st´er´eo-vision dense.

Les m´ethodes que nous venons de citer sont g´en´eralement utilis´ees pour des sc`enes statiques, ou bien en approche image par image pour des objets dynamiques. La st´er´eo-vision dynamique utilise l’information de mouvements dans les images pour aider `a la reconstruction des cartes de profondeur, que ce soit `a partir d’une cam´era en mouvement, ou encore pour une sc`ene en mouvement. Le mouvement peut ˆetre estim´e en utilisant le flot optique entre les images successives, puis combin´e `a l’approche st´er´eo afin d’obtenir une carte de profondeur relative [GT95]. D’autres approches estiment les mouvements de la cam´era entre les diff´erents points de vue et ainsi raffinent la g´eom´etrie pour chaque nouvelle image [TSJ92, ZM96]. La navigation visuelle est une application typique des approches de st´er´eo-vision dynamiques, utilis´ee par des robots afin d’identifier et ´eviter les obstacles.

En dehors des difficult´es li´ees `a la mise en œuvre de telles approches, les m´ethodes intrins`eques de minimisation et d’optimisation n’offrent pas aujourd’hui, de reconstruction suffisamment dense et robuste pour le temps r´eel.

3.2.2 Lumi`ere structur´ee

Pour r´epondre aux difficult´es des approches de st´er´eo-vision li´ees `a la mise en correspondance, certaines m´ethodes dites ”actives” projettent de l’´energie lumineuse dans la sc`ene. En rempla¸cant l’une des cam´eras d’un syst`eme de st´er´eo-vision par un p´eriph´erique qui projette un motif connu sur la sc`ene, la mise en correspondance revient `a calculer les correspondances entre les pixels et les points du motif projet´e [DW05]. La principale difficult´e de ce type d’approche provient du choix du motif `a projeter, ainsi que de la strat´egie de codage de ce motif. En effet la mise en

3.2. Approches multi-vues correspondance d´epend de la capacit´e `a d´ecoder les ´el´ements du motif de fa¸con `a les localiser dans l’image.

Les m´ethodes de lumi`eres structur´ees peuvent ˆetre class´ees en trois cat´egories [SPB04] : les approches par multiplexage dans le temps, les m´ethodes par codage direct et les approches int´egrant le voisinage spatial :

– Les approches bas´ee sur des strat´egies de multiplexage dans le temps sont faciles `a im-pl´ementer et peuvent produire une reconstruction de tr`es grande pr´ecision et `a haute r´esolution. Cependant ce type d’approche n’est pas adapt´e `a le reconstruction d’objets dynamiques.

– D’autres m´ethodes codent directement l’information spatiale, c’est `a dire que chaque sous-motif est caract´eris´e par exemple par son intensit´e, ou par sa forme. Ces m´ethodes offrent une bonne r´esolution spatiale. Mais leur application reste limit´ee `a des environnements peu bruit´es et dont les conditions d’´eclairage sont contrˆol´ees.

– Les m´ethodes de la derni`ere cat´egorie sont bas´ees sur la projection d’un motif dans lequel est ins´er´e un codage spatial. Le code de chaque composant du motif d´epend `a la fois de sa valeur et de la valeur de ses voisins. En g´en´eral cela permet de travailler avec des sc`enes dynamiques, mais avec une r´esolution moindre que les deux pr´ec´edentes classes de m´ethode [AGD07].

L’information additionnelle du motif projet´e permet en g´en´eral une mise en correspondance plus robuste et rapide que les approches classiques de st´er´eo-vision. La projection d’un motif dans la sc`ene revient `a marquer la sc`ene d’un ensemble de sous-motifs de couleur. Lorsque l’objet `a reconstruire est un humain, cette projection peut ˆetre une g`ene pour l’utilisateur. Ainsi d’autres approches projettent une lumi`ere infrarouge non visible par l’œil humain [MLDR07]. Si cette nouvelle solution permet d’´eviter le probl`eme d’artefacts, elle ajoute une contrainte de mat´eriel difficile `a satisfaire. Transformer un vid´eo projecteur pour qu’il projette en infra-rouge est d´ej`a une contrainte, de plus le prix d’achat de ce mat´eriel interdit les applications `a domicile pour le grand public.

3.2.3 Shape-From-Silhouette

Les approches par st´er´eo-vision sont construites sur l’extraction de primitives images, en-suite utilis´ees pour r´ealiser la mise en correspondance. Afin de fournir un estimation dense de la g´eom´etrie de la sc`ene, il est souvent n´ecessaire d’extraire des caract´eristiques de haut niveau, qui p´enalisent les temps de reconstruction. De plus l’information obtenue s’apparente `a une carte de profondeur 2,5D. Afin d’obtenir une repr´esentation 3D, il est alors n´ecessaire de recourir `a des approches de st´er´eo-vision `a partir de plus de deux cam´eras, ce qui impacte `a nouveaux les temps de calcul. Afin de diminuer la complexit´e algorithmique, d’autres approches sont construites sur l’extraction de primitives images plus bas niveau : les silhouettes. Celles-ci sont g´en´eralement repr´esent´ees par un masque binaire qui indique pour tout pixel de chaque image, si celui-ci

cor-respond `a l’un des objets `a reconstruire.

Les m´ethodes d’estimation de forme 3D `a partir de plusieurs silhouettes sont tr`es utilis´ees dans les environnements multi-cam´eras, en particulier lorsque cette estimation doit ˆetre faite sous la contrainte du temps r´eel. Ces approches, appel´ees Shape-From-Silhouette, estiment l’enveloppe visuelle [Lau94](Visual Hull ) des objets d’int´erˆet, qui est une estimation englobante de leur forme 3D (voir figure 3.5).

A partir d’un ensemble de n vues, l’information de silhouette correspondante `a la projection des objets d’int´erˆet, est extraite des images captur´ees par une approche dite d’extraction de sil-houette (voir la section 4.1). Le cˆone de silhouette d’une cam´era est d´efini par l’ensemble des demi droites issues du centre optique de la cam´era `a travers les pixels appartenants `a la silhouette. L’enveloppe visuelle (EV) est d´efinie par la forme tridimensionnelle g´en´er´ee par l’intersection des cˆones de silhouette de toutes les cam´eras [Lau94]. La forme produite fournit un volume en-globant des objets d’int´erˆet. Les approches Shape-From-Silhouette ont ´et´e utilis´ees pour diverses applications, telles que la surveillance de foule [YHHGBG03], la mod´elisation 3D [APSK07] ainsi que l’acquisition de mouvements sans marqueur [CH04a, CBK03a, dATM+04, CKBH00].

Il existe diff´erentes implantations des approches Shape-From-Silhouette afin d’estimer l’en-veloppe visuelle. Certaines offrent une estimation de l’enl’en-veloppe visuelle en temps r´eel, qu’elle soit volumique [MS03, LCO06, Gra03] ou surfacique [LMS04, MBR+00].

Dans la mesure o`u l’enveloppe visuelle d´efinit une forme 3D englobante, cette reconstruc-tion s’av`ere peu pr´ecise lorsque le nombre de vues est r´eduit. D’autres approches proposent l’utilisation d’une information de couleur additionnelle afin de r´eduire la quantit´e d’artefacts construits.

Space Carving

Les approches Shape-From-Silhouette volumiques construisent un volume qui contient l’en-semble des points des objets d’int´erˆet. Les approches de Space Carving utilisent l’information de couleur afin d’estimer la forme plus pr´ecis´ement. Sous l’hypoth`ese que tout point de la surface des objets d’int´erˆet renvoie la mˆeme couleur dans toutes les images o`u il est observ´e, alors il devient possible d’affiner la reconstruction fournie par une approche Shape-From-Silhouette. Il suffit de supprimer les points reconstruits qui ne respectent pas cette hypoth`ese [SD97, CMS99]. Pour chaque voxel visible (non occult´e) un test de validation compare la couleur des pixels sur lesquels ce voxel se projette. Si ces couleurs sont similaires, ce voxel est alors photo-consistant et est valid´e comme appartenant `a la surface de l’objet [KS00]. Les voxels qui ne sont pas photo-consistants sont supprim´es. Ainsi la liste des voxels visibles est mise `a jour et le processus est r´eit´er´e jusqu’a ce que tous les voxels restants soient photo-consistants. L’ensemble de ces voxels d´ecrit la photohull des objets d’int´erˆet (voir figure 3.5).