• Aucun résultat trouvé

4.5 Augmentation 2D d’images d’une surface auto-occultée

4.6.9 Echecs

L’approche proposée échoue lorsque les déformations de la surface vont à l’encontre du terme de régularisation (l’énergie de courbure). Par exemple, une vidéo d’une feuille de papier que l’on froisse ou encore un Tshirt présentant de multiples pliures font échouer notre algorithme. Les figures 4.24(a) et 4.24(b) illustrent ces configurations.

4.7

Conclusion

Nous avons présenté une approche originale pour le recalage d’images d’une surface déformable auto-occultée. Le cadre proposé s’appuie sur deux composantes principales. Tout d’abord, la fonction

FIG. 4.21 – Augmentation 2D de la vidéo bande dessinée. En haut : les images originales. En bas : les images augmentées avec le logo "Cars".

de déformation est contrainte à se comprimer le long de la frontière d’auto-occultation par l’ajout d’un nouveau terme à la fonction de coût classique, appelé le contracteur. Puis cette propriété de contraction est utilisée pour définir un module de détection de pixels auto-occultés. Il se base sur l’étude des dérivées directionnelles évaluées en chaque pixel de l’image de référence et conduit à une carte d’auto-occultation probabiliste.

Les résultats expérimentaux sur des vidéos réelles prouvent que notre approche est clairement mieux adaptée que les méthodes robustes classiques. En effet, le recalage des régions apparentes est très précis, ce qui permet d’estimer correctement les déformations lorsque l’auto-occultation cesse. La détection des régions auto-occultées est en outre dense et proche de la réalité. Sur ces vidéos, les méthodes classiques échouent dès que l’auto-occultation devient significative. Nous avons étendu notre méthode à l’augmentation 2D d’images d’une surface déformable pour des applications de post-production. Le rendu obtenu, notamment au niveau de la frontière d’auto-occultation, est très gratifiant.

Afin d’aboutir à un système complet et parfaitement réaliste, quelques améliorations doivent être apportées. Tout d’abord les variations d’illumination ne sont pas prises en compte. Elles engendrent des gênes visuelles dégradant le rendu réaliste de l’augmentation. De plus, la méthode de détection des occultations externes utilisée n’est pas suffisamment précise pour ces applications. Nous envisa- geons d’adapter les travaux existants (Bradley and Roth, 2004; Pilet et al., 2007) sur la détection des occultations externes et des variations d’illumination, à notre méthode de recalage afin d’aboutir à un système plus complet. L’amélioration des temps de traitement ainsi que la sélection automatique des différents paramètres sont également des contraintes qui devront être prises en compte.

Le champ de déplacement dense obtenu en sortie de l’algorithme de recalage d’images que nous venons de présenter, est utilisé, après sous échantillonnage, comme donnée d’entrée de l’algorithme de reconstruction 3D de surfaces déformables présenté au chapitre suivant.

FIG. 4.22 – Résultat du recalage sur la vidéo du tapis. En haut : images extraites de la vidéo. En bas : déformations estimées.

FIG. 4.23 – Augmentation 2D de la vidéo du tissu. En haut : les images originales. En bas : les images augmentées avec un logo "Mickey".

(a) (b)

FIG. 4.24 – Déformations faisant échouer l’approche proposée. (a) Une feuille de papier froissée. (b) Un Tshirt présentant de multiples pliures.

Reconstruction 3D de surfaces déformables

Dans ce chapitre, nous abordons le problème de la reconstruction 3D de surfaces déformables à partir de points mis en correspondance sur plusieurs images. Nous utilisons le modèle de faible rang : les déformations 3D sont modélisées par une combinaison linéaire de modes de déforma- tion. Une nouvelle manière de représenter ce modèle est proposée : les modes de déformation sont ordonnés en fonction de l’amplitude des déformations qu’ils capturent. Cette représenta- tion présente de nombreux avantages. Elle permet de lever certaines ambiguïtés et introduit un algorithme d’estimation hiérarchique du modèle, facilitant notamment l’emploi d’un modèle de caméra perspectif et la sélection automatique du nombre de modes par validation croisée. Des résultats expérimentaux sur des vidéos variées montrent que l’approche proposée reconstruit des déformations plausibles de la surface observée, permettant l’augmentation 3D de surfaces déformables sur une vidéo. Ces travaux ont été publiés dans (Bartoli et al., 2008).

5.1

Introduction

L’estimation de la structure et du mouvement à partir d’une vidéo prise par une seule caméra est un problème largement étudié en vision par ordinateur. Pour une scène statique (rigide), les rayons de vue associés au même point 3D observé par la caméra à des positions différentes s’intersectent dans l’espace. Cette propriété permet de définir des contraintes fortes sur la reconstruction. La re- construction 3D de scènes rigides est en général un problème bien posé. Pour une scène dynamique, l’hypothèse que les rayons de vue s’intersectent n’est plus valide : évaluer la surface 3D, ses défor- mations et le mouvement de la caméra à partir d’une vidéo est dans la plupart des cas un problème sous contraint. En général, seule une approximation des déformations de la surface peut être estimée, à l’exception de certaines configurations bien contraintes. Par exemple, il a été démontré récemment dans (Taddei and Bartoli, 2008) que des déformations très spécifiques d’une page d’un livre peuvent être reconstruites de manière exacte.

Afin de garantir la reconstruction de déformations plausibles, il est indispensable de limiter l’es- pace des déformations admissibles en incorporant, au processus de reconstruction, des informations a priori sur la scène observée. Elles peuvent être spécifiques à une surface donnée, par un exemple un modèle de visage ou de papier, ou plus générique, comme par exemple des déformations lisses. La

figure 5.1 répertorie des exemples d’informations a priori utilisées dans la littérature pour la recons- truction 3D d’objets déformables, elles sont classées en fonction de leur généricité.

Générique Spécifique à un objet Visage Papier Déformation lisse Modèle de faible rang (LRSM) Energie de courbure minimale Surface (lisse) Modèle articulé Main

FIG. 5.1 – Exemples d’informations a priori utilisées dans la littérature pour la reconstruction 3D d’objets déformables. Elles vont du très spécifique (comme par exemple un modèle de visage) au générique (comme par exemple des déformations lisses).

L’approximation des déformations d’une surface par une combinaison linéaire de modes de dé- formation est l’une des représentations les plus couramment utilisées dans la littérature en raison de sa capacité à modéliser une grande variété de déformations. La principale hypothèse est que la scène dynamique observée est constituée d’un seul objet (pour nous une surface) telles que les déformations en chaque point soient « consistantes » avec celles des autres points.

Les modes de déformation sont soit appris sur une base de données ; on parle alors de modèle pré-appris ou morphable 3D ; soit directement estimés sur les données courantes ; on parle alors de modèle non appris ou de faible rang. Les modèles pré-appris sont spécifiques à un type de surface. Ils sont suffisamment contraints pour permettre la reconstruction 3D des déformations à partir d’une seule image. En contrepartie, la structure présente dans les images est supposée a priori connue. Ce type d’approche est notamment utilisé pour la reconstruction 3D de visage (Blanz and Vetter, 1999) et de surface planes (Salzmann et al., 2005). Les modèles non appris sont plus génériques et présentent l’avantage de s’adapter à la structure présente dans les images. Nous nous intéressons principalement à ces méthodes dans ce chapitre.

Les algorithmes de reconstruction utilisant le modèle de faible rang, par exemple (Aanæs and Kahl, 2002; Brand, 2001, 2005; Bregler et al., 2000; Del Bue et al., 2006; Olsen and Bartoli, 2008; Torresani et al., 2008; Xiao et al., 2004; Xiao and Kanade, 2005), ont montré leur efficacité. La principale différence avec l’algorithme que nous proposons se situe au niveau de la représentation du modèle. La plupart des méthodes existantes traitent l’ensemble des modes équitablement. Il en résulte des ambiguïtés puisque chaque mode de déformation peut être remplacé par une combinaison linéaire des autres modes. Nous proposons au contraire de les ordonner par importance en terme d’amplitude de déformation capturée dans les images. Notre approche est semblable à l’ACP1 d’un

jeu de données pour laquelle les modes de déformation sont ordonnés en terme de variance capturée. La principale différence est que les modes de déformations sont estimés par minimisation de l’erreur de reprojection.

Cette représentation permet de lever certaines ambiguïtés et introduit une estimation hiérarchique

du modèle de faible rang. La sélection automatique du nombre de modes de déformation est une problématique qui est très peu étudiée. Nous proposons d’utiliser la validation croisée pour faire ce choix. Notons que l’algorithme proposé n’est pas incrémental ; des modes ne peuvent pas être ajoutés au fur et à mesure que les images arrivent.

En résumé, nous proposons un nouvel algorithme de reconstruction 3D basé sur le modèle de faible rang. Ce dernier gère les données manquantes, utilise un modèle de caméra perspectif, sélec- tionne automatiquement le nombre de modes de déformation et utilise des informations a priori com- plémentaires favorisant la reconstruction de formes 3D plausibles. Il permet en outre l’augmentation 3D de surfaces déformables sur une vidéo.

Plan. Les modèles représentant les déformations d’une surface par une combinaison linéaire de modes sont décrits en §5.2. Nous verrons notamment que le modèle de faible rang sous sa forme explicite est la représentation la plus générique. Ensuite, les algorithmes estimant la forme explicite du modèle de faible rang sont passés en revue en §5.3. Nous proposons notre nouvelle approche basée sur le concept de modèle de faible rang hiérarchique en §5.4. Les résultats expérimentaux sont présentés en §5.5. Pour finir, nous donnons nos conclusions et discutons des travaux futurs en §5.6.