Méthodes de reconstruction - Rendu à base d’images temps-réel

2 Rendu à base d’images : état de l’art

2.2 Rendu à base d’images temps-réel

2.2.7 Méthodes de reconstruction

Comme leur nom l’indique, les méthodes de reconstruction créent un modèle 3d de la scène traitée et travaillent donc beaucoup sur la géométrie de la scène. Le nombre d’images en entrée peut varier d’une méthode à l’autre. Leur fonctionnement suit, à quelques variantes près, les étapes suivantes :

• Acquisition des images (figure 46). A la fin de l’acquisition, le programme dispose d’un ensemble d’images utilisables pour la reconstruction.

Figure 46 : images de départ.

• Calcul de correspondances entre images (figure 47) : il s’agit de trouver des pixels représentant les mêmes objets dans la scène. Cette étape commence en général par la détection de points d’intérêts, c’est-à-dire de points caractéristiques de l’image suffisamment discriminants pour être repérables (et identifiables) sur les autres images. Des détecteurs de coins sont souvent utilisés pour cette étape [HS88,DG93]. L’association de points d’intérêt entre deux images s’effectue grâce à des méthodes de corrélation [CC03]. Certaines méthodes proposent d’identifier des objets ou des motifs plutôt que des points d’intérêt. Dans le cas des objets, la comparaison est d’ordre géométrique et dans le cas de motifs, elle est colorimétrique et les motifs sont mis en correspondance par homographie. A la fin de cette étape, le programme dispose de correspondances entre les images. Il est courant que ces correspondances ne soient pas toutes bonnes et il est parfois intéressant d’avoir une idée de la proportion d’information erronée.

• Calcul de relations entre images (figure 48) : cette étape consiste à calculer les relations épipolaires entre les images. Ce calcul permet aussi de supprimer les mauvaises correspondances de points grâce à des algorithmes de type RANSAC (voir Lacey et al. [LPT00] ou Torr et Zisserman [TZ00] pour MLESAC) en utilisant la contrainte épipolaire. A la fin de cette étape, le programme dispose donc de relations épipolaires entre images.

Figure 48 : relation épipolaires entre images.

• Reconstruction grossière (figure 49) : quelques correspondances entre les images suffisent à effectuer un calibrage perspectif (et grossier) des caméras. Par triangularisation, il est alors possible de localiser les points corrélés, la reconstruction sera toutefois perspective, c’est-à-dire qu’elle sera distordue. Pour la rendre métrique, il faut appliquer à la scène une homographie 3d ce qui est fait à l’étape suivante. Le calibrage s’effectue en commençant par les deux premières images puis en intégrant une par une les images supplémentaires de telle sorte qu’il ne soit pas nécessaire que les points d’intérêts le l’image à intégrer soient corrélés avec des points de la première image. A la fin de cette étape, les caméras sont calibrées grossièrement et pas de façon métrique. Le programme dispose alors d’une reconstruction 3d grossière des points utilisés pour les correspondances entre images.

Figure 49 : reconstruction grossière.

• Autocalibrage (figure 50) : c’est durant cette étape que l’on rend la reconstruction métrique. Il est alors nécessaire de faire quelques suppositions sur les paramètres intrinsèques de la caméra tels que supposer que les pixels du capteur de la caméra sont carrés ou bien que l’axe optique des caméras passe par le centre des images. Il est possible d’affiner le calibrage des caméras en vérifiant la cohérence de l’ensemble des

caméras par optimisation globale [TMH00, LA04]. A la fin de cette étape, les caméras sont calibrées correctement et le programme dispose d’une reconstruction métrique des points de l’étape précédente.

Figure 50 : autocalibrage et reconstruction métrique.

• Carte de profondeur dense (figure 51) : à partir des images calibrées de façon précise, il est possible de calculer un grand nombre de corrélations de pixels et il n’est plus nécessaire de se limiter à des corrélations entre deux images. C’est durant cette étape que l’on lève les ambiguïtés dues aux occlusions. A la fin de cette étape, tous les pixels de chaque image ont trouvé au moins un correspondant sur une image. Le programme dispose alors d’une carte de profondeur par caméra.

Figure 51 : carte de profondeur dense.

• Construction d un model 3d (figure 52) : la dernière étape de la reconstruction consiste à générer un maillage 3d des points reconstruits. Cette étape commence en général par un algorithme de maillage comme l’algorithme de Delaunay [D34]. Il est ensuite possible d’alléger le maillage en supprimant quelques sommets de façon adéquate [H96, L01], en regroupant des sommets (Vertex Clustering) [RB93J, LT97] ou bien en remplaçant par exemple un ensemble de points coplanaires formant un mur par une seule grosse facette [PZB00]. Pour finir, il faut calculer une texture pour chaque primitive générée. A la fin de cette étape, le programme dispose d’un maillage texturé représentant la scène.

Figure 52 : maillage et placage de textures.

Le rendu s’effectue comme avec n’importe quel maillage, sous OpenGL par exemple. Le rendu peut aussi être réalisé à l’aide de texture mapped rendering. Debevec et al. [DTM96] utilisent des textures projetées sur le modèle 3d reconstruit. Les recouvrements de textures sont gérés polygone par polygone en mélangeant les textures de façon pondérée suivant l’emplacement de leur caméra respective. Pour un polygone donné, les coefficients de pondération dépendent de l’angle entre le rayon issu de la caméra virtuelle vers ce polygone et les rayons issus des caméras associées aux textures sélectionnées. Cette méthode de mélange est améliorée dans [DYB98]. D’autres méthodes de reconstruction spécialement dédiées à la reconstruction d’objets architecturaux sont développées dans [CR99] et [LCZ99].

Yu et al. [YDM99] utilisent une reconstruction d’une scène ainsi que les images en entrées pour retrouver les propriétés de réflectance de la surface de chaque objet composant la scène. Ils génèrent de nouvelles vues de la scène avec éventuellement une nouvelle illumination de la scène et de nouveaux objets en images de synthèse. Boivin et Gagalowicz [BG01] effectuent le même genre d’opérations à partir d’une seule image calibrée et d’un modèle 3d de la scène comportant la position des sources lumineuses.

Repko et Pollefeys [RP05] effectuent une reconstruction à partir d’images obtenues en filmant la scène « à la main ». Une sélection parmi toutes les images du film est effectuée afin d’alléger les calculs. Les images sélectionnées sont celles qui proposent le meilleur recouvrement pour un nombre minimal d’images. La reconstruction est renforcée par une correction de distorsion du modèle (projective drift en anglais).

Pour plus de détails sur les méthodes de reconstruction à base d’images, le lecteur peut se référer aux travaux de Pollefeys [PVV00, P00, PKV00,PGV04] ainsi qu’à [GSB94].

Pour plus de précision sur les méthodes de maillage à partir de nuages de points, le lecteur peut se référer à la méthode de Delaunay [D34] ainsi qu’aux travaux de Mücke [M95] pour une approche plus pratique.

2.2.8 Bilan

Les méthodes présentées dans cette section permettent de générer en temps réel une nouvelle vue d’une scène. Cependant elles nécessitent toutes un long prétraitement. Ce prétraitement est parfois manuel comme la plupart des méthodes de rendu à partir d’une seule image. Il peut aussi s’agir de rendu partiel comme pour les méthodes de la famille des imposteurs ou le rendu à base d’images n’est utilisé que pour une partie des éléments de la scène.

C’est aussi dans cette section qu’apparaissent les méthodes de rendu à base d’images à proprement parler. Ces méthodes, comme le Plenoptic Modeling, QuickTime VR ou bien le

Light Field Rendering n’effectuent aucun calcul concernant la géométrie de la scène. Ils

essaient uniquement de rendre compte du flux de rayons lumineux aux alentours de la scène. Plus ces méthodes tentent d’avoir une représentation fine de ce flux lumineux, plus les ressources en mémoire nécessaires pour y parvenir deviennent grandes. Il en va de même pour les techniques d’acquisition du flux lumineux qui nécessitent alors beaucoup de matériel. Cela explique en partie pourquoi ces méthodes sont difficiles à adapter au rendu en temps réel à partir de vidéos. Ces méthodes peuvent tout à fait traiter les scènes ayant des reflets spéculaires et le rendu visuel est souvent de très bonne qualité. Enfin, il faut savoir que ces méthodes, en particulier le Light Field Rendering ont inspiré un grand nombre de chercheurs.

Enfin, nous avons vu dans cette section le principe général des méthodes de reconstruction. Nous avons notamment constaté que cette phase de reconstruction requiert beaucoup de calculs, faisant de ces méthodes des techniques difficilement adaptables au rendu de scènes dynamiques. Cependant, bien que la phase de reconstruction soit longue, la phase de rendu peut être très rapide si le nombre de facettes n’est pas trop élevé.

Dans le document Méthodes de rendu à base de vidéos et applications à la réalité Virtuelle (Page 82-86)