• Aucun résultat trouvé

2 Rendu à base d’images : état de l’art

2.3 Rendu à base de vidéos : play-back interactif

2.3.3 Murs de caméras

On désigne par murs de caméras (de l’anglais camera array) un dispositif constitué d’un grand nombre de caméras, souvent de premiers prix. L’idée de base consiste à dire que ce qui est fabriqué et vendu à grande échelle est souvent bon marché, donc plutôt que d’acheter quelques très bonnes caméras, il peut être préférable d’en acheter beaucoup plus mais de moins bonne qualité.

Le principal défi de ce genre de dispositif est la façon de gérer l’énorme flux de données transitant des caméras vers la ou les machines de traitement. Ceci explique pourquoi les premiers murs de caméras se limitaient à une cinquantaine de caméras.

W il bur n [ W S K 02]

Figure 60 : mur de caméras (Stanford Camera Array)

Le plus connu des murs de caméras est probablement le Stanford Camera Array (figure 60), il peut supporter plus d’une centaine de caméras. Les caméras utilisées et notamment leur focale varient selon que la scène soit intérieure ou extérieure, la résolution reste la même : 640×480. Chaque caméra est connectée à un FPGA (carte programmable) qui se charge de générer des fichiers RAW ou de la compression en MPEG2. Le FPGA sert aussi de routeur afin de transmettre les signaux de synchronisation aux caméras voisines. Les FPGA sont reliés entre eux sous forme d’arbres binaires et la caméra racine est connectée au PC qui les contrôle. Si le nombre de caméras devient trop élevé, il suffit d’ajouter un PC supplémentaire qui gérera son propre groupe de caméras. Ainsi, une centaine de caméras nécessitent 4 PC pouvant gérer un débit de 30 fps. Pour plus de détails techniques sur ce dispositif, le lecteur peut se référer à Wilburn et al. [WSK02].

Comme nous le montrent Wilburn et al. [WJ05], il existe une multitude d’applications aux murs de caméras. Pour la plupart de ces applications, il s’agit de simuler un système optique avec un seul centre de projection à partir de toutes les caméras en considérant que les objets étudiés ont des dimensions petites par rapport à la distance qui les sépare des caméras. Les murs de caméras permettent de générer des images haute résolution construites sous forme de mosaïques. Wilburn et al. obtiennent une image 3800×2000 à partir d’une centaine de caméras 640×480. Il est possible d’effectuer sur l’image obtenue une rectification dynamique des couleurs (de l’anglais high dynamic range) en paramétrant différemment les caméras adjacentes. Ce procédé nécessite l’emploi d’un calibrage des couleurs décrit dans [JW05] de Joshi et al..

Une autre possibilité proposée par les murs de caméras consiste à faire des vidéos à framerate très élevé. Il suffit pour cela de désynchroniser les caméras de façon adéquate. Cette méthode ne fonctionne que si les objets traités sont loin des caméras ce qui permet de rectifier les images de chaque caméra par une homographie tout en supposant négligeable la déformation perspective engendrée. A partir de 52 caméras, Wilburn et al. obtiennent un débit de 1560 images par seconde.

Les murs de caméras permettent aussi de simuler une caméra à ouverture variable. L’utilisateur choisit un plan de netteté sur lequel il projette les images voisines de la vue à générer, ce qui a pour effet de simuler une très grande ouverture de caméra (et par conséquent de diminuer la profondeur de champ). En pratique, la projection des images du mur de caméras sur un plan revient à les décaler les unes par rapport aux autres et à en faire

la moyenne. Il suffit ensuite de faire un décalage approprié pour modifier la position du plan focal. Dans le cas du mur de caméras de Stanford, le décalage est effectué par les FPGA ce qui permet de produire une simulation d’ouverture de caméras en temps réel sur des scènes dynamiques en attribuant 15 caméras par PC. Un diaphragme suffisamment ouvert a un effet de désocclusion. Ce phénomène est illustré par la figure 61 et la figure 62 sur lesquelles on peut voir une scène photographiée avec un diaphragme fermé et la même scène prise avec un diaphragme ouvert. Dans le second cas, la mise au point sur un objet en arrière plan peut flouter ses occluants du premier plan.

Figure 61 : image priseavec une ouverture du diaphragme très faible.

Figure 62 : image priseavec une ouverture du diaphragme très grande. Vaish et al. [VG05] utilisent ce principe d’ouverture extrême pour effectuer de la « désocclusion » d’objet ce qui permet de voir un sujet caché par des occlusions. Wilburn et al. [WJ05] optimisent cette méthode en supprimant sur les images en entrée la contribution des pixels concernés par une occlusion. L’exemple proposé montre deux personnes en train de discuter derrière un buisson (figure 63), une seule image ne permet pas de les distinguer. En réglant le plan focal sur eux, les images obtenues montrent clairement leurs mouvements. Le résultat est saisissant.

Enfin, les murs de caméras permettent de générer des nouvelles vues d’une scène. Wilburn et al. [WJ05] utilisent une méthode à base de flux optique (cf. chapitre 2.1.1.4). Cette méthode nécessite la spécification des plans near et far délimitant la scène. Un taux d’échantillonnage temporel est calculé en fonction des caractéristiques de la scène et du positionnement relatif des caméras. La méthode de flux optique proposée par Black et Anandan [BA93] est alors appliquée sur les quatre images issues des caméras les plus proche de la caméra virtuelle. Une carte de flux optique est alors calculée à partir de ces quatre images puis appliquée sur ces mêmes images afin de les mélanger et de générer la nouvelle vue. Les caméras sont calibrées avec la méthode de Vaish et al. [VWJ04]. Les résultats montrent que les grands mouvements des objets de la scène masquent les mouvements d’amplitude plus faible. De plus, cette méthode ne gère pas les occlusions mais il faut noter que d’autres méthodes de rendu à base d’images peuvent être utilisées avec un mur de caméras de ce genre comme par exemple la méthode de Zitnick et al. [ZBU04].

W il bur n [ W S K 02]

Figure 63 : simulation d’ouverture du diaphragme.

L’image de droite représente une des images de départs, on ne distingue rien derrière le buisson. L’image de gauche correspond à l’image générée avec une mise au point sur les personnes derrière le buisson.

Yang et al. [YEB02] utilisent pour leur distributed light field camera un ensemble de 8x8 caméras de type webcam (voir chapitre 2.4.2). Les caméras utilisées ne permettent pas de synchronisation et il n’y a pas de calibrage des couleurs. Zhang et Chen [ZC04] ne synchronisent pas non plus leurs 48 caméras ce qui provoque des artéfacts dans les vues générées, notamment sur les contours des objets mobiles.