Codage vid´ eo - Estimation d'homographies inter-images : cas des mosaïques et du suivi en temp

détachée du corps. Ceci est dû au fait que la couleur de Ip,g,t (la craie brune) est très

proche de celle de la peau sur It,p.

Pour m ∈ [[0, l − 1]] × [[0, h − 1]] faire

M1(m) ← max3(Ip,g,t(m) − It,p(m)) -- soustraction d’arri`ere-plan

finpour

M2 ← dilatation(´erosion(M1)) -- ouverture morphologique

Pour m ∈ [[0, l − 1]] × [[0, h − 1]] faire M3(m) ← seuillage(M2(m), s)

finpour

-- En sortie, M3 vaut 1 aux points occult´es, 0 sinon

Fonctions utilis´ees :

– max3(v) renvoie max{|v1|, |v2|, |v3|} ;

– les opérateurs morphologiques dilatation et érosion utilisent un disque comme élément structurant (appendice 7.5.2.4) ;

– seuillage(v, s) transforme le niveau de gris v ∈ R en masque : seuillage(v, s) = 1 si v > s

0 sinon

Algorithme 5.1: Algorithme de segmentation par « soustraction » entre l’image panoramique de référence Ip,g,t et l’image courante It,p. Le seuil s est à ajuster manuellement.

Pour rebondir sur la contrainte du temps réel qui est la caractéristique majeure de notre contribution, nous affirmons que l’implémentation (appendice 7.5) de l’algorithme 5.1 « sature » les ordinateurs personnels actuels. Au delà, la « goutte d’eau ferait déborder le vase ».

5.3 Codage vid´eo

Nous utilisons notre méthode pour envoyer par un réseau une séquence vidéo au fur et `

a mesure de son acquisition.

5.3.1 Etat de l’art (tr`´

es rapide)

5.3.1.1 Codage fond-forme

Beaucoup de recherches actuelles traitent de la compression vidéo par objets : différen- tes régions de la scène sont codées par des méthodes dédiées, choisies pour leur efficacité sur un type d’images donné.

Dans ce contexte, Irani et al. ([IAB+96] §2.2) ont proposé de coder séparément le premier plan et l’arrière-plan de séquences vidéo sportives. L’arrière-plan est composé d’une

vue panoramique. Des techniques de suivi et de segmentation diverses ont été proposées pour constituer un tel encodeur ([IAB+96] §2.2, [DM96], [BDH03]).

5.3.1.2 MPEG-4

Les normes de codage vid´_{eo actuelles (les formats Windows Media, QuickTime,} RealMedia, dans une certaine mesure flash, et surtout MPEG-4) ne se limitent pas à ranger une piste vidéo et audio dans un fichier. Un document est composés d’un nombre arbitraire de médias (texte, image, séquence vidéo, séquence audio, etc.) organisés dans une présentation multimédia.

La norme de codage MPEG-4, propose, en plus des possibilit´es des formats vid´eo tra- ditionnels :

– de nouveaux médias, comprenant des objets 3D, des images panoramiques, des sources audio localisées, des images vectorielles, etc. Ces m´_{edias sont des « objets » : ils} peuvent être ajoutés, supprimés, manipulés indépendamment ;

– un langage de description de scène, BIFS (BInary Format for Scenes [PE02] § 4). Il permet de spécifier comment les médias sont composés entre eux en espace (où afficher ?) et en temps (quand jouer ?). Le langage décrit ussi toutes les interactions avec l’utilisateur (lecture, stop, clic sur un lien, etc.) ;

– un moyen de publier ces données sur le réseau. Elles (médias, BIFS) sont transférées sous forme de flux (stream en anglais). Chaque donnée composant une présentation est décomposée en paquets. Les paquets des différents flux sont envoyés dans un ordre choisi par un multiplexeur pour que :

– la présentation puisse être jouée progressivement (streaming en anglais). Par exemple le début d’une vidéo peut être affiché avant que toute la séquence soit re¸cue, comme sur une vraie télévision,

– les erreurs de transmission par le réseau affectent le moins possible la qualité de la présentation.

Ces ajouts s’accompagnent de nombreuses améliorations des normes de codage pour les séquences vidéo (format H264 et format dédié aux visages), les images (JPEG2000) et les séquences audio (format dédié à la parole).

Des lecteurs (players) MPEG-4 plus ou moins complets (http://www.envivio.com) sont disponibles pour le grand public.

La norme MPEG-4 spécifie le fonctionnement du décodage pour chaque média mais pas celui de l’encodage. Ceci laisse un grande latitude du côté de l’encodage, ce qui explique les nombreuses recherches portant sur les techniques d’encodage pour les différents médias.

5.3.1.3 Ce que nous en retenons

Dans le cadre de MPEG-4, la composition visuelle nous intéresse particulièrement. Deux médias visuels peuvent être superposés lors de la visualisation de la présentation.

5.3. CODAGE VID ÉO 143 objet vidéo (VOP pour Video Object Plane en anglais) séparé. Les deux VOP sont ensuite superposés pour former l’image finale.

Nous pouvons transmettre l’arrière-plan (l’image panoramique) et le premier plan (les objets occultants) dans des flux séparés. Le flux vidéo de premier plan peut être produit et affiché en temps réel ([PE02], p356).

5.3.2 Notre technique de codage

La figure 5.10 détaille notre architecture d’encodage (côté serveur) et de décodage (côté client). Les flux de données contenant les différents médias sont multiplexés, envoyés sur le réseau, et reconstitués du côt´_{e client par le « dé-multiplexeur ». Les composantes maison} ont pour nom « génération de la vue panoramique », « suivi » et « segmentation ». 5.3.2.1 Traitement de l’image panoramique

L’image panoramique est transformée en flux par un codeur progressif exploitant la multirésolution : à partir d’un premier jet de données, le décodeur peut reconstituer l’image en résolution réduite. La suite du flux (4) ajoute progressivement des détails à l’image. De cette manière, l’affichage de l’arrière-plan peut commencer avant la fin de la transmission des données.

Le suivi fournit, pour chaque image Itde la s´equence les param`etres θtde l’homographie

associée. Ils sont envoyés dans un flux (0). Du côt´_{e client (boˆıte « re-projection »), ils} constituent les paramètres d’une homographie qui, appliquée à la vue panoramique, la ramène dans le repère de l’image de la séquence (équation 5.2). Ceci constitue le VOP/0, celui de l’arrière-plan.

5.3.2.2 Le premier plan

La segmentation fournit une s´equence d’images du premier plan, avec les masques d’occultation correspondants. La technique retenue dans MPEG-4 repose sur une partition de l’image en macroblocs (MB).

Codage. Pour les images-clés, l’image et le masque sont codés séparément (flux (1) et (2)) :

– le masque est considéré comme une image à 1 bit par pixel, codée sans perte. Un MB est soit entièrement noir, soit entièrement blanc, soit partagé, auquel cas un codeur arithmétique s’en charge ([PE02] § 8.3.1) ;

– seuls les MB non occultés de l’image (la texture) sont codés, à l’aide d’une transformée en cosinus discrète (DCT). S’ils sont partiellement occultés, seuls les pixels visibles sont codés, avec une DCT unidimensionnelle ([PE02] § 8.3.3).

Le masque et la texture sont tous les deux interpol´es en temps, entre les images-cl´es. Pour cela, un flux (3) fournit un vecteur de translation pour chaque MB.

par degrés La scène codeur forme/ texture/ mouvement suivi re−projection homographies « démultiplexeur » d’image mémoire série de vues OU caméra DV caméra panoramique

description de scène (BIFS) gestion retour utilisateur

CÔTÉ CLIENT

CÔTÉ SERVEUR

panoramique de la vue génération par degrés codeur mouvement texture forme premier plan

RÉSEAU

segmentation contrôle données BIFS gestion arrière−plan (VOP/0) compositeur de VOP panoramique image _décodeur

premier plan (VOP/1)

4 5 3 2 0 multiplexeur 1 5 4 0 1 3 2 historique historique de texture décodeur décodeur de masque historique

Fig. 5.10: Architecture de codage et de décodage d’une séquence vidéo prise dans nos conditions expérimentales.

5.3. CODAGE VID ÉO 145 Décodage. Du côté client, le masque est décodé en premier. Lui succède (car il en dépend) le décodage de la texture. En sortie, la zone texturée non masquée est trans- parente et constitue le VOP/1.

5.3.2.3 Superposition

Les deux VOP sont superposés par un compositeur de VOP, et affichés sur l’écran de l’utilisateur. La figure 5.11 présente un exemple d’image obtenue lors de cette combinai- son. La segmentation de l’image est celle de la figure 5.9. Les erreurs de segmentation se traduisent par des parties du VOP/1 qui semblent disparaˆıtre.

Fig. 5.11: Image d’une séquence vidéo reconstruite en combinant la référence panoramique re-projetée et un objet au premier plan, et vue détaillée qui met en évidence une erreur de segmentation : une partie de la tête n’est pas transmise.

5.3.2.4 Contrˆole du lecteur MPEG-4

Coté serveur, un composant de gestion envoie un flux de description de scène au format BIFS (5). Le composant de gestion du client utilise ces informations pour activer la chaˆıne de décodeurs qui traitent les autres flux de la présentation. Les données BIFS indiquent aussi au composant comment réagir aux actions de l’utilisateur.

5.3.3 Conclusion

Tous ces composants peuvent fonctionner en temps réel, puisque les flux sont envoyés et affichés simultanément : c’est du streaming (accès aux données multimédia en flux continu [Gri03] § 2). Le programme d’affichage, côté client, est un lecteur MPEG-4 générique ; aucun décodeur ou programme spécifiques ne sont nécessaires.

Avec un codeur générique, toutes les images doivent être entièrement encodées. Grâce à notre approche, une fois l’arrière-plan transmis, seul le premier plan nécessite d’être envoyé pour chaque image. La bande passante utilisée pour transmettre les flux s’en trouve réduite de facto.

Dans le document Estimation d'homographies inter-images : cas des mosaïques et du suivi en temps réel : applications en réalité augmentée (Page 143-148)