Conclusion - The DART-Europe E-theses Portal

(a) Temps de construction des pyramides

(b) Nombre de régions à la base de la pyramide (échelle logarithmique)

Figure 2.19 – Comparaison entre pyramide seule et LPE + pyramide sur une quinzaine d’images de tailles originales comprises entre 57.000 et 700.000 pixels

avec 3,49Go de RAM. Nous avons réalisé deux implémentations de cette technique : un pluggin GIMP sous Linux et une application sous Windows.

2.12 Conclusion

Dans ce chapitre, nous avons étudié les grands principes de la pyramide irrégulière. Diverses utili-sations dans les images fixes ont été passées en revue : obtention de partitionnement multirésolutions, segmentation de l’image complète, segmentation locale. Nous avons montré que cette pyramide possède une grande souplesse notamment en ce qui concerne les critères de similarité divers qui peuvent être utilisés.

Néanmoins, certains inconvénients de la méthodes originelle existent et nous les avons listés. Ceux-ci

(a) Segmentation par pyramide seule (428 r´egions) (b) Segmentation par LPE + pyramide (438 r´egions)

Figure2.20 – Comparaison entre une segmentation par pyramide et par LPE + pyramide. On peut voir en (b) plus de détails et moins de petites régions parasites dues aux dégradés et aux transitions douces

sont grandement am´elior´es avec une initialisation par ligne de partage des eaux.

Le prochain chapitre montrera en partie comment cette méthode peut être avantageusement utilisée pour réaliser de la segmentation spatio-temporelle.

Chapitre 3

Segmentation spatio-temporelle

Sommaire

3.1 Introduction : les besoins du marché . . . 45 3.2 Segmentation supervisée . . . 46 3.3 Segmentation exhaustive par pyramide évolutive . . . 51 3.4 Segmentation d’objets d’intérêt par propagation d’étiquettes . . . 55 3.5 Environnement interactif pour l’hypervidéo . . . 67

3.1 Introduction : les besoins du march´ e

L

â segmentation spatio-temporelle consiste à segmenter l’image au cours du temps, dans un plan séquence de vidéo. C’est non seulement un suivi (tracking) d’un ou plusieurs objets, mais aussi et surtout une localisation précise de leurs limites ou contours.

De nombreuses applications ont comme besoin générique de segmenter spatio-temporellement des vidéos. Illustrons avec deux exemples diamétralement opposés : d’une part la vidéo-surveillance qui doit contrôler le comportement des personnes avec des contraintes de temps réel et d’autonomie. D’autre part la publicité interactive où les objets de la scène doivent réagir ou changer d’aspect au passage du curseur de la souris. Cette application nécessite des traitements lourds, supervisés et en différé (offline).

Cette forme de publicité n’en est qu’à ses balbutiements mais devrait bientôt générer un marché énorme, essentiellement basé sur tous les produits que le spectateur peut voir pendant la diffusion d’un film (habillement, ameublement, tourisme, services, . . . ). Actuellement, le travail de détourage des objets est bien souvent réalisé manuellement ou semi-automatiquement à l’aide de produits du marché : GrowCut de iPhotoSoft, Smox Editor de Manalee, PatchMaker de Pixmart. Le passage à une grande échelle de ce nouveau marché ne peut être réalisé qu’avec des outils de production efficaces, permettant de réduire l’intervention manuelle.

Fonctionnellement parlant, on peut distinguer le cas d’une caméra fixe et celui d’une caméra au mouvement quelconque. On peut aussi distinguer la segmentation d’un ou plusieurs objets particuliers de celle de l’image entière.

Dans ce chapitre, je présente notre contribution à ces différents aspects du problème. Tout d’abord avec une technique qui a fonctionné en conditions réelles pour une application d’un pro-jet européen. Deuxièmement, avec une proposition de segmen-tation spatio-temporelle de toute l’image. Ensuite, avec une chaˆıne complète pour segmenter des objets d’intérêt. Enfin, j’aborderai l’aspect interface utilisateur avec un environnement original que j’ai développé.

Ce travail [BFP01a,BFP01b] s’est inscrit dans le projet Europ´een (IST 10942) ARTLIVE : ARchi-tecture and authoring Tools for prototype for Living Images and new Video Experiments, entre 2000 et 2002.

Les partenaires :

• Traitement d’images : UCL (Belgique - Responsable du projet : Benoit Macq), CSELT (Italie), ADERSA (France), UJF-LIS (France), EPFL (Suisse), Fastcom (Suisse)

• Intelligence artificielle : ADETTI (Portugal), UJF-TIMC (France)

• Auteurs multim´edia : Casterman (France)

Ce projet avait pour objectif de développer un environnement permettant aux artistes/utilisateurs de créer des espaces narratifs combinant le monde réel et le monde virtuel (par exemple, intégration de personnages réels dans un décor de bande dessinée). Nous avons travaillé sur les aspects extraction de personnages en mouvement, mise à jour d’images de référence, suivi de personnages en mouvement. Pour ˆ

etre plus précis, l’objectif de ce projet est d’incruster en temps réel des personnes filmées ”dans la rue”, dans des images du domaine de la bande dessinée et de faire interagir ces personnes avec l’environnement de la BD, selon un scénario précon¸cu. Cette application, qui oriente ses scénarii dans les domaines du jeu et de l’enseignement doit pouvoir fonctionner avec le minimum de contrôle pendant toute une journée. La qualité de l’incrustation dépend en grande partie de l’extraction temps réel et de la qualité des masques des personnes qui passent ou s’arrêtent dans le champ de la caméra qui est fixe. L’environnement peut ˆ

etre soit un stand soit une scène d’extérieur. Dans les deux cas, un grand écran permet de projeter aux passants (à la fois acteurs et spectateurs) leur image réelle dans le monde de la BD. Aucun dispositif spécial (blue screen dans le fond, capteurs ou marques sur les personnages) ne permet de réaliser la segmentation dans des conditions optimales. L’une des principales contraintes imposées par ce projet est le respect du ”temps réel” (au minimum 8 images 352x288 pixels par seconde). Les traitements utilisés doivent donc être simples mais efficaces.

Dans le cadre de ce projet, deux démonstrateurs temps-réels ont été mis en œuvre et testés lors de manifestations publiques (exposition ”Les Jardins et la bande dessinée” en avril 2001 à Paris et démonstration à Arc-et-Senan en novembre 2001).

La section suivante correspond à la construction du masque représentant la personne. Celui-ci est obtenu par combinaison de deux opérateurs pour être moins sensible à la présence d’ombres dans la scène. La seconde partie présente la gestion de l’image de référence, qui permet d’extraire toute personne mobile ou immobile dans la séquence vidéo. Finalement des résultats sont présentés et commentés.

3.2.1 Construction des masques

La caméra étant fixe, une solution simple consiste à utiliser une image représentant la scène en l’absence de tout individu. L’utilisation de cette image, communément appelée image de référence [DHA88,RE95], rend immédiate la détection de présence d’une personne. Nous considérons dans un premier temps que cette image de référence est disponible, nous présenterons au cours de la partie suivante la manière dont cette image est obtenue.

Combinaison d’un masque r´egion et contour

Une approche commune [Wen83] consiste à calculer la différenceDentre l’image couranteIet l’image de référenceI_ref pixel par pixel. Cette image différenceDest alors seuillée pour former un masque.

3.2. SEGMENTATION SUPERVIS ´EE 47

Dans le document The DART-Europe E-theses Portal (Page 50-54)