Conclusion

In document The DART-Europe E-theses Portal (Page 50-54)

(a) Temps de construction des pyramides

(b) Nombre de r´egions `a la base de la pyramide (´echelle logarithmique)

Figure 2.19 – Comparaison entre pyramide seule et LPE + pyramide sur une quinzaine d’images de tailles originales comprises entre 57.000 et 700.000 pixels

avec 3,49Go de RAM. Nous avons r´ealis´e deux impl´ementations de cette technique : un pluggin GIMP sous Linux et une application sous Windows.

2.12 Conclusion

Dans ce chapitre, nous avons ´etudi´e les grands principes de la pyramide irr´eguli`ere. Diverses utili-sations dans les images fixes ont ´et´e pass´ees en revue : obtention de partitionnement multir´esolutions, segmentation de l’image compl`ete, segmentation locale. Nous avons montr´e que cette pyramide poss`ede une grande souplesse notamment en ce qui concerne les crit`eres de similarit´e divers qui peuvent ˆetre utilis´es.

N´eanmoins, certains inconv´enients de la m´ethodes originelle existent et nous les avons list´es. Ceux-ci

(a) Segmentation par pyramide seule (428 r´egions) (b) Segmentation par LPE + pyramide (438 r´egions)

Figure2.20 – Comparaison entre une segmentation par pyramide et par LPE + pyramide. On peut voir en (b) plus de d´etails et moins de petites r´egions parasites dues aux d´egrad´es et aux transitions douces

sont grandement am´elior´es avec une initialisation par ligne de partage des eaux.

Le prochain chapitre montrera en partie comment cette m´ethode peut ˆetre avantageusement utilis´ee pour r´ealiser de la segmentation spatio-temporelle.

Chapitre 3

Segmentation spatio-temporelle

Sommaire

3.1 Introduction : les besoins du march´e . . . 45 3.2 Segmentation supervis´ee . . . 46 3.3 Segmentation exhaustive par pyramide ´evolutive . . . 51 3.4 Segmentation d’objets d’int´erˆet par propagation d’´etiquettes . . . 55 3.5 Environnement interactif pour l’hypervid´eo . . . 67

3.1 Introduction : les besoins du march´ e

L

a segmentation spatio-temporelle consiste `a segmenter l’image au cours du temps, dans un plan s´equence de vid´eo. C’est non seulement un suivi (tracking) d’un ou plusieurs objets, mais aussi et surtout une localisation pr´ecise de leurs limites ou contours.

De nombreuses applications ont comme besoin g´en´erique de segmenter spatio-temporellement des vid´eos. Illustrons avec deux exemples diam´etralement oppos´es : d’une part la vid´eo-surveillance qui doit contrˆoler le comportement des personnes avec des contraintes de temps r´eel et d’autonomie. D’autre part la publicit´e interactive o`u les objets de la sc`ene doivent r´eagir ou changer d’aspect au passage du curseur de la souris. Cette application n´ecessite des traitements lourds, supervis´es et en diff´er´e (offline).

Cette forme de publicit´e n’en est qu’`a ses balbutiements mais devrait bientˆot g´en´erer un march´e ´enorme, essentiellement bas´e sur tous les produits que le spectateur peut voir pendant la diffusion d’un film (habillement, ameublement, tourisme, services, . . . ). Actuellement, le travail de d´etourage des objets est bien souvent r´ealis´e manuellement ou semi-automatiquement `a l’aide de produits du march´e : GrowCut de iPhotoSoft, Smox Editor de Manalee, PatchMaker de Pixmart. Le passage `a une grande ´echelle de ce nouveau march´e ne peut ˆetre r´ealis´e qu’avec des outils de production efficaces, permettant de r´eduire l’intervention manuelle.

Fonctionnellement parlant, on peut distinguer le cas d’une cam´era fixe et celui d’une cam´era au mouvement quelconque. On peut aussi distinguer la segmentation d’un ou plusieurs objets particuliers de celle de l’image enti`ere.

Dans ce chapitre, je pr´esente notre contribution `a ces diff´erents aspects du probl`eme. Tout d’abord avec une technique qui a fonctionn´e en conditions r´eelles pour une application d’un pro-jet europ´een. Deuxi`emement, avec une proposition de segmen-tation spatio-temporelle de toute l’image. Ensuite, avec une chaˆıne compl`ete pour segmenter des objets d’int´erˆet. Enfin, j’aborderai l’aspect interface utilisateur avec un environnement original que j’ai d´evelopp´e.

45

Ce travail [BFP01a,BFP01b] s’est inscrit dans le projet Europ´een (IST 10942) ARTLIVE : ARchi-tecture and authoring Tools for prototype for Living Images and new Video Experiments, entre 2000 et 2002.

Les partenaires :

• Traitement d’images : UCL (Belgique - Responsable du projet : Benoit Macq), CSELT (Italie), ADERSA (France), UJF-LIS (France), EPFL (Suisse), Fastcom (Suisse)

• Intelligence artificielle : ADETTI (Portugal), UJF-TIMC (France)

• Auteurs multim´edia : Casterman (France)

Ce projet avait pour objectif de d´evelopper un environnement permettant aux artistes/utilisateurs de cr´eer des espaces narratifs combinant le monde r´eel et le monde virtuel (par exemple, int´egration de personnages r´eels dans un d´ecor de bande dessin´ee). Nous avons travaill´e sur les aspects extraction de personnages en mouvement, mise `a jour d’images de r´ef´erence, suivi de personnages en mouvement. Pour ˆ

etre plus pr´ecis, l’objectif de ce projet est d’incruster en temps r´eel des personnes film´ees ”dans la rue”, dans des images du domaine de la bande dessin´ee et de faire interagir ces personnes avec l’environnement de la BD, selon un sc´enario pr´econ¸cu. Cette application, qui oriente ses sc´enarii dans les domaines du jeu et de l’enseignement doit pouvoir fonctionner avec le minimum de contrˆole pendant toute une journ´ee. La qualit´e de l’incrustation d´epend en grande partie de l’extraction temps r´eel et de la qualit´e des masques des personnes qui passent ou s’arrˆetent dans le champ de la cam´era qui est fixe. L’environnement peut ˆ

etre soit un stand soit une sc`ene d’ext´erieur. Dans les deux cas, un grand ´ecran permet de projeter aux passants (`a la fois acteurs et spectateurs) leur image r´eelle dans le monde de la BD. Aucun dispositif sp´ecial (blue screen dans le fond, capteurs ou marques sur les personnages) ne permet de r´ealiser la segmentation dans des conditions optimales. L’une des principales contraintes impos´ees par ce projet est le respect du ”temps r´eel” (au minimum 8 images 352x288 pixels par seconde). Les traitements utilis´es doivent donc ˆetre simples mais efficaces.

Dans le cadre de ce projet, deux d´emonstrateurs temps-r´eels ont ´et´e mis en œuvre et test´es lors de manifestations publiques (exposition ”Les Jardins et la bande dessin´ee” en avril 2001 `a Paris et d´emonstration `a Arc-et-Senan en novembre 2001).

La section suivante correspond `a la construction du masque repr´esentant la personne. Celui-ci est obtenu par combinaison de deux op´erateurs pour ˆetre moins sensible `a la pr´esence d’ombres dans la sc`ene. La seconde partie pr´esente la gestion de l’image de r´ef´erence, qui permet d’extraire toute personne mobile ou immobile dans la s´equence vid´eo. Finalement des r´esultats sont pr´esent´es et comment´es.

3.2.1 Construction des masques

La cam´era ´etant fixe, une solution simple consiste `a utiliser une image repr´esentant la sc`ene en l’absence de tout individu. L’utilisation de cette image, commun´ement appel´ee image de r´ef´erence [DHA88,RE95], rend imm´ediate la d´etection de pr´esence d’une personne. Nous consid´erons dans un premier temps que cette image de r´ef´erence est disponible, nous pr´esenterons au cours de la partie suivante la mani`ere dont cette image est obtenue.

Combinaison d’un masque r´egion et contour

Une approche commune [Wen83] consiste `a calculer la diff´erenceDentre l’image couranteIet l’image de r´ef´erenceIref pixel par pixel. Cette image diff´erenceDest alors seuill´ee pour former un masque.

3.2. SEGMENTATION SUPERVIS ´EE 47

In document The DART-Europe E-theses Portal (Page 50-54)