Classification par r´ etro-projection

Dans le document The DART-Europe E-theses Portal (Page 68-74)

3.4 Segmentation d’objets d’int´ erˆ et par propagation d’´ etiquettes

3.4.5 Classification par r´ etro-projection

Cette partie pr´esente la derni`ere ´etape qui consiste `a attribuer une ´etiquette `a chaque r´egion non encore ´etiquet´ee, en la pro-jetant sur la partition pr´ec´edente connue.

Classer une r´egion par rapport `a une partition connue est une mani`ere de favoriser la coh´erence temporelle dans la description de l’objet suivi.

Les approches pr´esent´ees dans [ML98, AOW+98] effectuent la classification de r´egions segment´ees dans I(t+1) en fonction de la projection en avant de P(t). Dans notre approche, le r´esultat de cette projection est utilis´e pour guider la segmentation. Il ne peut donc pas servir `a la classification des r´egions sans ´etiquette.

Une classification par projection en arri`ere (r´etro-projection) des r´egions sans ´etiquette est alors r´ealis´ee : le mouvement de chaque r´egion est estim´e et chacune est projet´ee sur la partition pr´ec´edente afin de d´eterminer si elle appartient ou non `a l’objet suivi [GL98a,GPSG99, Pat00].

Estimation du mouvement des r´egions

La projection des r´egions sans ´etiquette requiert l’estimation de leur vecteur de mouvement de I(t+1) vers I(t). A l’instar de [GL98a], un mod`ele de mouvement translationnel permet d’estimer le mouve-ment d’une r´egion. Chaque r´egion sans ´etiquette, dans I(t+1), est alors mise en correspondance (region-matching) dans I(t).

Contrairement au block-matching utilis´e lors de la premi`ere ´etape, l’information couleur (y, u, v) de chaque pixel pest prise en compte pour renforcer l’exactitude de la classification. Soit R une r´egion de I(t+1), son vecteur de mouvementV est obtenu en minimisant la Somme en valeur Absolue, pour tous les pixelsp∈R, des Diff´erences en couleur (SADcolor) :

SADcolor(R) =X

p∈R

[|(y(t+1, p)−y(t, p+V)|+γ.(|u(t+1, p)−u(t, p+V)|+|v(t+1, p)−v(t, p+V)|)] (3.5) γest un coefficient normalisateur utilis´e pour compenser la diff´erence d’´echelle remarquable entre la luminance et les deux chrominances. L’estimation du vecteur V est effectu´ee en consid´erant un vecteur de d´eplacement maximal en pixels VmaxRegion qui fixe les dimensions de la fenˆetre de recherche (ex : VmaxRegion = (16,16)).

Soulignons ici que nous nous int´eressons principalement `a la mise en correspondance, et non pas `a la qualit´e de l’estimation de mouvement obtenue.

l’objet) est appliqu´e `a la partition finale de mani`ere `a lisser les contours et am´eliorer la qualit´e visuelle

Figure3.14 – Classification des r´egions sans ´etiquette par r´etro-projection

Bilan sur la classification par r´etro-projection

Une r´egion sans ´etiquette correspond dans I(t+1) `a une entit´e ayant ses propres caract´eristiques en couleurs. Dans la plupart des cas, cette entit´e est pr´esente dans I(t). Le fait qu’elle n’ait pas d’´etiquette est dˆu soit `a sa petite taille soit `a une l´eg`ere d´eformation. Au cours de la r´etro-projection, ces entit´es sont mises en correspondance avec leur propre repr´esentation dans l’image pr´ec´edente et peuvent ainsi r´ecup´erer la bonne ´etiquette. Ceci facilite la stabilit´e temporelle dans la localisation du contour de l’objet.

Lorsqu’une entit´e n’est pas pr´esente dans I(t), elle est projet´ee par d´efaut sur une partie qui lui est similaire en couleur. Nous faisons alors l’hypoth`ese que cette similarit´e en couleur est suffisante pour lui attribuer une ´etiquette. Il est `a noter que face aux probl`emes dus aux d´ecouvrements, la classification par r´etro-projection est plus pertinente que la propagation d’´etiquettes.

L’utilisation des trois composantes couleur lors de la mise en correspondance des r´egions renforce l’exactitude de la classification. Faute de cartes de v´erit´e terrain pour les vid´eos ´etudi´ees, une quantifica-tion de l’apport de l’informaquantifica-tion couleur n’est actuellement pas possible. N´eanmoins, la qualit´e visuelle de la segmentation est bien am´elior´ee comme le montre le test pr´esent´e `a la figure3.15. La classification des r´egions segment´ees dans I(t+1) (fig. 3.15.d) ´echoue `a plusieurs reprises lorsque la r´etro-projection n’utilise que l’information de luminance (fig. 3.15.e), contrairement au cas o`u l’information couleur est utilis´ee (fig.3.15.f).

3.4.6 R´ esultats

Nous pr´esentons dans cette derni`ere partie des r´esultats de suivi temporel obtenus avec des s´equences test du standard MPEG au format QCIF (176×144) : Foreman, Coastguard, Mother&Daughter et Carphone. Pour chacune de ces s´equences, la partition initiale en objets P(0) (ex. : fig.F.1.a page145et fig.F.2.a page146) a ´et´e obtenue `a l’aide d’une interface graphique interactive.

Apr`es avoir mis en ´evidence la qualit´e du suivi sur des s´equences originales, nous nous int´eresserons au comportement de la m´ethode sur des s´equences modifi´ees obtenues par sous-´echantillonnage temporel.

Nous illustrerons enfin par un exemple une limite d’utilisation de la m´ethode.

3.4. SEGMENTATION D’OBJETS D’INT ´ER ˆET PAR PROPAGATION D’ ´ETIQUETTES 63

a) image I(t) b) partition P(t) c) image I(t+1) d) segmentation en r´egions de I(t+1)

e) partition et objet obtenus lors de la classification f) partition et objet obtenus lors de la classification des r´egions de I(t+1) par une mise en correspondance des r´egions de I(t+1) par une mise en correspondance

fond´ee uniquement sur l’information de luminance utilisant l’information couleur

Figure3.15 – R´esultat d’un test illustrant l’apport de l’information couleur par rapport `a l’information de luminance seule lors de la mise en correspondance de r´egions. La classification des r´egions segment´ees dans I(t+1) (d) ´echoue `a plusieurs reprises lorsque la r´etro-projection n’utilise que l’information de luminance (e), contrairement au cas o`u l’information couleur est utilis´ee (f)

Figure3.16 – Evolution de la qualit´e de l’´etiquetage des pixels : vrais positifs, vrais n´egatifs, faux positifs, faux n´egatifs lors de la segmentation de la s´equence foreman (figure3.18)

Suivi dans les s´equences originales

Les r´esultats portent ici sur trois suivis, effectu´es sur une cinquantaine d’images successives, avec le mˆeme jeu de param`etres :

1. Projection de partition parblock-matching :

• taille des blocs utilis´es :taille bloc= 8 pixels

• vecteur de d´eplacement maximum autoris´e en pixels :VmaxBM = (8,8)

• seuil de fiabilit´e de mise en correspondance :TSAD= 5 2. Segmentation locale par pyramide irr´eguli`ere :

• seuil global de similarit´e :Tseg = 7

• taille minimale autoris´ee d’une r´egion : TminRegion = 5 pixels

Figure 3.17 – Mesures de rappel ( vrais positif s

vrais positif s+f aux negatif s) et pr´ecision ( vrais positif s

vrais positif s+f aux positif s) ex-traites de la figure3.16

(a) 0 (b) 10 (c) 20 (d) 30 (e) 40 (f) 50 (g) 60

(h) 70 (i) 80 (j) 90 (k) 100 (l) 110 (m) 120 (n) 130

(o) 140 (p) 150 (q) 160 (r) 170 (s) 180 (t) 190 (u) 200

Figure3.18 – Segmentation spatio-temporelle des 200 premi`eres images de la s´equence CIF foreman 3. Classification par projection en arri`ere :

• vecteur de d´eplacement maximum autoris´e en pixels pour une r´egion : VmaxRegion = (16,16) La figure3.18montre un suivi de tr`es bonne qualit´e visuelle pour un objet non rigide. Les d´eformations de l’objet, ainsi que le mouvement de la cam´era, entraˆınent l’apparition de nouveaux ´el´ements au cours du traitement (exemple : la partie gauche du visage). Ces ´el´ements d´ecouverts sont ici attribu´es correc-tement `a l’objet ou `a l’arri`ere-plan. Leurs caract´eristiques spatiales (couleur) ont permis leur mise en correspondance avec les parties d´ej`a visibles de l’objet auquel ils appartiennent.

De mani`ere g´en´erale la gestion automatique des ´el´ements d´ecouverts est d´elicate et source d’erreur.

C’est pourquoi l’interruption du suivi temporel doit ˆetre propos´ee `a l’utilisateur, afin de lui permettre de r´einitialiser la partition P `a un instant particulier. Le manque d’information s´emantique sur les zones d´ecouvertes conduit in´evitablement `a ce constat. On peut noter toutefois que le suivi propos´e peut ˆetre

3.4. SEGMENTATION D’OBJETS D’INT ´ER ˆET PAR PROPAGATION D’ ´ETIQUETTES 65 r´ealis´e sans interruption sur deux cents images, avec des variations d’aspect non n´egligeables de l’objet suivi.

La figure F.1 en annexe page 145 fournit le r´esultat du suivi d’un objet compos´e de nombreuses r´egions homog`enes de petite taille. Ce r´esultat illustre la robustesse de la m´ethode `a suivre des contours faiblement contrast´es entre l’objet et l’arri`ere-plan (cf. les contours entre les extr´emit´es du bateau et l’eau).

L’approche pr´esent´ee peut ´egalement s’´etendre au suivi de plusieurs objets (figure F.2 page 146).

Il suffit de fournir une partition initiale P(0) avec autant d’´etiquettes que d’objets. Dans ce cas, la repr´esentation par graphe de la pyramide irr´eguli`ere est un atout pour mod´eliser l’interaction entre les objets qui ´evoluent dans le plan s´equence observ´e.

Sur un PC Pentium III `a 1 GHz, des cadences de traitement de 1 `a 3 images par seconde sont obtenues, en fonction de la complexit´e des objets suivis et de leur nombre.

Suivi dans des s´equences sous-´echantillonn´ees temporellement

Afin de valoriser la robustesse de l’algorithme par rapport aux mouvements de forte amplitude et aux d´eformations brutales, deux nouvelles s´equences test ont ´et´e construites. La premi`ere, nomm´ee Foreman-Bis, correspond `a un sous-´echantillonnage temporel avec un pas de 5 de la s´equence Foreman pr´ec´edente.

La seconde, CarphoneBis, est un sous ´echantillonnage avec un pas de 10 de la s´equence Carphone.

Les figuresF.3page147etF.4page148fournissent les r´esultats de suivi obtenus sur ces deux s´equences (les param`etres sont inchang´es, except´eVmaxBM= (16,16)). Nous pouvons y observer l’efficacit´e de l’´etape de projection de partition (deuxi`eme colonne des figuresF.3 page et 147 et F.4 page 148), qui permet de localiser le contour de l’objet dans chaque nouvelle image et de d´etecter les zones temporellement instables.

Il faut noter que dans ces s´equences sous-chantillonn´ees, le d´eplacement de l’objet d´ecouvre de mani`ere plus importante l’arri`ere-plan. De plus la composition de l’objet varie plus fortement. La gestion des

´

el´ements d´ecouverts est alors la principale difficult´e. Pour ces deux s´equences, la m´ethode propos´ee parvient `a traiter correctement ces zones d’incertitude.

Robustesse aux variations d’initialisation

La technique est ´egalement capable de corriger une initialisation impr´ecise des contours. Les figures 3.19et3.20montrent l’´evolution de l’objet lorsqu’il est initialis´e avec un masque ”v´erit´e terrain” ´erod´e de 3 pixels et dilat´e de 6 pixels. La figure3.21montre la diff´erence entre les deux r´esultats obtenus. Quand il n’y a pas de comp´etition locale entre des contours potentiels, mˆeme lorsque le contraste est faible, on peut voir clairement que le r´esultat ne d´epend pas des conditions initiales. N´eanmoins, des diff´erences peuvent subsister lorsque des gradients ´elev´es sont proches spatialement (oreille, col par exemple). La vitesse de convergence n’est pas constante et d´epend `a la fois des contrastes locaux et de leur ´evolution temporelle.

(a) 0 (b) 1 (c) 5 (d) 10 (e) 15 (f) 20 (g) 25

Figure3.19 – Suivi dans les 25 premi`eres images, initialis´e avec un masque de v´erit´e terrain ´erod´e de 3 pixels (a)

Figure3.20 – Suivi dans les 25 premi`eres images, initialis´e avec un masque de v´erit´e terrain dilat´e de 6 pixels (a)

(a) 0 (b) 1 (c) 5 (d) 10 (e) 15 (f) 20 (g) 25

Figure3.21 – Les diff´erences entre les masques des figures3.19et 3.20diminuent au fil des images

3.4.7 Conclusion

L’originalit´e de notre approche r´eside dans la combinaison de trois ´etapes usuelles en segmenta-tion spatio-temporelle : projecsegmenta-tion/segmentasegmenta-tion spatiale/classificasegmenta-tion. Cette associasegmenta-tion est encore peu

´

etudi´ee. Elle cumule pourtant les avantages de chaque op´eration pour un suivi rigoureux d’objets vid´eo, et entraˆıne une r´eduction du temps de traitement de chaque image.

Au cours de notre ´etude, l’algorithme du block-matching s’est av´er´e ˆetre un outil simple et efficace pour r´ealiser la projection de partition entre deux images.

La pyramide irr´eguli`ere, quant `a elle, r´epond bien aux besoins d’une segmentation locale. Elle ajuste les contours pr´edits des objets, et segmente les zones temporellement instables `a l’aide d’une propagation d’´etiquettes. La conservation de r´egions sans ´etiquette `a la fin de la segmentation permet de distinguer certaines entit´es au voisinage des contours des objets.

Le principe de la classification de r´egions par projection en arri`ere a ´et´e mis en valeur r´ecemment dans de nombreux travaux. Les r´esultats que nous avons obtenus permettent de confirmer la pertinence d’une telle classification pour finaliser la segmentation des objets suivis.

L’´etat actuel de la m´ethode permet d’envisager des applications qui n´ecessitent des masques d’objets pr´ecis. Certaines am´eliorations restent toutefois `a apporter telle que la d´etection des d´eg´en´erescences de la localisation du contour des objets. De plus une ´etude approfondie des possibilit´es pour renforcer la robustesse de la classification des nouvelles entit´es extraites (petites et grandes), nous paraˆıt d’un int´erˆet majeur. A titre d’exemple, une meilleure prise en compte de l’information mouvement serait un plus pour cette ´etape.

L’une des applications vis´ees concerne la repr´esentation de l’information contenue dans une vid´eo. A l’heure actuelle, l’indexation du contenu des images et la construction de r´esum´es par d´etection de rupture de plans et assemblage d’images cl´e permettent de r´epondre partiellement `a ce d´efi technologique. Mais le contenu d’une image cl´e est souvent lui mˆeme trop riche, et les objets d’int´erˆet sont souvent “minoritaires”

dans une image (par rapport `a l’arri`ere-plan par exemple). Une suite logique `a ce travail consiste `a extraire des objets cl´e caract´eristique du contenu d’une vid´eo (voir chapitre4).

Dans le document The DART-Europe E-theses Portal (Page 68-74)