Initialisation du probl` eme - DEVANT L’UNIVERSIT´ E DE RENNES 1

a la classe k parce que la cohérence temporelle dépend de la classe à laquelle le pixel appartient. Ainsi, le terme E_i,k,t^rt sera peu significatif si la probabilité P_i,k,t est faible. Cela signifie qu’il y a lissage préférentiellement si la probabilité P_i,k,t est forte. On introduit en plus un terme de pondérationβ.

2.4 Initialisation du probl` eme

Le modèle d’objets que nous proposons (équation 2.2) nécessite la connaissance du nombre d’objets ainsi que du mouvement de chaque objet. Pour estimer chaque mouve-ment, il est donc nécessaire d’obtenir une localisation grossière des objets (germes) (voir schéma 2.2). Comme nous l’avons présenté dans la section 1.4 sur la segmentation spatio-temporelle long terme, une solution à l’obtention de germes pourrait être de travailler sur les tubes pour voir quels sont ceux qui formeraient au mieux un objet vidéo.

Cependant, notre objectif dans cette section n’est pas de donner un algorithme qui trouverait des germes de manière totalement automatique. Notre objectif est plutôt d’ob-tenir des germes qui ressembleraient à ce qu’un algorithme entièrement automatique pour-rait donner. Il faut bien noter que la technique présentée ici n’est qu’une initialisation au clustering 3D (section 2.5) et qu’elle peut être substituée par une autre approche.

Une fois les germes obtenus, il est possible d’estimer le mouvement de ceux-ci sur un groupe d’images suffisamment grand. L’estimateur de mouvement par maillage est suffisamment robuste pour effectuer cette tâche. On dispose alors de germes sur toutes les images ainsi que le mouvement associé à chaque germe. Le clustering 3D de la section 2.5 peut alors être mis en œuvre pour résoudre le problème de segmentation en objets vidéo sachant la modélisation de l’équation 2.2.

Cette section aborde le probl`eme d’obtention de germes localisant grossi`erement chaque objet.

2.4.1 M´ethode de calcul des germes : le clustering affine flou

La solution que nous proposons [Chaumont et al. 02] pour obtenir des germes est de faire un clustering flou affine sur une grande fenêtre temporelle. Ce clustering flou affine permet d’extraire un nombre fixé de modèles affines présents dans le groupe d’images.

Le clustering affine permet de donner une probabilit´e d’appartenance aux pixels de la

première image. On peut alors facilement qualifier la qualité de l’appartenance de chaque pixel et donc définir des germes.

Il faut remarquer que l’on fait deux hypothèses : La première est de connaˆıtre le nombre d’objets. La deuxième hypothèse forte qui est faite dans cet algorithme est qu’il recherche des mouvements affines entre images succesives. Or, les objets articulés possèdent un mouvement plus complexe. Cependant, le fait que cela soit un mouvement affine entre images successives permet d’obtenir une description de mouvement suffisamment riche pour définir des germes utilisables par le clustering 3D (voir section 3.1).

Le clustering que l’on met en place est effectué sur un ensemble de T images et donc est de type long terme. Les positions P os(i, t) de chacun des pixels i de l’image 0 pour chacun des temps t sont connus et obtenus par une estimation long terme par maillage [Pateux et al. 01]. L’estimation des différents mouvements affines est calculée entre le temps t_i et le temps t_i + ∆t (∆t valant 2 dans nos expériences pour les segmentations traitées).

Le modèle proposé est alors un mouvement affine par objet k pour un temps t. On doit alors avoir pour chaque position P os(i, t) un mod`ele (A_k,t, T_k,t) associé :

∀t,∀i,∃k, P os(i, t+ ∆t) =A_k,t.P os(i, t) +T_k,t+η, (2.6) η étant un bruit de modèle (supposé ici être un bruit blanc gaussien).

On souhaite au final affecter chacun des pixels à un des objets k ayant un modèle composé d’une succession de mouvements affines. On met pour cela en place un clustering flou pour obtenir la probabilité d’appartenance de chaque pixel de l’image 0. On passe alors par la minimisation d’une fonctionnelle d’énergieE:

où Ak,t, Tk,t représentent les paramètres affines du mouvement de l’objetksur l’intervalle [t,t+ ∆t] et mle coefficient flou. Ce coefficient est positionné à 1,6 comme proposé dans [Castagno 98].

La minimisation est réalisée en deux étapes itérées :

– Dans la première étape, les centro¨ıdes représentés par les paramètres de mouvement affinesAk,t, Tk,t sont mis à jour sachant les valeurs des probabilités d’appartenance Pi,k (les probabilités étant initialisées de manière aléatoire). Ce problème est une régression linéaire pondérée par les probabilités. Les équations sont données en an-nexe (équations A.2, A.3, A.4, A.5, A.6 et A.7).

– Dans la seconde étape, les probabilitésPi,ksont mises à jours sachant les valeurs des centro¨ıdes. L’équation 2.10 permet de calculer la valeur des probabilités.

Initialisation du problème 65 2.4.2 Phase de mise à jour des paramètres affines : Ak,t et Tk,t et des

probabilit´es Pi,k

Le calcul de A_k,t etT_k,t met en jeu la notion de distanced_i,k,t. Cette distance utilise les positions des pixels ide l’image 0 au tempst que nous appelons position de r´ef´erence et notons :

X_ref(i) Y_ref(i)

=P os(i, t),

et les positions des pixels i de l’image 0 au temps t+ ∆t que nous appelons positions observ´ees et notons :

X_obs(i) Y_obs(i)

=P os(i, t+ ∆t).

La distance di,k,t représente donc l’erreur entre la prédiction par le modèle de mouve-ment affine (A_k,t,T_k,t) d’un point de référence ^X_Y^ref⁽ⁱ⁾

On note la transformation affine (A_k,t,T_k,t) appliqu´ee en un point ^X_Y^ref⁽ⁱ⁾

ref(i)

X_ref etY_ref sont introduits pour simplifier le calcul des param`etres.

Il nous reste donc maintenant à estimer les paramètres du mouvement affine :ax,ay, a00, a01, a10 et a11 pour un temps t et un objet k. Pour cela, il nous faut minimiser la fonctionnelle E (équation 2.7). En annulant la dérivée partielle de E, pour un temps t et un germe k, en fonction de chaque param`etre, on obtient directement ax etay (équation en annexe A.2 et A.3) et un système linéaire (équations en annexe A.4, A.5 A.6, A.7) à résoudre pour obtenira00,a01,a10 et a11.

Pour calculer les probabilit´esP_i,kil faut ajouter la contrainte suivante :∀i,P_l=K

l=1 P_i,l= 1. Ainsi, l’équation énergétique E (équation 2.7) se réécrit avec intégration de cette contrainte via l’utilisation des multiplicateurs de Lagrange en l’équation 2.9. L’ajout de la contrainte Lagrangienne permet d’obtenir une expression pour les probabilitésP_i,k par annulation de la dérivée partielle de E. On obtient la formule des probabilit´es P_i,k de l’équation 2.10. Le détail des calculs est fourni en annexe A.

Une fois que les probabilités d’appartenance P_i,k sont calculées pour chaque pixel i, il est possible d’obtenir une première segmentation en affectant chaque pixel de l’image 0 à l’objet le plus probable. Cependant, c’est une solution qui ne donne pas toujours des résultats cohérents spatialement. Ainsi, il est préférable d’affecter des régions plutôt que des pixels. Par ailleurs, on dispose d’informations de probabilités et donc on peut profiter de la notion de confiance pour affecter uniquement les régions sûres.

Puisque l’on désire obtenir uniquement des germes, il importe peu d’affecter toutes les régions du groupe d’images. On affecte ainsi uniquement les régions r issues d’une première segmentation spatiale (segmentation MDL [Pateux 00]) qui ont une mesure de confiance suffisamment forte (voir le troisième chapitre pour les résultats).

Soit P(k/r) la probabilité d’appartenir à l’objet k pour une région r. On d´efinit la probabilité P(k/r) comme ´etant le produit des probabilités p(k/xi) des individus xi ap-partenant à la région r:

sachant que l’on doit respecter la contrainte suivante :

∀rX

P_r,k = 1.

On obtient pourZ la valeur suivante :

Z = 1

Les probabilités P_r,k nous permettent de définir la probabilité d’appartenance à un objetkpour une régionr. On désire alors affecter la régionr à l’objet kle plus probable.

Segmentation en objet par Clustering 3D 67 Afin de valider cette affectation nous utilisons alors l’entropie H(r) (´equation 2.11). En effet l’entropie H(r) est un nombre strictement positif qui mesure l’´etalement des pro-babilités P_i,k pour une région r. Ainsi, si la plupart des probabilit´es P_i,k sont fortes en faveur de l’objetk, l’entropieH(r) sera faible, indiquant que l’on peut avoir confiance dans l’affectation de la région r à l’objet k. Inversement, si l’entropie H(r) est sup´erieure à un seuil fixé, alors on n’affecte pas la région. Il est à noter que si toutes les probabilitésP_i,k valent 1/KalorsH(r) =log₂(K). On décide donc de fixer un seuil sur l’entropie ayant une valeur plus faible quelog₂(K). On fixe expérimentalement la valeur seuil à 0.32×log₂(K).

Ainsi,

– dans un premier temps, on détermine l’objet kayant la plus forte probabilité sur la régionr:

– dans un second temps, on vérifie que le choix d’affecter la région est sûr c’est-à-dire que l’entropieH(r) (équation 2.11) sur la régionrest suffisamment faible. L’entropie d’un pixel est définie parh(i) =P_k=K

Dans le document DEVANT L’UNIVERSIT´ E DE RENNES 1 (Page 63-67)