Le suivi de primitives - Description du contenu d’une prise de vue

1.2 Description du contenu d’une prise de vue

1.2.4 Le suivi de primitives

Contrairement aux algorithmes d’appariement d’images, les méthodes de suivi de primitives traitent une séquence d’images acquise avec la même caméra, généralement à cadence vidéo. De plus, si la fréquence d’acquisition est élevée, le mouvement rigide entre deux prises de vue consécutives peut être considéré comme faible. La recherche de la position d’une primitive dans une nouvelle image peut donc se limiter à une recherche dans un voisinage proche. La plupart des techniques se basent sur cet a priori. Nous nous placerons dans le même contexte. Si de forts dépla- cements peuvent être obtenus entre deux vues successives, une approche pyramidale [Espiau 02] peut alors être utilisée. La fusion de plusieurs mesures (comme une mesure de similarité et le mouvement apparent dans l’image) permet aussi de gérer ces forts déplacements [Arnaud 04].

Là encore, de nombreux algorithmes de suivi utilisent des mesures de corréla- tion [Giachetti 00, Chambon 02]. Une fenêtre de recherche est définie dans la nouvelle image, centrée autour de la position du point dans la vue précédente. Le point minimisant la mesure de corrélation par rapport à une référence est alors sélectionné comme la nouvelle position du point d’intérêt. Le suivi par corrélation est une méthode de recherche exhaustive ; tous les points candi- dats de la fenêtre de recherche sont testés. La référence choisie n’est généralement pas la mesure dans l’image précédente. Le choix de cette référence est particulièrement délicat [Matthews 04]. Si le suivi doit s’effectuer sur une longue séquence, la référence peut par le mouvement de la ca- méra ou de l’objet devenir obsolète. Parallèlement, une mise à jour trop fréquente de la référence peut entraîner un phénomène de dérive qui fera suivre un point différent de l’originel.

Au début des années80, Shi, Tomasi et Kanade [Lucas 81, Shi 94] ont proposé un algorithme

de suivi basé sur une approche différentielle de la minimisation d’un critère de similarité. Cette méthode, toujours utilisée de nos jours, s’est vu proposée de nombreuses améliorations [Plakas 00, Jin 01, Baker 04]. Ces différents travaux qui s’appuient toujours sur les principes de base de la méthode KLTnous assurent du bien-fondé du choix de cet algorithme pour effectuer le suivi. Cette partie est donc consacrée aux principes duKLT.

Soit une séquence d’images I(xp, t), où I(xp, t) représente l’intensité lumineuse associée au point image de coordonnées pixelliques xp = (x, y) dans l’image acquise à l’instant t. On suppose que la variation du niveau de gris est uniquement due au mouvement de la caméra ou de l’objet3D considéré dans la scène. De plus, en considérant que la fréquence d’acquisition des

images est suffisamment élevée, nous pouvons supposer qu’entre deux prises de vue consécutives le déplacement des primitives projetées est faible, et que leur intensité mesurée reste constante, soit :

I(xp, t) = I(δ(xp), t + τ ),

oùδ(.) est le champ de mouvement spécifiant le mouvement de chaque point de l’image, et τ un

incrément temporel. Si la taille du support est petite, le champ de mouvement entre deux images consécutives peut être représenté par une translation d telle que :

δ = d =

Les coordonnées des pixels sont centrées en xp. SiW définit une fenêtre autour de xp, alors tout point xpW de ce voisinage est tel que :

28 1.2 Description du contenu d’une prise de vue

Le modèle du mouvement n’étant pas exact, et l’image pouvant être bruitée, l’équation pré- cédente n’est pas satisfaite exactement. On cherche alors le déplacement d qui va permettre de minimiser le résidu : ε = Z Z W [I(xpW + d, t + τ ) − I(xpW, t)] 2_w(x pW)dx, (1.21)

w(xp) étant une gaussienne centrée en xp. En utilisant le développement de Taylor de1erordre deI(δ(x), t + τ ), nous obtenons le système linéaire suivant [Shi 94] :

Zd= a (1.22)

La matrice Z est de la forme :

Z= Z Z W g_x2 gxgy gxgy g2y w(xpW)dx,

où gx est la dérivée Ix convoluée avec une gaussienne. La matrice Z n’est rien d’autre que la matrice associée à la fonction d’autocorrélation du signal, sur laquelle se basent les deux détecteurs de points présentés ci-dessus. Le vecteur a dépend de la différence entre les deux images :

a= Z Z W It gx gy w(xpW)dx,

It désignant la dérivée temporelle du signal. Le système d = Z−1a est généralement résolu par une minimisation itérative (comme la méthode Newton-Raphson par exemple).

La valeur du résiduε permet de contrôler la qualité du suivi. Si la minimisation n’a pas conver-

gée en un nombre fixé d’itérations, on peut considérer que le point est perdu, ou bien qu’on ne peut plus assurer son suivi de manière efficace.

Il est possible, lors de l’estimation de d, d’atteindre un minimum local de la fonction de minimisation. La translation ne permet pas en effet de modéliser exactement le mouvement apparent. Plutôt que de se limiter à l’estimation de la translation par rapport à l’image précédente, il est possible de déterminer un modèle affine par rapport à une fenêtre de référence. Cette estimation peut se faire tout en gardant le même formalisme que celui présenté ci-dessus. De la même manière, la valeur de résidu obtenu permet de juger de la qualité du point suivi.

Dans [Plakas 00], une loi de rejet est utilisée pour détecter automatiquement les points qui ne peuvent être suivis correctement. Le résidu de l’équation (1.22) est utilisé dans un formalisme basé sur lesM −estimateurs. Cette méthode permet de fixer un seuil εtau dessus duquel un point doit être rejeté.

Le modèle affine, en tant que modélisation d’une transformation géométrique, ne permet pas de prendre en compte les éventuels changements d’illumination, ce qui peut entraîner dans certaines configurations le rejet de points pourtant corrects. Jin et al. [Jin 01] proposent d’estimer dans le même formalisme deux paramètres représentant le changement de contraste et de luminance. Là aussi, une loi de rejet permet d’éliminer les mauvais points. Dans [Gouiffès 04], l’estimation des paramètres de réflexion de l’objet considéré permet de pouvoir utiliser ce type de suivi sur des objets non lambertiens.

Cependant, l’estimation du modèle affine, voire des paramètres de changement d’illumination, augmente considérablement les temps de traitement. Certes, ces temps restent convenables lors- qu’on effectue seulement une tâche de suivi ou quand le nombre de points suivis est limité. Dans les applications où la phase de suivi n’est qu’une tâche préliminaire avant un traitement de plus haut niveau, les temps séparant l’acquisition de deux images deviennent alors trop importants. Nous ne pouvons plus alors assurer qu’entre deux prises de vue le déplacement inter-image est faible, hypothèse qui est à la base de cette méthode de suivi. De ce fait, nous limiterons dans nos expériences le suivi à l’estimation du champ de mouvement entre deux vues successives. Pour éviter l’effet de dérive, nous estimerons le modèle affine périodiquement (plus de détails seront donnés dans le chapitre 3).

De plus, les articles traitant de lois de rejet se placent dans un cadre où le suivi est opéré sur une séquence enregistrée. Le rejet des mauvais points est réalisé à partir du résidu mesuré dans la dernière image. Cela signifie qu’un mauvais point peut être suivi et conservé jusqu’à la fin de la séquence. Dans notre application, les points suivis sont utilisés pour déterminer la loi de commande d’un robot. Nous ne pouvons donc pas nous permettre d’attendre la dernière image pour rejeter les mauvais points, puisque ceux-ci pourraient entraîner l’échec de la phase de navigation.

Il est à noter que d’autres modélisations du mouvement ont été proposées dans la litté- rature, afin de suivre des surfaces plus importantes qu’une simple fenêtre autour d’un point. La considération par exemple d’un plan de la scène permet de pouvoir utiliser l’hypothèse de conservation de l’information lumineuse. Dans ce contexte, une estimation d’une transformation affine voire homographique permet de mettre à jour la position des primitives suivies [Hager 98a, Jurie 02, Benhimane 04].

Dans le document Navigation à partir d'une mémoire d'images (Page 36-38)