Conclusion - Principe g´en´eral de notre algorithme

1.5 Principe g´en´eral de notre algorithme

2.1.3 Conclusion

2.2 Estimation via les points d’int´erˆet . . . 46

2.2.1 Points d’int´erˆets . . . 46

2.2.2 Appariements . . . 49

2.2.3 Initialisation de l’algorithme d’extraction de couches . . . 50

2.3 Méthode itérative pour l’estimation des modèles paramé- triques . . . 53

2.3.1 Estimation du mouvement affine . . . 55

2.3.2 Estimation de la transformation projective . . . 56

2.3.3 Lissage temporel des param`etres . . . 57

2.3.4 Augmentation de la robustesse des estimations . . . 57

2.4 R´esultats et discussions . . . 58

2.4.1 Conclusion . . . 59

2.1 Mod`eles de mouvement

Il existe une large variété de fa¸cons de représenter, en termes mathématiques, le dépla- cement des pixels ou des régions d’une image à l’autre. Le choix du modèle de mouvement est d’importance critique et conditionne la qualité des résultats obtenus. Nous introduisons d’abord le modèle de mouvement au niveau pixellique, le flot optique, puis nous montrons comment modéliser celui d’une région : on s’attend pour cette dernière à ce que tous les pixels lui appartenant suivent un même modèle de mouvement commun, par exemple, une translation, une rotation ou une expansion commune. Nous présentons notamment les modèles de mouvement dits paramétriques (les plus utilisés à l’heure actuelle), puis ceux dits non-paramétriques. De surcroˆıt, dans la mesure où les méthodes d’estimation du mouvement dépendent du modèle considéré, on en dresse au fur et à mesure un état de l’art.

2.1.1 Premi`ere approche de l’analyse du mouvement via le flot

optique

Nous n’utilisons pas dans nos travaux le flot optique des séquences vidéos pour la segmentation ou l’estimation du mouvement mais nous le présentons ici car :

– il est `a la base de nombreuses m´ethodes de segmentation par le mouvement [135, 132, 30] ;

Chap. 2. Estimation du mouvement

– il permet de bien identifier les difficultés inhérentes à l’estimation du mouvement ;

– et permet de justifier l’utilisation de mod`eles param´etriques.

Le flot optique est l’ensemble des vecteurs vitesse associés au mouvement de chaque pixel dans l’image. Comme la plupart des techniques d’estimation de mouvement, le calcul du flot optique s’appuie sur l’hypothèse dite de luminosité constante : en un pixel donné, son intensité est translatée d’une image à l’autre, i.e.

It(x, y) = It+1(x + dx, y + dy) (2.1) où It_{(x, y) est l’intensité lumineuse au pixel (x, y) à l’instant t. Le vecteur ~v(x, y) =}

(dx, dy) est ici le vecteur vitesse associé à (x, y)1_{. Cette hypothèse est en réalité souvent}

fausse car elle n’est v´erifi´ee que lorsque :

– la luminosité de la scène et des objets observés est constante d’une image à l’autre ;

– les sources lumineuses sont statiques ;

– les surfaces des objets composant la scène sont Lambertiennes, c’est-à-dire qu’elles reflètent la lumière de fa¸con constante dans toutes les directions (donc non spécu- laires, métalliques, réfléchissantes, etc.) ;

– les objets ne sont pas en rotation sur eux-mˆemes.

Mais l’hypothèse reste largement admise car elle permet d’une part de simplifier la for- malisation du problème et donc les algorithmes d’estimation de mouvement, d’autre part parce que, malgré tout, ¸ca fonctionne en pratique ... et plutôt bien !

Calculer le flot optique revient donc à déterminer les vecteurs ~v(x, y) = (dx, dy) en chaque pixel (x, y) en respectant la contrainte de l’équation (2.1). Nous avons ici un pro- blème sous-contraint puisque nous avons deux inconnues dx et dy à estimer à partir d’une seule contrainte de luminosité (voir un exemple d’ambigu¨ıté inhérente, figure 2.1). Pour résoudre ce problème dit mal posé, des contraintes additionnelles doivent être ajoutées. Ces dernières consistent généralement à lisser le mouvement localement, en autorisant ou non des discontinuités. Les techniques d’estimation du flot optique sont nombreuses [13] et s’appuient sur diverses contraintes de régularisation spatiale des vecteurs vitesse.

Signalons l’approche MRF+graph cuts [116,25] qui consiste à discrétiser, pour chaque dimension, l’ensemble des valeurs que peuvent prendre les coordonnées des vecteurs vi- tesses (la précision est alors limitée par le pas de discrétisation). On peut citer en outre les récents résultats obtenus par Papenberg et al. [102] qui montrent les indéniables progrès dans ce domaine.

Arrêtons-nous sur une difficulté du calcul du flot optique que l’on retrouve dans d’autres problèmes d’estimation de mouvement : la gestion des mouvements de grande amplitude. Les méthodes directes (via la linéarisation du problème) ou itératives échouent généralement à les estimer correctement, soit parce que la linéarisation est inadaptée ou parce qu’elles convergent vers un minima local. Les méthodes dites coarse-to-fine estiment d’abord le mouvement à une échelle réduite (grossière) puis à une échelle plus précise en utilisant le mouvement précédemment calculé, et ainsi de suite jusqu’à l’échelle native de l’image. Elles peuvent ainsi gérer les mouvements de grande amplitude si cette dernière ne dépasse pas 15% environ des dimensions de l’image [142]. De surcroˆıt, si le mouvement 1_{Précisons, pour la cohérence du propos, que le mouvement T (x, y) défini préalablement est équivalent}

au mouvement (x, y)T _{+ ~v(x, y).}

Sec. 2.1. Mod`eles de mouvement

Figure 2.1 – Exemple d’ambigu¨ıté inhérente à l’estimation du mouvement (aussi com- munément appelé problème de l’ouverture).

est mal estimé à une échelle donnée, l’erreur se propage à toutes les échelles. Similaire- ment, dans le cas d’une collision entre deux régions de mouvements propres, le processus coarse-to-fine lisse les mouvements au niveau de leurs intersections donnant au final un seul mouvement (voire un troisième mouvement différent) aux échelles les plus grossières. L’estimation du flot optique manque intrinsèquement de contraintes et nécessite un grand nombre d’a priori sur la scène et le flot optique. Ainsi, plutôt que de considérer un vecteur vitesse en chaque pixel, l’idée consiste alors à considérer un mouvement similaire pour un ensemble de pixels, mouvement qui serait représenté par un modèle paramé- trique de faible complexité. Le problème devient alors sur-contraint, davantage robuste aux ambigu¨ıtés locales, aux occultations, au bruit, etc. C’est l’objet de la sous-section suivante.

2.1.2 Les mod`eles param´etriques

Nous avons vu dans le chapitre précédent qu’une couche est définie par une région possédant le même mouvement paramétrique. On peut notamment citer ceux-ci :

– le modèle constant : toute la région est régie par le même mouvement de translation

→

v (x, y) = (a1, a2)T ;

– le modèle affine : introduit dans le chapitre précédent, il permet de représenter les mouvements de translation, de rotation et d’expansion/contraction →v (x, y) = (a1+ a2x + a3y, a4+ a5x + a6y)T ;

– le modèle quadratique : il permet de représenter tous les mouvements complexes de caméra via 8 ou 12 paramètres. A 8 paramètres, nous avons :

→

v (x, y) = (a1+ a2x + a3y + a7x2+ a8xy, a4+ a5x + a6y + a7xy + a8y2)T ;

Chap. 2. Estimation du mouvement

les mouvements des projet´es des plans 3D de l’espace dans le plan image :

→ v (x, y) = µ a1x + a2y + a3 a7x + a8y + 1 − x,a4x + a5y + a6 a7x + a8y + 1 − y ¶_T (2.2) Le modèle affine est un bon compromis de complexité : il est simple et rapide à estimer via des méthodes itératives tout en représentant une large catégorie de mouvements. Le risque de tomber dans un minima local lors de l’estimation est réduit. Le modèle quadratique permet de représenter des mouvements complexes mais, du fait de ses termes au carré, le processus d’estimation est plus difficile à contrôler et tombe fréquemment dans un minima local.

Certains types de mouvement ne sont pas représentables par de tels modèles paramé- triques d’ordre limité. Les mouvements 2D plus complexes que ceux projectifs ou affines peuvent alors être modélisés via l’utilisation de bases B = {bj(x)}Jj=1 dans le cadre de la

r´egression, de sorte qu’un vecteur vitesse s’´ecrit comme suit [57] :

→ v (x) = J X j=1 cjbj(x) (2.3)

où cj sont les coordonnées du flot optique dans B qui doivent alors être déterminées (d’une

fa¸con similaire à l’extraction des paramètres d’un modèle paramétrique affine). La base B est préalablement apprise sur de précédentes séquences vidéos analysées. L’Analyse en Composantes Principales (ACP) est utilisée avec succès par Fleet et al. [57] sur les sé- quences d’apprentissage, améliorant la qualité de l’estimation de mouvements complexes.

2.1.3 Conclusion

Le modèle paramétrique a été retenu pour modéliser le mouvement propre à une région. Nous voyons maintenant en détail deux approches différentes pour estimer le mouvement paramétrique d’une région :

1. via les points d’intérêts que l’on met en correspondance d’une image à l’autre permet- tant d’en déduire le mouvement. Nous verrons que la première approche ne nécessite pas d’initialisation particulière et permet de prendre en compte les mouvements de forte amplitude d’une image à l’autre. Elle est utilisée pour l’initialisation de l’extraction des couches ;

2. via une approche itérative pour déterminer les paramètres du modèle de mouvement. Si l’initialisation n’est pas trop éloignée de la solution optimale1_{, cette approche}

permet d’obtenir une estimation du mouvement précise et robuste aux régions ne vérifiant pas l’hypothèse de luminosité constante (Eq. (2.1)), notamment celles su- jettes aux occultations, au bruit et aux déformations de forme. Elle est utilisée pour raffiner l’estimation du mouvement durant l’extraction des couches. 1_{i.e. suffisamment proche pour ne pas tomber dans un minima local.}

Dans le document Tracking of hidden parts in video sequences and other problems raised by the 3D reconstruction of the urban environment (Page 49-53)