• Aucun résultat trouvé

Estimation et Mesure de l’image 2D du mouvement 3D

1.3 Vision Monoculaire

1.3.4 Estimation et Mesure de l’image 2D du mouvement 3D

La question de mesurer ou, à défaut, d’estimer ce mouvement est consubstan-tielle de la vision par ordinateur. C’est en effet une des questions qui ont été le plus fréquemment abordées. Plusieurs types d’approches ont ainsi été envisagées au cours des dernières décennies. On peut en distinguer deux. Tout d’abord, les

1.3. Vision Monoculaire 17

méthodes denses (ou semi-denses) pour lesquelles on va chercher à estimer numé-riquement le champ de déplacement sur toute l’image ou au moins un ensemble de parties connexes de cette image. A l’inverse, les approches éparses où l’on va chercher à extraire d’une image un ensemble de points particuliers avant de chercher leur correspondant dans l’autre image.

1.3.4.1 Approches Denses d’Estimation du Mouvement

Toutes les méthodes denses partent de la même hypothèse de départ : l’hypo-thèse dite de constance de la luminosité (constant brightness dans la littérature anglophone)[BB95]. Il s’agit de considérer que deux points images successifs imageant le même point objet ont la même luminosité5. Mathématiquement, cette hypothèse s’énonce :

∇∇I · µν +∂I

∂t = 000 (1.13) Où I représente l’intensité lumineuse en un point, ∇∇∇ représente l’opérateur vectoriel de différenciation spatiale. Cette contrainte de luminosité constante est à l’origine des approches d’estimation de l’image du mouvement, communément appelées méthodes de Flot Optique6.

Cette équation définit un problème sous-contraint (ou mal posé pour Hada-mard), cette sous-définition du problème est connue sous le nom de "problème d’ouverture" (aperture problem dans la littérature anglophone) : il n’est possible de connaître absolument que la projection de l’image du mouvement sur la direc-tion orthogonale au gradient local de l’image [Ull79]. Le problème d’ouverture est illustré en figure 1.5.

Approches Locales - Dès lors, si l’on cherche à évaluer le flot optique, il va être nécessaire d’ajouter une contrainte supplémentaire. Les tenants d’une ap-proche dite locale considèrent ainsi que le flot optique est localement constant, ce qui permet de réduire localement le problème à un système linéaire, résolu aux moindres carrés par une descente de gradient [LK81]. Les améliorations propo-sées dans la littérature portent sur deux aspects de cette méthode : la méthode de résolution numérique d’une part et l’estimation de grands mouvements d’autre part.

5Dans le cas d’images discrétisées, le même niveau de gris.

6La similitude entre l’équation 1.13 et l’expression de la dérivée Lagrangienne en mécanique des fluides pourrait être à l’origine de cette dénomination.

18 1.3. Vision Monoculaire

FIGURE 1.5 – Problème d’ouverture : dans les scénarios A, B et C, le mouvement perçu à travers l’ouverture sera le même, même si les mouvements physiques à l’ori-gine de l’observation sont différents.

Si d’autres approches, telle la décomposition des différences [Gle97] ou la régression linéaire [CET01] ont été envisagées, la descente de gradient reste lar-gement utilisée. Alors que l’algorithme originel de LUCAS et KANADE repose sur une approche incrémentale du mouvement, il a été avancé qu’une approche compositionelle [SS02b] pouvait améliorer significativement les résultats. Ces dif-férentes méthodes ont été longuement décrites et comparées par BAKER et al. [BM04].

L’amélioration de la méthode initiale de LUCASet KANADEpasse également par la supression de la limitation concernant les grands mouvements. Ainsi, une implémentation multi-résolution peut participer à cette amélioration [Bou99]. Une approche itérative, où l’une des deux images est recalée en utilisant l’estimation courante du flot optique est également fréquemment utilisée afin d’affiner une esti-mation [BAHH92]. Ce type d’approche itérative peut également être couplée avec une méthode multi-résolutions [SJHG99]. Finalement, des améliorations concer-nant la convergence générale de l’algorithme, ou sa capacité à être implémenté en temps-réel peuvent être apportées [BC05].

Approches Globales - Inversement, les tenants de l’approche globale vont, au contraire, chercher à définir un terme de régularisation, permettant de rendre le problème soluble. Un tel terme de régularisation est généralement un terme de lissage, pénalisant les gradients trop élevés [HS94]. Cette introduction d’un terme de régularisation permet de réduire le problème de détermination du flot optique à un problème de minimisation d’une fonction quadratique de la forme :

E

2=

ZZ

1.3. Vision Monoculaire 19

(a) (b) (c) (d)

FIGURE1.6 – Comparaison de Différentes méthodes de flot optique, réalisée à partir de la séquence Yosemite : (a) Une des images source; (b) Image 2D du mouvement - Vérité Terrain; (c) Flot optique obtenu par une méthode locale [BC05]; (d) Flot optique obtenu par une méthode globale [WTPW09]

E

best le terme modélisant l’équation fondamentale 1.13, ou terme de don-nées,

E

cest le terme de régularisation et α est un facteur de raideur, ou de relaxa-tion. Ce type de problème a fait l’objet d’études extensives, permettant d’avoir aujourd’hui de nombreuses méthodes d’optimisation numériques à notre disposi-tion, comme par exemple, la méthode de Levenberg-Marquardt [Lev44, Mar63]. Le lecteur peut se tourner vers [Bjö96] pour une étude plus approfondie des mé-thodes de résolution des problèmes de moindres carrés linéaires ou non-linéaires. De nombreuses améliorations à ce travail ont été apportées. Si le cadre théo-rique de résolution des problèmes de moindres carrés est relativement bien maî-trisé, l’essentiel des efforts s’est porté sur la formulation de ce problème. Ainsi, l’introduction de la variation totale, dans le terme de régularisation a permis d’amé-liorer sensiblement l’estimation du mouvement, en particulier dans les zones fai-blement texturées [BW04]. Si certains travaux portent encore sur l’amélioration de la prise en compte du terme de données [PBB+06], l’essentiel de l’effort de recherche est porté sur l’amélioration du terme de régularisation. SHULMANet al. sont ainsi les premiers à proposer l’utilisation de la fonction de HUBER dans le terme de régularisation qui permet une pénalisation plus fine des gradients dépen-damment de leur norme [SJ89, Hub73]. Les travaux les plus récents s’attachent à rendre ce terme de régularisation plus fidèle au contenu des images [WTPW09] ou encore, à proposer des modifications algorithmiques permettant des implémen-tations efficaces [ZPB07].

L’objet de ce travail n’est pas de redéfinir, ou d’étudier différentes méthodes de flot optique, dans l’absolu. Pour une étude plus poussée des (nombreuses) mé-thodes existantes, BEAUCHEMINet BARRON[BB95], ou plus récemment WEICK

-20 1.3. Vision Monoculaire

ERT et al. [WBBN06] ont longuement analysé de façon critique les différentes approches, tandis que BAKERet al. établissent une méthodologie permettant de mener une étude comparative des différentes approches [BSL+11].

1.3.4.2 Approches Éparses d’Estimation du Mouvement

Les approches présentées dans la partie précédente visent à établir le flot op-tique sur tout le champ image. Or il est évident que, surtout dans des images issues de capteurs embarqués de faible résolution et/ou dynamique, il peut exister de nombreux points images porteur de peu, voire pas, d’information. C’est notam-ment le cas des zones peu texturées (route, murs lisses, etc.). Une approche envi-sageable peut alors être de sélectionner un ensemble de points, porteurs d’infor-mation, afin de ne travailler que sur ceux-ci. C’est l’objectif des méthodes éparses.

Points privilégiés pour l’estimation du mouvement - Une première approche consiste à mettre en œuvre une méthode d’estimation locale du flot optique, mais uniquement sur des points potentiellement plus fiables, de part le contenu fréquen-tiel de leur voisinage. Ainsi, le tracker KLT [TK92] constitue une modification de l’algorithme original de LUCAS et KANADE sur un ensemble de points discret. Cet ensemble de points peut être l’ensemble des points pour lesquels les valeurs propres de la matrice des gradients sont au dessus d’un seuil spécifique : les Good Features to Track [ST94], ou encore des points de Harris [HS88]. Ces méthodes sont relativement peu coûteuses en temps de calcul et connaissent une certaine popularité. Toutefois, les limitations du tracker KLT restent les mêmes que celles du flot optique. Les mouvements sont estimés correctement tant que l’on reste dans l’approximation des petits mouvements. De plus, le mouvement reste estimé à partir d’une information différentielle, alors qu’il serait possible de réaliser des appariements rigoureux.

Recherche de Correspondants - Afin de réaliser une stricte mise en correspon-dance entre deux ensembles de points, nous devons disposer de deux outils :

• Tout d’abord, nous devons pouvoir identifier les candidats à la mise en cor-respondance.

• Ensuite, nous devons disposer d’une mesure de similarité afin de rechercher effectivement les correspondances.

Les méthodes de recherches de points d’intérêts vues précédemment rem-plissent le premier de ces deux objectifs. Dans ce cas, plusieurs mesures de si-milarité sont possibles.

1.3. Vision Monoculaire 21

Le premier exemple qui vient à l’esprit est le calcul d’une corrélation entre les voisinages de deux candidats à la mise en correspondance. Toutefois, ce cal-cul, mené sur un grand nombre de points peut s’avérer couteux. C’est pourquoi plusieurs approximations ont été proposées. Les mesures SAD7, SSD8, ainsi que leur variantes centrées autour de 0 : ZSAD et ZSSD, peuvent jouer le rôle d’ap-proximation du score de corrélation. Ces apd’ap-proximations (en particulier SAD) connaissent actuellement un développement très important du point de vue des implémentations, notamment à cause de leurs nombreuses applications en com-pression vidéo [Ric03]. Une comparaison expérimentale de ces différentes tech-niques d’approximation de la corrélation se trouve dans [MC95].

Ces mesures présentent plusieurs avantages, notamment en termes de rapi-dité, mais restent sensibles aux changements d’illumination relative et aux occul-tations. Afin de surmonter ce problème, la transformée du census peut être utilisée [ZW94]. Cette méthode repose sur la comparaison de motifs : à chaque pixel on attribue un vecteur de bits qui va représenter les intensités relatives des points du voisinage du pixel considéré. La mesure d’information mutuelle [VW95] a éga-lement été introduite comme une mesure de similitude insensible aux défauts de capteurs, comme les changements d’illumination. Cette dernière est également très utilisée pour déterminer des appariements stéréo, notamment en raison de sa robustesse à de grands changements de point de vue.

Finalement, un certain nombre de méthodes proposent conjointement une ex-traction de points d’intérêts et un ensemble de descripteurs particuliers permet-tant de mettre deux points en correspondance. Par exemple, les points SIFT9sont définis comme étant les maxima de gradients dans l’espace des échelles (pyra-mide gaussienne construite à partir d’une image originale) auxquels sont adjoints des descripteurs construits à partir de plusieurs histogrammes des gradients orien-tés [Low04]. Bien que très robuste, cette méthode est relativement coûteuse, de part les nombreux traitements mis en place (calcul de la pyramide, extraction, puis affinement de la position des points d’intérêts, calculs des descripteurs). Cette lourdeur est l’une des motivations à l’introduction de la méthode SURF10 [BTV06]. Le descripteur proposé repose cette fois sur une décomposition en on-delette de Haar et sur l’utilisation d’images intégrales afin de rendre les calculs beaucoup plus rapides. AGRAWALa récemment proposé un nouveau type de dé-tecteur [AKB08], dont l’extraction est plus rapide que SURF, sans toutefois béné-ficier d’un descripteur facilitant la mise en correspondance.

7Sum of Absolute Differencies- somme des différences absolues

8Sum of Squared Differencies- somme des différences au carré

9Scale Invariant Feature Transform 10Speeded-Up Robust Features