• Aucun résultat trouvé

L A problématique de la détection de changements dans des vidéos aériennes soulève de nom-

2.3 Gestion des sources de variabilité non pertinentes

2.3.1 Effets géométriques

Afin de détecter les changements survenus sur une scène, il est crucial de parvenir à mettre en correspondance les observations disponibles, c’est-à-dire à associer, pour chaque pixel d’une première image, le pixel correspondant au même point physique dans la seconde image. En effet, cette mise en correspondance est nécessaire, afin de pouvoir comparer le contenus des pixels de chaque image. Or, les effets géométriques rendent difficile cette étape de mise en correspondance, qui nécessite alors un traitement spécifique.

Plus précisément, les effets géométriques sont dûs, d’une part aux changements de point de vue entre deux images, et d’autre part à la présence de relief dans la scène observée. Ils se ma- nifestent sous la forme d’occultations, c’est-à-dire de parties de la scène visibles dans l’une des images mais cachées dans l’autre. Ils peuvent également se manifester sous la forme d’effets de parallaxe, qui désignent la différence de déplacement apparent de deux objets, lorsque ceux- ci sont situés à des distances différentes d’une caméra qui se déplace. Ces effets de parallaxe sont proportionnels au déplacement de la caméra, mais également au rapport de la différence de profondeur des objets par la distance entre la caméra et ces objets. Pour résumer, ces ef- fets géométriques peuvent non seulement modifier l’ordre d’apparition des objets dans deux vues d’une même scène, mais également rendre visibles, dans l’une des vues, des parties de la scène introuvables dans la seconde. Par conséquent, ils complexifient grandement la mise en correspondance des observations, comme l’illustre la figure 2.3 à l’aide d’une paire d’images aériennes.

Lors de l’exploitation d’images acquises par une plate-forme mobile (e.g. véhicule terrestre, aérien, satellite, etc), il est rare que deux images données soient issues exactement du même point de vue. Par conséquent, la gestion des effets géométriques est un problème extrêmement fréquent, que de nombreux travaux ont eu à traiter. Les approches correspondantes peuvent être classées en trois catégories, présentées visuellement dans la taxonomie de la figure2.4: celles utilisant un recalage préalable des images, celles exploitant la géométrie épipolaire et celles exploitant une modélisation tri-dimensionnelle.

CH. 2 - ÉTAT DE L’ART 2.3.1 - Effets géométriques

(a) (b)

FIGURE 2.3 – Cette figure illustre la manifestation des effets géométriques dans une paire

d’images aériennes, acquises sur la même scène selon deux points de vue différents. Par exemple, les objets occultés par le château d’eau dans l’une des deux images ne sont visibles que dans l’autre image. De plus, l’ordre d’apparition de certains objets est modifié, comme c’est le cas pour les po- teaux électriques (flèches noires) situés à gauche (a) ou à droite (b) du château d’eau. Copyright © 2010 - 2012 Cassidian - All rights reserved.

Approches pour la gestion des effets géométriques

Recalage Préalable [29, 48, 56, 79, 92, 123] Géométrie épipolaire [14, 25, 63, 111] Modélisation 3D [24, 32, 34, 91]

FIGURE2.4 – Cet arbre présente une taxonomie des différentes approches utilisées pour aborder

le problème de la gestion des effets géométriques.

Recalage préalable Une large majorité d’articles [29, 48, 56, 79, 92, 123] en détection de changements abordent le problème des effets géométriques en supposant qu’un recalage préa- lable des images a été effectué, et en se concentrant sur leur comparaison. Une telle hypothèse, posée par exemple par Clifton [29], est réaliste dans le contexte de l’imagerie satellitaire, car le point de vue et le relief générant les effets géométriques sont connus très précisément, par rapport à la distance d’observation. En revanche, dans le contexte de l’imagerie aérienne ou terrestre, le relief est beaucoup plus complexe et les variations de points de vue sont nettement plus importantes. Il devient donc nécessaire d’aborder explicitement le problème de la mise en correspondance.

Dans le cadre de vidéos acquises selon des trajectoires proches, par exemple par des caméras montées sur véhicules terrestres, l’approche par recalage permet d’obtenir de bons résultats. En effet, pour toute image de test il est possible de trouver une image de référence acquise selon un point de vue très proche. Par conséquent, un recalage relativement simple entre les deux images peut suffire à atténuer efficacement les effets géométriques. Ainsi, Primdahl et al. [92] utilisent un modèle planaire de la route, et commencent par convertir les deux images en ortho-images, à l’aide d’une homographie calculée en pré-traitement, la caméra étant fixée de manière rigide au véhicule. Un recalage grossier, combinant une translation et une rotation, est ensuite calculé à partir des méta-données (coordonnées GPS et focales des caméras). Finalement, une translation précise de recalage résiduel est estimée à l’aide de la transformée de Fourier.

Dans le cas de vidéos aériennes acquises selon des trajectoires arbitraires, il est plus rare que les images soient acquises selon des points de vue proches. En revanche, si la région ob- servée contient peu de relief, ou que la distance de la caméra par rapport à la scène est grande

2.3.1 - Effets géométriques CH. 2 - ÉTAT DE L’ART devant la taille des objets observés, les effets géométriques restent minimes et peuvent être at- ténués simplement. Mittal et Huttenlocher [79] proposent ainsi d’effectuer un recalage robuste de l’image courante de la vidéo de test avec une mosaïque de référence constituée des observa- tions moyennes, afin d’éliminer les objets mobiles. Dans un premier temps, un recalage grossier est effectué, en estimant par moindres carrés une transformation affine grâce à un filtre KLT. Ce recalage grossier sert d’initialisation à un recalage projectif fin, estimé itérativement par l’algorithme de Levenberg-Marquardt, initialisation permettant d’accélérer significativement la convergence.

Plus généralement, Zitova et Flusser [123] présentent une revue de l’état de l’art des mé- thodes de recalage d’images. Ils identifient deux catégories d’approches, les méthodes par sur- face (area-based dans la littérature) et celles par primitives caractéristiques (feature-based dans la littérature), et quatre sous-problèmes orthogonaux. Ces problèmes sont l’extraction de carac- téristiques, l’appariement de ces caractéristiques, l’estimation d’un modèle de transformation et enfin le ré-échantillonnage d’image. Il ressort de cette étude que, dans le cas général où les effets géométriques sont importants, les modèles de transformation paramétrique globale (e.g. transformation affine ou projective) sont peu adaptés. Il devient alors nécessaire d’utiliser des techniques d’appariement local, comme par exemple un recalage élastique [3, 30] ou un flot optique [6,39].

Cependant, bien que des méthodes relativement sophistiquées existent pour le recalage gé- nérique d’images ayant subi des déformations complexes et arbitraires, ces méthodes sont géné- ralement très coûteuses. Or, les déformations rencontrées dans le cadre de la détection de chan- gements sont généralement bien spécifiques puisqu’elles proviennent d’effets géométriques re- lativement bien modélisés. Par conséquent, des approches dédiées ont été étudiées pour résoudre ce problème, en exploitant le comportement particulier des effets géométriques.

Exploitation de la géométrie épipolaire La géométrie épipolaire est un cadre théorique mo- délisant, de manière très précise, le comportement bi-dimensionnel des effets géométriques, c’est-à-dire leurs conséquences au niveau des intensités des images. Ce cadre théorique est introduit et décrit en détail dans les livres traitant de vision artificielle [41, 52]. L’exploita- tion des équations de la géométrie épipolaire dans une méthode de détection de changements [14, 25,63, 111] permet donc d’aborder de manière appropriée les difficultés générées par les effets géométriques.

Par exemple, Kumar et al. [63] montrent que le recalage de deux vues d’une même scène, acquises selon des points de vue différents, comporte deux étapes. La première étape consiste à recaler les deux images par rapport à une surface paramétrique arbitraire, par exemple par rapport au plan dominant du sol, qui mène à un recalage à base d’homographie. Par la suite, il est démontré que les déviations résiduelles dues à la parallaxe peuvent être modélisées par un champ de vecteurs épipolaires. Ils présentent deux algorithmes, permettant la résolution séquen- tielle ou simultanée de ces deux étapes. L’approche séquentielle utilise une première exécution de l’algorithme itératif de Levenberg-Marquardt pour l’estimation du recalage par rapport au plan du sol, puis une seconde pour estimer le champ de vecteurs épipolaires. Cette approche séquentielle peut échouer dans le cas où le sol de la scène observée n’est pas plan (par exemple du fait d’un relief important). Dans de tels cas, ils proposent d’utiliser l’approche simultanée, qui consiste à estimer, en une seule exécution de l’algorithme de Levenberg-Marquardt, un plan du sol moyen et le champ de vecteurs épipolaires.

La méthode proposée par Watanabe et Miyajima [111] exploite également la géométrie épi- polaire, et effectue la mise en correspondance de toits de bâtiments dans des images aériennes, en recherchant la forme de ces toits le long des droites épipolaires. Ces droites épipolaires sont calculées grâce à la matrice fondamentale, qui peut être estimée par appariement de points ca- ractéristiques [52]. Cette méthode permet de gérer correctement les effets de parallaxe, mais en revanche elle n’aborde pas les éventuelles occultations.

CH. 2 - ÉTAT DE L’ART 2.3.1 - Effets géométriques [25] propose une approche de recalage d’images basée sur le Dynamic Time Warping, algo- rithme de programmation dynamique visant à la mise en correspondance optimale entre deux images. Cet algorithme, relativement coûteux, considère les intensités observées le long des droites épipolaires, et permet de mettre en correspondance les intensités issues de deux vues de la même scène malgré les occultations et les effets de parallaxe.

Les travaux réalisés au début de cette thèse ont mené au développement d’une technique de détection de changements [14], basée sur la géométrie épipolaire. Cette technique, qui intègre la contrainte épipolaire à un algorithme rapide de flot optique, sera présentée à la section4.1. Cependant, il est rapidement apparu que cette approche, qui ne peut être appliquée qu’entre paires d’images, était inefficace dans le cadre de la détection de changements entre vidéos. Ceci a donc justifié l’adoption d’une approche de modélisation tri-dimensionnelle.

Modélisation tri-dimensionnelle Une autre approche pour la gestion des effets géométriques consiste à simuler leurs conséquences à l’aide de techniques, tels que l’algorithme de lancer de rayons, exploitant une modélisation tri-dimensionnelle. En effet, si la scène est modélisée en trois dimensions, il est possible de générer des images synthétiques par lancer de rayons en si- mulant les effets d’occultation et de parallaxe. Un certain nombre d’approches [24,32,34,91] exploitent cette idée pour générer, à partir de modèles de référence, des images synthétiques ac- quises selon le même point de vue que l’image de test considérée, réduisant donc sensiblement l’impact des effets géométriques.

Par exemple, Buchanan [24] calcule, à l’aide de l’algorithme de Structure From Motion [52] deux modèles tri-dimensionnels de la scène observée à partir d’une vidéo de référence et d’une vidéo de test, ainsi que les trajectoires d’acquisition de ces vidéos. Ces deux modèles sont ensuite recalés, notamment afin d’obtenir un système de coordonnées compatibles entre le modèle de référence et la trajectoire de la vidéo de test. Par des techniques de rendu, il est alors possible de générer une image synthétique du modèle de référence alignée avec n’importe quelle image de la vidéo de test. Cela permet donc de comparer les contenus des deux vidéos en faisant abstraction des effets géométriques. En revanche, une limite de cette approche est qu’elle ne permet pas l’exploitation incrémentale d’une vidéo, c’est-à-dire au fur et à mesure qu’elle est acquise. D’autre part, il est généralement difficile de convertir un modèle tri-dimensionnel issu de l’algorithme de Structure From Motion en un modèle dense exploitable pour le rendu d’images.

Plus originaux, Pollard et Mundy [91] proposent d’estimer, à partir des observations de ré- férence, une modélisation volumétrique de la scène observée, où chaque voxel contient une probabilité d’occultation et un modèle d’apparence. En supposant que le point de vue d’acqui- sition de l’image de test est connu, un algorithme de lancer de rayons permet de calculer une image synthétique du modèle de référence selon le même point de vue. Il est alors possible de comparer cette image avec l’image de test, afin de détecter les changements en minimisant l’impact des effets géométriques. Crispell et al. [33] étendent ces travaux, en proposant une mé- thode permettant l’estimation du point de vue de l’image de test à partir de son contenu et de la connaissance d’un modèle 3D de la scène observée. Cette extension permet donc de traiter une vidéo de test de manière incrémentale.

Enfin, une approche basée sur la modélisation tri-dimensionnelle d’apparence a été propo- sée [18] dans le cadre de cette thèse. Partant de la remarque selon laquelle, dans le cadre de l’imagerie aérienne, il est plus efficace de considérer la scène comme une surface que comme un volume, nous avons proposé une représentation de la scène basée sur une carte d’élévation. La carte d’élévation est une forme contrainte de modèle 3D, qui offre une bonne capacité de généralisation, par rapport aux points de vue non explorés lors de sa construction. Cette repré- sentation sera présentée plus en détails au chapitre4.

2.3.2 - Illumination CH. 2 - ÉTAT DE L’ART (a) (b) (c) (d) (e)

FIGURE 2.5 – Cette figure illustre la manifestation des effets de l’illumination, en prenant

l’exemple de cinq zones (a)-(e) observées à plusieurs instants différents. Ces manifestations in- cluent des effets divers tels que l’illumination directe ou voilée, ce qui atténue les frontières des ombres et modifie la saturation des couleurs, la projection d’ombres mobiles, qui modifie l’appa- rence aléatoirement, les réflexions spéculaires plus ou moins intenses, qui dépendent du point de vue, etc. Cette illustration montre la grande variabilité générée par ces effets de l’illumination.