• Aucun résultat trouvé

Évaluation quantitative

6.1 Données d’évaluation

FIGURE6.1 – Cette figure illustre les possibilités de génération de vidéos aériennes synthétiques

du logiciel VBS2, avec l’exemple d’une vidéo acquise depuis une trajectoire parfaitement circulaire au dessus d’un village virtuel.

6.1 Données d’évaluation

L’évaluation des résultats obtenus par un algorithme quelconque a deux objectifs princi- paux : déterminer la précision de ces résultats et quantifier la robustesse de l’approche par rapport à divers facteurs perturbateurs. Dans le premier cas, il est nécessaire de disposer de la vérité-terrain associée aux données, et il peut alors être utile d’avoir recours à des données syn- thétiques pour lesquelles la vérité-terrain est facile à obtenir. Dans le second cas, il est préférable de travailler avec des données réelles, afin de confronter les algorithmes à des perturbations réa- listes.

Par conséquent, l’évaluation des méthodes et algorithmes développés dans le cadre de cette thèse a été effectuée à l’aide de deux types de vidéos aériennes : des vidéos synthétiques, pré- sentées à la section6.1.1, et des vidéos réelles, présentées à la section6.1.2. Nous avons vu au chapitre2que l’acquisition de données réelles dans le contexte de la détection de changements entre vidéos était une tâche lourde et délicate, exigeant de plus un fastidieux travail d’annota- tion pour obtenir la vérité-terrain. Pour contourner ce problème, nous avons donc développé une approche [18], présentée à la section 6.1.3, consistant à insérer des changements virtuels dans des vidéos réelles par réalité augmentée.

6.1.1

Données synthétiques

Afin d’évaluer certains traitements en conditions contrôlées, nous avons parfois eu recours à des vidéos aériennes synthétiques. Ces données synthétiques sont particulièrement appréciables pour l’évaluation de certains algorithmes, pour lesquels l’acquisition de données pertinentes ou l’extraction de la vérité-terrain est difficile en pratique. Cela est notamment intéressant pour évaluer les algorithmes de géo-localisation ou pour l’extraction de modèles 3D correspondant à la scène observée.

Les vidéos synthétiques utilisées ont été générées à l’aide du logiciel de simulation photo- réaliste Virtual Battle Station 2 (VBS2), développé par Bohemia Interactive Simulation. Ce logiciel possède une large bibliothèque de modèles permettant une modélisation réaliste et dy- namique de vastes régions géographiques, dont la surface dépasse la centaine de kilomètres carré. D’autre part, ce logiciel dispose de nombreuses fonctionnalités intéressantes, telles que la simulation de conditions météorologiques précises ou le contrôle des conditions d’illumination. Enfin, VBS2 présente l’avantage considérable de permettre l’extraction de la vérité-terrain, et plus précisément d’extraire les trajectoires d’acquisition réelles, les modèles 3D des régions géographiques observées, ainsi que les masques de changements réels.

CH. 6 - ÉVALUATION 6.1.1 - Données synthétiques (a) Trajectoires (b) (c) (d) (e) (f) (a) Trajectoires

FIGURE6.2 – Cette figure présente à gauche, les trajectoires d’acquisition estimées superposées

avec une carte Google Maps de la région (a), et à droite, des échantillons d’images (b)-(f), pour les vidéos aériennes acquises au dessus de l’aérodrome de Darois, près de Dijon. Les trajectoires des vidéosAérodrome 1 à Aérodrome 5 sont respectivement tracées en rouge, blanc, bleu, vert et noir. Copyright © 2010 - 2012 Cassidian - All rights reserved.

La figure6.1 présente l’exemple d’une vidéo de synthèse, générée à l’aide de VBS2 pour l’évaluation des algorithmes de géo-localisation. Cependant, les vidéos de synthèse pouvant être générées très facilement en fonction des besoins d’évaluation, elles seront décrites plus en détails au cas par cas dans les sections concernées.

Toutefois, malgré leur apparence visuellement très réaliste, ces données de synthèse ne sont pas suffisantes pour évaluer correctement les performances en traitement d’image. En effet, les données synthétiques sont généralement générées selon diverses hypothèses idéales concernant le capteur ou la scène observée, éliminant de nombreux effets perturbateurs tels que le bruit dans les images, la gamme dynamique limitée du capteur, les effets de flou, etc. Il est par conséquent nécessaire d’évaluer également la méthode à l’aide de données réelles.

6.1.2 Données réelles

Les vidéos aériennes réelles utilisées pour nos évaluations ont été acquises dans le cadre d’une campagne d’acquisition de données d’observation aérienne menée par Cassidian, en col- laboration avec Astrium Satellites et EADS Innovation Works. Ces données d’observation ont été acquises en France par un avion équipé d’une tourelle d’observation EO / IR. Cette tourelle a permis d’enregistrer le flux vidéo visible grâce à une caméra HD stabilisée (en 1280✂ 720 pixels).

Les données utilisées pour l’évaluation correspondent à cinq vidéos acquises au dessus de l’aérodrome de Darois, près de Dijon, que nous désignerons dans la suite par Aérodrome 1 à Aérodrome 5. Ces cinq vidéos correspondent à différentes conditions d’acquisitions, en termes de points de vue, de conditions d’illumination, de résolution au sol ou de délai temporel. La figure6.2présente les trajectoires d’acquisition de ces vidéos, estimées par la méthode d’inter- polation présentée à la section3.1.1, ainsi que quelques échantillons des images associées. La vidéo Aérodrome 1 a été acquise le 14 octobre 2011 et est constituée de 215 images. Les vidéos Aérodrome 2et Aérodrome 3 sont respectivement constituées de 1 137 et 462 images, et sont is- sues d’une unique vidéo scindée en deux (d’où la continuité des trajectoires), acquise quelques minutes après la vidéo Aérodrome 1. La vidéo Aérodrome 4 est constituée de 154 images et a

6.1.2 - Données réelles CH. 6 - ÉVALUATION

(a) Exemples de changements virtuels

0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010 0 200 400 600 800 1000 1200 1400 Fréquence

Taille de changement (pixels)

Plage principale 0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010 0 200 400 600 800 1000 1200 1400 Fréquence

Taille de changement (pixels)

Plage principale

(b) Histogramme des tailles

FIGURE 6.3 – Cette figure présente une image (a) issue de la vidéo Aérodrome 3 avant et après

insertion de changements virtuels (mis en évidence par les flèches noires), ainsi que l’histogramme des tailles de changements (b). Ces tailles, qui sont mesurées en nombre de pixels, dépendent de la profondeur du changement dans l’image. Un changement typique a ainsi une taille d’environ 20✂ 20 pixels. Copyright © 2010 - 2012 Cassidian - All rights reserved.

été acquise une dizaine de minutes après la première vidéo, avec une résolution au sol supé- rieure aux trois premières vidéos. Enfin, la vidéo Aérodrome 5 est constituée de 71 images et a été acquise le 30 novembre 2011, soit 47 jours après les quatre premières. Elle contient par conséquent de nombreux changements par rapport aux quatre vidéos précédentes.

Les vidéos Aérodrome 1 à Aérodrome 3 seront utilisées très fréquemment dans ce chapitre pour l’évaluation de notre approche de détection de changements. Les deux autres vidéos, Aéro- drome 4et Aérodrome 5, seront utilisées à la section6.5pour illustrer les limites de l’approche.

6.1.3 Données forgées par réalité augmentée

La campagne d’acquisition des données d’observation a été menée exclusivement de ma- nière aérienne, et n’a pas été accompagnée d’une campagne au sol visant à mettre en œuvre des changements à détecter. Telles quelles, les vidéos aériennes présentées à la section précédente sont donc d’un intérêt limité pour la détection de changements. Par conséquent, afin d’évaluer les algorithmes développés dans le cadre de cette thèse, nous avons développé une méthode de réalité augmentée consistant à insérer des changements virtuels dans les vidéos brutes.

Cette méthode permet non seulement de générer un nombre illimité de vidéos pertinentes pour la détection de changements, mais également d’obtenir la vérité-terrain associée de ma- nière rapide et automatique. D’autre part, les données d’évaluation qui en résultent sont adap- tées au scénario opérationnel visé dans le cadre de cette thèse (voir section 1.2.3). En effet, le fait d’insérer des changements virtuels dans des vidéos acquises de manière rapprochée dans le temps permet de se rapprocher du cas applicatif selon lequel la plate-forme d’observation effectue des passages réguliers et des acquisitions fréquentes. Ceci permet donc de concentrer l’effort sur les difficultés principales rencontrées dans ce contexte, en particulier les problèmes liés aux points de vue arbitraires et aux variations modérées de contenu (e.g. illumination, objets mobiles, variations d’apparences, etc).

Pour cela, nous avons extrait, de diverses données d’observation, un certain nombre de tex- tures rectangulaires, qui ont été insérées à des emplacements prédéfinis dans la scène observée de manière à former un changement. Plus précisément, étant donné un emplacement prédéfini, nous déterminons la zone correspondante dans chaque image de la vidéo considérée à l’aide de la géo-localisation (voir section 3.1.1). Il est alors possible de modifier les images issues des

CH. 6 - ÉVALUATION 6.1.3 - Données forgées vidéos brutes en y insérant les textures, qui se comportent de manière réaliste par rapport au déplacement de la caméra. Le masque de changement idéal peut également être obtenu, pour chaque image de la vidéo, par le même procédé. Notons que pour plus de réalisme, il pourrait être envisageable de faire correspondre l’apparence de la texture insérée avec les conditions locales de l’image (illumination, bruit, flou, etc). Cependant, ce niveau de réalisme n’est pas nécessaire pour évaluer les performances en détection de changements et par conséquent les traitements correspondants n’ont pas été mis en œuvre.

Pour l’évaluation des performances, et plus précisément l’estimation des courbes ROC, nous avons utilisé les vidéos Aérodrome 1 à Aérodrome 3. La vidéo Aérodrome 2 a servi de vidéo de référence, et les deux autres vidéos ont été utilisées comme vidéos de test, après insertion de changements virtuels. Une dizaine de changements, tous visibles dans chacune des images de ces deux vidéos, ont été insérés et répartis uniformément dans la scène observée.

La figure6.3illustre les principales caractéristiques des changements virtuels insérés dans les vidéos. Elle présente notamment un exemple d’image aérienne avant et après insertion de changements virtuels, qui montre que les changements insérés ne sont pas trivialement identi- fiables. Cette figure présente également l’histogramme des tailles de changements insérés, après projection dans les vidéos aériennes.

La suite de ce chapitre présente les résultats d’évaluation des méthodes développées dans le cadre de cette thèse.