Conclusion et perspectives - Détection de changements entre vidéos aériennes avec trajectoires

C

OMME l’ont justifié les chapitres 1 et2, la détection de changements dans des vidéos aé-

riennes est un problème vaste, qui met en jeu de nombreuses problématiques. Bien sûr, celle de la comparaison des données est au cœur de toute approche de détection de changements. Cependant, nous avons vu que d’autres jouent également un rôle essentiel, en particulier les problématiques de géo-localisation, d’atténuation de l’illumination, de reconstruction 3D, d’indexation ou encore de compression des observations.

Dans le cadre de cette thèse, nous avons choisi d’orienter nos travaux vers une approche semi-automatique, visant à assister un opérateur dans sa tâche d’analyse vidéo. Cette approche met donc ponctuellement cet opérateur à contribution, notamment pour la géo-localisation des données de référence (section3.1.1) et pour la consolidation interactive des résultats de détec- tion (section 5.3). Cependant, afin de minimiser l’effort requis de la part de l’opérateur, nous nous sommes concentrés sur la maximisation de la quantité d’information extraite des données disponibles, en proposant des algorithmes innovants tels que la géo-localisation par asservissement visuel (section 3.1.2), la consolidation des détections par optimisation spatio-temporelle (section5.1.2) ou encore la binarisation par extraction de MSER (section5.2).

Bilan des travaux Plus généralement, l’ensemble des solutions et des méthodes développées dans le cadre de cette thèse forment une approche complète et cohérente pour la détection de changements dans des vidéos aériennes.

Ainsi, les algorithmes de pré-traitements, utilisés pour préparer la détection effective des changements, sont regroupés au chapitre 3. Un premier ensemble d’algorithmes vise la géo- localisation des vidéos considérées, c’est-à-dire l’estimation de leurs paramètres d’acquisition. Pour cela, nous avons proposé deux algorithmes distincts, qui permettent de répondre aux dif- férents besoins survenant dans le cas des données de référence ou de test. Ainsi, un algorithme semi-automatique d’interpolation de poses a été proposé pour la géo-localisation hors-ligne des vidéos de référence, pour lesquelles aucun modèle de la scène n’est encore disponible. Pour les vidéos de test, un algorithme d’asservissement visuel a été proposé pour permettre une géo- localisation rapide et incrémentale, exploitant le modèle généré à partir des vidéos de référence. D’autre part, le second ensemble d’algorithmes de pré-traitements vise à atténuer les effets de l’illumination, qui peuvent générer un grand nombre d’erreurs de détection. Pour cela, nous avons choisi de convertir les observations dans une représentation invariante aux variations d’illumination. En effet, cette technique, qui exploite les moyennes des observations de réfé- rence en chaque point de la scène, est très rapide et permet de traiter simplement une gamme importante de variations dues à l’illumination.

La méthode de détection de changements que nous avons développée a ensuite été décrite en détails au chapitre 4. Cette méthode consiste à estimer un modèle 3D d’apparence à partir des observations contenues dans les vidéos de référence. Pour cela, elle repose sur la combi- naison de deux techniques de modélisation, qui permettent toutes deux d’effectuer la majeure

CH. 7 - CONCLUSION

FIGURE 7.1 – Cette figure présente le schéma synthétisant le fonctionnement général de notre

approche de détection de changements dans des vidéos aériennes. Les tâches nécessitant une in- tervention de l’utilisateur (géo-localisation par interpolation de poses et consolidation par retour interactif de pertinence) sont mise en évidence par un bloc sombre.

partie des calculs de manière hors-ligne. La première technique consiste à calculer un modèle tri-dimensionnel de la scène, afin de pouvoir gérer correctement et simplement les effets géo- métriques dûs aux changements de points de vue, qui surviennent fréquemment dans les vidéos aériennes. La seconde technique consiste a effectuer une modélisation des apparences observées dans la scène, ce qui permet d’exploiter la redondance présente dans les vidéos afin d’assurer une bonne robustesse au bruit et aux perturbations diverses relatives aux apparences des objets de la scène. Ce modèle 3D d’apparence peut ensuite être exploité de manière incrémentale pour détecter les changements dans une vidéo de test.

Enfin, un certain nombre d’algorithmes permettant la consolidation des résultats de détec- tion de changements ont été présentés au chapitre5. Pour cela, nous avons cherché à modéli- ser la connaissance a priori relative aux changements d’intérêt pour l’analyste image, ce qui a mené à trois pistes de consolidation. La première piste de consolidation que nous avons exploré consiste à exploiter la redondance spatio-temporelle présente dans la vidéo de test pour amé- liorer la détection de changements fixes dans la scène. Les deux algorithmes développés pour cela permettent un traitement incrémental de la vidéo de test considérée, et exploitent un lissage temporel ou une optimisation spatio-temporelle des scores de détection. La deuxième piste de consolidation permet d’améliorer les résultats de détection correspondant aux objets dont les frontières sont bien définies (e.g. structures artificielles, personnes, etc), et utilise l’algorithme d’extraction de MSER pour effectuer une analyse fine de la carte des scores de détection. Pour finir, afin d’augmenter la flexibilité de notre approche en permettant à l’analyste image d’adapter les résultats de détection à ses besoins, nous avons développé un mécanisme de retour interactif de pertinence, permettant de filtrer les fausses alarmes résiduelles.

Un schéma synthétisant le fonctionnement général de notre approche de détection de changements est présenté à la figure7.1.

Par ailleurs, nous avons vu que l’évaluation des méthodes de détection de changements dans le cadre de vidéos aériennes est un problème délicat, du fait de la difficulté d’obtenir des don- nées réelles pertinentes. Pour contourner ce problème, nous avons proposé une technique permettant d’insérer, par réalité augmentée, des changements d’intérêt dans des vidéos aériennes

CH. 7 - CONCLUSION

initialement exemptes de changements significatifs. Outre le fait qu’elle permet de conserver la complexité des données réelles, en termes de bruit, de sur-exposition ou sous-exposition des pixels et autres perturbations diverses, cette technique permet d’obtenir très simplement la vérité-terrain, ce qui est d’un intérêt considérable.

Grâce à ces données d’évaluation, les résultats de notre approche ont pu être analysés de manière quantitative et systématique au chapitre 6, qui a montré des performances très satis- faisantes malgré la complexité des données. Par ailleurs, ces données ont également permis d’effectuer une comparaison objective de nos choix d’algorithmes intermédiaires avec d’autres solutions existantes dans la littérature. Ces expérimentations ont ainsi montré que les performances obtenues à l’aide de notre approche sont supérieures à celles obtenues à l’aide d’autres méthodes comparables, parmi celles que nous avons pu implémenter.

Perspectives Naturellement, malgré ces bonnes performances, l’approche de détection de changements présentée dans ce manuscrit est perfectible. En effet, un certain nombre de pistes d’amélioration auraient pu être explorées si nous avions disposé de plus de temps. Les principales pistes envisagées sont évoquées ci-dessous.

Accélération des algorithmes Pour commencer, bien que nous ayons pris soin d’effectuer une implémentation rapide et efficace des différents algorithmes proposés, une accélération matérielle pourrait être envisagée pour certains d’entre eux. Une telle accélération pourrait en effet permettre d’atteindre une exécution temps réel de l’approche de détection de changements que nous avons développée, ce qui constitue généralement l’objectif ultime des techniques de traitement en ligne.

Plus particulièrement, l’algorithme de lancer de rayon est utilisé de manière intensive tout au long de notre approche, afin d’effectuer la mise en correspondance des pixels considérés avec les cellules du modèle 3D d’apparence. Or, cet algorithme est tout à fait adapté à un portage sur GPU puisque le même traitement est répété de manière indépendante pour chaque pixel.

De la même façon, les deux algorithmes de consolidation temporelle, pourraient être de bons candidats à un portage sur GPU. Notamment, l’accélération de l’algorithme de consolidation par optimisation spatio-temporelle le rendrait considérablement plus attractif, au vu des excellentes performances de détection de changements qu’il permet d’ores et déjà d’obtenir.

Extension de la géo-localisation automatique La géo-localisation des images considérées constitue une tâche essentielle pour la détection de changements, mais applicable à de nombreux autres problèmes opérationnels. Les algorithmes développés pour cela ouvrent donc un grand nombre de pistes à explorer pour étendre leurs fonctionnalités.

Ainsi, une extension intéressante pour notre algorithme d’interpolation de poses concerne la minimisation de l’effort requis de la part de l’utilisateur pour la calibration des images-clés. Pour cela, un premier pas pourrait consister à déterminer automatiquement le nombre mini- mal et les indices associés des images-clés, pour la géo-localisation d’une vidéo donnée. Ceci pourrait par exemple être fait en analysant la similarité entre les images pour trouver celles don- nant le meilleur compromis entre le nombre d’images-clés et l’intensité de la distorsion entre images-clés et images intermédiaires. Une autre piste concerne l’exploitation de vidéos déjà géo-localisées sur la même zone, pour minimiser le nombre de nouvelles images à calibrer ma- nuellement. En effet, l’utilisation du tenseur trifocal n’est pas limitée à l’interpolation dans une vidéo, mais peut également servir entre deux vidéos différentes si les images considérées sont suffisamment similaires. Enfin, diverses manières d’améliorer la précision de la géo-localisation pourrait être envisagées, par exemple en exploitant les méta-données (coordonnées GPS, me- sures d’orientations, etc) pour initialiser l’estimation, ou en imposant une certaine continuité entre les paramètres d’acquisition des images successives. Notons que, d’un point de vue opé-

CH. 7 - CONCLUSION rationnel, l’automatisation de ces traitements présenterait un intérêt considérable pour la fouille de données géo-localisées.

D’autre part, de nombreuses extensions de notre algorithme d’asservissement visuel peuvent également être envisagées. En particulier, la transformation de recalage, qui est utilisée pour ajuster les paramètres d’acquisition, peut être estimée selon de nombreuses méthodes, dont certaines pourraient notamment permettre d’améliorer la précision de l’algorithme. De plus, un cas intéressant serait d’effectuer un recalage basé sur l’information mutuelle [35, 123], ce qui pourrait permettre d’adapter l’algorithme à des modèles 3D qui ne seraient pas forcément photo-réalistes (e.g. maquette numérique d’un avion issue des bureaux d’études). Une autre piste d’exploration concerne l’amélioration de la robustesse d’estimation des paramètres de calibration. Enfin, l’algorithme présenté dans ce manuscrit utilise, pour guider l’estimation des paramètres d’acquisition, le rendu du modèle 3D basé sur la moyenne des observations de ré- férence. Ceci peut poser problème lorsque la moyenne des observations de référence est trop différente des observations contenues dans la vidéo de test, et mener vers un échec du recalage et donc de la géo-localisation. Puisque le modèle 3D contient également des modèles d’apparence, il pourrait être intéressant de chercher à les exploiter afin d’améliorer la robustesse de la méthode.

Approfondissement de la modélisation d’apparence Par ailleurs, la modélisation d’apparence est au cœur de l’approche de détection de changements décrite dans ce manuscrit, et les travaux réalisés ont permis d’identifier diverses pistes pouvant permettre l’amélioration des performances.

Pour commencer, il pourrait être intéressant d’exploiter la structure arborescente du modèle 3D d’apparence, afin de pouvoir utiliser les modèles d’apparence les plus adaptés aux observations de test considérées. En effet, une telle approche hiérarchique (coarse-to-fine dans la littérature), présenterait un double avantage. D’une part, elle pourrait permettre de traiter plus rapidement les grandes zones uniformes dans le modèle 3D d’apparence. En effet, dans la ver- sion présentée ici, les modèles d’apparence n’existent qu’au niveau des feuilles du Quad-Tree augmenté. Les grandes zones uniformes sont donc considérées comme un ensemble de modèles d’apparence quasiment identiques mais très localisés, ce qui pourrait être optimisé. D’autre part, le second avantage serait la possibilité de traiter correctement les vidéos de test dont la résolu- tion au sol diffère de celle des vidéos de référence. En effet, il serait alors possible d’effectuer la détection de changements en sélectionnant le modèle d’apparence qui correspond le mieux à la résolution de l’observation de test considérée.

Par ailleurs, nous avons montré que la modélisation par Analyse incrémentale en Com- posantes Principales (ACP incrémentale) donnait les meilleures performances parmi les algorithmes testés. Cet algorithme présente également le double intérêt d’être bien adapté au traitement de données vidéo, puisqu’il permet de traiter les vidéos de référence sans garder l’ensemble des observations en mémoire, et de pouvoir être formulé de manière robuste aux données manquantes, qui surviennent fréquemment du fait des occultations dues aux effets géo- métriques. Cependant, la technique de l’ACP reste relativement basique. Il a ainsi été montré à plusieurs reprises que d’autres techniques permettaient de donner de meilleures performances, dans le cadre de la détection de changements dans des images satellites, notamment l’analyse des corrélations canoniques (CCA, pour Canonical Correlation Analysis dans la littérature) [85] ou l’Analyse en Composantes Indépendantes [72]. Des versions incrémentales existent pour certaines de ces techniques (voir notamment [110] pour la CCA), toutefois, aucune application à la modélisation d’apparence n’a semble-t-il été publiée.

Enfin, il pourrait être intéressant d’étudier des critères différents de l’apparence, pour effectuer la détection de changements. En effet, les apparences des objets d’une scène données sont sujettes à de nombreuses variations, rendant la détection de changements très sensibles à de nombreuses perturbations (voir par exemple la section 6.5). Cette sensibilité pourrait être

CH. 7 - CONCLUSION

contournée en utilisant un critère plus stable, analysant par exemple la correspondance des contours ou l’information mutuelle.

Détection de changements hors-ligne Pour finir, les travaux réalisés montrent que les performances de détection de changements pourraient être améliorées si la détection de changements était effectuée de manière hors-ligne, c’est-à-dire une fois que la vidéo de test complète est disponible. En effet, ceci ouvrirait de nombreuses possibilités d’exploitation, dont une liste non-exhaustive d’exemples sont mentionnés ci-dessous.

En premier lieu, nous avons vu que l’erreur de reprojection associée à l’estimation hors- ligne des trajectoires d’acquisition des vidéos était plus faible que celle associée à leur estimation en-ligne. Nous avons montré à la section 6.2.1 que ceci pouvait avoir un impact sur les performances de détection de changements.

En second lieu, une détection hors-ligne des changements pourrait permettre d’employer une généralisation du cadre de la consolidation par optimisation spatio-temporelle, afin d’effectuer la comparaison de l’ensemble des images de référence avec l’ensemble des images de test. Cette généralisation pourrait donc permettre une exploitation plus poussée de la redondance dans la vidéo de test, qui pourrait mener à un important gain de performances.

Enfin, une détection de changements hors-ligne pourrait permettre la mise en œuvre de techniques d’apprentissage actif, que nous avons évoquées à la section 5.3.1, dans le cadre du mécanisme de retour interactif de pertinence. Ces techniques permettent d’optimiser l’ordre d’annotation des détections par l’utilisateur, de manière à maximiser la quantité d’information qui en résulte. Associées à une détection de changements hors-ligne, ces techniques d’apprentissage actif pourraient ainsi déboucher sur d’excellentes performances.

Dans le document Détection de changements entre vidéos aériennes avec trajectoires arbitraires (Page 156-162)