• Aucun résultat trouvé

Contributions th´ eoriques pass´ ees

CHAPITRE 14. PROJET DE RECHERCHE

14.1 Nouveau contexte de recherche

Depuis les dernières années, nous assistons au déploiement intensif des capteurs de vi-sion, et ne pouvons que constater l’accélération et l’intensification de besoin d’un traitement d’images automatisé, dans de nombreux domaines : installations urbaines, usine du futur, chantier du futur, contrôle non-destructif des procédés, équipements agricoles, dans des voi-tures, des drones, etc., sans parler des téléphones portables et tablettes. Par exemple, il est estimé que les installations urbaines seules représenteront une base installée de presque un milliard de capteurs d’ici à 2020 (Source : Nvidia).

Dans ce contexte, la tendance est que les méthodes de traitement d’image s’approchent de plus en plus des capteurs pour des raisons de mobilité, de réactivité locale ou pour des limitations des besoins de transmission.

En parallèle, cette tendance s’accompagne d’une explosion des volumes et des variétés de données définies par la technologie des capteurs (couleur, profondeur, infra-rouge,...) et donc à traiter : définition des pixels hétérogènes, les résolutions au-delà de la HD, dimensions supérieures à 3D pour certains capteurs spécifiques.

Pour cela, des nouvelles approches émergent. Elles bénéficient d’avancement des mé-thodes d’apprentissage et de perception. En revanche, il me semble indispensable de tenir compte des contraintes réelles dès la conception de ces méthodes de traitement d’images. Notamment celles proches des capteurs ou embarquées sur des systèmes mobiles qui doivent, par exemple, être adaptées aux données hétérogènes, exhiber un fort potentiel de parallélisa-tion ou faire appel à des modèles réduits.

Pour tenir compte de ce contexte, je souhaiterais à l’avenir de développer un thème de recherche que j’intitule Nouvelles méthodes de perception et de la compréhension de scène, proches de capteur et que je présente dans les paragraphes suivants, à l’horizon de court et moyen terme.

Ce thème comporte plusieurs composantes, certaines représentant la suite directe des travaux de recherche précédents, certaines sont nouvelles mais complémentaires.

14.2 Projet de recherche `a court et moyen terme

Extension de MM1 vers les graphes aux poids n´egatifs

Si par le passé le watershed (Ligne de Partage des Eaux) a été considéré comme l’outil de segmentation d’image par excellence, il apparaît toujours d’actualité soit - avec les mar-queurs : comme un outil de segmentation interactive, soit - non contraint : comme un outil de pré-traitement ou de simplification d’image. Cette tendance est attestée par nombre de publications récentes dans ce domaine [119,91,138,137,122].

Son importance même s’accroît depuis qu’il a trouvé sa nouvelle application dans le domaine de masses de données (big data) [139,98].

Dans ce contexte et dans le prolongement de Massive Marching, que j’ai introduit en 2003, il est possible d’ouvrir de nouvelles perspectives. Parmi elles on peut citer en exemple des récents travaux sur des calculs parallèles des distances pondérées sur des graphes [83,

123,127]. Ainsi, un axe intéressant d’extension de Massive Marching serait de proposer : — la généralisation du Massive Marching pour le calcul sur des graphes valués aux poids

négatifs, en combinant le schéma numérique existant avec un schéma de propagation modifié, inspiré de l’algorithme de Bellman-Ford [118,70]

CHAPITRE 14. PROJET DE RECHERCHE

— un nouvel formalisme sous forme de notation matricielle avec un calcul réalisé sur des matrices creuses. Cela ouvrirait la porte à la parallélisation des calculs dont l’impor-tance est résumée dans l’étude récente de Hong [113] et de Weber [174].

Les avantages sont de deux natures i) éliminer la nécessité d’appliquer le "swamping" lorsque la fonction distance est utilisée pour le calcul du watershed avec marqueurs, ii) réa-liser le calcul en utilisant des librairies de calcul matriciel avec des matrices creuses dispo-nibles aujourd’hui sur des plate-formes à base de GPU.

Segmentation et analyse d’image en utilisant des principes de perception visuelle Si l’axe précédent s’inscrit dans la continuation des travaux antérieurs, l’axe présenté ici représente l’exploration d’une nouvelle approche à la compréhension de la scène. Les prin-cipes de perception du cortex visuel commencent a être formulé mathématiquement [108,

0].

De manière générale, il s’agit d’étudier les diverses combinaisons de distributions d’in-tensité, de patterns texturaux locaux ou de formes géométriques en distributions multimo-dales et procéder par agrégation de régions sur la base de distances de distributions. Par exemple, le max-tree [156], tree of shapes [64] ou peak-decomposition [65] proposent une décomposition d’image simple et rapide à calculer [39]. D’un autre côté une segmentation probabiliste de textures a été proposée [117] permettant d’agréger des régions sur la base de la distribution de l’intensité.

Une autre approche est représentée par les modèles a contrario [96] dédiés à la détec-tion des déviadétec-tions statistiquement significatives. Ils permettent de proposer des techniques avancées de segmentation ou d’extraction d’objets perceptuellement saillants.

À travers la thèse d’Eric Bazan (Mines-ParisTech), ces recherches ont été déjà initiées, les premiers résultats semblent prometteurs. Nous avons pu proposer un modèle perceptuel non supervisé, basé sur des contours, pour la détections et reconnaissance des zones d’atter-rissages des drones [10].

Comme phase suivante, il serait intéressant d’étendre notre démarche à des régions, en combinant justement les propriétés et les mesures statistiques à base de texture, couleur, d’intensité.

14.3 Evolution `´ a plus long terme

À plus long terme, je souhaiterais orienter le projet de recherche énoncé vers le champ applicatif de la compréhension de la scène pour la navigation des véhicules autonomes ter-restres ou aériens. Avec l’arrivée de l’automatisation de la mobilité, la compréhension de scène pour localisation et navigation deviennent un problème fondamental de recherche. Ce problème comprend deux parties : i) navigation à base de la vision et ii) la modélisation de l’environnement. Pour cela, une interaction est nécessaire avec les domaines suivants : re-construction 3D, analyse de textures, segmentation des images et reconnaissance des formes, estimation de la profondeur, utilisation des images multi-spectrales, mais aussi des algo-rithmes rapides et parallèles.

Par conséquent, la recherche dans cet axe propose un potentiel fort de synergie avec des axes développés au sein des équipes des laboratoires regroupés au sein de l’UPE et du LIGM. Les axes proposés sont également en phase avec les défis adressés dans les projets « tremplin » I-SITE DiXite et UrbaRiskLab.s

CHAPITRE 14. PROJET DE RECHERCHE

M´ethodes de perception pour UAV2

A moyen terme, ce projet de recherche vise à développer des outils pour modélisation de la scène en temps réel, dans des conditions non-contrôlées. Le modèle en 2D ou 3D de la scène serait enrichi par une labellisation sémantique des éléments importants, permettant de représenter et localiser (en 2-D ou 3-D) à la fois les structures dans l’environnement : sol, murs, ciel et les éléments importants de ces structures : ouvertures (fenêtres, portes), escaliers. Ainsi progressivement, avec le déplacement de la caméra, le modèle enrichi, par exemple représenté par une carte labellisée, serait créé et utilisé pour l’aide à la navigation automatisée, qui n’est pas très précise actuellement du fait des pertes de signal GPS en ville ou à l’intérieur.

Idéalement, je souhaiterais considérer à l’entrée des séquences vidéo sans contrainte, avec une vitesse de déplacement qui n’est connue qu’approximativement (à l’aide d’autres capteurs) et peut varier brutalement.

Un des défis majeurs est de proposer une méthodologie pleinement automatique, robuste aux changements de luminosité et la moins dépendante d’un modèle a priori.

Le travail à mener peut se décomposer en plusieurs parties :

- Modélisation de la scène - ici, je souhaiterais étendre mes compétences et étudier les approches monoculaires, temps-réel, pour construction rapide, robuste et précise du modèle 3D, compatible avec la fusion des informations de la segmentation sémantique [154, 169]. Il est à noter que les méthodes actuelles sont très gourmandes en mémoire et nécessitant des calculs coûteux sur GPU.

- Segmentation et compréhension de la scène - le travail peut s’inspirer des propositions évoquées dans la partie Recherche à court terme. De plus, des approches morphologiques générales proposent un ensemble complet d’outils de segmentation et d’analyse de texture nécessaire et l’identification des régions de la scène, il serait intéressant de travailler sur leur adaptation au contexte énoncé.

Également, ce travail pourrait viser les méthodes de segmentation hiérarchique, pouvant être combinées avec les réseaux convolutionnels ce qui est actuellement une tendance très forte [101].

- Apprentissage invariant sous rotation - la classification des images par apprentissage profond a dépassé la précision de l’état de l’art des tâches confiées à l’intelligence artificielle. Le problème est que ceci se fait au détriment de la complexité du modèle et du besoin de grands volumes de données : grandes bases de données et beaucoup de paramètres.

Lorsque nous considérons les conditions non contrôlées, l’invariance aux symétries (ro-tations, changement d’échelle, symétrie) est requise. Mais cela complexifie encore plus le modèle. L’équivariance en rotation est généralement résolue par l’augmentation des don-nées. Cela améliore certainement la généralisation, mais n’est pas exact, ne parvient pas à saisir l’équivariance locale, et n’assure pas l’équivariance de chaque couche d’un réseau. En outre, le plus gros inconvénient est la taille accrue du classificateur. Certaines expériences ont été également réalisées avec Harmonic Network [177] ou Scattering Network [79]. Une autre possibilité consiste à utiliser un espace de rotation, obtenu en utilisant un filtre orienté, pivoté dans toutes les directions et en empilant le résultat. À travers la thèse de Rosemberg Rodri-guez, nous avons initié les premières explorations de cette approche. Les premiers résultats semblent encourageants et ils ont été communiqués lors du Collège doctoral franco-allemand en novembre 2018.

CHAPITRE 14. PROJET DE RECHERCHE

14.4 Rayonnement scientifique

Par le passé, j’ai eu l’occasion de contribuer au rayonnement de l’ESIEE Paris par dé-veloppement de mon initiative des relations internationales : double diplôme, convention des échanges ERASMUS avec plusieurs universités étrangères, ou encore très récemment, représentation de l’école doctorale MSTIC à la tournée des études doctorales au Mexique.

Dans l’avenir, je souhaiterais m’investir dans l’organisation des événements scientifiques tels que des réunions GDR, de colloques, d’écoles-d’été.

Il est aussi de mon souhait de pouvoir m’impliquer davantage dans l’organisation de la vie scientifique dans des sociétés savantes, activité éditoriale (journaux, collections) ou d’évaluateur (projets ANR, clusters européens).

Chapitre 15