• Aucun résultat trouvé

Apprentissage profond

4.1 Apprentissage des représentations

spatio-temporelles

La révolution opérée par les réseaux de neurones profonds dans le domaine de la détection et la classification d’objets suite aux excellents résultats obtenus sur des grandes bases d’images telle ImageNet [177], a tout naturellement amené la communauté scientifique à appliquer ces méthodes au suivi visuel. A l’instar de la reconnaissance visuelle, les premières architectures ont été proposées à partir de réseaux neuronaux convolutionnels « classiques » (CNN) mais très rapidement de nouvelles architectures ont été étudiées telles que les réseaux siamois (SNN), les réseaux neuronaux récurrents (RNN), les réseaux contradictoires génératif (GAN), les auto-encodeurs (AE), etc.

L’utilisation des CNN pour le suivi a été motivé par le fait que les recherches récentes sur la vision par ordinateur et la reconnaissance des modèles ont mis en évidence les capacités des réseaux neuronaux convolutionnels (CNN) à résoudre des tâches difficiles telles que la classification, la segmentation et la détection d’objets. Bien que les détecteurs spécialisés basés sur les CNN et détournés pour le suivi permettent d’extraire des caractéristiques robustes, ces caractéristiques ne sont pas spécifiques au suivi mais à la tâche première qui est la localisation et la classification des objets. Les réseaux siamois ont alors été introduits afin de pouvoir réellement disposer d’un vecteur de caractéristiques adapté à la tache de suivi. Un réseau siamois, dans sa version la plus simpliste, se composent de deux CNN « classiques » reliés par une ou plusieurs couches de sorties. Ces réseaux jumeaux calculent la même fonction, pas forcément avec les mêmes poids, pour produire une carte de similarité. Ils peuvent alors être entraînés avec des données de suivi, typiquement une imagette de la cible et une imagette requête (correspondant ou non à la cible) et ainsi extraire des caractéristiques propres à la tache de suivi [178]. Les réseaux de neurones récurrents sont une autre classe de réseaux, qui permettent, dans une certaine mesure, de propager des informations dans le temps. A son niveau le plus fondamental, un RNN est simplement un type de réseau de neurones densément connecté. Cependant, la principale différence par rapport aux réseaux à « action directe » est l'introduction du temps. Dans les faits, dans un réseau neuronal récurrent, la sortie de la couche cachée est réinjectée sur l’entrée elle-même.

Plusieurs études de ces nouvelles architectures sont proposées dans la littérature [179][180]. Nous n’allons pas faire ici l’étude de toutes les architectures proposées dans la littérature mais nous présentons rapidement trois algorithmes de suivi : SORT [181], GOTURN [182] et ROLO, basés sur des approches différentes.

V - Suivi d’objets d’intérêts mobiles

136

4.2 Présentation de quelques architectures

L’algorithme SORT proposé par Bewley et al. [181] est simple et efficace. Le principe de l’algorithme repose principalement sur l’analyse de l’inférence d’un détecteur spécialisé. Les auteurs utilisent le détecteur Faster R-CNN proposé par [183], mais précisent que leur approche s’adapte à n’importe quel détecteur d’objet. En effet, le suivi est assuré en maximisant l’intersection entre les boites englobantes des objets détectés dans deux images successives. Poursuivant leur travaux, les auteurs ont proposé une amélioration [184] en intégrant un modèle d’apparence profond basé sur un CNN et appris sur la base MARS [185]. La base MARS est une base utilisée pour la ré-identification de personnes. En conséquence, l’évolution proposée par les auteurs se spécialise au cas du suivi de personnes.

L’algorithme GOTURN a été proposé par Held et al. [182]. L’architecture de leur réseau est construite de façon à associer l’apparence au mouvement (Figure 96). L’apprentissage est réalisé hors ligne et s’adapte à n’importe quel type d’objet contrairement à l’algorithme SORT qui s’appuie sur un classifieur. Dans les faits, un premier réseau reçoit l’imagette de la cible et en déduit un vecteur de caractéristiques. Un deuxième réseau reçoit une imagette correspondant à une région candidate et en déduit un autre vecteur de caractéristiques. Ces deux vecteurs sont ensuite passés à un réseau entièrement connecté qui permet la localisation de la cible dans l’imagette candidate. D’après les auteurs, l’algorithme est assez rapide mais cela dépend fortement du nombre de cibles à suivre, puisque chaque cible doit être traitée indépendamment.

Figure 96 : architecture du réseau GOTURN. En entrée le réseau reçoit une imagette de la cible issue de l’image précédente et une imagette correspondant à la région de recherche dans l’image courant. La

sortie du réseau indique la position de la cible dans la région candidate. [182]

L’algorithme ROLO proposé par Ning et al. [186] utilise également un détecteur spécialisé, en l’occurrence Yolo [111], pour extraire des caractéristiques visuelles riches et robustes ainsi que les inférences préliminaires de localisation (Figure 97). Cette première étape permet de gérer les dimensions spatiales. La deuxième étape est basée sur une architecture LSTM (long short term memory) permettant de tirer parti de la cohérence temporelle et assurer le suivi.

Les LSTM sont un type particulier de réseau de neurones récurent (RNN), capables d'apprendre des dépendances à long terme. Ils ont été introduits par Hochreiter et al. [187]. Cette classe de réseau permet, dans une certaine mesure, de propager l’information dans le temps.

V - Suivi d’objets d’intérêts mobiles

137

Figure 97 : vue simplifiée de l'architecture ROLO telle que présentée par les auteurs [186]

Parmi les réseaux populaires, nous pourrions citer MDNnet [188] qui a remporté le chalenge VOT2015 [189]. Comme pour SORT, les auteurs utilisent un CNN appris hors ligne comme extracteur de caractéristiques puis des couches spécifiques pour le suivi. L’algorithme VITAL, proposé par Song et al. [190], quant à lui utilise une architecture basée sur les réseaux génératifs contradictoires.

4.3 Limites des approches présentées

Comme nous avons pu le voir sur ces quelques exemples d’architectures, les réseaux neuronaux divisent l’analyse des données spatio-temporelles des vidéos en deux parties. Ils apprennent tout d’abord des structures spatiales sur chaque cadre vidéo (en utilisant un CNN 2D), puis ils apprennent des modèles temporels en utilisant des réseaux récurrents comme LSTM ou « convolutionnel LSTM » (ConvLSTM)[191]. Cette approche fait l’hypothèse que les dimensions spatiales et temporelles sont indépendantes et peuvent être traitées séquentiellement. En outre, certains auteurs montrent qu’un réseau LSTM n’est pas optimale pour traiter les données séquentielles [192].

Une alternative possible est alors d’utiliser une architecture différente basée sur des convolutions 3D avec cette première interrogation : peut-on prouver que les convolutions 3D sont le groupe de symétries adaptées pour capturer les invariances de la donnée spatio-temporelle ? Comme nous le verrons en toute fin de ce document, c’est une des questions dont nous allons tenter de répondre avec la dernière thèse que nous avons engagée.

5 Conclusion

Bien que des progrès indéniables ont été réalisés ces dernières années, le suivi reste un sujet ouvert et très actif. Les techniques d’apprentissages profond proposent des performances impressionnantes dans la détection et la segmentation des objets mais la tâche de suivi reste difficile, à plus forte raison lorsqu’il y a plusieurs cibles à suivre simultanément dans la scène. Les tâches de détection et de suivi des objets d’intérêt dans une séquence vidéo peuvent paraître indépendantes mais elles sont en réalité indissociables et complémentaires. La solution à l'un des problèmes implique généralement la résolution implicite ou explicite d'un autre problème. En résolvant efficacement le problème de la segmentation des objets, il est plus facile de trouver une solution au problème de suivi. Des résultats de segmentation précis fournissent des observations d'objets fiables pour le suivi, ce qui peut résoudre des problèmes tels que

V - Suivi d’objets d’intérêts mobiles

138

l'occultation, la déformation, la mise à l'échelle, etc., et permet d'éviter fondamentalement les défaillances du suivi. D'autre part, des résultats de suivi d'objet précis peuvent également guider l'algorithme de segmentation pour déterminer la position de l'objet, ce qui réduit l'impact du mouvement rapide de l'objet, de l'arrière-plan complexe, des objets similaires, etc., et améliore les performances de la segmentation de l'objet comme nous l’avons proposé dans [10].

Les tâches de détection et de suivi d’objet sont deux étapes clés dans la recherche d’une solution efficaces de vidéo-protection mais plus largement dans toutes les applications qui exploitent l’estimation du déplacement des objets en mouvement dans la scène. L’évaluation de ces deux étapes doit être particulièrement rigoureuse.

VI - Evaluation des étapes de la détection d’intrusions

139

VI - Evaluation des étapes de la

détection d’intrusions