Combinaison des deux stratégies d’observation

Nous avons ajouté un autre test où nous avons appliqué simultanément les deux stratégies d’ob-servation sur l’ensemble des échantillons rendus par l’étape de prédiction selon la stratégie SMC_B. Ensuite, nous combinons les données pondérées comme une seule entrée à l’étape de ré-échantillonnage. Tableau 11 – Performance de détection (en %) de plusieurs détecteurs spécialisés selon la stratégie d’observation utilisée (pour FPPI=1)

Specialised detector Generic OAS KLT Fusion

Pedestrian CUHK ît_f 26.6 ^53.7 ^46.5 ^66.5 it_c 81.3 59.6 76.7 MIT ît_f 10 ^24.2 ²² ^26.3 it_c 49 44.1 45.8 Car MIT ît_f 9 ^15.8 ^14.7 ^17.2 it_c 28.7 23.8 31.5 Logiroad ît_f 33.5 ^20.8 ¹⁶ ^25.8 it_c 45.6 47 46.8

Le Tableau11compare le taux de détection de plusieurs détecteurs spécialisés et celui du détecteur générique avec un seul faux positif par image. Les notations OAS, KLT et Fusion correspondent respectivement à la stratégie d’observation 1 : OAS, à la stratégie d’observation 2 : suivi KLT et à leur combinaison. En outre, nous avons utilisé it_f et it_c pour désigner la première itération et l’itération de convergence.

Le Tableau 11 prouve une nouvelle fois que l’approche de spécialisation proposée est générique et qu’elle peut être appliquée en utilisant toute stratégie d’observation. Le tableau montre également que la combinaison des deux stratégies d’observation améliore légèrement la performance du détecteur spécialisé, mais dans certains cas, une seule stratégie d’observation donne un meilleur taux de détection que celui obtenu par la Fusion.

4 Comparaison avec l’état de l’art

Dans notre travail, nous supposons que la scène cible est surveillée par une caméra statique. Cette hypothèse nous aide à extraire nos indices contextuels. Tout en prenant en compte l’hypothèse fixée, nous avons besoin de séquences vidéo annotées, qui sont enregistrées par une caméra fixe afin de comparer notre approche aux algorithmes de l’état de l’art.

Dans cette sous section, nous évaluons la performance globale de la spécialisation proposée dans un cas de détection de piétons. Cette évaluation est réalisée par rapport aux méthodes de l’état de l’art sur deux bases : CUHK_Square et MIT Traffic.

Les principaux détecteurs d’état de l’art utilisés pour l’évaluation sont :

- Générique [Dalal et Triggs, 2005] : Un détecteur HOG-SVM qui a été entrainé sur la base générique INRIA Person dataset avec les détections de l’étape bootstrap tout en suivant la méthode de Dalal et Triggs dans [Dalal et Triggs, 2005].

- Détecteur avec étiquetage de données manuel : Ce détecteur sera noté par la suite "Det_manu". C’est un détecteur HOG-SVM cible qui a été entrainé sur un ensemble d’échan-tillons cibles. Ce dernier est composé de tout l’ensemble des piétons (qui sont extraits manuel-lement des images de spécialisation) et un ensemble d’échantillons négatifs extraits égamanuel-lement des images de spécialisation en tenant compte qu’il n’y a pas de chevauchement avec les boîtes englobantes des piétons.

- Nair 2004 [Nair et Clark, 2004] : Il s’agit d’un détecteur HOG-SVM qui est créé de manière similaire à celle proposée dans [Nair et Clark, 2004], mais le descripteur HOG a été utilisé comme vecteur de primitives et le classifieur SVM à la place du classiffieur Winnow. Ce détecteur est la sortie d’une approche d’adaptation automatique qui sélectionne un ensemble d’échantillons cibles à ajouter dans la base d’apprentissage initiale tout en se basant sur le retour d’un algorithme d’extraction fond-forme.

- Wang 2014 [Wang et al., 2014b] : Un détecteur spécifique à la scène cible qui est entrainé sur des échantillons de la base INRIA et des échantillons extraits et étiquetés automatiquement à partir des images de la scène cible. Les échantillons sources et cibles possédant des scores de confiance élevés seront sélectionnés. Les scores sont calculés en se basant sur plusieurs indices contextuels et la sélection sera effectuée par la méthode dite "confidence-encoded SVM" qui favorise les échantillons avec score élevé en pénalisant gravement l’erreur de classification de ces échantillons lors de la phase d’apprentissage. Cette variante de SVM intègre le score de confiance dans la fonction objective du classifieur.

- Mao 2015 [Mao et Yin, 2015] : Un détecteur entrainé sur des échantillons cibles étiquetés automatiquement en utilisant des petites chaînes de suivi dites "Tracklets" et en propageant de l’information à partir des Tracklets étiquetées vers celles non-étiquetées où il y a une incertitude dans l’étiquette attribuée.

Dans un premier temps, nous interprétons les résultats de ces détecteurs sur la base CUHK_Square et la base MIT Traffic. Dans un deuxième temps, nous discutons la comparaison des mêmes détecteurs à travers les bases.

Figure 44 – Performances globales sur la scène CUHK_Square : Comparaison de SMC_B_OAS avec d’autres détecteurs de l’état de l’art

La Figure44montre que le détecteur spécialisé SMC_B_OAS dépasse nettement le générique sur la base CUHK_Square. Sa performance atteint 81% contre 26,6% enregistré par le détecteur générique. Le SMC_B_OAS surmonte aussi le détecteur "Det_manu" qui est entrainé avec des échantillons cibles étiquetés manuellement, avec une augmentation d’environ 31% à un FFPI = 1. Par contre, ce dernier

dépasse légèrement notre détecteur spécialisé pour un FPPI inférieur à 0.2.

Ainsi, notre détecteur SMC_B_OAS dépasse également les trois autres détecteurs spécialisés de Nair 2004, Wang 2014 et Mao 2015 respectivement par 45,57%, 23,25% et 20%. Il est à noter que Mao 2015 est meilleur que le détecteur spécialisé SMC_B_OAS pour un FFPI inférieur à 0.4.

Pour la base de données MIT Traffic (Figure 45), le taux de détection augmente de 10% à 47%. Également, le détecteur spécialisé SMC_B_OAS à la scène MIT dépasse par 21% le détec-teur "Det_manu". Comparant par rapport au détecdétec-teur de Nair 2004, notre détecdétec-teur SMC_B_OAS spécialisé donne un meilleur taux de détection que celui proposé par Nair et Clark.

Figure 45 – Performances globales sur la scène MIT Traffic : Comparaison de notre SMC_B_OAS avec d’autres détecteurs de l’état de l’art

Les courbes ROC de notre détecteur spécialisé SMC_B_OAS et le détecteur spécialisée de Wang montrent que ces deux détecteurs ont des taux de détection très similaires. Néanmoins, il est nécessaire de mentionner que les ombres présentes dans la scène MIT, ont perturbé la pondération et la sélection des échantillons positifs cibles au moment de nos expérimentations.

Nous résumons dans le Tableau 12, le taux de détection des piétons de nos détecteurs spécialisés et plusieurs détecteurs de l’état de l’art en fonction de la base de données. Nous donnons également le gain entre notre détecteur spécialisé SMC_B_OAS et le détecteur générique dans la dernière ligne du tableau.

Afin de comparer la performance du même détecteur à travers les bases, nous illustrons, dans la Figure46, les résultats des détecteurs génériques, des détecteurs de Wang 2014 et nos détecteurs spé-cialisés SMC_B_OAS selon les bases de données. Nous limitons la visualisation à ces trois détecteurs pour garder la clarté de l’image.

La Figure 46 montre que le détecteur générique a donnée une meilleure performance sur la base CUHK_Square comparée à celle obtenue sur la base MIT. La même interprétation est vraie pour le détecteur SMC_B_OAS. Toutefois, Wang 2014 possède pratiquement les mêmes performances sur les deux bases. Nous constatons que plus le détecteur générique est performant plus le spécialisé est performant.

Tableau 12 – Comparaison de la performance de détection avec celles des détecteurs de l’état de l’art pour un FPPI=1

Détecteur ^Bases

CUHK (%) MIT (%) Générique [Dalal et Triggs, 2005] 26.60 9.80

Det_manu 50.36 22.01

Nair 2004 [Nair et Clark, 2004] 28.80 42.70 Wang 2014[Wang et al., 2014b] 51.12 49.00 Mao 2015 [Mao et Yin, 2015] 61.50

-Notre SMC_B_OAS 81.35 48.97

Gain (SMC_B_OAS / générique) 205.82 399.63

Figure 46 – Performance globale de même détecteur par rapport aux bases de données

Les différentes expérimentations que nous avons mené, ont montré que le processus de spécialisation SMC converge après seulement quelques itérations dans quatre cas : deux pour la détection des piétons et deux pour la détection des voitures. Différentes stratégies ont été utilisées dans l’étape de prédiction et l’étape de mise à jour, pour valider l’apport de notre approche et monter son aspect générique.

5 Généricité de la spécialisation avec un détecteur à base

d’appren-tissage profond

Récemment, les travaux basés sur l’apprentissage profond émergent de manière exponentielle. Ils présentent de hautes performances à la fois dans la classification et la détection. Pourtant, il est connu que ces modèles nécessitent de grandes bases de données et ont beaucoup de paramètres à entrainer. Afin de profiter de ces classifieurs, certains travaux ont proposé de transférer le CNN appris sur un grand ensemble de données sources à un domaine cible avec une base de données de taille réduite.

Parmi ces travaux, nous citons le travail de Grishick et al.[Girshick et al., 2013] qui ont traité l’idée d’entraîner un réseau CNN quand les données étiquetées sont insuffisants. Ils ont fait l’apprentissage supervisé d’un réseau pour une tâche source avec des données abandantes (classification d’images). Ensuite, ils ont raffiné le réseau pré-entrainé pour la tâche de détection où il y a des données rares. Oquab et al.[Oquab et al., 2014] ont copié les poids d’un classifieur CNN entrainé sur la base ImageNet à un réseau cible avec des couches supplémentaires pour la classification des images de la base Pascal VOC. Dans [Li et al., 2015], Li et al. ont proposé d’adapter un détecteur générique ConvNet de voiture à une scène spécifique en réservant des filtres partagés entre les données sources et cibles et en mettant à jour les filtres non partagés. Contrairement à [Oquab et al., 2014, Li et al., 2015] qui nécessitent la présence de certains échantillons annotés dans le domaine cible, Zeng et al.[Zeng et al., 2014] ont appris la distribution du domaine cible tout en optant pour l’approche de Wang et al.[Wang

et al., 2014b] comme une entrée à leur modèle profond et pour pondérer les échantillons des deux domaines sans étiquetage manuel des données de la scène cible.

En suivant le même principe, nous avons proposé, dans cadre d’une collaboration avec Ala Mhalla³, de spécialiser un détecteur Faster R-CNN avec notre méthode de spécialisation. Faster R-CNN est un travail de Ren et al.[Ren et al., 2015] qui a marqué la détection d’objets dans des images avec un taux de précision moyenne égale 70.0% sur la base Pascal VOC 2007. Ce détecteur combine deux réseaux de neurones profond ; le premier RPN sert à proposer des régions susceptible de contenir des objets et le deuxième réseau est le réseau Fast R-CNN [Girshick, 2015] qui se charge de la classification et la mise à jour de la taille des régions proposés par le premier. Le modèle Faster R-CNN utilise à la fois les caractéristiques DCNN pour la proposition des régions et pour la classification d’objets.

Pour ce faire, nous avons adapté l’architecture de notre spécialisation pour prendre en considération les propriétés du détecteur de type Faster R-CNN. Le schéma bloc de la version modifiée est présenté dans Figure 47. Et le Tableau 13 résume les principales modifications entre la spécialisation d’un détecteur HOG-SVM et celle d’un détecter Faster R-CNN à une itération k donnée.

Tableau 13 – Différences entre la spécialisation d’un HOG-SVM et la spécialisation d’un Faster R-CNN Spécialisation d’un HOG-SVM Spécialisation d’un Faster R-CNN Entrées

- HOG-SVM générique - Faster R-CNN générique - Base générique (architecture et poids) - Modèles de fond pré-calculés

Étape prédiction ^{- Apprentissage d’un HOG-SVM sur} la base spécialisée précédente - Recherche et proposition d’échan-tillons cibles (positifs et négatifs)

- Recherche et proposition d’échan-tillons cibles (positifs)

Étape mise à jour

- Pondération des échantillons cibles en utilisant une stratégie d’observation Étape de

ré-échantillonnage

- Pondération des échantillons sources

- Sélection des échantillons sources et cibles pour créer une base spécia-lisée

- Sélection des échantillons cibles positifs pour créer une base spécia-lisée

Étape de fine-tuning (ajuste-ment fin)

Ajustement fin des poids du réseau Faster R-CNN (donc ajustement des poids des deux sous Réseaux RPN et Fast R-CNN )

Données trans-férées

- Échantillons sources (positifs et négatifs) proches visuellement des cibles

- Architecture et poids du réseau Faster R-CNN

Sorties - Détecteur HOG-SVM spécialisé - Détecteur Faster R-CNN spécialisé - Base spécialisée (architecture et poids)

Après avoir donné une idée sur les différences entre la spécialisation d’un HOG-SVM et la spé-cialisation d’un Faster R-CNN, nous présentons dans la Figure 48 les résultats obtenus suite à une expérimentation faite pour montrer la généricité de notre approche de spécialisation et son apport à adapter un détecteur à base d’apprentissage profond. Dans ces expérimentions : (i) Nous avons fixé d’utiliser la stratégie d’indices spatio-temporels OAS comme une stratégie d’observation. (ii) Nous avons spécialisé deux détecteurs Faster R-CNN ; un détecteur de piétons et un détecteur de voitures. (iii) Nous avons fait le test sur deux bases pour chaque détecteur.

Pour la Figure48a; nous avons enregistré que les détecteurs Faster R-CNN générique et spécialisé ont des performances comparables et qui sont très proches de HOG-SVM spécialisé. Le détecteur Faster R-CNN générique fonctionne bien dès le départ sur la scène CUHK et arrive à détecter la plupart des échantillons positifs dans la scène. Donc, la spécialisation n’a pas introduit d’ajustement des poids du réseau.

Pour le cas de détection de piétons sur la base MIT Traffic (Figure 48b), les deux détecteurs génériques HOG-SVM et Faster R-CNN donnent pratiquement le même taux de détection. Et après la spécialisation, le Faster R-CNN spécialisé donne un gain dans le taux de détection supérieur à 50% avec moins d’un seul faux positif par image. Tandis que, le détecteur HOG-SVM spécialisé a enregistré un gain d’environ 40% avec un seul faux positif par image.

(a) CUHK_Square dataset (b) MIT Traffic dataset (a) & (b) Détection de piétons

Figure 48 – Comparaison des performances des détecteurs HOG-SVM et Faster R-CNN

Cependant, les résultats de détection de voitures sur la base MIT Traffic (Figure 48c) sont assez différentes. La spécialisation de détecteur HOG-SVM a apporté uniquement 18% par rapport au détecteur générique. Alors que le détecteur Faster R-CNN générique a détecté presque 40% des voitures et sa version spécialisée a détecté 80% des voitures toujours avec un seul faux positif par image.

Concernant le cas de la scène Logiroad Traffic (Figure48d), le HOG-SVM générique et le Faster R-CNN générique donnent pratiquement le même résultat à un FPPI=1. Mais le détecteur Faster R-CNN spécialisé a une performance égal à 70% par rapport 45% de performance qui a été enregistrée par le détecteur HOG-SVM spécialisé.

Cette série d’expérimentations a mis en évidence de nouveau la généricité de notre méthode, non seulement pour utiliser différents stratégies de proposition et d’observation mais aussi pour spécialiser différents classifieurs.

Conclusion

Dans la première section de ce chapitre, le processus complet de notre méthode de spécialisation d’un détecteur générique vers une scène vidéo cible est exposé. Ensuite, une description des différents détecteurs générique HOG-SVM est faite dans section 2.

Dans la troisième section du chapitre, une évaluation rigoureuse est réalisée. Nous avons étudié le choix du paramètre α_t et nous avons validé le critère d’arrêt fixé via l’étude de la convergence du détecteur au fur et à mesure de la spécialisation. Nous avons évalué la performance de l’approche via l’intégration de différentes stratégies de collecte d’échantillons et d’observation. Ainsi nous avons testé sa performance, dans la quatrième section, vis-à-vis autres algorithmes de l’état de l’art. Dans la dernière section, nous avons montré la généricité de notre approche par un test de spécialisation d’un détecteur à base d’apprentissage profond (le Faster R-CNN).

Dans le chapitre suivant, nous allons présenter le logiciel OD SOFT et les étapes d’implémentation et d’intégration de notre travail dans OD SOFT ainsi que les comparaisons effectuées.

Implémentation

Introduction

L’entreprise Logiroad est une société d’édition des logiciels d’aide à la décision dans le domaine de trafic routier. Logiroad vend cinq produits qui sont L²R Mesure, L²R Base, L²R Programme, OD Record et OD Soft. Les trois premiers sont destinés principalement à l’entretien des routes et les deux derniers sont destinés à l’exploitation des informations collectées sur le trafic routier. Les produits de Logiroad permettent de fournir : des statistiques précises et rapides sur la densité de la circulation routière, prévention et élimination des cas de congestion, estimation des budgets des entretiens des routes, etc. Les principaux clients de logiroad, nationaux et/ou internationaux, sont les gestionnaires des routes.

Nous nous intéressons particulièrement au logiciel OD SOFT que nous allons présenter dans la première section de ce chapitre. La deuxième section décrira sa configuration et son fonctionnement. La troisième section sera réservée à exposer l’intégration des détecteurs spécialisés dans le logiciel OD soft. Dans la dernière section, nous comparons la méthode Vu-mètre de Logiroad aux deux détecteurs HOG-SVM et Faster R-CNN spécialisés par notre approche.

Les parties de ce chapitre, qui reprennent les bases de logiciel OD SOFT, sont fortement inspirées de site web de Logiroad¹, et de Manuel OD Soft V1.3 [Pitard et Goyat, 2015].

1 Présentation OD SOFT

Le logiciel OD SOFT (Figure 49), est un programme d’analyse et d’étude de trafic routier. Il permet plus précisément de connaitre le flux des véhicules selon leur catégorie par vidéo, de géné-rer automatiquement des rapports de résultats telles que des matrices Origines / Destinations, des comptage, etc.

Le logiciel permet de faire la classification des véhicules en cinq catégories :

— 2 R : C’est la classe des véhicules à 2 roues qui regroupe les instances de motos et vélos. — VL : C’est la classe des véhicules légers à 4 roues.

— PL : C’est la classe des véhicules de poids lourds. — Bus : C’est la classe des véhicules de type Bus.

— PLG : C’est la classe qui représente des véhicules de poids lourds avec remorque.

L’utilisateur du logiciel intervient pour spécifier les catégories à classer dans chaque séquence vidéo, pour fixer les valeurs de certaines paramètres et pour déterminer le type des résultats à fournir après le traitement.

1. http ://www.logiroad.fr/

Figure 49 – Interface utilisateur du logiciel OD SOFT.

2 Configuration et fonctionnement de OD SOFT

Le processus d’analyse de vidéo effectué par le logiciel est composé principalement de deux étapes : — Configuration : Cette étape consiste à créer un projet pour définir des paramètres spécifiques

à un site, et de sauvegarder les éléments modifiés par l’utilisateur.

— Traitement et exportation du résultat : Cette étape consiste à détecter, suivre les objets et déterminer leurs trajectoires. En plus, il présente le résultat selon le choix fixé par l’utilisateur au cours de l’étape de configuration.

Dans le document Apprentissage semi-supervisé pour la détection multi-objets dans des séquences vidéos : Application à l'analyse de flux urbains (Page 117-127)