trac routier

4.3 Détection et suivi des véhicules

4.3.3 Evaluation des performances

              atan(Fy(id) Fx(id)), if Fx ≥ 0et Fy ≥ 0 atan(Fy(id) Fx(id)) + u, if Fx < 0 atan(Fy(id) Fx(id)) + 2 × u, if Fx ≥ 0et Fy < 0 (4.2)

Avec Fy et Fx sont respectivement les gradients horizontal et vertical.

4. Construction des blocs et normalisation

Pour la phase de construction des blocs, on regroupe plusieurs cellules dans un bloc. Les blocs sont chevauchants (se recouvrent sur un seul pixel), donc une même cellule participe plusieurs fois au descripteur nal, comme membre de blocs diérents.

Les expérimentations faites par Dalal et Triggs, pour la détection de véhicules [89], ont montré que la meilleure performance est obtenue pour des blocs rec-tangulaires contenant 2 × 2 cellules de 8 × 8 pixels chacune.

Une étape de normalisation des descripteurs, an d'éviter les erreurs dues aux variations d'illumination est ensuite eectuée. Plusieurs types de normalisation sont proposés. La meilleure normalisation adaptée au contexte de détection des

véhicules est la 0L1 − racine0 [89] (Equation 4.3).

L1 − racine :f =

s ϑ

(kϑk1+ ε) (4.3)

Avec ϑ, le vecteur non normalisé contenant tous les histogrammes d'un seul bloc,

kϑk1 est sa k-norme et ε est une constante de faible valeur.

4.3.3 Evaluation des performances

Par cette phase nous souhaitons analyser et illustrer les performances de l'approche proposée à deux niveaux :

1. Une évaluation des performances des paramètres d'apparence (HOG) en termes de représentativité des caractéristiques, de spécicité des véhicules, et en termes de taux de détection correcte(cas de mono et multi-détection).

2. Une étude expérimentale pour évaluer les performances de notre approche basée sur le HOG optimisé par la fusion de paramètres de mouvement et d'apparence dans un cas de détection dynamique.

4.3.3.1 Cas de détection statique

Dans le cas de détections statiques, nous cherchons à illustrer les performances des paramètres de l'apparence. En premier lieu, on met en relief la bonne représentativité de l'HOG et de ses caractéristiques les plus représentatives d'un véhicule ainsi que sa sensibilité à l'espace de couleur utilisé. En deuxième lieu, on évalue les potentiels de l'HOG en termes de détection d'un ou de plusieurs véhicules. Par conséquent, deux bases de données sont utilisées à ce niveau : une en niveau de gris (Figure 4.5) et l'autre en vrais couleurs (RVB) (Figure 4.6 ).

 UIUC [189] base de données en niveau de gris. Cette base de données contient des images des voitures en vues latérales. Les images ont été collectés à UIUC. Cette base contient 1050 images d'entraînement (550 voitures et 500 images sans voiture), 170 images de test à une seule échelle, contenant 200 voitures à peu près à la même échelle que dans les images d'entraînement et 108 images de test multi-échelle, contenant 139 voitures à diérentes échelles. Des échantillons de la base UIUC sont présentés à la gure 4.5.

Figure 4.5  Échantillons de la base de données UIUC : a) Exemple positif et b) Exemple négatif.

 TUDarmstadt [190] (sideviews-cars) base de données en vrais couleurs. Cette base contient des images de voitures ainsi que de non voitures capturés à l'ex-térieur. Un extrait de cette base est présenté par la gure 4.6

Figure 4.6  Échantillons de la base de données TUD : a) Exemple positif et b) Exemple négatif.

d'une voiture par l'HOG

La puissance du descripteur HOG se trouve surtout dans sa capacité à reproduire correctement l'apparence de l'objet cible. En fait, dans cette partie nous visualiserons comment le HOG voit l'objet et l'eet de l'espace de couleur ainsi que la résolution de l'image sur les performances. Pour cette objectif, nous nous basons sur l'algorithme 'HOGgles' proposé par [191] qui présente un 'HOG dictionnaire' pour coder et, visuali-ser les ensembles des gradients orientés par classe (bin) sous forme d'images en niveaux de gris. L'intensité des couleurs et ainsi représenté par, le nombre de pixels de contour orientés dans chaque direction.

Nous présenterons en premier lieu des exemples de l'HOG de véhicules en niveaux de gris (Figure 4.7.a) et en RVB (Figure 4.7.b). Dans un second temps nous présenterons quelques exemples de HOG pour des objets autres que l'objet cible (Figure 4.8).

Figure 4.7  Visualisation de voitures par l'HOG : a) Exemples des images aux niveaux de gris et b) Exemples des images en RVB.

On remarque que plus le nombre de pixels de contour orientés dans une direction (parmi les 18 bin) est important, plus la couleur de représentation est intense. De ce fait, les orientations de gradients les plus importantes sont représentées par la cou-leur blanche, alors que les faibles orientations sont de faibles intensités, voire même invisibles.

Figure 4.8  Visualisation d'objets autres qu'une voiture par l'HOG : a) Images ini-tiales et b) HOG.

En se basant sur ces représentations on constate également que les gradients les plus intenses reproduisent la forme d'un véhicule. On constate aussi que la forme du véhicule est concave et symétrique suivant l'axe du milieu vertical de la matrice, comme cela est illustré à la gure 4.9.

Figure 4.9  Illustration de la similarité de l'HOG d'une voiture. 4.3.3.1.2 Performances en termes de reconnaissance des véhicules

Pour tester les performances du processus proposé pour la détection de véhicules, nous présenterons une première étude expérimentale, menée sur deux bases de don-nées, avec des conditions diérentes. Le premier consiste à évaluer les paramètres d'apparences retenus, en termes de mono-détection. Le deuxième test présente leurs

(UIUC et TUD) déjà présentées dans la section 4.3.3.1. Les résultats des mono et multi-détections sont présentés respectivement par le tableau 4.1, la gure 4.11 et le tableau 4.2 , la gure 4.10.

Table 4.1  Taux de reconnaissance d'un véhicule unique

UIUC TUD

Apprentissage Test Apprentissage test

630 images 170 images 60 images 77 images

Taille [40,100] Variable [80,200] Variable

Taux 88,24% 100%

Table 4.2  Taux de reconnaissance multi-véhicules

UIUC TUD

Apprentissage Test Apprentissage test

630 images 30 images 60 images 5 images

Taille [40,100] Variable [80,200] Variable

Taux 100% 100%

Figure 4.10  Illustration de la détection de plusieurs véhicules dans une scène sta-tique.

Figure 4.11  Illustration de la détection d'un seul véhicule dans une scène statique. La première constatation importante est une sur-détection. En fait, quelques fe-nêtres contiennent deux parties de deux véhicules diérents qui sont considérées comme un seul véhicule (cas du rectangle vert de la gure 4.10). En eet, le rectangle bleu est le véhicule 1, le rouge est le véhicule 2 alors que vert est une fausse détection. Ce problème ne se retrouve qu'avec la base UIUC, qui est une base en niveau de gris.

Les fausses détections sont expliquées [191] par la précision des caractéristiques choisies : comment le descripteur voit l'objet recherché. Ces conclusions sont déjà illus-trées par la visualisation de la matrice d'HOG de l'objet véhicule dans deux espaces de couleurs déférents : Niveaux de gris et RGB (Figure 4.7).

tion du temps de calcul

Dans cette section, nous étudierons les performances du processus proposé : 'HOG optimisé', pour une application dynamique. Les performances seront illustrées en termes de taux de reconnaissance et de temps de calcul.

4.3.3.2.1 Base dynamique utilisée

Nous avons enrichi la base de données CWV (CrossWalkValenciennes) [111] par des séquences capturées dans l'espace urbain dans le contexte de la traversée d'une rue (Annexes, scénarios de test 2 ). En fait, ces séquences se composent de vidéos de voitures et de piétons avec des situations importantes d'occlusion, des directions, des variations d'éclairage et de poses. La base de données utilisée incorpore également des séquences vidéo de mono et multi véhicules sur route avec diérentes situations de croisement entre ces véhicules, comme illustré par la gure 4.12.

Figure 4.12  Echantillons de la base dynamique.

4.3.3.2.2 Résultats

Le taux de reconnaissance est mesuré à l'aide du SVM binaire (1 = voiture, 0 sinon). Cependant, le temps de calcul est mesuré par le nombre de secondes nécessaires pour détecter toutes les voitures présentes sur une image.

Le système proposé de l'HOG optimisé, est évalué en mono et en multi-détection de voitures comme illustré par la gure 4.13. a et .b, respectivement. La variation de l'état d'éclairage est également prise en compte dans cette étude expérimentale. En fait, les gures 4.13. a et .b sont lmés à diérents moments de la journée. La performance

Figure 4.13  Illustrations de la détection de véhicules : cas dynamique. a) mono-détection, b) multi-détection.

du processus proposé est aussi, évaluée en fonction de la variation de direction de la voiture (trac gauche et/ou droit).

Les résultats expérimentaux du taux de reconnaissance et du temps de calcul sont résumés dans le tableau 4.3.

En se référant au tableau 4.3, nous pouvons mettre en évidence la capacité du pro-cessus proposé en termes de détection mono et multi-voitures en situation dynamique, quelle que soit la distance par rapport à la caméra, la direction des voitures et la variation de l'état d'éclairage. Nous atteignons 84, 62% de taux de reconnaissance. Le tableau 4.3 résume l'étude comparative entre l'HOG calculé à partir de l'image originale et uniquement l'objet en mouvement. En fait, le temps de calcul diminue nettement de

1heure approximativement consacrée à explorer des vidéos de 130 images en utilisant

Table 4.3  Evaluation des performances de l'approche proposée en termes de taux et de temps de détection : cas dynamique.

HOG par blocs

[90] Processus proposé : HOGoptimisé Séquence 1

Nombre d'images 130

Espace de couleur RVB (Vrais couleurs) Taille des fenêtres

de recherche (pixel)

1440x1080 10x35 (taille maximale d'ob-jets d'avant plan )

Temps de calcul (seconde) 3600 43,65 Taux de recon-naissance 78,46% 84,62% Séquence 2 Nombre d'images 85

Espace de couleur RGB (vrais couleurs) Taille des fenêtres

de recherche (pixel)

1440x1080 31x94 (taille maximale d'ob-jets d'avant plan)

Temps de calcul

(seconde) 2592 31,32

Taux de

recon-naissance 68,75% 83,75%

même, le taux de reconnaissance est important dans les deux cas avec une amélioration conséquente en utilisant le modèle proposé (+6, 16% et +15% respectivement pour les séquences 1 et 2).

4.3.3.2.3 Étude comparative

Une étude comparative avec les travaux de la littéraire est également proposée pour mettre en évidence la robustesse de notre processus, surtout en termes de taux de re-connaissance et de temps de calcul.

Nous présenterons ici une étude comparative avec 2 autres travaux [192, 187] ayant comme objectif principal la réduction du temps de calcul pour des applications dyna-miques de détection de voitures telle que présentée dans le tableau 4.4.

Le premier travail présenté par [192] introduit un détecteur de voitures en temps réel basé sur le détecteur WaldBoost et le 'tracker' TLD et inclut en totalité 7 pro-cessus (WaldBoost *, Warping + RF (Randomized Forest) Learning, LrD - Détect), les échantillons négatifs LrD, FoT (Flock of Trackers), la vérication WaldBoost, la

Table 4.4  Etude comparative des performances de notre approche en termes de taux et de temps de détection.

Approche proposée HOG+GPU [187] [192] Résolution des

images 1440x1080 320x240 1024x768

Architecture CPU GPU-CPU CPU

Temps de calcul

(s/image) 0,3 0,1 0,7

Taux de

recon-naissance 84,62% 85% 80%

vérication LrD. Ce système est complexe et nécessite une phase d'apprentissage ex-haustive pour chaque séquence. Cinq images de pré-acquisition sont nécessaires, pour que l'algorithme se stabilise avant de commencer la mesure des performances réelles [192]. De plus, la détection d'un objet unique par ce système nécessite 0, 7s pour une image de résolution 1024 × 768 en utilisant le CPU.

Le second travail [187] exploite le GPU pour paralléliser les étapes de traitement de l'HOG an de réduire le temps de calcul. Une étude expérimentale sur une image de résolution de 320 × 240 est présentée. Ce travail atteint un temps de calcul égal à

0, 1 s/imagemais il utilise une architecture sophistiquée comme le GPU et le pipeline.

Aussi, la résolution de l'image utilisée est très petite comparée à celle adoptée. Cepen-dant, l'approche proposée ne fait que 0, 3 s/image et atteint un taux de reconnaissance très satisfaisant de 84, 62% en utilisant uniquement un noyau de CPU i3.

Cette bonne amélioration du temps et du taux de reconnaissance est justiée par l'optimisation du processus de calcul des caractéristiques de l'HOG qui sera directement focalisé sur l'objet cible (blob de premier plan). Cette méthode réduit le temps de calcul passé notamment pour l'exploration de toute la scène et donne un détecteur de voiture rapide et performant.

4.4 Modélisation de la zone de traversée (passage

Dans le document Approche automatique à base de traitement d'images pour l'analyse comportementale de piétons âgés lors de la traversée d'une rue (Page 122-131)