Approche proposée : Optimisation de l'Histogramme de Gradient OrientéGradient Orienté

Dans le document Approche automatique à base de traitement d'images pour l'analyse comportementale de piétons âgés lors de la traversée d'une rue (Page 119-122)

trac routier

4.3 Détection et suivi des véhicules

4.3.2 Approche proposée : Optimisation de l'Histogramme de Gradient OrientéGradient Orienté

Comme le montre l'état de l'art de la partie précédente, l'HOG est un descripteur puissant, utilisable pour la détection des objets au sens large et celle des véhicules en particulier [158, 159, 164]. Son insensibilité à la variation de pause ou à la luminosité et sa grande capacité à modéliser la forme et l'apparence de l'objet représentent ses points forts. Cependant, l'inconvénient majeur de l'HOG est le temps de calcul et la lourdeur [158, 159, 164]. Ainsi, dans ce travail, nous allons contribuer à optimiser son utilisation classique et à gagner en termes de temps de calcul. Pour cela, notre approche consiste

4.3.2.1 Les paramètres du mouvement

Sur la route et dans un contexte de traversée d'une rue, le véhicule en mouvement représente le danger majeur qui menace la sécurité des piétons. En fait, le mouvement des véhicules est le paramètre clef pour déterminer et gérer les gaps sécuritaires d'une part et prédire le moment pour traverser en toute sécurité d'autre part. Par conséquent, on suppose qu'un véhicule garé ne représente plus un danger direct. Par la suite, on ne s'intéressera qu'à la détection des voitures en mouvement sur la route. Se focaliser sur le mouvement permet de réduire la zone d'intérêt.

Le mouvement est capturé en partant d'un algorithme d'extraction d'arrière-plan. L'environnement extérieur change fréquemment à cause : des variations de conditions d'éclairage (diérents moments de la journée), de la présence simultanée de plusieurs ob-jets en mouvement (arbre, piétons, véhicules, panneaux publicitaires...), de la présence d'ombres... Tous ces éléments rendent la modélisation de l'image d'arrière-plan très critique. Dans cette optique, un modèle d'arrière-plan adaptatif est utilisé pour générer l'image plan dans [188]. Tout d'abord, pour apprendre le modèle d'arrière-plan initial, on utilise les premières ”n” images (xées empiriquement aux 15 premiers images [188]) de chaque séquence vidéo. Ce modèle, précédemment calculé, sera actua-lisé itérativement. Un pixel est considéré comme une partie de l'arrière-plan s'il est à une distance d (la valeur d = 20 est adoptée en se basant sur des observations expéri-mentales [188]) de l'une de ses couleurs de fond dans l'espace RVB. Pour l'adapter aux changements fréquents d'éclairage et de conditions météorologiques dans les séquences vidéo, les pixels de premier plan extraits sont ensuite soumis à un test de valeur de diérence de couleur par rapport à la luminosité, D qui est dénie comme présentée dans l'équation 4.1.

D = 18 × Dgb+ |log(VBG

Vcurr)| (4.1)

Où Dgb est la distance euclidienne entre le pixel courant et le pixel de fond dans

l'espace gb normalisé ; VBG est la luminosité de fond ; et Vcurr est la luminosité actuelle

du pixel.

La gure 4.3 montre l'ensemble des étapes de détection du premier plan et un exemple de détection d'une voiture.

Figure 4.3  Illustration d'extraction des objets en mouvement : a) Image initiale, b) Image de l'avant plan initialement obtenue, c) Image de l'avant plan post-traitée, d) Résultat d'extraction d'objets en mouvement et e) Détection du véhicule.

Pour un pixel de premier plan particulier, si D < 0, 5 [188], ce pixel est marqué comme un pixel de changement d'éclairage (ombre/ sur-lignage) et il est rejeté. Le premier plan résultant est ensuite post-traité pour éliminer le bruit (Figures 4.3 .b et c).

4.3.2.2 Les paramètres d'apparence a) Principe

L'idée importante derrière le descripteur HOG est que l'apparence et la forme lo-cale d'un objet dans une image peuvent être décrites par la 'distribution' de l'intensité du gradient suivant les directions du contour. Ceci peut être fait en divisant l'image en régions adjacentes de petites tailles, appelées cellules, et en calculant pour chaque cellule l'histogramme des directions du gradient ou les orientations des contours pour les pixels à l'intérieur de cette cellule. La combinaison des histogrammes forme alors le descripteur HOG. Pour de meilleurs résultats, les histogrammes locaux sont norma-lisés en contraste, en calculant une mesure de l'intensité sur des zones plus larges que les cellules, appelées des blocs, et en utilisant cette valeur pour normaliser toutes les cellules du bloc. Cette normalisation permet une meilleure résistance aux changements d'illuminations et aux ombres.

b) Les étapes de réalisation

1. Normalisation gamma des couleurs

Une correction gamma est appliquée sur l'image originele pour que la distribu-tion des couleurs soit normalisée et dépasser la variadistribu-tion de luminosité et de contraste.

2. Calcul de gradient

Pour le calcul de gradient on applique un 'ltre dérivatif 1 − D centré', dans les directions horizontale et verticale comme illustré à la gure 4.4.

Figure 4.4  Calcul des gradients horizontal et vertical d'un véhicule. 3. Calcul d'orientation et vote par cellule

dients. Ceci est fait dans des cellules carrées de petite taille (8 × 8 pixels). Chaque pixel de la cellule vote alors pour une classe de l'histogramme, en fonc-tion de l'orientafonc-tion du gradient à ce point. Le vote du pixel est pondéré par

l'intensité du gradient en ce point. Les histogrammes sont uniformes de 0 à 1800

(cas non signé) ou de 0 à 3600 (cas signé).

Dans le cas de la détection de véhicules, on utilise le gradient signé ([0, 2 × Π]). L'orientation des gradients se calcule comme ci-après (Equation 4.2 ).

g(id) =                atan(Fy(id) Fx(id)), if Fx ≥ 0et Fy ≥ 0 atan(Fy(id) Fx(id)) + u, if Fx < 0 atan(Fy(id) Fx(id)) + 2 × u, if Fx ≥ 0et Fy < 0 (4.2)

Avec Fy et Fx sont respectivement les gradients horizontal et vertical.

4. Construction des blocs et normalisation

Pour la phase de construction des blocs, on regroupe plusieurs cellules dans un bloc. Les blocs sont chevauchants (se recouvrent sur un seul pixel), donc une même cellule participe plusieurs fois au descripteur nal, comme membre de blocs diérents.

Les expérimentations faites par Dalal et Triggs, pour la détection de véhicules [89], ont montré que la meilleure performance est obtenue pour des blocs rec-tangulaires contenant 2 × 2 cellules de 8 × 8 pixels chacune.

Une étape de normalisation des descripteurs, an d'éviter les erreurs dues aux variations d'illumination est ensuite eectuée. Plusieurs types de normalisation sont proposés. La meilleure normalisation adaptée au contexte de détection des

véhicules est la 0L1 − racine0 [89] (Equation 4.3).

L1 − racine :f =

s ϑ

(kϑk1+ ε) (4.3)

Avec ϑ, le vecteur non normalisé contenant tous les histogrammes d'un seul bloc,

kϑk1 est sa k-norme et ε est une constante de faible valeur.

Dans le document Approche automatique à base de traitement d'images pour l'analyse comportementale de piétons âgés lors de la traversée d'une rue (Page 119-122)