Approche proposée : suivi multiple basé sur la maximisa- maximisa-tion de similarité de spatiogrammemaximisa-tion de similarité de spatiogramme

Dans le document Approche automatique à base de traitement d'images pour l'analyse comportementale de piétons âgés lors de la traversée d'une rue (Page 61-67)

2 données 'microscopiques' de

2.3 Détection et suivi de personnes

2.3.3 Approche proposée : suivi multiple basé sur la maximisa- maximisa-tion de similarité de spatiogrammemaximisa-tion de similarité de spatiogramme

A l'issu de ce rapide état de l'art de la détection et du suivi de personnes, les ap-proches sont classées selon les techniques utilisées en 3 catégories : (i) Apap-proches basées sur la forme, qui cherchent à caractériser la personne par un modèle morphologique en-globant les diérentes poses prises par le corps humain, (ii) Approches basées sur un modèle de mouvement, exploitant la périodicité du déplacement des personnes, et (iii) Approches basées sur la textures et la couleurs, caractérisant la personne par l'occur-rence de textures et de couleurs de la peau. Suite à une analyse comparative entre ces diérentes approches (cf partie 2.3.1), nous avons opté pour l'utilisation du descripteur de HOG (Histogramme of Oriented Gradian) par blocs de 2 × 2 cellules pour caracté-riser une personne, avec une étape de classication par SVM. Cette approche est basée sur l'apparence et la forme pour tenir compte de la nature très articulée du corps hu-main. Nous avons aussi proposé une méthode d'interpolation inter-frames permettant d'améliorer l'étape de détection. Cette interpolation est relative à la trajectoire ainsi qu'à la vitesse de déplacement du piéton. Une fois que la personne est localisée, nous

fait, pour suivre un objet en mouvement, on peut distinguer deux grandes catégories d'approches : (i) des modèles de mouvement tels que les ltres de Kalman et les ltres particulaires et (ii) des approches de ré-identication basées sur l'apparence à savoir les histogrammes de couleur, les spatiograms et la combinaison de textures et de cou-leurs (cf partie 2.3.2). Tenant compte de notre contexte de travail nous avons opté pour le suivi par association de détections avec un module de ré-identication. Comme on est dans un contexte de suivi multiple où les personnes peuvent se chevaucher et être perdues ou invisibles pour quelques images, nous proposons d'utiliser un modèle d'apparence, tel que le spatiogramme, pour le calcul de similarité et la ré-identication des personnes.

2.3.3.1 Détection continue : frame par frame

2.3.3.1.1 Histogrammes de Gradient Orienté (HOG)

L'idée générale du descripteur HOG consiste à caractériser l'objet cible à la fois par l'apparence et la forme. Une telle représentation répond convenablement à la spécicité de la personne, qui est un objet très articulé, dont la forme varie considérablement à cause du mouvement et de l'inclinaison de la tête, des bras et des jambes, surtout lors du déplacement. En eet, une simple caractérisation par un modèle morphologique xe peut, ne pas détecter la personne dans leurs positions multiples. Les HOG par blocs se basent sur l'hypothèse que la morphologie locale de la personne peut rester semblable, même si la morphologie globale est modiée. Par la suite, le principe de HOG est de calculer un vecteur caractéristique global, par la fusion de plusieurs HOGs calculés localement sur des cellules de pixels, puis de les regrouper et de les normaliser par blocs de cellules contiguës. Les étapes de calculs du descripteur HOG [89] sont illustrées par la gure 2.4 et détaillées comme suit :

1. La première étape consiste à réduire l'inuence des eets d'illumination et les variations d'éclairage. Pour cela, une égalisation globale des images est appliquée par l'intermédiaire de la compression gamma (power law) en calculant la racine carrée de chaque canal de couleur.

2. La deuxième étape vise à produire un encodage qui est sensible au contenu d'image local tout en restant résistant aux petits changements de pose ou d'ap-parence. La méthode adoptée regroupe les informations d'orientation de gradient local. En premier lieu, la fenêtre de recherche (de taille [64 × 128]) est divisée en petites régions spatiales de 3 × 3 pixels, appelées "cellules". Pour chaque cel-lule, nous accumulons un histogramme 1D local des orientations de gradients de tous les pixels de la cellule. Chaque histogramme d'orientation divise la plage d'angles de gradients en un nombre xe de cases prédéterminées. Deux cas sont ensuite distingués, le cas de [0, 180] et le cas de [0, 360]. Dans le cas de la pré-sence de personne, la plage d'angle testée et estimée dans [89] à [0, 180]. Les grandeurs de gradients des pixels dans la cellule sont utilisées pour voter dans l'histogramme d'orientation suivant le nombre de classes (bin) utilisés (9 bins). Le masque [−1 0 1] est utilisé pour le calcul de gradient.

Figure 2.4  Illustration des étapes d'extraction des Histogrammes de Gradient Orien-tés : cas de la détection d'une personne [89].

3. La troisième étape est une étape de normalisation pour une meilleure correction des eets de luminance et de changements d'éclairage, ainsi que des contrastes de bord. En fait, les cellules locales déjà générées sont regroupées en blocs de

2 × 2 cellules chevauchantes. Par conséquent, une seule cellule peut appartenir

à plusieurs blocs. Cela peut créer une sorte de redondance, mais les expéri-mentations de [89] ont montré que cette méthode améliore considérablement les

performances. La phase de normalisation est assurée par le L2Hys [89].

4. L'étape nale consiste à regrouper les descripteurs HOGs de tous les blocs cou-vrant la totalité de la fenêtre de recherche en un seul vecteur caractéristique. Ce dernier sera passé au classieur SVM pour déterminer si la fenêtre contient ou non une personne.

2.3.3.1.2 Interpolation

Le HOG est robuste vis-à-vis de la variation de luminosité, de conditions d'éclairage, de contrastes et du fait qu'il contourne convenablement la forme complexe et variable du corps humain par une représentation de l'apparence et de la forme locale de l'objet via la distribution locale des intensités de gradients ou de directions des contours. Cependant,

pallier à cet inconvénient, nous proposons d'interpoler les détections manquantes pour un ou plusieurs frames. En fait, nous cherchons la position de piéton(s) perdu(s) par un processus d'interpolation basé sur des hypothèses tenant compte de la vitesse moyenne

et le déplacement du piéton (un pas mesure environ 0, 65 m, il avance de 2, 05 pas.s−1

pour une vitesse moyenne de 1, 33 m.s−1 et la distance avec le prédécesseur est d'au

moins 1 m [108]). Ainsi, un piéton fait approximativement un déplacement moyen de

0, 053mpar frame. Par conséquent, nous modélisons le processus d'interpolation comme

une translation, avec un vecteur ~u, des dernières détections comme le montre la gure 2.5.

Figure 2.5  Interpolation des détections manquantes.

En fait, la boite englobant le piéton se caractérise par un quadruplé (x, y, w, h) avec

(x, y) les coordonnées du point de départ, alors que 0w0 et 0h0 sont respectivement la

largeur et la hauteur de la boîte englobante. La translation consiste à trouver l'image

P i(xi, yi) du point P (x, y) dans la même direction et en utilisant un vecteur ~u, ayant

comme norme la distance moyenne calculée par rapport à la vitesse moyenne, et en gardant les mêmes dimensions w et h.

Pour illustrer les performances du détecteur de personnes adopté, des évaluations ont été faites sur des images collectées pour des personnes en train de traverser une rue. Ces images incluent des dicultés à plusieurs niveaux à savoir, l'éclairage, le point de vue, la distance des personnes par rapport à la caméra ainsi que le nombre de personnes disponibles dans la scène. La gure 2.6 présente des exemples de détections réalisées suite à l'application de processus proposé : HOG + Interpolation.

Les performances du processus proposé (HOG + Interpolation) ont été testées en termes de détection de personnes vis-à-vis de plusieurs contraintes : variation de lu-minosité (personne dans des zones claires (Figure 2.6 b, c et d) et d'autres sombres (Figure 2.6 a), variations de point de vue (vues frontale, fronto-parallèle (Figure 2.6 c), de face (Figure 2.6 b), de dos (Figure 2.6 d et b), variation de distances par rapport à la caméra (loin, proche (Figure 2.6 c et d) et nombre de personnes (Figure 2.6).

Figure 2.6  Illustrations de détections à partir du processus HOG + interpolation.

2.3.3.2 Suivi de personnes par l'association de détections avec utilisation

d'une métrique de similarité de spatiogramme 2.3.3.2.1 Associations de détections

Parmi les problèmes les plus critiques pour le suivi de plusieurs objets dans une scène, on retrouve le chevauchement des objets et la ré-identication de l'objet après sa perte, soit à cause de l'occultation inter-objets ou par un obstacle dans la scène, soit à cause d'intersection de trajectoires et de changement de direction (problème de 'split' et 'merging' [109]). Dans le contexte de traversée d'une rue, on rencontre fréquemment ce genre de problèmes puisque l'on est dans un environnement extérieur avec l'existence de plusieurs obstacles (voiture, arbre, bâtiments) ainsi que d'un ux de piétons pouvant se chevaucher en traversant la rue dans les deux directions.

Par conséquent, notre stratégie de suivi se base sur l'association de détection avec un module d'association et de ré-identication tel que le spatiogramme. En eet, les détections déjà faites dans l'étape précédente sont organisées sous forme d'une arbo-rescence (Figure 2.7). Chaque frame de la séquence vidéo représente un niveau dans l'arborescence. Chaque détection est, initialement, inter-connectée avec toutes les dé-tections dans le niveau suivant par des arcs ayant comme coût la valeur de similarité

le chemin qui maximise la similarité entre les détections dans les diérents niveaux de l'arborescence. Comme métrique de similarité nous avons choisi la distance entre les spatiogrammes [110] des objets détectés.

Dans le processus d'association, chaque détection au niveau0i0 devrait être associée

à une et une seule détection au niveau0i + 10. Ainsi, une nouvelle personne entrant dans

la scène peut être simplement détectée et intégrée dans le système de suivi, étant donné qu'elle n'est pas similaire à toutes les autres détections précédentes, mais qu'elle est similaire à la suivante. Cependant, dans le cas d'une détection erronée, elle sera sup-primée du niveau suivant, car elle n'aura pas de similarité dans la suite de la séquence.

Figure 2.7  Association des détections [111]. 2.3.3.2.2 Calcul de spatiogramme et mesure de similarité

Selon une étude comparative entre les descripteurs de couleurs, de textures et de formes pour l'identication de plusieurs personnes [110], le spatiogramme présente les meilleures performances. En eet, le spatiogramme représente une extension de l'his-togramme. Il contient l'information de la distribution des couleurs et leurs répartitions spatiales. Par conséquent, nous proposons d'utiliser le spatiogramme comme modèle d'apparence pour vérier la similarité entre les détections. En particulier, nous utili-sons celui de Conaire [112] vu son pouvoir représentatif montré dans [110]. Pour cela, une phase de quantication est tout d'abord eectuée sur l'image originale pour

est calculé, qui correspond à l'attribution d'un nombre de pixels à chaque intensité de couleur. L'algorithme calcul alors, pour chaque intensité existante dans l'image

quan-tiée, sa répartition spatiale représentée par la moyenne 0µ0 et la covariance 0σ0 de la

position spatiale de tous les pixels qui appartiennent à la même classe d'intensité de l'histogramme tel que formalisé dans l'équation 2.1.

ηb = N X i=1 δib (2.1) µb = 1 PN j=1δjb N X i=1 XiTδib σib= 1 PN j=1δjb N X i=1 (Xi − µb)(Xi− µb)Tδib

Avec δib= 1 si le pixel i appartient à la classe d'intensité0b0, 0 si non et Xi = (xi, yi)est

la position spatiale de chaque pixel. Pour comparer deux spatiogrammes S(η, µ, σ) et

S00, µ0, σ0) contenant chacun B classes, une mesure de similarité est calculée comme

formalisé à l'équation 2.2. similarite = B X b=1 ψb q ηbηb0 (2.2) Avec ψb = ηexp(−1 2 b− µ0b0b−1b− µ0b)) σb0−1 = σ−1b + (σ0)−1b

0ψb0 représente la mesure de similarité spatiale et η est un facteur de normalisation

gaussienne.

Dans le document Approche automatique à base de traitement d'images pour l'analyse comportementale de piétons âgés lors de la traversée d'une rue (Page 61-67)