• Aucun résultat trouvé

3.2 Détection de personnes

3.2.3 Détection par la forme

Une manière de détecter une personne est d'identier sa forme dans l'image. Pour cela, la caractéristique image utilisée est son contour ou bien sa silhouette. Les limites d'un objet génère habituellement de fortes variations d'intensité dans l'image. La détection de contours est généralement utilisée pour détecter ces variations. L'une des propriétés im- portante des contours est qu'ils sont moins sensibles aux changements de luminosité que la couleur. On choisira des détecteurs de contour présentant des qualités de simplicité et de précision, tels que le détecteur de Canny [Canny 86] ou le détecteur de Shen-Castan [Shen 92]. Pour plus d'informations concernant les détecteurs de contour, nous invitons le lecteur à se référer à l'évaluation de détecteur de contour fournie par Bowyer et al. [Bowyer 01].

Au-delà de l'attribut image que sont les contours, ils peuvent être utilisés pour détec- ter un objet en le reconnaissant à partir d'un exemple. Le but est alors de retrouver les contours de l'objet exemple dans l'image. Étant donné un objet, il est possible de le dé- tecter à l'aide de sa silhouette, cette silhouette est retrouvée dans l'image par une mise en correspondance de forme ou par l'évolution d'un contour. Les méthodes de mise en correspondance de forme recherchent la silhouette de l'objet dans l'image alors que celles utilisant les contours feront évoluer ceux-ci pour trouver les frontières de l'objet.

La mise en correspondance de forme peut être eectuée de la même manière qu'une mise en correspondance de modèle où la silhouette d'un objet et son modèle associé sont re- cherchés dans une image. Cette recherche se base généralement sur un critère de similarité entre l'objet et le modèle candidat à la recherche. Dans cette approche, les mouvements autorisés du modèle pour eectuer la recherche sont généralement des translations, des rotations et des changements d'échelle.

En 1993, Huttenlocher et al. [Huttenlocher 93] eectuaient une mise en correspondance en représentant la forme par ses contours. Les auteurs utilisaient la distance de Hausdor pour construire une surface de corrélation à partir de laquelle le minimum était choisi pour être la position de l'objet. La métrique de Hausdor est une mesure comparant deux ensembles de points [Hausdor 62].

Le système W4 de Haritaoglu, Harwood et Davis [Haritaoglu 00] utilise la méthode de

mise en correspondance pour détecter des piétons. La détection de personne s'eectue dans leur cas en deux temps : détection des objets de l'avant-plan puis identication des personnes par leur forme. Leur identication par la forme utilise des caractéristiques glo- bales représentées par deux histogrammes résultant de la projection horizontale (verticale) de la silhouette binaire 2D (extraite de la soustraction du fond de scène), le long de (per- pendiculairement à) son axe médian (gure 3.7(bcde)). Plusieurs modèles de silhouette de personnes ont été initialement calculés. L'identication d'une silhouette candidate s'ef- fectue d'aprés la similarité des histogrammes calculée suivant la méthode SAD présentée dans [Haritaoglu 98].

(a) (b) (c) (d) (e)

Fig. 3.7: Détection de personnes, méthode de Haritaoglu, Harwood et Davis [Haritaoglu 00]. Une image en entrée (a). Les caractéristiques globales de la personne : la silhouette détectée (b), son axe median (c), les histogrammes de la projection en x et y de la silhouette (d) et (e).

Bien que robuste aux conditions d'illumination, le contour d'un objet est fonction du point de vue de la caméra. Un grand nombre d'objets non-rigides ont des formes com- plexes qui ne peuvent être simplement décrites par une représentation géométrique de leur forme, par exemple les mains ou le haut du corps. Les modèles de contours d'ob- jets fournissent eux une représentation précise. Nous pouvons classer les descripteurs de contour en deux catégories selon les méthodes d'évolution du contour. La première fait évoluer le contour suivant son énergie en utilisant des méthodes de minimisation tel que la descente de gradient ; nous présentons une de ces méthodes section 3.2.3.1. La deuxième utilise un modèle de l'espace des états pour modéliser la forme du contour (section 3.2.3.2). 3.2.3.1 Contours actifs

Lorsque l'on utilise des contours actifs, la segmentation de l'image est obtenue en faisant évoluer un contour fermé vers les frontières d'un objet de manière à ce que le contour entoure la région de l'objet. Cette évolution est dirigée par une fonction d'énergie qui dénit l'alignement du contour sur la région de l'objet. La fonction d'énergie du contour a la forme suivante :

E(C) =

Z 1

0

(Eint(v) + Eim(v) + Eext(v))ds (3.2)

Où s est la longueur du contour C, Eint contient les contraintes de régularisation in-

ternes, Eim exprime l'énergie à partir de l'apparence (l'image) et Eext spécie d'autres

contraintes extérieures. Eint contient généralement les termes dénissant la courbure du

contour, soit un terme de continuité du premier ou du second ordre de manière à trouver

le contour le plus court. L'énergie de l'apparence (image) Eim est habituellement calculée

à partir des gradients de l'image dénie par le contour courant, ou bien à partir de la couleur ou de la texture évaluées à l'intérieur et à l'extérieur de l'objet.

Cependant, lors de la mise en oeuvre il est important de bien initialiser le contour. L'énergie permettant sa déformation à partir des données images dépend de son voisinage proche : s'il est mal positionné à l'initialisation (trop loin de la cible) il ne convergera pas vers l'objet recherché. Habituellement le contour est placé de manière à englober l'objet

3.2. Détection de personnes pour se rétrécir jusqu'à ce qu'il ait trouvé les frontières du dit objet.

Une autre caractéristique de ces méthodes concerne la représentation du contour (voir gure (3.8)). Le contour peut être soit explicite (des points de contrôle), soit implicite (des ensembles de niveaux level sets). Dans la représentation explicite, la relation liant les points de contrôle est donnée par des courbes paramétriques : courbes de Bézier, B-spline (Cf gure 3.8a). Pour la représentation implicite, le contour est représenté par une grille codant les distances des points grille au contour (Cf gure 3.8b). Le contour évolue lors de la modication des valeurs de cette grille.

(a) (b)

Fig. 3.8: (a) représentation explicite, ici un B-spline avec illustration de la recherche de gradient le long des normales au contour, (b) représentation implicite, chaque position de la grille code la distance euclidienne entre un point de la grille et un point du contour ; les niveaux de gris représentent les valeurs de la grille

L'avantage le plus important de la représentation implicite est la variation topologique autorisée : les contours représentés par des level sets permettent la division d'un contour en plusieurs contours ainsi que la fusion de plusieurs contours. Cependant la représentation en grille est plus coûteuse en temps de calcul que la représentation explicite.

3.2.3.2 Modèle actif de formes

En eectuant un apprentissage statistique à partir d'un ensemble de formes, il est possible de construire un modèle de variations globales d'une forme. Ce modèle est ap- pelé un modèle de distribution de points (Point Distribution Model PDM) a été introduit par [Cootes 92]. De cette manière, un objet segmenté peut être comparé au PDM, ce qui permet d'eectuer une classication tout en autorisant les variations contenues dans l'en- semble d'apprentissage. Nous détaillerons brièvement la procédure de construction d'un PDM en utilisant une analyse en composantes principales. Pour une description plus dé- taillée, nous invitons le lecteur à se référer au travaux de suivant de Beaumberg et Hoog [Baumberg 94a] ainsi que de Tim Cootes [Cootes 95] .

Un ensemble de formes doit être disponible ; il formera l'ensemble d'apprentissage. Cet ensemble doit être aligné dans le même repère pour ne pouvoir considérer que les va- riations de forme sans les variations d'échelle, d'orientation et de translation. La forme moyenne est ensuite calculée, puis la matrice de covariance de l'ensemble d'apprentissage est établie. Le PDM est ensuite constitué par la sélection des N vecteurs propres de la matrice de covariance capturant le plus de variations.

Nils Siebel [Siebel 03] utilise un modèle actif de forme pour reconnaître des piétons dans

son système de vidéosurveillance 5. Cette forme active est initialisée sur une région pré-

détectée par un détecteur de mouvements et ayant des coordonnées de référence pour son alignement fournies par un détecteur de tête.