Détection par le mouvement - Détection de personnes

3.2 Détection de personnes

3.2.2 Détection par le mouvement

La détection de personnes dans des séquences vidéo consiste à déterminer, pour une image ou une séquence d'images, si des personnes sont présentes, et éventuellement à déterminer leur position. La détection de mouvements permet de repérer les objets mobiles dans une séquence. Il existe diérentes techniques ayant pour but de détecter le mouvement dans une séquence d'images. Les approches communes sont le ot optique, la

3.2. Détection de personnes soustraction d'images et la suppression du fond. Un état de l'art récent sur ces méthodes de détection est présenté dans [Hu 04].

3.2.2.1 Flot optique

La segmentation du mouvement par ux optique utilise les vecteurs de mouvement des objets pour repérer les régions mobiles dans une séquence d'images. La méthode proposée par Lucas et Kanade [Lucas 81] est la plus populaire. Ces méthodes calculent le mouvement entre deux images prisent à l'instant t et t + δt pour chaque position de pixels. Ces méthodes sont également appellées diérentielles puisqu'elles utilisent des dérivées partielles spatiales et temporelles. Une présentation très complète est disponible dans [Barron 94]. Cependant la plupart de ces méthodes sont assez complexes à mettre en oeuvre et imposent une charge de calcul très coûteuse.

3.2.2.2 Diérence inter-images

Le problème peut se dénir simplement de la manière suivante : à partir d'une séquence d'images capturée par une caméra xe, nous voulons détecter les objets ne faisant pas partie de la scène. La solution peut se décrire naïvement : la détection s'eectue par soustraction d'une image statique de la scène à l'image courante. Soit :

|f ramei+1− f ramei| ≥ T h (3.1)

La diérence d'images est une technique relativement rapide utilisée pour récupérer les objets en mouvement dans une scène. Cette méthode est étudiée depuis la n des années 1970 [Jain 79]. Les images consécutives sont soustraites les unes aux autres, l'application d'un seuil sur l'image des diérences permet ensuite de récupérer les pixels correspondant à des régions en mouvement (voir gure 3.6). Plusieurs problèmes immédiats viennent à l'esprit lors de l'utilisation de cette technique. Si une région en mouvement et une ré- gion de la scène possèdent une même couleur et se superposent, elles seront supprimées. Les pixels subissant des variations brutales de luminosité seront détectées comme faisant partie de l'objet en mouvement. Un objet mobile que l'on cherche à détecter peut rester immobile pendant une durée δt et ne sera plus détecté. Enn les objets du fonds désoc- cultés sont interprètés comme en mouvement.

(a) (b)

Fig. 3.6: Exemple de diérence inter-image. (a) une nouvelle image, (b) la diérence absolue avec l'image précédente - eet du seuillage (c) trop élevé, (d) trop bas

3.2.2.3 Soustraction de scène

La technique de soustraction du fond la plus connue, initialement appelée blue scree- ning, a été développée à la n des années 1980 par l'industrie des eets spéciaux pour des lms à grand succès populaire. Elle est maintenant connue sous le nom de chroma-keying, où une surface bleue ou verte représente le fond de scène. Cette technique est aussi utilisée dans des émissions télévisuelles (par exemple les émissions de météo avec présentateur) et peut aussi être appliquée dans des applications de réalité virtuelle.

Cette technique est devenue populaire dans la communauté de la vision par ordinateur depuis les travaux de Christophe R. Wren et al. [Wren 97]. Dans le but d'apprendre les variations du fond, Wren et al. ont proposé de modéliser la couleur de chaque pixel d'une image de fond avec une Gaussienne 3D (dans l'espace des couleur YUV). Cependant, une seule Gaussienne ne donne pas une bonne modélisation de scène extérieure puisque plusieurs couleurs peuvent être observées au même point à cause du mouvement répétitif de certains objets (par exemple des arbres). Une amélioration dans la modélisation du fond est eectuée par Stauer et Grimson [Stauer 99] en utilisant des modèles statistiques multimodaux.

L'application de modèles Gaussiens unimodaux pour chaque pixel convient pour les arrières- plan de scènes ayant peu de dynamique. Eectivement ils ne modélisent qu'une tache dans l'espace de couleur utilisé. Les modèles multi-modaux sont dans ce sens plus attractifs

3.2. Détection de personnes puisqu'ils permettent aux pixels plusieurs variations dans l'espace. Cela convient pour les environnements extérieurs contenant des arbres, de l'eau en mouvement ou bien des environnements de bureaux contenant des écrans. L'algorithme proposé par Stauer et Grimson [Stauer 99] procède par classication. Il repose sur l'hypothèse que les distributions de couleur de l'arrière-plan et du premier plan sont distinctes et ne se recouvrent pas. De cette manière, des noyaux séparés seront utilisés pour séparer les deux plans. La classication est ensuite eectuée en étiquetant chacun des noyaux comme arrière ou premier plan. Mais dans le cas où les distributions de couleurs ne sont pas distinctes, les noyaux modélisant l'arrière et l'avant-plan se recouvreront.

Ahmed Elgammal, David Harwood et Larry Davis [Elgammal 00] proposent d'utiliser un modèle non paramétrique pour parer au problème d'adaptation de la modélisation du fond dans des scènes dynamiques, ceci à partir du constat suivant : si l'arrière-plan s'adapte trop lentement par rapport au changement dans la scène, alors le modèle construit cou- vrira un spectre de variation trop grand et il en résultera une très basse sensibilité de détection. A contrario, si le modèle s'adapte trop rapidement, il en résultera un autre type de problème puisque le modèle apprendra les cibles elles-mêmes.

Ces chercheurs utilisent donc un modèle non paramétrique dont ils estiment la densité à chaque instant, ce qui leur permet de détecter les variations rapides de la scène. De manière à prendre en compte deux types de variations, rapides et lentes, ils combinent deux modèles ayant une fenêtre temporelle d'adaptation petite pour l'un et grande pour l'autre. L'intersection des deux modèles supprime alors les faux positifs de chacun des modèles. Par contre cette méthode a l'inconvénient de supprimer certains vrais positifs du modèle ayant une petit fenêtre temporelle ; pour remédier à cela ils introduisent une information de relation spatiale entre les pixels leur permettant de garder le plus de vrais positifs possible.

Des relations spatiales entre pixels ont également été utilisées par Makito Seki et al. [Makito 03]. Leur modèle prend en compte les variations cooccurrentes entre blocs de pixels adjacents. Ils utilisent une décomposition en valeur propre du bloc de pixels ana- lysé pour en sous-tirer le nombre de couleurs que peuvent prendre ces pixels.

Une autre approche est d'incorporer d'autres types d'information que la couleur, tels que les contours ou bien des informations spatiales. Javed et al. [Javed 02] utilisent en plus de la couleur une information du type gradient (contours).

La diculté de la soustraction du fond ne vient pas seulement de la soustraction mais aussi de la maintenance du modèle du fond, de sa représentation et des statistiques associées. Cette opération est appelée background maintenance dans la littérature [Toyama 99]. Un système de maintenance du fond idéal devrait pouvoir résoudre les problèmes suivants :

1. Objets enlevés : un objet du fond peut être enlevé sans être considéré comme faisant partie de l'avant-plan.

rence du fond.

3. Changement brusque d'illumination : des changements soudains d'illumination.

4. Objets en mouvement : le fond peut osciller ; cela réclame des modèles permettant de représenter des groupes disjoints de pixels.

5. Camouage : un objet de l'avant-plan peut se fondre dans le modèle du fond. 6. Initialisation : pas de période d'apprentissage disponible sans objets d'avant-plan. 7. Ombres : les ombres d'un objet de l'avant-plan apparaissent diérentes du modèle

de l'arrière-plan.

Dans sa méthode, Jian Sun et al. [Sun 06] prend en compte les brusques variations d'illumination, les petits mouvements du fond, les objets posés ou enlevés ainsi que les petits mouvements de caméra inhérents à l'utilisation de webcam sur des ordinateurs portables. Son approche, prometteuse, consiste en un modèle de fond reposant sur deux types d'informations (couleurs et contours), une procédure d'atténuation des contours d'un fond complexe et une maintenance appliquée par l'adaptation du modèle de couleur. 3.2.2.4 Bilan

La limite la plus importante de la soustraction du fond est l'obligation d'avoir une caméra immobile. Dans le cas contraire, il faut regénérer le fond de scène régulièrement durant de courtes fenêtres temporelles (toutes les 3 images) [Kanade 98] ou compenser les mouvements du capteurs [Irani 98]. Cependant l'application de ces solutions exige que la scène soit plane et les mouvements inter-images petits.

Les méthodes de soustraction du fond utilisées en interaction homme-machine doivent produire un résultat très rapidement car elles sont souvent appliquée systématiquement sur toute l'image et en amont de toutes les autres méthodes (voir gure 3.1). De plus, si les méthodes suivantes se basent sur ce résultat, elles doivent être robustes aux conditions de l'interaction.

Une scène en apparence statique peut comporter de nombreuses variations. Ces variations sont de diérentes natures : elles peuvent avoir comme origine les condition d'éclairages, des objets en partie xes dans la scène mais produisant un mouvement interne (les scin- tillement d'écrans dans une pièces, le mouvement des feuilles des arbres...). Diérentes stratégies ont été proposées pour répondre à ces problèmes : la modélisation de plusieurs couleurs pour un pixel, la prise en compte de relations spatiales entre pixels, la fusion de diérents attributs image (couleur et contour).

Cependant il est nécessaire d'ajouter des descriptions sémantiques pour prendre en compte la totalité des évènements pouvant subvenir dans une scène et opérer une bonne maintenance du fond de scène. Dans ce but, nous devons donc prendre en compte le contexte scénique dans lequel notre système sera mise en oeuvre.

3.2. Détection de personnes

Dans le document Suivi de parties de corps pour l'interprétation de gestes de communication à partir de séquence monoculaire (Page 52-57)