• Aucun résultat trouvé

9.2 Statistiques de fréquentation d’un site

9.2.2 Système "prototype"

Le système d’indexation proposé pour résoudre le problème posé repose sur l’architecture décrite dans la figure 1. Un seul plan est présent ici. De plus, les canaux associés aux données audio et textuelles ne seront pas étudiés. Le problème à résoudre peut alors se décomposer en 4 sous-problèmes qui sont :

– l’extraction des objets, – la modélisation de la scène, – le suivi des objets,

– et l’interprétation du contenu.

La première étape concerne la séparation du fond et des objets. La caméra étant statique et l’arrière-plan relativement hétérogène, nous avons eu recours à une méthode plus simple que

9.2. Statistiques de fréquentation d’un site 169 celle introduite dans le chapitre 3.

Le traitement suivant consiste en la détermination des zones d’intérêt dans l’image. Il est possible, puisque la caméra est statique, de préciser ces zones directement sur les images de la séquence analysée.

Il est alors possible d’effectuer un suivi des objets. Disposant d’images binaires obtenues après séparation du fond et des objets, nous avons choisi d’effectuer un étiquetage des objets et de suivre ceux-ci en appariant leurs caractéristiques d’une image à l’autre.

Finalement, la dernière étape concerne l’interprétation du contenu de la séquence. Cette in-terprétation doit permettre de détecter et de notifier la présence d’un événement (ici un passage).

Elle est directement liée à la définition d’un passage.

Nous pouvons illustrer la première version du logiciel d’obtention de statistiques de fré-quentation d’un site par la figure 9.1.

Acquisition vidéo

FIG. 9.1 – Architecture permettant l’obtention de statistiques de fréquentation d’un site (pre-mière version).

Nous donnons maintenant une description plus précise des différents outils utilisés.

Extraction des objets

L’extraction des objets est ici la premiere étape de la chaîne de traitement de la séquence vidéo. Elle a pour but de fournir, à partir des images originales en couleur, des images binaires représentant les objets (c.f. chapitre 3).

9.2. Statistiques de fréquentation d’un site 170 Dans le cas le plus simple, il est possible de considérer qu’à un instant donné aucun ob-jet n’est présent dans la scène. L’image obtenue à cet instant est logiquement utilisée comme image de référence. Les images suivantes de la séquence sont alors comparées à l’image de référence pour déterminer les pixels correspondant à des objets. Pour cela, la méthode illustrée par l’équation (3.1) page 44 est utilisée.

Puisque le résultat est relativement sensible à la valeur de seuilSdiff utilisée, et que la sen-sibilité du capteur (webcam) peut être importante, il est nécessaire de filtrer le résultat obtenu.

Nous utilisons ici une succession d’opérations de morphologie mathématique pour éliminer les zones correspondant à du bruit. Plus précisément, nous utilisons une fermeture par un élément structurant de rayon 2. Les résultats obtenus sont satisfaisants.

Modélisation de la scène

Le second traitement effectué concerne la modélisation de la scène. Celle-ci permet la défi-nition des zones d’intérêt dans l’arrière-plan de la scène. Ainsi, lorsqu’un objet donné apparaîtra dans une zone donnée de l’arrière-plan, un certain événement sera détecté.

Nous considérons ici deux zones d’intérêt différentes. La première zone, dite d’entrée et de sortie, représente la portion de l’arrière-plan réellement représentée dans l’image. En effet, la caméra étant placée à l’intérieur de la boutique du client, il est possible que certains objets (comme par exemple une porte) cachent une partie du champ de vision de la caméra. Seuls les mouvements des objets présents dans cette zone seront interprétés par la suite. De plus, en connaissant les limites réelles de la scène, il est possible de déterminer plus fidèlement les entrées et les sorties des objets : à gauche, à droite, en face, etc.. La figure 9.2 illustre l’intérêt de la définition d’une telle zone.

FIG. 9.2 – Les 2 zones d’intérêt : zone d’entrée et de sortie (en bleu) et zone centrale (en rouge).

La seconde zone, dite centrale, est utilisée pour calculer le nombre de passages. En effet, à chaque fois qu’un objet présent dans la zone d’entrée et de sortie, entre dans la zone centrale, il

9.2. Statistiques de fréquentation d’un site 171 est étiqueté comme valide. Lorsque cet objet quittera la scène (ou la zone d’entrée et de sortie), un passage supplémentaire sera comptabilisé. Afin de vérifier qu’un objet est présent dans la zone centrale, nous considérons ses coordonnées horizontale et verticale dans l’image. Son centre de gravité horizontal doit appartenir à la zone centrale, tandis que la partie culminante (au niveau vertical) de l’objet doit dépasser la zone centrale. Ce test supplémentaire relatif à la position verticale de l’objet nous permet d’éliminer les candidats potentiels que sont les animaux ou les enfants (même si ces derniers seront certainement un jour porteurs d’une carte de retrait !).

Pour définir ces deux zones, la solution la plus simple consiste à noter manuellement les positions des zones sur l’image.

Suivi des objets

Le résultat de l’extraction des objets, c’est-à-dire de la séparation des objets et du fond, est utilisé dans les différentes images pour effectuer le suivi des objets. Ce suivi fournit la position des différents objets dans les images successives de la séquence vidéo.

Puisque nous disposons d’images binaires représentant les objets de la scène, il est possible d’effectuer un étiquetage en composantes connexes afin d’obtenir les différents objets présents dans la scène. Les séquences vidéo acquises à l’aide de la caméra de type webcam étant relati-vement bruitées, nous avons chosi d’éliminer les régions dont l’aire serait inférieure à un certain seuilSaire.

Nous disposons alors, pour chaque image de la séquence, d’un ensemble d’objets binaires caractérisés par leur position (représentée par leur centre de gravité) et leur aire dans l’image.

Nous effectuons alors pour chaque couple d’images successives un appariement bilatéral entre les différents objets détectés. Chaque objet d’une image est apparié avec l’objet le plus proche (en terme de position et de taille) dans l’image précédente et dans l’image suivante. Si aucun objet n’est considéré comme proche, l’appariement de l’objet concerné échoue. Les liens entre objets appartenant à des images successives sont alors simplifiés en ne considérant que les appariements bilatéraux. Lorsque deux objets sont en concurrence, l’objet le plus ancien (c’est-à-dire présent depuis le plus grand nombre de trames) est favorisé.

Interprétation

Lorsque les objets ont été détectés et suivis dans les différentes images de la séquence, et que les zones d’intêret ont pu être localisées sur ces mêmes images, il est finalement possible

9.2. Statistiques de fréquentation d’un site 172 d’interpréter le contenu de la scène et de détecter les événements prédéfinis (ici les passages).

Pour cela des règles spécifiques à l’application sont définies. Ici, étant donné la définition d’un passage, l’interprétation consiste en quatre étapes que sont la détection des objets entrants, sortants, présents dans la zone centrale, et finalement l’augmentation du nombre de passages le cas échéant. Ces étapes utilisent les règles décrites ci-dessous.

Nous considérons qu’un objet entre dans la scène s’il n’a été apparié avec aucun objet de l’image précédente. De même, un objet est noté comme sortant lorsqu’il n’a été apparié avec aucun objet de l’image suivante. Dans les deux cas, la position de l’objet est comparée avec les limites de la zone d’entrée et de sortie, pour connaître l’origine ou la destination de l’objet : à gauche, à droite, ou en face de la boutique. Pour déterminer les objets présents dans la zone centrale, nous utilisons la règle énoncée précédemment qui stipule qu’un objet doit respecter deux conditions pour être validé : son centre de gravité doit être situé dans la zone centrale, et certains pixels de l’objet doivent être au-dessus de la limite haute de la zone centrale.

Finalement, le nombre de passages est incrémenté à chaque fois qu’un objet est entré dans la zone d’entrée et de sortie, puis a été validé dans la zone centrale, et est finalement sorti de la zone d’entrée et de sortie.

Le système "prototype" décrit ici, réalisé en un laps de temps relativement court, est basé sur des algorithmes connus dans la littérature. Il a été validé par un ensemble d’expérimentations afin de déterminer ses limites.

Résultats

De manière à faciliter la maintenance, et à la demande d’Atos Origin, le logiciel a été réalisé avec le langage Java. La bibliothèque Java Media Framework (JMF), permettant notamment le traitement et l’affichage de données multimédia, a donc été utilisée. Chacune des différentes étapes de traitement a été implémentée sous la forme d’une classeEffect.

La figure 9.3 présente les résultats obtenus à l’issue des différentes étapes, et ceci pour plusieurs images d’une même séquence.

Après une première batterie de tests dans un environnement fermé (scène d’intérieur), le taux d’erreur (estimé par comparaison avec un comptage manuel) a été évalué à moins de 8 %.

Cependant, les limites connues des algorithmes utilisés dans le système laissent penser que le taux d’erreur sera bien supérieur dans le cas d’une scène réelle d’extérieur. De plus, le sys-tème nécessite dans son état actuel un paramétrage manuel assez important. Il ne répond pas complètement aux attentes des utilisateurs. Nous proposons donc un système "évolué" tirant

9.2. Statistiques de fréquentation d’un site 173

FIG. 9.3 – Images obtenues (extrait d’une séquence, de gauche à droite) après les différentes étapes de traitement (de haut en bas) : image originale, différence avec l’image de référence, filtrage morphologique, étiquetage et analyse des composantes connexes, suivi des objets, et interprétation.

parti des outils présentés dans les chapitres précédents de ce mémoire.