• Aucun résultat trouvé

Défis liés à la complexité de la scène

3 Les défis de la modélisation de l’arrière-plan

3.2 Défis liés à la complexité de la scène

Cette deuxième catégorie de défis est liée à la complexité de la scène dans sa globalité, indépendamment de la présence ou de l’absence d’objets d’intérêt. Dans un contexte de vidéo surveillance en extérieur, nous pouvons être confrontés à une multitude de situations qui peuvent aller d’un parking goudronné sans arbre, c'est-à-dire une surface bien lisse et uniforme, à un champ d’herbes hautes bordé d’arbres, voir même le lit d’une rivière. De plus, les algorithmes doivent également prendre en compte différentes conditions météorologiques et différentes conditions d’éclairage. Enfin, les algorithmes doivent également être performants sur une durée très longue pouvant s’étaler sur plusieurs mois voire plusieurs années. Dans ces conditions, la scène est susceptible d’être modifiée par l’ajout, le déplacement ou la suppression

IV - Détection d’objets en mouvement

84

de certaines composantes dites statiques. Ces différentes situations et conditions peuvent être résumées par l’ensemble des cas suivants.

Variation lumineuse soudaine : ce type de variation correspond à un brusque changement de luminosité entre deux images successives. Ces variations peuvent être locales ou globales dans l’image. Ce type de variation correspond généralement à l’activation ou la désactivation d’un éclairage extérieur mais il peut également être lié à l’introduction rapide d’un objet massif dans la scène (Figure 46). C’est notamment le cas du passage d’un train dans une entrée ou sortie d’un tunnel ferroviaire (émergence). Associé à ce phénomène rapide, nous devrons également tenir compte du changement de gain que la caméra risque de faire intervenir et qui lui peut être plus ou moins progressif.

Figure 46 : exemple de variation lumineuse sur une émergence d’un métro. Sur les deux images successives d’une même séquence, nous pouvons remarquer un changement busque de la luminosité

provoquée par l’entrée du train dans le tunnel. A droite, le masque de mouvement associé est pratiquement saturé.

Variation lumineuse progressive : ces variations, qui peuvent également être locales ou progressives, sont généralement provoquées par le changement des conditions climatiques qui évoluent au cours du temps et par la course du soleil (Figure 47). Elles peuvent également être provoquées par le passage des nuages. A l’instar des variations brusques, ce type de variation peut aussi entrainer un ou plusieurs ajustements du gain de la caméra qui, à l’inverse du cas précédent, seront plus rapide que la variation lumineuse.

Figure 47 : exemple de variations lumineuses sur une même journée

Fond dynamique ou multimodal : comme nous l’avons déjà précisé, les méthodes de suppression de fond s’appliquent principalement au cas de la détection d’objets mobiles à partir d’une caméra fixe. Dans ce contexte, il est alors possible en première approximation de distinguer le "fond" par son caractère "fixe" en opposition aux objets d’intérêt qui sont mobiles. Cette première approximation "fond fixe/objets mobiles" n’est cependant pas toujours vraie en pratique. En effet, certaines parties de la scène voire la quasi-totalité peuvent être dynamiques sans pour autant que cela ne reflète le mouvement d’un objet d’intérêt. Ces cas de fond

IV - Détection d’objets en mouvement

85

dynamique sont nombreux et nous pouvons citer en exemple les branches d’un arbre mue par le vent, un champ d’herbes hautes, les reflets à la surface de l’eau, les flocons de neige, etc. (Figure 48)

Figure 48 : exemples de scènes avec des fonds dynamiques

Objet du fond déplacé : ce problème apparaît lorsqu’un objet considéré comme statique dans la scène est déplacé. Le modèle de fond doit être en mesure de réinitialiser toute la zone précédemment occultée par l’objet. Si le modèle ne prend pas en compte ce cas, la silhouette de l’objet reste présente sur le masque de mouvement à l’emplacement de l’objet déplacé (Figure 49). Cette silhouette résiduelle est souvent appelée « ghost » dans la littérature.

Figure 49 : exemple de mauvaise gestion des objets déplacés. Les deux images en partant de la gauche sont issues de la même séquence prise à quelques secondes d’intervalles. La première est prise juste avant

le départ d’un camion et la suivante juste après. Le masque de mouvement correspondant à la deuxième image fait bien apparaitre le camion sur le départ mais laisse la trace résiduelle du camion lors de son

stationnement.

Objet inséré dans le fond : à l’inverse du cas précédent, ce problème apparait lorsqu’un objet est intégré dans la scène. Ce défi est un peu plus complexe à résoudre que le précédent parce qu’il faut tenir compte de l’intérêt de l’objet. Suivant le cas, on voudra pouvoir intégrer rapidement un objet qui n’est pas d’intérêt mais continuer à détecter un objet d’intérêt qui s’immobilise temporairement dans la scène. Un autre problème lié à l’insertion des objets dans la scène apparait également avec les « ghosts ». Comme la plupart des algorithmes de modélisation, et c’est notamment le cas avec ceux que nous avons présentés, traitent les pixels indépendamment les uns les autres sans tenir compte du voisinage (ou de façon très limité), les pixels d’un même objet ne sont pas forcément intégrés dans le fond au même instant. Nous pouvons donc observer sur le masque de mouvement une forme qui se désagrège petit à petit (Figure 50).

IV - Détection d’objets en mouvement

86

Frame t0 t0+10 s

t0+11 s t0+12 s t0+13 s

Figure 50 : exemple d’intégration d’un objet dans le fond de la scène. A t0, un camion que nous pouvons voir sur l’image de gauche, s’immobilise sur une place de parking. Le masque de mouvement à t0 représente bien la silhouette du véhicule. A t0 + 10 s, le véhicule n’est pas encore intégré dans le fond de la

scène et sa silhouette est toujours reconnaissable (malgré la détection de l’ombre portée sur le devant du véhicule). A partir de t0 + 11 s, il est progressivement intégré au fond. Sa silhouette se désagrège

progressivement.

Ombres : la gestion des ombres portées est un autre grand défi de la modélisation du fond. Les ombres projetées par les objets d’intérêt sont en général classifiées à tort comme faisant partie de l’avant-plan (Figure 51), du fait de leur dissemblance avec le fond, compliquant ainsi les étapes ultérieures d’identification et de suivi des objets. Par ailleurs, l’ombre des arbres peut aussi poser quelques difficultés lorsqu’il y a du vent et que l’ombre est projetée sur la zone d’intérêt. On se retrouve alors dans le cas d’un problème de fond dynamique. De façon plus marginale, l’ombre projetée par les objets de la scène peut poser des difficultés lorsque les temps d’intégration du modèle sont très longs ; cas du bagage abandonné par exemple. L’utilisation de caméras thermiques permet naturellement de s’affranchir de cette problématique de l’ombre portée sur les objets d’intérêts.

Figure 51 : exemple classique d’une mauvaise classification de l’ombre projetée par les objets. Sur l’image de gauche nous pouvons remarquer que les quatre individus sont bien isolés les uns des autres. Sur le

masque de mouvement (à droite), ils sont, par contre, rassemblés sous un même blob.

Perspective * : ce défi est lié au fait que nous souhaitons détecter aussi bien des objets d’intérêt qui sont proches de la caméra que des objets qui en sont éloignés. Or un même objet n’aura pas la même taille apparente en fonction de sa distance par rapport à la caméra. Par ailleurs, les conditions météorologiques peuvent atténuer le contraste entre l’objet d’intérêt et le fond de la scène en fonction de la distance rendant la détection plus délicate (Figure 52). De même que

IV - Détection d’objets en mouvement

87

la taille apparente diminue en fonction de l’éloignement, la vitesse apparente du déplacement de l’objet dans l’image diminue également. Nous verrons dans la section suivante que le contraste, la taille et la vitesse de déplacement des objets d’intérêt peuvent être problématiques. Un effet de perspective important implique de trouver un compromis entre une bonne détection au loin et un faible taux de fausses alarmes de près.

Figure 52 : exemple de scène avec un effet de perspective prononcé. Sur l’image à droite, le bout de la flèche indique la position de la personne dans l’image