--
,...
·~
'
/
\
République Algérienne Démocratique et Populaire Ministère de ! 'Enseignement Supérieur
Et de la Recherche Scientifique
Université Mohamed Sadik BENY AHIA de Jijel
,_
JPf.
f
LJ~o,YJ~i
;
Département d'Informatique
Mémoire de fin d'études pour l'obtention du diplôme de Master en Informatique
Option: ILM Thème
Détection des objets en mouvement dans les
vidéos
Encadré par : Réalisé par :
...
...
Mr.Mahrouk Zahir Benaziza Kamel Hocine
Promotion : 2018
Grand merci à Allah, Miséricordieux, le tout puissant qui m'a donnée la force, la persévérance et la patience d'accomplir mon travail.
Un sincère et honnête merci à mes parents et mes frères et sœurs et surtout ma belle-sœur Farah pour leur soutien indéfectible qu'ils savent m'apporter tout au long de mes études et en particulier pendant cette mémoire.
Ma gratitude, mes vifs remerciements et mes respects à mon encadreur Zahir MAHROU~ enseignant au département d'informatique à l'Université de Jijel pour tous ses judicieux conseils, son temps qu'il m'a consacré et pour m'avoir toujours orientée vers un esprit purement scientifique.
Je tiens également à remercier les membres du jury Mr Laater Azzedine et Mr Mohamed Nadjib Zennir, de l'honneur qu'ils m'ont fait en acceptant d'être membres du jury de ce mémoire et pour l'intérêt qu'ils ont bien voulu porter à mon travail.
Je remercie également tous les enseignants du département de l'informatique et spécialement les enseignants qui apportent cette spécialité à l'Université de Jijel.
Je remercie tous nos collègues et amis qui ont partagés deux années agréables, avec une ambiance éducative inoubliable.
Je remercie tous les membres de département de l'informatique qui font pendent cinq années m'informer et guider concernant nos intérêts préoccupations et administrative.
Enfin, je remercie tous ceux qui ont participé dans la réalisation de ce travail de près ou de loin.
.
..;\
L-:1
~
Exclus du Prêt.
/ V .
'.!
'.~-.·· ~
rc
r,Table
des
niatières
Table des matieres
Liste des tableaux
Table des figures
Introduction générale
1 Introduction au mouvement dans les séquences vidéo 1.1 Système Visuel Humain .
1.1.1 Coté physiologique 1.1.2 Coté psychologique 1. 2 Séquences vidéo . . . .
1.3 Mouvement dans une séquence vidéo [1)
1.3.1 Mouvement réel . . . . 1.3.2 Mouvement apparent . . . . . . .
1.3.3 Différence entre mouvement réel et mouvement apparent 1.4 Définition de quelques mots techniques
1.4.1 Le flot optique . . . . 1.4.2 Volumes spatio-temporels . . . 1.5 Méthodes d'estimation du mouvement
1.5.1 Les méthodes différentielles ..
1.5.2 Les méthodes de mise en correspondance de blocs 1.5.3 Méthodes fréquentielles
1.5.4 Méthodes statistiques . 1.6 Application
1. 7 Conclusion
2 Différente méthodes pour la détection des objets en mouvement 2.1 Quelques méthodes pour la détection des objets en mouvement
.. ,>,J ....
2.1.1 Détection d'objet en mouvement basée sur la mise
à
jour d'arrière-plan en temps réel proposé par Zixiao Pan et Mei Wang . . . .1 I 1 3 4 5 6 6 6 11 11 12 12 12 12 13 13 13 14 15 17
19
20 21 2223
2323
2.1.2 Détection d'objets mobiles dans la vidéo aérienne proposée par Zhu Chengf ei et al . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Détection d'objets en mouvement avec fond en mouvement proposée
par Milin Patel et Shankar Parmar [27) . . . . . . . . . . . . . 25 2.2 Étude comparative entre les différentes méthodes de détection des objets en
mouvement . . . 26
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Description d'une méthode pour la détection des objets en mouvement 28 3.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . 29
3 .1.1 Scène statique .
3.1.2 Homogénéité .
3.1.3 Modèle de mélange gaussien (GMM) 3. 2 Les étapes de la méthode choisie .
3.2.1 Saillance spatiale . . . . . 3.2.2 GMM . . . . 3.2.3 Saillance spatio-temporel . 3.2.4 Taux d'apprentissage 3.3 Conclusion . . . . 4 Résultats et discussions 4.1 Environnement de travail . 4.1.l Langage . . . . 4.1.2 Caractéristique de la plateforme 4. 2 Dataset . . . . . . . . . . . . . . .
4.3 Analyse est interprétation des résultats
4.3.1 Subjective (inspection visuelle) 4.3.2 Objective . . . .
Conclusion générale et perspectives Bibliographie 29 29 31 34
35
37 37 3739
40 40 40 40 41 44 44 4547
48Liste des tableaux
1.1 Comparaison entre les méthodes . . . . . . . . . . . . . . . . . . . . . . . 15 2.1 Comparaison entre différentes méthodes de détection des objets en mouvement 27 4.1 Comparaison entre les méthodes de détection des objets en mouvement et
notre méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.1 Schéma de l 'œil . . . . 1.2 Champ visuel humain . 1. 3 Le cortex visuel
1.4 La voie ventrale et la voie dorsale
1.5 Sphère uniforme immobile et en rotation 1.6 Exemple de flot optique . . . .
1.7 Exemple de volumes spatio-temporels obtenus sur des silhouettes de sujets de
7 9 10 10
12
13la base de données Weizmann. . . . . . . . . . . . . . . . . . . . . . . . 14 1.8 A cube de Rubik, B méthodes variationnelles globales, C méthodes
variation-nelles locales 17
1.9 Exemple d'une procédure d'appariement de blocs. 18 1.10 Sous-ensembles de recherche. . . . . . . . . . . . . 19 2.1 Diagramme de la méthode proposée par Zixiao Pan et Mei Wang . . . 24 2.2 Diagramme de la méthode proposée par Zhu Chengfei et all . . . 25 2.3 Diagramme de la méthode proposée par Milin Patel et Shankar Parmar 26 3.1 Mélange de gaussiennes d'un pixel d'une séquence vidéo. 33 3.2 les différentes étapes de notre méthode . . . . . 35
4.1 exemple d'exécution sur dataset CAVIAR's . 42
4.2 exemple d'exécution sur notre dataset . 43
4.3 exemple de test sur dataset CAVIAR's . . . 44 4.4 exemple de test sur notre dataset . . . 45
nombreuses applications. Lorsque les objets bougent à des changements d'éclairage
différents, la robustesse des méthodes de détection d'objets mobiles n'est pas satisfaisante. Notre méthode est une initiative pour résoudre ce genre de lacune. Notre méthode repose sur un calcul de la carte de saillance spatiale et l'utilisation d'un modèle de mélange gaussienne (GMM) permettant de trouver la carte de saillance temporelle, les deux résultat sont combiner pour trouver une carte de saillance spatio-temporelle qui isole d'une façon efficace les objets en mouvement de l'avant plan des objets statique de l'arrière-plan. Les
résultats expérimentaux montrent que notre méthode peut obtenir de meilleures performances d'extraction d'objets mobiles que la méthode de GMM.
Mots clés: l'avant plan, l'arrière-plan, objets en mouvement, modèle de mélange
gaussienne, saillance temporelle, saillance spatio-temporelle, objets statique.
Abstract
Detection of foreground motion in video is very important for many applications. When objects move with different lighting changes, the robustness of mobile object detection methods is not satisfactory. Our method is an initiative to solve this kind of gap. Our method
is based on a calculation of the spatial salience map and the use of a Gaussian mixing model (GMM) to find the temporal salience map, the two results are combined to find a spatio-temporal saliency map that effectively isolates moving objects from the foreground of static objects in the background. Experimental results show that our method can achieve better moving object extraction performance than the GMM method.
Keywords: foreground, background, moving objects, Gaussian Mixture Model, temporal salience, spatio-temporal saliency, static objects.
wô;t4
o~l...:.:al • i.::.il ·.. i.::.i\..:û\.Sll ~ ~ _p-1J - lA.Île. i.::.i\.iu.b:ill · • ... UA .. ~ I~ • ' ".. • --e--~ .l.lill .. ...,-- .. , ....! ~lA
\ri
f' ~'il ~ · Y:. ùLli:lSI ~ ..~ • o ·- :.t1 · ~ UA
t
~ .•.t\ I~ ~ · 1· t o .J . .:lli..o . ..à lW .L ~ • ~ __ -:.t\ ~\ri ùLli'.lSI ... L ~l..:iA .. ,~i.,r- .. ~ • .. ..JA .;:c- ~ f' · (.j~ ~
.. '~jll ~ •i\S.JI ~ · '- .ut (GMM) 1.ë. ..b..J.:.. ~ . l~I ~\S.JI ~ . .:. 'l 1....1~ 1- lW .L
~_, .. -r .. Y:. ~ .)..,,.,-. ~ _, .. ~ .yu
r
_, ..
...r- . ~ .. ~ . ~ ·--: _,, ~YIJW '"
>.J .
~,, ~jll ~\S..JI ~ )l..ci ~ • ,_ _::_ tt • .. -:_ .-:~11 • j\.,\ • • -- \\UA ~ (' • ~ y.; '-.? .. .. ~ .. Y:. ~ .)..,,.,-. ~ ~ ~ ~ l . .. 1 , _j . t • :.' ~ bl .. " .. · I .. c. 1. -.-:~ ~\\ u., . LI\ • I ~ ·--:t1 'Üll\ .. I!.-: tàl.:JI . _j ~~I ül:û\.Sll ~~
~~ ...,.--u...:a:i ~u ~~i.r .. J-"
u ...
~ ~ ~......,... .
GMM ~.>60-o~~lr4YI
, ~jll ~\S.J\, ~jll ~I, .. .. .. . ~~ .!.t\ .l:t.WI ~, Â.S ~r. ·--:-'\ b\tl, ~I ,~\ .. . .. ·La.UW\ ~WSJI
~t..JI b\tl
.
('.
Introdu
cti
on
générale
L'analyse du mouvement est un va.ste sujet qui rencontre plusieures problématiques
comme:
./ La détection du mouvement : qui consiste à étiqueter chaque pixel d'une image
suivant s'il correspond ou non à une région en mouvement dans la scène ;
./ La détection des objets en mouvement : c'est-à-dire la détection d'un ensemble
de régions d'intérêt en mouvement dans la scène tridimensionnelle observèe;
./ La segmentation basée mouvement de la scène : pour laquelle chaque région de
l'image ayant un mouvement distinct des autres est détectée et segmentée;
./ L'estimation du mouvement : qui consiste à estimer, à partir d'une séquence
d'images, le mouvement apparent des objets composants une scène tridimensionnelle;
./ Le suivi de primitives ou de régions : dont le but est de déterminer la position de
chaque primitive ou région dans l'image à chaque instant ;
./ La reconnaissance et la modélisation d'activités ou de gestes.
Le but de ce travail est la détection d'objets en mouvement dans une séquence d'image. Afin d'atteindre cet objectif nous organisons notre mémoire comme suit :
Le premier chapitre est consacré à une introduction au mouvement dans les séquences
vidéo, le second chapitre s'intéresse aux différentes méthodes pour la détection des objets en mouvement. On a proposé dans le troisième chapitre une méthode de détection des objets en mouvement, enfin les résultats de notre méthode sont montrés dans le quatrième chapitre.
Introduction
au mouvement dans les
séquences vidéo
Introduction
vec la généralisation de l'utilisation des images numériques, l'analyse du mouvement
A
dans les vidéos est devenu un outil indispensable dans les différentes applications. Les méthodes d'estimation de mouvement proposées ne sont guère venues en vain. Car chaque développement scientifique est basé sur le système humain équivalent. Dans notre cason doit d'abord étudier le système visuel humain du coté physiologique et psychologique. En
dernier lieu quelque domaines d'application de l'estimation de mouvement seront cités.
1.1
Système Visuel
Humain
1.1.1
Coté
physiologique
La vue est considérée comme étant le sens le plus important, où la majorité des cellules nerveuses dans le cerveau sont dédiées à la vue, elle est estimée de 5% à 15%.
On peut décomposer le système visuel en deux composants fondamentaux, les yeux qui
reçoivent la lumière et la convertie en un signale adapté au système nerveux, et les nerfs
optiques dans le cerveau, responsables du transport et traitement de ces signaux.
1.1.1.1 L 'œil humain
L'œil humain est composé de plusieurs parties, chacune d'elle à un rôle bien précis, la
FIGURE 1.1
montre ces parties.Introduction au mouvement dans les séquences vidéo Chambre antérieure (humeur aqueuse) Chambre postérieure Corps
u:::
~
_ . ciliaire - - ~ "'~ \ Choroiëe -'
-FIGURE 1.1 - Schéma de l'œil
7
La sclérotique c'est la partie rigide de couleur blanche qui forme le globe oculaire. Elle sert à maintenir la pression de l 'œil et à le protéger de l'extérieur.
La cornée c'est la partie transparente, elle permet la pénétration de la lumière jusqu'au
globe oculaire, d'où la cornée est la lentille principale de l'œil, elle protégé aussi la partie
avant de l'œil.
La choroïde est une membrane vascularisée, couvrant les trois cinquièmes du postérieur du globe oculaire, Elle nourrit les photorécepteurs de la rétine, sur l'avant de l'œil à place de la choroïde vient l'iris qui est la partie colorée de l'œil, elle est composée de muscles lisses, qui s'ouvrent et se referment en fonction du changement du volume de la pupille, à fin de limiter la quantité de lumière qui pénétré dans l'œil.
Le corps ciliaire son rôle est de modifier la taille du cristallin à l'aide de ses muscles lisses.
Le cristallin filtre la lumière car il est une lentille molle composée de fines couches
superposées, sa forme aide à la mise au point et la formation d'une image nette de l'objet
sur la rétine.
La rétine est la partie la plus sensible à la lumière grâce à ses deux types de pho-torécepteurs : les cônes et les bâtonnets. L'énergie lumineuse est transformée en activité nerveuse au niveau de la rétine.
La fovéa est une zone forment une dépression au centre de la rétine, où le plus petit
détail est perçu à son maximum.
Les cônes présents dans la fovéa de 5 à 7 millions. Ils présentent une faible sensibilité à
la lumière, mais ils assurent la vision des couleurs et la capacité de distinguer les détaille, car une information issue d'un cône de la fovéa est transmise à plusieurs fibres du nerf optique.
Le fonctionnement des cônes repose sur la décomposition et décoloration à la lumière
d'un pigment appelé rhodopsine, cette décomposition crée un potentiel électrique qui transforme l'énergie de la lumière en impulsion nerveuse. Le nerf optique est responsable du transfert de celle-ci.
Il existe trois types de cônes
,/ Cône contenant de la cyanopsine : sensible au bleu ;
,/ Cône contenant de la chloropsine : sensible au vert;
,/ Cône contenant de l'erythropsine : sensible au rouge.
Les bâtonnets il y en a environ 130 millions. Ils sont repartis tout autour de la fovéa.
Contrairement aux cônes leur sensibilité à la lumière est plus élevée, mais ils présentent une faible sensibilité à la couleur et aux détails. Les bâtonnets qu'ils servent à la vision de nuit
en raison de leur capacité à percevoir de faibles leurs dans l'obscurité.
1.1.1.2 Rôle du cerveau
L'œil est purement un ensemble de captures qui regroupe les informations, mais ne peut les traiter. Elle transforme ces dernières en des messages nerveux transmise au cerveau.
La FIGURE 1.2 montre que le champ visuel se décompose en deux parties (hémichamps visuel droit et hémichamps visuel gauche). Chaque hémisphère d'œil perçoit une des
par-ties précédentes. Le message nerveux transmet de l'œil vers le cerveau à l'aide du nerf optique.
Les nerfs optiques se retrouvent pour chaque œil au niveau de le chiasma, qui permet la distribution des informations acquises, où hémichamps visuel gauche vas vers le tractus optique droit et vice versa.
Introduction au mouvement dans les séquences vidéo
Champ visuel binoculaire
-A----=----i
Point de fsxation ,
Œ1lgauche
Nerf optique gauche
Tractus optrque gauche
Hémlchamp visuel droit
FIGURE 1.2 - Champ visuel humain
Chiasma optiqu Œfl dtoct erf OObalJ8 ~ dro. 9
Le cortex visuel est présent dans le lobe occipital du cerveau, qu'est illustré dans la
FIGURE 1.3, il est responsable du traitement des informations venues de l'œil et qui forme l'image réalisée après traitement, Ce traitement s'effectue par la division des informations
en deux voies, voir FIGURE 1.4:
La voie ventrale : sur ce niveau, les informations concernent la forme et la couleur sont
analysées à fin de définir les objets présents.
La voie dorsale : possède comme spécialisation la perception spatiale et l'analyse du
FIGURE 1.3 - Le cortex visuel \\'l~ 4,·~·.,·~ Lobe occipital
J
Cortex visuel ~--,,... · -)?
,,.., ,,.,,,1\/
---Posrt1onnement \\,1..-\<11t1ale tQUll1'•-
Y.-_
.... "-...,,,,,,,,."' / ; • ) i ReconnaissanceIntroduction au mouvement dans les séquences vidéo 11
1.1.2
Coté psychologique
1.1.2.1 Processus attentionnel
Il existe deux processus attentionnel dans la vision humaine :
Processus Top-down dit descendant (du cerv:eau vers la rétine) Processus intérieur qui dépendent de ce qui est recherché dans la scène. Ces processus sont affectés par l'ordre qui est donné à l'observateur.
Processus bottom-up Appelé aussi ascendant (de la rétine vers le cerveau) C'est des processus extérieurs basés sur les propriétés primordiales du stimulus ou du signe visuel,
comme:
./ Contraste ;
./ Texture;
./ Forme; ./ Mouvement.
Dans ce cas l'observateur ne fixe pas son regard sur une zone précise de la scène, mais d'une manière intentionnelle cette dernière l'attire (pop-out effect).
A partir des recherches, il s'est avéré que le mécanisme bottom-up est plus rapide que
celui de top-clown.
Les processus ascendant et le mouvement (considéré comme stimulus) feront l'objet de notre étude.
1.2
Séquences vidéo
Une image numérique est un ensemble de point appelés pixels, où le couple réel ( x,y) et
la valeur i(x,y) présentent sa position spatiale et son niveau de gris respectivement.
Une trame (image) est une représentation planaire d'une scène ou d'un objet situé dans un espace tridimensionnel. On remarque bien que dans une séquence vidéo numérique deux
trames successives présentent les même caractéristique au niveau du fond et des d'objets en mouvement.
1.3
Mouvement dans une séquence vidéo
[1]
La description d'un mouvement dans une image est un réel obstacle, car ce dernier décrit
un contexte 3D tandis que l'image est une projection de scène 3D sur un plan bidimensionnel qui engendre une perte d'information. Alors le mouvement est représenté par un vecteur de mouvement qui décrit une transformation d'une image 2D vers une autre, et la projection successive d'une scène sur un plan 2D complète et enrichi l'information sur la scène 3D projetée (scène réelle). Le déplacement de la caméra ou d'un objet dans la scène engendre
ces mouvements. On distingue deux types de mouvements :
1.3.1
Mouvement
réel
Ce mouvement est observé par l'œil humain, ou bien par un système de prise de vue, il anime la scène réelle dans l'espace réel 3D .
1.3.2 Mouvement apparent
Le mouvement apparent appelé flot optique, est une variable cachée et n'est accessible que par l'analyse des variations temporelles de la séquence d'images. Il est bidimensionnel et
perçu dans une séquence à travers des variations spatio-temporelles de la luminance.
1.3.3 Différence entre mouvement réel et mouvement apparent
Comme la projection d'une scène tridimensionnelle (3D) sur un plan bidimensionnel (2D) engendre une perte d'information liée à la perte d'une dimension, donc le mouvement réel
et le mouvement apparent sont différents. Par exemple dans la FIGURE 1.5, les vitesses apparentes des points situés sur une sphère uniforme en rotation sont nulles, donc différentes
des projections des vraies vitesses de ces points [1, 2].
Sphère en rotation
Flot optique nul
1 Déplacement de la source 1
~
~
~
Sphère immobile
Introduction au mouvement dans les séquences vidéo 13
1.4 Définition de quelques mots techniques
Avant d'aborder les différentes méthodes d'estimation de mouvement on définit quelques mots techniques.
1.4.1 Le flot optique
Le champ de vitesse (ou de déplacement) porte le nom de flot optique, il est produit
dans le plan image par des objets en mouvement dans un espace 3D. Il est représenté par des vecteurs. Chacun des deux représente le déplacement d'un point de l'image. L'or d'une
étude sur la vision humaine le psychologue James Jérôme Gibson a inventé ce terme. Un exemple de flot optique est représenté dans la FIGURE 1.6.
X
Projection
Estimatio
n
c=
:>
+
:
:
:
FIGURE 1.6 - Exemple de flot optique
1.4.2 Volumes spatio-temporels
L'empilement de silhouettes représente le mouvement de l'objet au cours du temps. Pour parler du volume spatio-temporel on considère la vidéo comme un volume 3D, qui
correspond à son tour à cet empilement.
Dans ce qui suit la FIGURE 1. 7 on présente un exemple du volume spatio-temporel obtenu sur des silhouettes de sujets de la base de données Weizmann (FIGURE tirée de [20)).
y
FIGURE 1.7 - Exemple de volumes spatio-temporels obtenus sur des silhouettes de sujets de
la base de données Weizmann.
1.5 Méthodes d'estimation du mouveme
n
t
Nous montrons quelques approches d'estimation du mouvement :
./ Flux optique;
./ Volumes spatiotemporels;
./ Les images d'historique et d'énergie du mouvement (MHI).
Nous les comparons par rapport aux facteurs suivants :
Environnement interne : un environnement interne est maîtrisé par les utilisateurs
et son comportement est connu et prévisible. Il n'y a pas de réel vainqueur entre le flux optique et l'extraction de l'arrière-plan.
Environnement externe : à l'opposé d'un environnement interne, un environne-ment externe n'est pas maitrisable. Les méthodes d'estimation du flux optique sont les plus fiables contrairement aux deux autres méthodes qui reposent sur l'extraction de l'arrière-plan.
Scène individuelle : une scène individuelle contient une seule personne. Le füuc optique extrait le mouvement de la personne tandis qu'une méthode d'extraction de l'arrière-plan permet d'obtenir sa silhouette. La silhouette nous permet d'estimer les positions de certains membres du corps (mains, tête, etc.).
Scène de foule : une scène de foule contient un nombre
variable de personnes. Les
personnes sont souvent occultées et il est difficile de distinguer leurs silhouettes. Il n'est donc pas intéressant d'utiliser une méthode d'extraction de l'arrière-plan dont l'utilité principale
Introduction au mouvement dans les séquences vidéo 15
est la détection des personnes. Le flux optique s'avère très utile dans ce genre de scènes car
il permet de détecter des groupes qui se déplacent dans la même direction et d'extraire les
motifs de mouvement.
Flux optique Volumes spatiotemporels MHI
Environnement interne X X X
Environnement externe X
-
-Scène individuelle X X X
Scène de foule X
-
-TABLE 1.1 - Comparaison entre les méthodes
Le Tableau 1.1 synthétise la comparaison effectuée plus haut. Nous voyons clairement
que le flux optique est la meilleure approche selon cette comparaison. Pour cela, Il existe
une multitude de méthodes permettent l'estimation du Flux optique, regroupées en quatre
catégories [3, 4) :
./ Méthodes différentielles ;
./ Méthodes de mise en correspondance de blocs ;
./ Méthodes fréquentiel ;
./ Méthodes statistiques.
1.5.1 Les méthodes différentielles
Les gradients spatiaux et temporels de l'intensité lumineuse des pixels font la base de
ces méthodes. L'intensité lumineuse d'un pixel est conservée le long de sa trajectoire. Cette hypothèse de conservation peut s'écrire sous la forme :
di(xi,x2,t)
==
Q
(1.1)
Où x1 et x2 sont les variables spatiales, t est la variable temporelle et i(xi,x2
,t)
estl'in-tensité du pixel de coordonnées (xi,x2 ) dans l'image acquise à l'instant t. Un développement
di(x1,x2,t)
d
+
di(x1,x2,t)d
+
di(x1,x2,t)dt
==
0
(1.2)
dx1
1
dx22
&
Où d1 et d2 sont les déplacements du pixel courant qui doivent être estimés et dt est la
période temporelle d'acquisition des images.
Si on divise l'équation 1.2 par dt, alors nous obtenons l'équation de contrainte de mou-vement, également appelée équation du flux optique [5]. Il s'agit donc d'une seule équation avec deux inconnues. Afin de pouvoir résoudre cette équation, différentes méthodes introdui-sant des contraintes supplémentaires ont été proposées [5, 6, 7, 8], Selon le type de contrainte utilisée, on obtient différentes approches variationnelles :
1.5.1.1 Méthodes variationnelles globales
Elle minimise sur le domaine entier de l'image une fonction prenant en considération le
flot optique et un terme de lissage Autrement dit, elle ajoute une contrainte de régulation
qui agit sur le gradient et laplacien du champ de vitesse.
La méthode proposée par Horn et Schunck [5] consiste à imposer une contrainte globale
de lissage sur le champ des vitesses. Elle est la méthode la plus connue parmi les autres.
1.5.1.2 Méthodes variationnelles locales
Contrairement la méthode précédente, la méthode locale prend en compte des hypothèses
supplémentaires sur un domaine de taille réduite pour particulariser le flot optique.
Donc on obtient ainsi le flot optique d'un domaine minime. La méthode locale la plus
célèbre dans ce cas est celle de Lucas et Kanade [7]. 1.5.1.3 Méthodes hybrides
Récemment l'estimation de mouvement connait une nouvelle méthode dite 'locales
globales' qui fusionne les deux méthodes précédentes, sur les quelle filtrage temporel est
ajouté. Par conséquent le lissage et le filtrage temporel sont appliqués sur toute l'image, mais la résolution de l'algorithme reste purement locale (10, 11].
Les champs de mouvement 2-D estimés avec deux approches différentielles sont également montrés sur la
FIGURE 1.8. [12).
Introduction au mouvement dans les séquences vidéo A . ·~··
-
.. ..··----·. .... -· -.. ·-
•'"·
·· ~ B 17 . ...
.
.......
. ....-..
-.... . __ ... .. . ... .c
FIGURE 1.8 - A cube de Rubik, B méthodes variationnelles globales, C méthodes variation-nelles locales
1.5.2 Les méthodes de mise en correspondance de blocs
La méthode de l'appariement de blocs (block-Matching), appelée aussi dans la
littérature correspondance de blocs ou encore similarité de blocs, est la plus utilisée et adaptée par la plupart des standards de compression vidéo due à sa simplicité pour les
implémentations Hardware.
L'exploitation des redondances temporelles existantes entre des images consécutives fait l'objet de l'appariement de blocs.
Alors dans le but d'estimer le mouvement de différents objets dans une séquence vidéo, on opte pour la simplicité de l'estimation qui consiste à considérer seulement le mouvement présent entre deux images successives A et B, ces images sont subdivisées en blocs de tailles égales et chaque bloc est considéré comme étant un objet indépendant [9, 13]. Voici le procédé général de l'approche (voir FIGURE 1.9 pour un exemple) :
• Séparation de l'image A en blocs de N x M ;
• Sélection d'un bloc de l'image A, déplacement à toutes les positions d'une région de recherche choisie de l'image B et évaluation de la fonction de coût;
• Choix de la position de l'image B où la fonction de coût est minimale;
• Le vecteur correspondant est associé au bloc ;
lmue uu.nale
/
Bloc ~ •ppallf'f Éupt"l lau.Rftt' fina~ r---;.---~ 1 T 1 1 ,->----'"'1 1 1 1 • ,., 1 • - - - !.. - - - - -' lon«' ck rtt~rclw Écapt> ~°'
1 1.
-
--
-
--
-- -
--_:
- - - - z É MlcbfoFIGURE 1.9 - Exemple d'une procédure d'appariement de blocs.
Les méthodes de mise en correspondance de blocs peuvent être classées en fonction : .1 Du critère de mise en correspondance ;
.1 De la dimension du bloc et celle de la fenêtre de recherche ; .1 De la stratégie de recherche.
1.5.2.1 Largeur de la zone de recherche
C'est un paramètre limité généralement à partir des expériences ou imposé par les
contraintes des implémentations hard
(14],
car les performances (vitesse-précision) de l'enco-deur vidéo sont directement affectées par la largeur de la zone de recherche.La largeur de la zone de recherche est bénéfique dans le cas d'une séquence d'un mouve-ment lent, car elle minimise le temps de calcule, par contre les séquences de mouvemouve-ment rapide engendre un temps de calcul plus long du à la recherche dans une zone qui couvre un déplacement considérable.
1.5.2.2 Taille des blocs
La taille du bloc choisie est liée directement à la recherche et la comparaison des blocs ainsi la performance de l'estimation de mouvement.
Le choix d'une taille importante des blocs fait réduire la précision des vecteurs de mouvement, car les grands blocs contiennent des objets en mouvement de différente vitesse et direction, d'un autre coté ce choix est bénéfique en matière d'information car le nombre de blocs est réduit.
Si autre choix est porté sur une taille réduite, alors on peut expliciter le mouvement des objets et obtenir des limites d'objets bien identifiées, mais aussi avoir des vecteurs de mouvement très précis.
Introduction au mouvement dans les séquences vidéo 19
L'un des inconvénients de ce choix, est le temps de calcul qui est très important.
Considérable les tailles les plus utilisées dans l'estimation de mouvement sont 8x8 et 16xl6.
1.5.2.3 Types de fonction de coût
Appelée aussi MDB ( Mesure de Distorsion de Bloc), c'est la fonction principale du
Block-Matching, qui permet de déterminer la similarité entre les blocs.
Elle a un impact direct sur la complexité de calcul et sur la précision de l'estimation de
mouvement, où l'obtention d'un bloc optimale repose sur son choix.
1.5.2.4 Types de recherches
Plusieurs méthodes de block-Matching ont pour seul but l'optimisation de l'efficacité et
la rapidité de l'algorithme.
Il existe divers méthodes [9, 15] des plus anciennes tel que la recherche exhaustive, au
plus récente et optimal à savoir, la recherche dite en« 3 pas», la recherche avec éliminations
successives, la recherche sur une grille en diamant, la recherche sur une grille hexagonale.
Ces méthodes sont caractérisées par leur capacité à réduire la complexité de l'estimation
de mouvement.
Les algorithmes rapides testent des sous-ensembles de fenêtre de recherche, ces derniers
peuvent être de type« carré », ~ fois »et « plus », comme il est indiqué dans la FIGURE
1.10 ci-dessous.
• • •
•
•
•
•
•
•
•
•
•
•
• •
•
•
•
•
Carré fois plus-
,...,_,...."·FIGURE 1.10 - Sous-ensembles de recherche.
1.5.3 Méthodes fréquentielles
A partir du domaine fréquentiel, ou peut donner une estimation du mouvement, pour
Les méthodes exploitant le fait qu'un décalage spatial entraîne un déphasage dans le domaine fréquentiel [16, 18].
Les méthodes considérant la distribution de l'énergie dans l'espace des fréquences lorsque le mouvement est vu comme un ensemble d'orientations spatio-temporelles
[1,
17,
19].
Les techniques basées sur l'étude de la phase emploient la disparité des problèmes de la stéréovision pour l'estimation du mouvement, cette idée est basée sur l'équivalence translation /déphasage de la transformé de Fourier (TF). Considérons les deux images 11 et 12 tel que:11
=
I(p,t) et 12=
I(p,t+l) de N X M pixels, ou 12 est une version décalée de 11 .Le problèmeconsiste à déterminer le décalage V=(u,v) automatiquement entre ces deux images, l'équation suivante est la forme mathématique expriment ce décalage :
I2(x,
y)
==
I1(x+u
,y+v)
+Bruit (x,y) (1.3)
Le bruit est généré des capteurs, qui peuvent correspondre à la même scène mais prise par deux caméras différentes.
On peut écrire la relation suivante entre les transformées de Fourier G1 et G2 de 11 et 12 ,
respectivement :
G2(f)
==
G1
(f)ei2
-rrJV
(1.4)
Avec
Gi =TF
Dli
=IG
i
1 ei8i, i=
{1, 2}1.5.4 Méthodes statistiques
Les plus utilisées de ces méthodes sont les méthodes Markoviennes ou Bayesiennes
[21],
elles ont pour principe une formulation probabiliste du champ de déplacement et pourestimation finale une réalisation particulière d'un champ aléatoire [23, 24]. Une description plus détaillée de ces méthodes peut être trouvée dans [22].
Introduction au mouvement dans les séquences vidéo
21
1.6 Application
./ Les vidéos de surveillance
L'employé de surveillance expérimenté surveille continuellement les vidéos, et répond aux activités suspectes. Ce qui est une tâche difficile pour l'attention humaine selon une étude développée par le CRIM (Centre de recherche informatique de Montréal) il s'est avéré que le reflexe attentionnelle du surveillent humain diminué au cours de quelques minutes (environ 20 minutes) de concentration. De ce fait, l'automatisation de la vidéo surveillance est devenue un réel défi pour la vision par ordinateur. Car il est composé d'une manière spontané d'une analyse de l'enchainement de la vidéo issue des caméras de surveillances à l'aide d'un ordinateur.
Pour les systèmes de vidéo surveillance, l'analyse des séquences vidéo, se fait sur plu-sieurs niveaux différents. Partant du niveau du pixel à l'étude des comportements. L'utilité de la détection des objets en mouvement réside dans la décomposition des
séquences vidéos an deux parties, une parties statique et une autre dynamique .
./ La compression des vidéos
La demande sur la compression des médias numérique et des vidéos particulièrement
est évidente. Il présente un grand fait pour réaliser de nombreux objectifs.
En réalité la compression ou codage de la vidéo est un processus qui minimise le coût du transfère et stockage des données.
L'un des composants essentiels de la compression des vidéos actuel est la détection de mouvement. Au court de cette phase, l'image est décomposée en blocs, où dans
chacun de ces blocs en cherche une similarité optimale entre deux images successives, ce processus est dit mise en correspondance, qui permet d'associer à chaque bloc un
vecteur de mouvement, cette opération apporte une grande contribution à l'efficacité de la compression par l'élimination des redondances temporelles .
./ La radiographie
Dans le domaine de l'imagerie médicale ultrasonore, la connaissance du déplacement du
milieu imagé est une donnée clinique très importante dans de nombreux examens. Les
méthodes de mise en correspondance de blocs estiment le déplacement en comparant
1. 7
Conclusion
Ce chapitre était consacré à une introduction sur le mouvement dans une séquence vidéo
et ses différents types où on a abordé quelques notions techniques tel que le flot optique et
le spatiotemporel.
Dans un deuxième lieu, nous avons mentionné les quatre grands groupes des méthodes d'estimation de mouvement, et donnée les principes de ces méthodes.
Chapitre 2
Différente méthodes pour la détection
des objets en mouvement
Introduction
Un objet en mouvement est détectè si sa position change relativement à celle d'un ensemble d'objets statiques ou s'il est localisé dans une image acquise à l'instant t de la séquence à une position différente de celle qu'il occupait dans l'image prècédente. Le mouvement d'un objet dans la séquence d'images peut donc être mis en évidence en comparant le contenu d'au moins deux images issues de la séquence.
Dans ce chapitre, Nous présentant quelques méthodes récentes de la détection des objets en mouvement, ensuite nous faisons une étude comparative entre ces méthodes.
2.1
Quelques méthodes pour la détection des objets en
mouvement
2.1.1
Détection d'objet en
mouvement
basée sur la mise a Jour
d'arrière-plan en temps réel proposé par Zixiao Pan et Mei
Wang
Pour l'exigence rapide de la détection d'objet en mouvement dans un environnement
complexe, une soustraction d'arrière-plan d'objet en mouvement basée sur la mise à jour d'arrière-plan en temps réel est présentée dans cette méthode (25).
Premièrement la distance de la couleur entre la trame courante et l'arrière-plan est
cal-culée, et l'état variable est défini pour décrire l'état de changement de l'objet en mouvement
de l'image, dans la trame actuelle (l'image courante) afin de mettre à jour le fond de l'image
en temps réel.
Ensuite la détection d'objet en mouvement peut être compléter par le résultat de la
soustraction entre l'arrière-plan en temps réel et la trame courante.
Trame
IHMA: L'image de !'Histoire au Mouvement vers !'Avant
FIGURE 2.2 - Diagramme de la méthode proposée par Zhu Chengfei et all
2.1.3
Détection d'objets
en mouvement
avec fond en mouvement
proposée par Milin
Patel
et Shankar Parmar [27]
La détection d'un objet dans un fond stable est une tâche facile par rapport à sa détection dans un fond en mouvement où l'arrière-plan mobile reste un chalenge, la détection d'objet est compliquée lorsque le mouvement de la camera et celui de l'objet sont mixés.
Le vecteur de mouvement représente le flot de l'objet en mouvement il est obtenu à
partir des méthodes différentielles (méthode de Lucas et Kanade) vues précédemment, après l'utilisation d'un filtre bilatérale sur l'image ce vecteur est quantifié en utilisant un seuil prédéfini à fin de juger si un pixel appartient à une partie de l'objet ou à l'arrière plan. la dernière étape consiste à utiliser un post traitement morphologique.
Diagramme de la méthode
Chapitre 2. différente méthodes pour la détection des objets en mouvement 26
Acquérir des séquences vidéo
FIGURE 2.3 - Diagramme de la méthode proposée par Milin Patel et Shankar Parmar
,
2.2
Etude comparative entre les différentes méthodes
de détection des objets en mouvement
Il n'existe pas d'unité de mesure précise et définie pour comparer les performances des différentes méthodes de détection d'objet en mouvement. Dans ce chapitre notre étude com-parative est basée sur les critères suivants :
.! Le type d'arrière plan (statique, dynamique); .! Le Type de Vidéo (lente, rapide) ;
.! Complexité (
+++
bonne performance,++
performance moyenne,+ faible
perfor-mance);.! Efficacité (
+++ bonne
performance,++ performance moyenne,
+
faible performance).Le tableau 2.1 présente les résultats comparatifs entre les quatre méthodes définies précédemment.
Méthodes Arrière-Plan Type de Vidéo Complexité Efficacité
Zixiao Pan dynamique rapide
/
+
+
Zhu Chengfei statique lent 80ms
+++
Milin Patel dynamique,statique lent
/
+
+
TABLE 2.1 - Comparaison entre différentes méthodes de détection des objets en mouvement
2.3 Conclusion
Dans ce chapitre, on a présente quelques méthodes modernes dans la détection des
objets en mouvement, on a considéré que chaque méthode a ses avantages et inconvénients
spécifiques du point de vue du type de l'arriéré plan, la vitesse, de l'objet, la complexité et
l'efficacité. Ces critères ont fait l'objet d'une étude comparative.
On a remarqué que la méthode de Zhu Chengf ei et all ne donne pas de bons résultats
pour les vidéos rapides et d'arriéré plan mobile, tant dit que la méthode de Zixiao Pan et
Chapit
r
e 3
Description d
'
une méthode pour la
détection des
obj
ets e
n mouvement
Introduction
La vitesse du mouvement des êtres (objets) et la variance lumineuse, sont un grand challenge dans les procédures de la détection des objets en mouvement dans les vidéos. Une méthode fiable doit offrir la possibilité de s'adapter à ce type de changement.
Notre méthode est une initiative pour résoudre ce genre de lacune. La méthode proposée est basée sur les méthodes de Zoran Zivkovic [28), qui fait une mise à jour des paramètres
de modèle mélange gaussien et pour sélectionner simultanément le nombre approprié de modèle pour chaque pixel et de heng- dacheng [29), qui est une segmentation hiérarchique des images en utilisant l'homogénéité.
De ce fait le résultat de la méthode proposée par heng- dacheng, et carte de saillance
spatiale, nous allons exploiter ses informations résultants afin d'améliorer la méthode de Zoran Zivkovic.
Cette amélioration est effectuée grâce à un calcul efficace et adaptatif de taux d'ap-prentissage, qui est le pilier de l'efficacité de la méthode GMM, permettant de détecter les objets en mouvement en décomposant notre scène en arrière-plan (background) regroupant les objets statique, et un avant plan (foreground) qui précise les objet en mouvement.
Ce chapitre est divisé en deux sections principales, dans la première section nous donnons une description de quelques mots clés, et en deuxième section, nous expliquons notre méthode étape par étape pour obtenir le résultat final qui représente les objets en mouvement.
3.1
Mots clés
3.1.1
Scène statique
Une scène statique est composée d'objets spatiaux (OS) définis par une région spatiale et un vecteur de caractéristiques. Ces deux attributs définissent un objet de façon unique et on considère donc un identifiant pour chacun d'eux. Les caractéristiques d'un OS peuvent être radiométriques ou texturales, et ces caractéristiques sont homogènes à l'intérieur de l'os, et changent lorsqu'on passe la frontière.
3.1.2
Homogénéité
L'homogénéité est liée en grande partie aux informations locales issues de l'image et reflète l'uniformité d'une région [30], Cette homogénéité qui joue un rôle important dans la segmentation des images, vu que le résultat de celle-ci est plusieurs zones homogènes.
L'homogénéité est composée de deux: constituants qui sont la déviation standard et la discontinuité des intensités, la déviation standard décrit le contraste dans la zone locale [31].
La discontinuité des intensités est une échelle qui mesure les variances imprévues dans les niveaux de gris, on peut les obtenir par l'application des détecteurs de bord à la région correspondante.
Dis ans que gi,j est l'intensitéé du pixel Pi,j dans la zone (i ,j) dans M x N image.
wiJ)
est une fenêtre de taille d x d se centralisant au tour de (i,j) pour calculer la variation,wg)
est une fenêtre de taille t x t se centralisant au tour de (i,j) pour calculer la discontinuité. On considère aussi les zones localeswg),
w~~) et on calcule l'homogénéité de pixel Pi,j,en calculant sa déviation standard par l'équation (3.1) :
Vij
d7
1 "'i+(d-1)/2
Llp =i-(d-l)/2"'j+(d-1)/2
Ltq
=j-(d-1)/2
(9pq -
Uij)2
(3.1)
Où i
2::
0, p :::; M - 1 , j2::
0 , q :::; N - 1Chapitre 3. Description d'une méthode pour la détection des objets en mouvement
1 "'i+(d-1)/2
Uij
==
dJ
L...ip =i-(d-1)/2 "'j+(d-1)/2 L...iq =j-(d-1)/2 9pq(3
.2)
30
La discontinuité du pixel dépend de la valeur du bord. On a plusieurs opérations permettant de détecter les bords comme (Sobel, Laplace, canny (32)).
Puisque on n'a pas besoin de déterminer les vrais emplacements des bords, à cause de sa simplicité, on utilise l'opération sobel pour calculer la discontinuité et la magnitude du gradient à l'emplacement (i,
j)
comme mesure[
31)).
eii
=
Je~+
G~
(3.3)
Où
Gx, Gy
sont les composants du gradient dans les directions x et y, respectivement.Avant le calcule d'homogénéité, une normalisation est nécessaire.
(
(1))
V
9ij, wiJ(
(2))
E
9ij, wij Vij V max ~ emax(3.4)
(3.5)
Où Vmax =max {vij}, emax =max {eij}, (0 ::; i ::; M-1, 0 ::; j ::; N-1).
L'homogénéité est représentée comme :
(
(1)
(2))
H 9ij, wij 'wij
1
-
E
(
9iJ, wii
(2))
XV
(9ij,
wg))
(3.6)
3.1.3 Modèle de mélange gaussien (GMM)
Mélange gaussienne ou connu sous le nom de modèle de Mélange gaussienne. Il a la
capacité de modéliser l'arrière-plan chose qui permet de détecter les objets en mouvement,
à l'aide d'une soustraction du frame actuel de la séquence vidéo et de l'image de référence,
pour obtenir un masque représentant les objets dans l'avant plan.
L'image de référence est une image d'arrière-plan qui contient les parties immobiles (sta-tiques) de la scène. Cette image n'est pas toujours disponible au début de la vidéo, il est
donc nécessaire de la construire.
3.1.3.1 Réactualisation de l'image de référence
Parmi les méthodes adoptées dans la construction des images de référence, on trouve le calcul de la moyenne des images successives dans la vidéo, suivant l'équation ( 3. 7)
lreJ(x,y)
~ 2:~=
1
I
(x,
y,
k)
(3.7)
Avec I (x, y, k) la valeur du pixel (x, y) de la Kéme image, et N le nombre d'image. Dans le cas où la caméra est en plein air, le changement permanent dans la luminosité et les ombres exige un rafraichissement des images référentielles, et cela par l'adaptation de l'équation (3. 7) pour obtenir l'équation (3.8) .
lref (x, y,
t)
(1 -
a)
Iref
(x,
y,
t -
1)
+al
(x,
y,
t)
(3.8)
La vitesse de mise à jour de ce moyennage extrêmement faible, nécessite une supervision
si l'algorithme est différent. C'est pour ça qu'il est nécessaire d'utiliser des méthodes statis-tiques, comme les algorithmes Expectation Maximisation (EM) ou K-means, car elle permet d'obtenir un processus qui n'est pas soumis à la supervision.
Chapitre 3. Description d'une méthode pour la détection des objets en mouvement
32
3.1.3.2 Mélange de gaussiennes
La probabilité d'observation la valeur du pixel courant ft.x est égale à :
P
(It,x)
En=l
NWt-1,x,n
* /
1 2exp
( (J -t,x 20-2 µt-l,x,n)2)
(3.9)
211"0' t-1 x n t-l,x,n ' '
Avec les paramètres des gaussiennes :
.! N : nombre de gaussiennes .
.! Wt,x,n : poids calculé pour néme modèle gaussienne .
.! µi,x,n : moyenne du modèle gaussienne.
.! al,x,n : variance du modèle gaussienne.
<---:·
/ I
-' V I I -'
Parmi les méthodes utilisées dans le calcul des paramètres G MM la méthode classique
EM (Expectation Maximisation). Le principe de cette méthode est de calculer les paramètres inconnus (la moyenne, la variance et les poids des gaussiennes), des donnée observée et incomplètes (l'histogramme temporel de chaque pixel), l'idée de ces algorithme consiste à
déterminer un poids pour chaque mélange gaussienne (pour chaque pixel) où le poids de gaussienne est conforme aux nombres des images et de la valeur que prend le pixel.
3.1.3.3 L'algorithme EM
L'algorithme EM présente quelques avantages et inconvénients nous citons :
.! L'amélioration de la vraisemblance à chaque itération,
.! En pratique, il converge très rapidement vers un maximum local, ce qui permet de limiter le nombre d'itération,
.! Cet algorithme donne de très bons résultats pour le mélange de gaussiennes mais nécessite énormément de calcul, ce qui pose un problème dans un optique temps réel,
.! Il nécessite un processeur très puissant et aussi une grande capacité de mémoire pour
stocker les historiques de chaque pixel.
.! Il pose un problème pour la réactualisation,
.!
Un autre problème est sa dépendance à l'initialisation, donc il peut converger vers un extremum local.La FIGURE 3.1 (32] nous montre le mélange de gaussiennes calculé par l'algorithme EM (Expectation maximisation) et K-means.
~
11 1 i 1i
~
..
---
·, \" 1 ' ~/ 1 .~ ~,'' I , /'' .• / \ \1
1
1 A) Histogramme 1 1 B) EM 1 1 C) K-means lFIGURE 3.1 - Mélange de gaussiennes d'un pixel d'une séquence vidéo
3.1.3.4 Construction de l'image de référence
Après avoir calculé les paramètres de chaque pixel de l'image actuelle, on continu â
chercher la référence gaussienne pour chaque pixel. Il existe différence critère permettant de
choisir gaussienne :
Poids w : vu que le fond existe dans la plus part des images, un poids fort décrit un pixel appartenant au fond.
Variance : vu que la valeur du fond (l'arrière-plan) est presque fixe, sa variance est alors minimale.
Surface : le critère de la surface de gaussienne est une manière de prendre en compte les deux précédents.
Poids/variance : il est le critère le plus utilisé.
Après avoir trié les gaussiennes, on choisit la gaussienne de rapport le plus élevé comme étant la gaussienne de référence.
3.1.3.5 Construction du masque (Forgeround)
La dernière étape est tout simplement de faire la soustraction entre
l'image courante de la
Chapitre 3. Description d'une méthode pour la détection des objets en mouvement 34
pour obtenir le masque binaire.
La valeur du seuillage à une grande influence sur la qualité du masque. Si le seuil est
faible on aura alors les ombres des objets sur le masque, tant dis que si le seuil est élevé il
n'y aura pas d'ombre sur les masques mais une perte de quelques parties des objets dont la
valeur est proche de celle du fond.
Pour obtenir une amélioration du masque résultant de la soustraction on peut ajouter
quelques traitements comme :
.! Utilisation d'une image de contours .
.! Filtrages .
.! Etiquetage en composantes connexes.
3.2 Les étapes de la méthode choisie
Cette méthode consiste à utiliser les informations sémantiques afin de déterminer le taux d'apprentissage du pixel d'une manière adaptative dans le but d'une détection plus
vigoureuse, qui est le résultat d'une saillance spatiale basée sur le modèle GMM dans la
surface (luma) et saillance temporelle qui est le résultat de la soustraction de l'arrière-plan,
'
supprimé les petits pics t l'histogramme Spatio-lemporal Satiency x ~---- -Spatio Sahency calcul alpha de chaque pixel appliquée G GMM avec T •ux d'1pprenFIGURE 3.2 - les différentes étapes de notre méthode
3.2.1 Saillance spatiale
segmentation
Dans cette étape Nous utilisons l'algorithme I pour calculer la carte de saillance spatiale. En premier lieu, on décompose la vidéo en un ensemble d'image qu'on converties du RGB au Luma, puis on calcul l'histogramme d'homogénéité pour trouver les maximums locaux Pi de chaque image (Pi ={(i, h(i))lh(i)
>
h('i - 1)et
h(i)>
h(i+
1), 1 ~ i ~ 254} ).Après la Suppression des petits pics de l'histogramme (la manière de suppression est : Si
llPi - PJll
2 ~ ê, le plus gros pic sera conservé), on met le reste des pics comme des moyennesinitiales µi. Les matrices de covariance initiales sont calculées à partir de l'équation
(3.10).
a?
i °"q=br ()2
( )
/°"q=br ( )Chapitre 3. Description d'une méthode pour la détection des objets en mouvement 36
Où c ( hq) est la valeur de l'histogramme à hq
Une Normalisation des pics est nécessaire pour les définir comme des poids initiaux des clusters gaussiens, notés comme wi.
Wi
==
c(µi)/~~
1
c(µi)
(3.11)
Pour trouver des wi,
µi
etat
plus exacte on exécute l'algorithme EM, après on classifié tous les poids wi par ordre décroissant. Est on cherche les premiers poids k qui satis-font .L~=l Wi ~ 7], Les clusters de gauche sont considérés comme des clusters de premier plan.À base des étiquettes de cluster, la carte de saillance spatiale est obtenue en calculant la
distance pondérée de chaque point aux centres de cluster, qui est représentée comme suit :
SSt,x
=
P*
_L:
=lWf
*
(lt,x -µf)
2
+
(1 -p)
_LT=-;_k WJ
*
(lt,x -µf)
2
(3.12)Où
µf
est la moyenne du cluster d'arrière-plan,µf
est la moyenne du cluster de premier plan, et p est réglé sur 0,6Algorithm 1
Donnée d'entrée : vidéo séquence 1. Décompositions vidéo vers frames
2. Conversion RGB vers luma (niveau de gris)
For i = 1 ... F (nombre frame)
3. Calcule l'histogramme d'homogénéité
4. Calcule poids
(Wi),
mean(µi)
et covariance(a;)
5. Exécuter l'algorithme EM 6. Calcule Spatial saillance map
3.2.2 GMM
Nous utilisons la méthode gaussienne qu'est basée sur la soustraction des arrière-plans
pour obtenir la carte binaire de premier plan, cette dernière est utilisée pour trouver la carte
de saillance temporelle définie par l'équation (3.13).
Stt,x
== ()
*
(1 -
J
9t,x)
+
(1 -
B)
*
J
9t,x
(3.13)
3.2.3 Saillance spatio-temporel
Puisque les zones saillanes de la carte spatiale comporte quelques d'autre objets statiques,
nous n'utilisons pas la somme de la carte de saillance temporelle et spatiale. Nous avons trouvés que le produit entre ces cartes peut éliminer certaines erreurs, donc nous créons la carte de saillance Spatio-temporel en utilisant l'équation (3.14).
ST
St,x
==
SSt,x
*
Stt,x
(3.14)
Il a été noté que la saillance spatio-temporelle contient les informations sémantiques
initiales de la trame, décrivant la probabilité qu'un pixel appartient à l'avant-plan.
3.2.4 Taux
d
'a
p
pre
nt
issage
Le taux d'apprentissage du modèle GMM peut être ajusté de manière adaptative en fonc-tion de l'informafonc-tion sémantique de saillance, La foncfonc-tion d'échelle de taux d'apprentissage définie comme suit.
Chapitre 3. Description d'une méthode pour la détection des objets en mouvement
Avec les paramètres :
. / µst : la moyenne de la carte de saillance .
. / S8t : la variance de la carte de saillance .
. / T : Distinguer la région saillante ET la région non saillante, Où T = µst
+
Sst· ./ a= 999 .38
./ b : est un paramètre pour contrôler la taille de la ceinture de distinguer, Où b = 0.1. ./ c
=
1.0.D'abord, nous utilisant l'équation 3.16 pour calculer Œt,x , avec /
=
0.0001Œt,x
==
/
*
SFt,x
(3.16)
Basé sur le nouveau taux d'apprentissage Œt,x, effectué à nouveau GMM pour obtenir la
carte finale du premier plan (foreground). Pendant ce temps, Nous faisons une mise à jour de Wt-l,x,n , µt-l,x,n ,
a°l-
1,x,n pour la trame suivante comme suit :Si lt,x correspond au néme modèle gaussien, utiliser les équations(3.17), (3.18), (3.19) :
Wt,x,n
==
Wt-1,x,n
+
O'.(1 -
Wt-1
,x,n)
(3.17)
a;,x,n
=
a;_
1,x,n+
(a/wt-1,x,n)* ((
It,x - ttt-1,x,n)2 -a;_
1,x,n) (3.19)Sinon un remplacement de modèle est effectué pour incorporer ft.x dans le GMM.
k=argmilln=l, ... NWt-1,x,n
/Lt,x,k = It,x' a;,x,k = a5' Wt,x,k = Wo
Wt,x,k = Wt-l,x,n - ŒWt-l,x,n Quand Il =/= k
3.3 Co
nclu
s
ion
Dans ce chapitre, nous avons détaillé les différents principes et étapes de la méthode proposée, qui repose sur un calcul de la carte de saillance spatiale et l'utilisation d'un modèle de mélange gaussienne ( G MM) permettant de trouver la carte de saillance temporelle, les deux résultat sont combiner pour trouver une carte de saillance spatio-temporelle qui isole d'une façon efficace les objets en mouvement de l'avant plan des objets statique de l' arrière-plan. La performance de la méthode proposée est évaluée en l'appliquant sur un dataset, et ensuite étudier et analyser les résultats obtenu sous plusieurs critères. Chose qui sera abordé dans le chapitre suivant.
[
Chapitre
4
Résultats et discussions
Introduction
L'objectif de ce chapitre est d'étudier et d'analyser les résultats obtenus par notre méthode
qui est déjà abordée dans le chapitre précédant, en les comparant avec les résultats des
méthodes qui ont été mentionnées dans le chapitre 2.
4.1
Environnement de travail
4.1.1
Langage
Nous avons utilisés Python 2. 7 comme langage de programmation, parmi les raisons de
cette utilisation :
,/ Python fonctionne sur différentes plateformes (Windows, Mac, Linux);
,/ Il a une syntaxe simple similaire à la langue anglaise ;
./ Ce langage peut être traité de manière procédurale, de manière orientée objet ou de
manière fonctionnelle.
4.1.2 Caractéristique de la plateforme
Ont utilisé une machine avec les caractéristiques suivantes :
./ PROCESSEUR :
2.40 GHz Intel core i5-6200U;./ RAM :
8.00 GO ;./ CARTE GRAPHIQUE :
Intel HD 520;./ SYSTEME D ?EXPLOITATION :
Windows 10 64 bits.4.2 Dataset
Pour évaluer la méthode proposée on l'applique sur certain vidéo de la base CAVIAR's (OneStopNoEnter2, RestWiggleOn, Walkl) qui été filmée avec un objectif de caméra grand angle dans le hall d'entrée des laboratoires INRIA à Grenoble en France, la résolution de ces vidéos est (384 x 288 pixels, 25 images par seconde) et compressé en MPEG2. Les tailles de fichier sont principalement entre 5 et 12 Mo, la FIGURE 4.1 présente un exemple de cette exécution.
Afin d'approfondir les situations générales avec divers premier plan / arrière-plan et différente distributions de couleurs et d'établir une référence dans les futurs travaux, nous construisons un nouvel ensemble de données. Cet ensemble se compose de 3 vidéos contenant des différentes distributions de couleurs (MyHouseTerrace, InformaticDepartment, Central-Library), leur résolution est (320 x 240 pixels, 25 images par seconde) et une durée de lOs à 30s, elle a été testée sur l'ensemble de données qui sont déjà construites. Les résultats obtenus sont illustrés dans la la FIGURE 4.2.
Chapitre 4. Résultats et discussions Frames Spatio S•liency Spatio-temporel Saliency GMM Foreground Finale L'objet OneStopNoEnter RestWiggleOn
FIGURE 4.1 - exemple d'exécution sur dataset CAVIAR's
42
Frames Spetio Sallency Spatio-temporel Saliency GMM Foreground Finale L'objet
Chapitre 4. Résultats et discussions 44
4.3
Analyse est interprétation des résultats
Il n'existe pas une méthode, qui remplit tous les critères d'une méthode parfaite, car lors
de l'implémentation de ces méthodes on est toujours confronté à un compromis, où chaque
méthode a ces inconvénients et ces avantages, l'équilibrage entre les points forts et les points
faibles dépend du domaine d'application.
Puisque notre méthode propose une amélioration de la technique largement utilisée qui est le GMM, on va comparer les résultats de notre méthode avec cerne d'une méthode opérant avec un GMM classique, ce test est fait par les demc genres de mesures de qualité (objective, subjective).
4.3.1
Subjective (inspection visuelle)
D'après l'inspection visuelle des résultats illustrés dans la FIGURES 4.3 (exemple
de test sur dataset CAVIAR's) et la FIGURES 4.4 (exemple de test sur notre dataset), on remarque que notre méthode peut détecter l'objet, et éliminer le bruit de fond, donc il
ajoute une amélioration par rapport au GMM.