• Aucun résultat trouvé

Indexation des images et de la vidéo

N/A
N/A
Protected

Academic year: 2022

Partager "Indexation des images et de la vidéo"

Copied!
104
0
0

Texte intégral

(1)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Indexation des images et de la vidéo

Jenny Benois-Pineau

LABRI UMR 5800 Université Bordeaux

1/Bordeaux2/IPB-ENSEIRB-Matmeca

(2)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Indexation des images et de la vidéo

1. Description du contenu des images

Descripteurs globaux Descripteurs locaux

Quantification : Notion de BOF et BOVW Mesures de similarité et distances

Prise en compte du contexte spatial : SPMK, GraphWords

2. Extensions spatio-temporelles

Comparaisons des séquences vidéo Mouvement : descripteur particulier Estimation

Segmentation en plages du mouvement homogène.

(3)

Laboratoire Bordelais de Recherche en Informatique

1. Description du contenu des images

Objectifs :

-recherche des images par similarité dans des bases de données

- reconnaissance des scènes, des objets

- classification non supérivisée /groupement des images similaires dans une BD ou des images une une vidéo

- classification supervisée

Formulation générale du problème de recherche par similarité :

06/04/2012

(4)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

(5)

Laboratoire Bordelais de Recherche en Informatique

Evaluation des performances

TP, FP, TN, FN Rappel(R) :

R= TP/(TP+FN)= TP/(Ngt) Précision(P) :

P= TP/(TP+FP)= TP/(Nd) F-mesure normalisée (F) : F= 2/(1/R +1/P)

MAP : Mean average precision – mesure tenant compte du rang Précision à n :

Soit TP à la position n, P(n) – combien de TP sur n premiers/n Average Precision: ,

MAP= ∑ ( )

06/04/2012

(6)

Laboratoire Bordelais de Recherche en Informatique

Descripteurs globaux

M. J. Swain and D. H. Ballard. Color indexing. International Journal of Computer Vision , 7(1):11–32, 1991.

MPEG7: ISO/IEC 15938-3:2002 Information technology -- Multimedia content description interface -- Part 3: Visual

Descripteurs globaux du contenu des images en termes de couleur et contrastes couleur, texture, contours..

06/04/2012

(7)

Laboratoire Bordelais de Recherche en Informatique

Descripteurs globaux : couleur

Histogramme couleur (S&B)

Invariance : translation, rotation, et faibles changements de l’angle de vue

06/04/2012

M. J. Swain and D. H. Ballard. Color indexing. International Journal of Computer Vision ,

7(1):11–32, 1991.

(8)

Laboratoire Bordelais de Recherche en Informatique

Mesures de similarité et distances su rels histogrammes(1)

Intersection des histogrammes

Coefficient et distance de Battacharyia

06/04/2012

(9)

Laboratoire Bordelais de Recherche en Informatique

Mesures de similarité et distances sur les histogrammes(2)

Distance :

, = ∑ ( ! " # $ " ) %

! " & $ " Tapez une équation ici.

Cette distance permet de réduire l’effet des classes de forte population.

Encore S&B montrent que leur mesure de similarité des histogrammes peut être exprimée via la norme L1:

1- 5 , = 69 " 7 − 7 , T=Card(I)

Distances entre les histogrammes: normes L1 et L2 dans l’espace : 9

Plus généralement *

; , = − 6 ∑ −

*O. Pele and M. Werman. The quadratic-chi histogram distance family. In ECCV , 2010.

06/04/2012

(10)

Laboratoire Bordelais de Recherche en Informatique

Mesures de similarité et distances sur les histogrammes(3)

Σ est appelée la matrice de similarité des classes.

Si Σ est la matrice inverse de covariance, La distance est celle de Mahalanobis.

Dans le cas de

Σ = =, nous avons L2

D’autres distances sont appliquées : « Earth – mover distance » etc.

06/04/2012

(11)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Descripteurs de la couleur en MPEG7 (2)

Dominant color descriptor : l ’ensemble des couleurs dominantes dans la régions d ’intérêt ou dans l ’image entière fournit une description compacte facile à indexer.

{ }

{ c , p , v , s } , ( i 1 , 2 ,..., N )

F = i i i =

s v p c

i i

i - ième couleur dominante - pourcentage dans l ’image - variance couleur;

- mesure de cohérence spatiale

(nombre moyen normalisé des pixels

connexes de même couleur dans un

voisinage 3x3). = Histogramme de

couleurs

(12)

Laboratoire Bordelais de Recherche en Informatique

Calcul du DCD – Split-LBG

Nombre de classes final fixé à priori K=2 n Méthode :

1. Initialisation : tirage aléatoire des centres de M<K classes (M=2)

2) « Split » de D :

3) LBG

a - affectation

b - calcul du nouveau centroïde de chaque classe :

c - calcul de la distorsion

si alors arrêter sinon (3) 4) Arrêt si K classes sinon retour en (2).

{ c c } A

D = 1 ,..., M

( ( ) )

{ } =

= a ( 1 ) ,..., a n i T i 1 A

( i + ε i ε )

i c c

c a ,

i k

k j k

j Arg d a c c D

a

C ( ) = min ( , ), ∈

= ∑

C k a l

l k

k a

g N 1

( )

∑∑

=

k i

k ik c a d

E ,

− 1

< I

I E

E α

(13)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Descripteur Color Layout

Color Layout Descriptor : représentation compacte de la distribution spatiale des couleurs dans l’image, indépendante de la résolution.

Calcul :

- Partitionner image de taille MxN en 64 blocs (8x8).

-Calculer la valeur représentative (moyenne) par bloc

Calculer la DCT sur l’imagette des valeurs représentatives

Coefficients DCT de luminance

Coefficients DCT de chrominance rouge Coefficients DCT de chrominance bleu m = 6, n = 3 par exemple

( DY DCr DCb ) ( i m j n )

CLD = i , j , j , = 1 ,..., , = 1 ,...,

(14)

Laboratoire Bordelais de Recherche en Informatique

Calcul du descripteur

Zigzag Scan Coefficients Partitionement

Calcul des couleurs représentatives

DCT

image

CLD

Y Cb Cr

64(8x8) blocs

(15)

Laboratoire Bordelais de Recherche en Informatique

Exemples de CLD

06/04/2012

(16)

Laboratoire Bordelais de Recherche en Informatique

Descripteurs de texture/contours

Descripteur EDH – histogramme de contours

Permet de caractériser la direction des contours dans

des zones de l’image

(17)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

EDH(1)

Principe de calcul :

diviser l’image en 16 blocs;

détecter les contours dans chaque bloc;

et déterminer leur orientation parmi les 5 : H,V,45°,135°,ND (non-directionnal);

pour chaque bloc calculer l’histogramme normalisé des orientations des contours;

concaténer les histogrammes dans un vecteur à 16x5=80

dimensions.

(18)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

(19)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

EDH(2)

Exemple :les histogrammes moyennes et variance

pour un ensemble de 55 exemples

(20)

Laboratoire Bordelais de Recherche en Informatique

Descripteurs locaux

Principe :

-a)Détecter des points, des régions « singuliers » dans l’image et décrire la texture autour

-b) Décrire la texture en utilisant les descripteurs de (a) en effectuant le découpage régulier

« description dense » ou irrégulier « description par régions ».

06/04/2012

(21)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Descripteurs SIFT (D. Lowe 2004) -1 SIFT = scale invariant feature transform

Problème : détecter les points caractéristiques et proposer les

descripteurs invariants par rapport aux transformations affines du plan – image et de la liminance.

) , ( ) , , ( ) , ,

( x y G x y I x y

L σ = σ ∗



 +

=

2

2 2

2

2

2

) 1 , ,

(

σ

σ πσ

y x

e y

x G

σ -est le paramètre d’échelle

(1) (2 )

) , , ( )

, , ( )

, , ( )

, ,

( x y σ D x y σ L x y k σ L x y σ

DOG = = −

Mokolajczyk (2002) a montré que les points les plus stables sont obtenus comme extremums de

Laplacien de Gaussienne d’une image

I G o

2

2 ∇

σ

(22)

Laboratoire Bordelais de Recherche en Informatique

DOG est une bonne approximation de Considérons

Alors (3) (4)

Par ailleurs

(5)

2 G

2 ∇ σ

( ) )

exp( 2 2 2

1

2 2 2 2

2 2

5

σ σ

πσ σ

y y x

G = x + − − +

Descripteurs SIFT (D. Lowe 2004) -2

( ) σ

σ σ

σ

σ = + ∆ ⇒ ∆ = k − 1 k

σ σ σ

σ ) ( , , ) ( 1 ) ,

,

( −

≈ ∂

G k

y x G k

y x G

( ) 

 

 − +

− +

∂ = + ∂

= ∂

2 2 2 2 2 6 2 2 2 2 2 2 exp 2

2 2 1

σ σ πσ

y y x

y x G x

G G

(23)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Descripteurs SIFT (D. Lowe 2004) -3

De (4) et (5) :

(6) Finalement de (3) et (6):

DOG déjà comporte la normalisation requise pour Laplacien inv. à l’échelle. Le facteur (k-1) est constant pour toutes les échelles et n’influence pas la localisation des extremums

σ σ

= ∂

G

2

G

) , , ( )

1 (

) 1 ) (

, , ) (

, , ( )

, ,

( σ σ 2 2 σ

σ σ σ

σ G x y G x y k k G x y

k y x

G − = − ∇

≈ ∂

σ

2

(24)

Laboratoire Bordelais de Recherche en Informatique

Calcul de la DOG

Convoluer I avec G progressivement pour produire L séparées par k dans l’espace - échelle

Une Octave est divisée en s intervalles,

Echelles adjacentes

DOG:

Sous-échantillonnage de facteur 2

σ σ,2

( σ ) σ

σ

σ , 2

1/s

, 2

1/s

2

1/s

,..., 2

σ σ , 2

k

s 1

= 2

) , , ( )

, , ( )

, ,

( x y i L x y k i L x y i

D σ = σ − σ

(25)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Détection des extremums locaux

Un point est retenu si DOG est minimale ou maximale parmi 26 voisins

Choix du paramètre d’échelle valeur

(Lowe[2004])

L’échelle s est affectée au point

σ σ , 2

6 ,

= 1

σ

(26)

Laboratoire Bordelais de Recherche en Informatique

Filtrage le long des contours (1)

Un faible pic de DOG (qui correspond au contour) aura une forte courbure dans la direction orthogonale au contour et une fable courbure dans la direction orthogonale.

Matrice Hessienne

Les valeurs propres de H sont proportionnelles aux courbures principales de D au point considéré.

Soit avec - la valeur propre maximale ( )

sont les racines du polynôme caractéristique , alors

 

 

= 

yy yx

xy xx

D D

D H D

β α ,

β

α = r α

β

α , det( H − λ I )

), (H

= Tr + β α )

(H

= Det αβ

≥ 1

r

(27)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Filtrage le long des contours (2)

Finalement

Exclusion du point si

( ) ( ) ( ) ( )

r r H

Det H

Tr

2

= +

2

= + 1

2

αβ β α

( ) ( ) ( )

Thr Thr H

Det H

Tr

2

< + 1

2

(28)

Laboratoire Bordelais de Recherche en Informatique

Résultats de la détection

Image1

(29)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Résultats de la détection

Image10

(30)

Laboratoire Bordelais de Recherche en Informatique

Affectation de l’orientation

Objectif : obtenir l’invariance du descripteur par rapport à la rotation en compensant par rapport à l’orientation locale

For each sample of the image L(x,y) at a given scale compute : Amplitude du gradient :

Angle d’orientation :

Histogramme d’orientations et calculé dans le

voisinage du point caractéristiques (36 orientations : 360/10).

Points multiples : l’histogramme contient plusieurs modes ( ( 1 , ) ( 1 , ) ) (

2

( , 1 ) ( , 1 ) )

2

) ,

( x y = L x + yL xy + L x y + − L x ym

( ) ( )

( ( , 1 ) ( , 1 ) / ( 1 , ) ( 1 , ) )

arctan )

,

( x y = L x y + − L x yL x + yL xy θ

( , , , 1 , 5 ) , 1 ,.., 36

) , ( ) ( )

( = h + m x y G x y x 0 y 0 i =

h θ i θ i σ s

(31)

Laboratoire Bordelais de Recherche en Informatique

Affectation de l’orientation(2)

Exemple de Lowe avec les orientations locales.

06/04/2012

(32)

Laboratoire Bordelais de Recherche en Informatique

Séléctionner une région – carré autour du point caractéristique ( 8x8 or 16x16 pixels);

Claculer l’amplitude du gradient et l’orientation en chaque point de la région, pondérer l’amplitude avec une Gaussienne (cercle)

Diviser en blocs de taille 4x4 et calculer l’histogramme d’orientation pour chaque bloc (8 orientations);

Pondérer chaque contribution dans un bin par l’amplitude lissée du gradient Interpoler les histogrammes

Descripteur local autour du point caractéristique (1)

(33)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Descripteur local autour du point caractéristique (2) Le descripteur X est un vecteur des histogrammes 4x4 concaténés dim(X)=4x4x8=128

« Tourner » le descripteur X par rapport à l’orientation du point caractéristique pour obtenir l’invariance par rapport à la

rotation

Normaliser :

- invariance par rapport aux transformations affines de la luminance

X X

X ← /

(34)

Laboratoire Bordelais de Recherche en Informatique

SURF (speed-up robust features)(1)

Points caractéristiques : max de det de Hessian - blobs

L-convolution de l’image avec la dérivée seconde d’une

Gaussienne

(35)

Laboratoire Bordelais de Recherche en Informatique

SURF (speed-up robust features)(2) H.

Bay et al.

Image intégrale

Calcul rapide de convolution

06/04/2012

C-B-D+A

(36)

Laboratoire Bordelais de Recherche en Informatique

SURF (speed-up robust features)(3)

Augmentation de taille de filtre au lieu de

changement de l’image pour la détection à

différentes échelles

(37)

Laboratoire Bordelais de Recherche en Informatique

Exemples de détection

06/04/2012

(38)

Laboratoire Bordelais de Recherche en Informatique

Régions de calcul du descripteur.

Calcul de l’orientation à la base des Ondelettes

de Haar

(39)

Laboratoire Bordelais de Recherche en Informatique

Descripteur

06/04/2012

(40)

Laboratoire Bordelais de Recherche en Informatique

Quantification: BOF et BOVW

Notre problème 2 : comment comparer les images représentées par leurs descripteurs locaux

BOF : représentation d’une image par un ensemble des descripteurs d’origine

BOVW : quantification vectorielle des descripteurs et représentation d’une image par signature-

histogramme des « mots » du dictionnaire.

06/04/2012

(41)

Laboratoire Bordelais de Recherche en Informatique

Approche BagofFeatures (BoF)

D’après Lazebnik (UNC/UIUC)

(42)

Laboratoire Bordelais de Recherche en Informatique

Comparaison des images

Score(i,j) d(F k,i ,F l,j )

(43)

Laboratoire Bordelais de Recherche en Informatique

Recherche des images similaires

- Mesure de similarité entre les descripteurs

(SIFT : distance L1, histogrammes – distance L1, coeff de Battacharyia, Ki-2,…, mesures assymetriques)

- Score : nombre de descripteurs similaires au sens de

la mesure de similarité choisie

(44)

Laboratoire Bordelais de Recherche en Informatique

Recherche des images similaires

(45)

Laboratoire Bordelais de Recherche en Informatique

Recherche des images similaires

(46)

Laboratoire Bordelais de Recherche en Informatique

Stratégie de vote(1)

(47)

Laboratoire Bordelais de Recherche en Informatique

Stratégie de vote(2)

K=7 : inconvenients? Non-symétrique

(48)

Laboratoire Bordelais de Recherche en Informatique

Stratégie de vote (3)

(49)

Laboratoire Bordelais de Recherche en Informatique

Stratégie de vote

Calcul de « bonnes » correspondances uniquement en considérant toutes les correspondances équivalentes.

Nécessité d’une similarité plus

« sémantique »

Difficultés de « passage en échelle » - une

grande quantité des appariements.

(50)

Laboratoire Bordelais de Recherche en Informatique

Approche par Bag of Words BoVW

• Approches inspirées par

– la recherche dans des bases de données textuelles

– (R. Baeza –Yates, B. Ribero-Neto, Modern Information Retrieval, ACM Press, 1999)

– la quantification viselle (codage) ( Lindo Buso Gray)

« Dictionnaires visuels »

J. Sivic and A. Zisserman, “Video google: a text retrieval approach to

object matching in videos,” ICCV’2003, vol. 2, pp. 1470-1477, 2003.

(51)

Laboratoire Bordelais de Recherche en Informatique

BoW(1)

« visage », »herbe », « bâtiment » ????

Lazebnik (UNC) conférence sur BoF, proposé par G.

Szurka en 2004

(52)

Laboratoire Bordelais de Recherche en Informatique

BoW(2)

1. Extraction des descripteurs des éléments

2. Construction de l’ensemble des descripteurs

+ +

(53)

Laboratoire Bordelais de Recherche en Informatique

BoW(3)

(54)

Laboratoire Bordelais de Recherche en Informatique

BoW(4)

(55)

Laboratoire Bordelais de Recherche en Informatique

BoW(5)

(56)

Laboratoire Bordelais de Recherche en Informatique

Choix des éléments de l’image et des descripteurs(1)

Vogel & Schiele, 2003

Fei-Fei & Perona, 2005

Quenot et Ayache 2005,

Merialdo, Dumont 2008

(57)

Laboratoire Bordelais de Recherche en Informatique

Choix des éléments de l’image et des descripteurs (2)

Sivic &

Zisserman

2005

(58)

Laboratoire Bordelais de Recherche en Informatique

BORW – Bag of Region-Words

Principe : les régions sont issues de la fusion des segmentations régulière et irrégulière.

Descripteurs : histogramme HSV Wang DB

R. Vieux et al. 2010

06/04/2012

(59)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

(60)

Laboratoire Bordelais de Recherche en Informatique

TF-IDF(1)

(61)

Laboratoire Bordelais de Recherche en Informatique

TF-IDF(2)

(62)

Laboratoire Bordelais de Recherche en Informatique

Méthodes de construction de dictionnaire

Algorithmes de groupement de données : clustering(CNS)

Le plus fréquemment utilisé est l’algorithme des K- moyennes

Problème de passage à l’échelle

Illustration d’ambiguïté des

mots visuels

(63)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Algorithme de K-moyennes(I)

J. MacQueen, “Some methods for classification and analysis of multivariate observations”, Proc. Of the Fifth Berkley Symposium on Math. Stat. And Prob., pp. 281 – 296, 1967

Principe : CNS avec le nombre des classes connus a priori.

Paramètre : le nombre k de classes

entrée : un échantillon de M vecteurs-descritpeurs x 1 ,... x M . (1) Choisir k centres initiaux c 1 ,... c k

(2). Pour chacun des M vecteurs, l'affecter à la classe i dont le centre c i est le plus proche

(3). Si aucun élément ne change de classe alors arrêt.

(4). Calculer les nouveaux centres : pour tout i, c i est la moyenne des éléments de la classe i

(5). Aller en 2

(64)

Laboratoire Bordelais de Recherche en Informatique

Clustering incrémental

1. Choisir les vectuers initiaux pour former k centres des clusters, ck, k = 1,…,K.

2. Sélectionner la donnée suivante x de l’ensemble de données D

3. Calculer la distance de x à K centres des clusters.

4. Trouver le centre du cluster le plus proche cwin = arg min k d(x, ck)

5. Si d(x, cwin) > Th alors l’échantillon x devient le centre du nouveau cluster. Sinon bouger le centre cwin dans la direction de x :

cnewwin = coldwin + e*(x -coldwin); 0<e<1

06/04/2012 E.Lughofer. “Extensions of vector quantization for incremental clustering”. Pattern

(65)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Classification hiérarchique agglomérative

Principes :

(1) A l’initialisation chaque vecteur descripteur dans l’échantillon de données forme une classe.

(2) Tant que le nombre de classes est supérieur à k ( à la limite k=1) Regrouper les classes les plus proches au sens d’une distance d

Distance entre les classes lien minimal

lien maximal

distance moyenne

( ) x y

d

j i

y C C x j

i C C

d max ,

, max ( , )

=

( ) x y

d

j

i y C

C x j

i

C

C

d min ,

,

min

( , )

=

(

l p

)

n p

p n l

j l i j

i

moy

d x y

n C n

C d

i j

1 , )

, (

1 1

=

=

=

×

=

=

d’après A. Laurent, LIRMM

(66)

Laboratoire Bordelais de Recherche en Informatique

Dendrogramme

(67)

Laboratoire Bordelais de Recherche en Informatique

Prise en compte du contexte spatial:

SPMK

La description éparse ne tient pas compte de la distribution des

« features » dans le plan-image

SPMK

S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial

pyramid matching for recognizing natural scene categories. In Computer Vision and Pattern

Recognition, 2006 IEEE Computer Society Conference on , volume 2, pages 2169–2178. IEEE, 2006.

(68)

Laboratoire Bordelais de Recherche en Informatique

Similarité : Spatial Pyramid Match Kernel.

Considérons images X et Y

Considérons m=1,…,M classes dans le dictionnaire;

Considérons I – la mesure d’intersection des histogrammes,

Considérons l=0, …,L les partitions de l’image par des grilles emboitées avec les cellules > N × > N ( pour simplifier H=L=N)

7 A B C , D C = E I F B C , F D C + ∑ A EG>H I B C , D C

I A B, D = ∑ J C 7 A B C , D C

Ceci revient à concatener les histogrammes pour tous les niveaux et pour toutes les cellules avec la pondération.

Inconvénient : non-invariance par rapport aux transformations affines du plan –image.

06/04/2012

(69)

Laboratoire Bordelais de Recherche en Informatique

GraphWords

Construction de graphes par triangulation de Delaunay sur des points SURF

69

(70)

Laboratoire Bordelais de Recherche en Informatique

Problème de clustering des graphes

(1) Distance:

d( P , Q ) = s( P, P)+s(Q, Q) - 2 s(P, Q) [0,1]

Nécessité de définir la similarité s

(2) Méthode de quantification/classification

HAG car impossible d’interpoler les graphes – espace non-vectoriel

Modèle de classe : graphe médian

06/04/2012

(71)

Laboratoire Bordelais de Recherche en Informatique

Exemples

06/04/2012

Base de données SIVAL (25 objets, 10

environnements, 6 positions par environnements)

(72)

Laboratoire Bordelais de Recherche en Informatique

Évaluation de la méthode

Base de données SIVAL (25 objets, 10

environnements, 6 positions par environnements)

(73)

Laboratoire Bordelais de Recherche en Informatique

Fusion (continu) toujours meilleure que graphes (tirés) ou points SURF isolés (pointillés)

[Soumis à ACMMM’2011]

Évaluation de la méthode

73

(74)

Laboratoire Bordelais de Recherche en Informatique

2. Extensions spatio-temporelles

Comparaisons des séquences vidéo(1)

(1) Key–framing

«Chancre » - CERIMES

KLM N , N O = P

(75)

Laboratoire Bordelais de Recherche en Informatique

Comparaisons des séquences vidéo(2)

(76)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Mouvement : descripteur particulier

Représentation du mouvement dans le plan - image Modèles du mouvement

Méthodes d’estimation

Méthodes directes / Estimation par bloc

Méthodes paramétriques/Estimation robuste

Méthodes de la segmentation basées mouvement

Méthodes par comparaison du mouvement

(77)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Représentation du mouvement dans le plan - image

Une séquence vidéo est une image 2D du monde 3D en mouvement

On ne perçoit le mouvement que grâce au changement de la luminance / couleur

Mouvement Apparent

(78)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Mouvement réel 2D vs mouvement apparent

Mouvement réel 2D est la projection du mouvement 3D par le système optique de la caméra

Y

Z

X

Y

Z

X

à t à t+1

Mouvement apparent _ “flot optique” est observé dans

le plan image 2D grâce au changements de la luminance

(79)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Mouvement réel 2D vs mouvement apparent (2)

Mouvement apparent est dans le cas général différent du mouvement réel 2D

a)Insuffisance du gradient spatial MR - oui

MA - non

b)Changements

d’illumination extérieure MR - non

MA - oui

Néanmoins!

Hypothèse: Mouvement Apparent=Mouvement reel 2D

(80)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Caractérisation locale du mouvement

P

P’

t t+1

d v

( dx dy ) T

d v = ,

Vecteur de déplacement élémentaire

( dx dt dy dt ) T

w r = / , / vecteur vitesse Premier niveau de caractérisation du mouvement consiste à calculer le flot optique ou

“champ de déplacement”

{ }

= w

W r D = { } d r

(81)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Modèles de mouvement

En développant en série de Taylor autour de d v = ( dx jusqu’au 1er ordre , dy ) T

( x , g y g )

 

 

 −

 

 + 

 

 

= 

 

 

= 

g g

y y

x x b

b

a a

b a dy

d dx

2 1

2 1

0

r 0

(9)

x a dx

= ∂

1 y

a dx

= ∂

2 x

b dy

= ∂

1 y

b dy

= ∂

2

Ici M

( a b a a b b ) T

aff = 0 , 0 , 1 , 2 , 1 , 2

Θ Modèle afffine à 6-paramètres

(82)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Modèles affines

Exprimant

( traceM ) I ( M M ) [ M M ( traceM ) I ]

M = + − T + + T

2 1 2

1 2

1

)

2 (

1 div d

y dy x

b dx a

traceM

= r

∂ + ∂

= ∂ +

=

 

 

 −

 

 

− ∂

= ∂

− 1 0

1 0

2 ) 1 2 (

1

y dx x

M dy

M T

( ) d

rot z r

y dy x

hyp dx

− ∂

= ∂

1 y

dx x

hyp dy

∂ + ∂

= ∂ 2

 

 

− +

+ +

1 2

2 1

2 1

1 2

a b

a b

a b

a

( ) b

[ M + M T traceM I ]

2

1 =

 

 

 + 

 

 

 + −

 

 

 −

+

 

 

= 

0 1

1 2 0

2 1 1

0

0 1 1

2 1 0

1

1 0

2 1 1

0

0 1

2

1 div rot hyp hyp

M

(83)

Hiérarchie des modèles affines

 

 

− +

⋅ +

⋅ +

⋅ +

− + ⋅

 

 

= 

 

) (

2 )

( 1 )

( )

(

) (

2 )

( 1 )

( )

( 2

1

0 0

g g

g g

g g

g g

x x hyp y

y hyp x

x rot y

y div

y y hyp

x x hyp y

y rot x

x div b

a dy

dx

( )

 

− +

=

− +

=

g y

g x

y y k t

dy

x x k t

dx ( )

y x

t t dy dx =

 

( ) ( )

( ) ( )

 

− +

− +

=

=

− +

=

=

1 1

1 1

1 2

1 1

1 1

1 2

g g

y

g g

x

y y k x

x t

y y

dy

y y x

x k t

x x

dx

θ

θ

 

 

 −

 

 + 

 

 

= 

 

g g

y y

x x b

b a a b

a dy

dx

2 1

2 1

0 0

( )

( ) ( g )( g )

g g g

g x x y y

b a y

y x x b

b

a a

y y

x x b

b a a b

a dy

dx  − −

 

 + 

 

 

 −

 

 + 

 

 

 −

 

 + 

 

 

= 

 

5 5 2

2 4

3

4 3

2 1

2 1

0

0

(84)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Méthodes d’estimation

Objectif : mesurer le mouvement apparent Méthodes :- directes (estimation du flot

optique)

- indirectes (parametriques- estimation du modèle global)

Modes : basé-pixel, basé-bloc, basé-région

(85)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Estimation du mouvement(1)

Hypothèse principale : conservation de l’intensité lumineuse d’un point le long du trajectoire

n’est jamais nulle à cause du bruit et de changement d’éclairage

( , , ) ( , , ) 0

) , ,

( x y d = I x + dx y + dy t + dtI x y t = DFD

r (12)

(x+dx, y+dy)

(x, y)

(dx, dy)

) , , ( x y d DFD

r

(86)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Estimation du mouvement(2)

Critères à minimiser: EQM, MAD

Ω ∑

= ( , ) ∈ Ω

2 ( , , ( , )) 1

y x

y x d y x DFD

EQM min

Ω ∑

= ( , ) ∈ Ω

)) , ( , , 1 (

y x

y x d y x DFD

MAD min

{ ( ) , } min ( )

) ,

* ( x y d x y Arg EQM D

D = r = Ω

Estimation directe ( , , Θ ) > Θ * = min ( Θ )

EQM Arg

y x d

r

Estimation paramétrique

(87)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Estimation du mouvement(3)

Développant I ( x + dx , y + dy , t + dt ) en série de Taylor autour de (x,y,t)

( )

t dt I y dy I x

dx I t

y x I dt t dy y dx x

I

+ ∂

∂ + ∂

∂ + ∂

= +

+

+ , , ( , , )

et supposant la linéarité de I(x,y,t) on a

= 0

∂ + ∂

∂ + ∂

t dt I y dy I x

dx I

= 0

∂ ∂

∂ + + ∂

∂ ∂

I t dt dy y I dx dt

x I l’équation de contrainte

du mouvement apparent (ECMA)

(88)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Estimation du mouvement(4)

( dx dt dy dt ) T

w r = / , /

Comme alors

I t

w I ⋅ = −

∇ r r u v

ECMA

Estimation du mouvement est un problème mal posé.

Uniquement le flot optique normal w r ⊥ est observable Sous forme vectorielle

Décomposons w r = w r + w r ⊥ ,

w r ⊥

( w w ) I t

I ⋅ + = −

∇ r r r

est parallèle au gradient local

w r

est orthogonale

(89)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Estimation par bloc

Objectif : obtenir le champ de déplacement éparse

Le FO est supposé constant à l’intérieur d’un bloc Le critère à minimiser :

∑ ∈ − + −

B p

dt t d p I t p

r I

r r

r , ) ( , ) (

min ou min ( I ( p , t ) I ( p d , t dt ) ) 2

B F p

d ∑ − + −

∈ ∈

r r r

r r

I t-dt I t

B

(90)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Méthode de recherche exhaustive

F

B

Estimation « au pixel près »

∑ ∈

∈ − + −

=

B p F

d

dt t d p I t p I Arg

d r r

r r r r

) , ( ) , ( ˆ min

I t-dt I t

L’inconvénient majeur : coût opératoire

Les estimateurs basés-blocs sont utilisés pour tous les standards du codage vidéo

cf. UE « Codage Vidéo »

(91)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

(92)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Méthodes de Flot Optique

Méthode of Cafforio and Rocca

( ) DFD ( p d ) ( I p d t )

t d p

I d

d i i i i

i i

i

i , ,

,

) ( )

( )

( ) ( 2 2

) ( )

( )

( )

1

( r r r r

r r r

r ⋅ ⋅ ∇ +

+ +

+ =

α ε

Méthodes de type “descente”

( ) min

) , (

2 2 2 2

2 2

 →

 

 

 

∂ + ∂

 

 

∂ + ∂

 

 

∂ + ∂

 

 

∂ + ∂

+ +

= ∫ dxdy

y v x

v y

u x

I u v I u I v

u E

G

t y

x α

Méthode de Horn et Schunk

( ) ( ) ( )

2 2

ˆ 1

I t w I

I x u I

u

i i

i

∇ +

∂ + ∂

− ∂

+ =

r r

α ( ) ( )

( )

2 2

ˆ 1

I t w I

I y v I

v

i i

i

∇ +

∂ + ∂

− ∂

+ =

r r

α

(93)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Approches multi-résolution-multi- échelle

t I t

I 0 = I t l = ( gI t l 1 ) ↓

1)Construction des pyramides Gaussiennes pour

, t + 1 t I I

2) Estimation des paramètres de mouvement commençant par le niveau le plus élevé Θ L

3) Propagation

l y l x

y

x t

t , 1 = ρ ⋅ , ρ - le facteur de sous-échantillonnage

l l div rot rot

div , 1 = ,

 

 

 +

= 2 exp 2 2 2 2 2 1

) ,

( k l πσ k σ l

g

(94)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Estimation robuste (1)

- On suppose le mouvement conforme au modèle paramétrique

On considère

- les mesures observées

- les mesures conformes au modèle - les résidus

Principe minimiser un critère d’erreur de façon que les valeurs aberrantes de résidus ne

perturbent l’estimation Θ

Y i

( ( ) x y

i

)

M Θ , ,

( ( )

i

)

i

i

Y M x y

r = − Θ , ,

r i

(95)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Estimation robuste (2)

Soit la loi discrète de distribution d’erreur dépendant du paramètre .

La vraisemblance du paramètre est définie

Le max-vraisemblance est trouvé en résolvant Ceci est équivalent à minimiser

( )

P

σ

θ

( ) = ( )

r

r P P

L θ σ σ

( ) σ

θ θ

θ ˆ = arg max L P

[ ] σ

θ θ P

r

log ˆ = arg min ∑

θ

Pour toutes les valeurs disponibles de r

(96)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

est appelé “estimateur” (*) Supposons que r suit (Estimateur

gaussien). (*) est l’estimateur aux moindres carrés

Estimateur de Lorentz

Estimation robuste (3)

( ) 0 , σ 2

N

( )

22

, 2 σ σ

ρ

G

r = r

min 2 2

2 →

∑ σ r

( ) r σ [ ] P σ ( ) r

ρ , = − log

D. Hasler, L. Sbaiaz, S. Susstrunk, M. Vetterli, « Outlier Modeling in Image Matching », IEEE TRans on PAMI, v. 25, n3, march 2003

Estimateur de Geman-McClur

( ) )

1 2 log(

, 2

2

σ σ

ρ L r = + r

( ) 2 2 2 2

/ 1

, /

σ σ σ

ρ r

r r

GM = +

(97)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Estimation robuste (5)

i i

i r

w = ψ ( r )

∑ = = − Θ

i Z x y i

Z i r i r i

w i

i r i 2 , ( , ( , ))

2 ) 1

ρ ( min

∑ ∂ ∂ =

∂ ∂ =

i j

r i r i w i j

r i

i ψ ( r i ) θ θ 0

∑ = − Θ

∂ ∂

=

∂ ∂ ∑

i w i r i r i Y i M x y i i r i j

j 2 ), ( , ( , )

2 1 ( ))

(

( ρ θ

θ

( ) ( ) r i ρ r i

ψ = &

ici

(98)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

 

 

 − + <

=

othervise C

C r r if C r C r

C r

6 ,

2 , 4

2 ) 6

,

(

6

2 4 4 2 6

ρ



 

 − <

=

othervise

C r if C

r C r

r

, 0

, ) ) (

, (

2 2

ψ 2

Estimateur de Tuckey

La dérivée

( ) r C r i le résidu

i

i

= arg, ,

ˆ min ρ

θ θ

Estimation robuste (3)

( H T WH ) 1 H T WZ

ˆ =

θ

(99)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

(100)

Laboratoire Bordelais de Recherche en Informatique

06/04/2012

Segmentation en plages homogènes

Problème : qualifier le mouvement de la caméra et segmenter en micro-plans

1. Reformulation du modèle du mouvement affine complet du 1 er ordre

2. Estimation du modèle simplifié (4 paramètres) PTZ



 

+ +

=

+ +

=

y a x a a y x dy

y a x a a y x dx

6 5 4

3 2 1

) , (

) , (

( a 1 , a 4 , div , rot , hyp 1 , hyp 2 ) T

= Θ

( ) 2 6

2 1 a a

div = + rot = 2 1 ( ) a 5 a 3 hyp 1 = 1 2 ( ) a 2 a 6 hyp 2 = 1 2 ( ) a 3 + a 5

( a

1

, a

4

, div , rot )

T

=

Θ div = a

2

= a

6

, rot = − a

3

= a

5

Références

Documents relatifs

Travail demand´ e : Le candidat, devra dans un premier temps d´evelopper des algorithmes de pr´ediction des disponibilit´es de transmission pour r´eseaux radios cognitifs.. Dans

On remarque que la méthode de Serrà a tendance à trouver un nombre important de correspondances (cases grisées), même pour des séquences sans lien, ce qui peut résulter, comme pour

Dans une séquence vidéo, différents changements peuvent intervenir au sein même de la scène et les indices temporels qui y sont associés doivent donc être également extraits.. Dans

Pour tous les ensembles de descripteurs de Fourier que nous considérons, nous avons fait les choix suivants : - Concernant les descripteurs de type GF D1 [23], 64 descripteurs

De plus, cette méthode apporte un gain en complexité algorithmique car la transformée de Fourier Clifford ne nécessite que deux transformées de Fourier (au lieu de trois pour la

La question de recherche à laquelle vous allez répondre est la suivante : les élèves ayant un statut socio-économique plus élevé, tel que mesuré par le nombre de livres chez

Ainsi, nous avons développé un algorithme de segmentation d’images couleur par analyse d’histogrammes bidimensionnels dans un espace couleur.. L’algorithme ainsi