• Aucun résultat trouvé

Dynamiques des composantes visuelles pour la gestion des documents vidéo par le contenu

N/A
N/A
Protected

Academic year: 2022

Partager "Dynamiques des composantes visuelles pour la gestion des documents vidéo par le contenu"

Copied!
179
0
0

Texte intégral

(1)

Thesis

Reference

Dynamiques des composantes visuelles pour la gestion des documents vidéo par le contenu

MOENNE-LOCCOZ, Nicolas

Abstract

Nos travaux portent sur le problème de la gestion d'une collection de séquences vidéo par leur contenu visuel. La première contribution de nos travaux consiste en une décomposition du volume spatio-temporel des séquences vidéo. Chaque séquence est décomposée en un ensemble parcimonieux et représentatif de composantes visuelles robustes augmentées de leur trajectoire invariante au contexte dynamique. Notre seconde contribution est un modèle du contenu visuel des séquences vidéo dans un espace de représentation induit par la décomposition de leur volume spatio-temporel. Le modèle est estimé selon le paradigme de la recherche interactive par l'exemple. Finalement, nous proposons un modèle de données multimédias qui permet de rationaliser leur manipulation et l'accès à leur contenu.

MOENNE-LOCCOZ, Nicolas. Dynamiques des composantes visuelles pour la gestion des documents vidéo par le contenu. Thèse de doctorat : Univ. Genève, 2005, no. Sc. 3699

URN : urn:nbn:ch:unige-23231

DOI : 10.13097/archive-ouverte/unige:2323

Available at:

http://archive-ouverte.unige.ch/unige:2323

Disclaimer: layout of this document may differ from the published version.

(2)

Docteur St´ephane Marchand-Maillet

Dynamiques des composantes visuelles pour la gestion des documents vid´ eo

par le contenu

TH ` ESE

pr´esent´ee `a la Facult´e des sciences de l’Universit´e de Gen`eve pour obtenir le grade de Docteur `es sciences, mention informatique

par

Nicolas Mo¨ enne-Loccoz

de Cluses (France)

Th`ese No 3699

GEN`EVE

(3)

de th`ese (D´epartement d’informatique), E. BRUNO, docteur (D´epartement d’informatique), Madame C. SCHMID, docteur (Institut National de Recherche en Informatique et en Auto- matique Rhˆone-Alpes - Projet LEAR - Montbonnot - France), Messieurs J.-M. ODOBEZ, docteur (Institut Dalle Molle d’Intelligence Artificielle et Perceptive - Martigny, Suisse), et Ph. JOLY, docteur (institut de Recherche en Informatique de Toulouse - Toulouse, France), autorise l’impression de la pr´esente th`ese, sans exprimer d’opinion sur les propositions qui y sont ´enonc´ees.

Gen`eve, le 12 d´ecembre 2005

Th`ese - 3699 -

Le Doyen, Pierre SPIERER

(4)
(5)
(6)

Je tiens `a remercier en premier lieu les membres du jury, Madame Cordelia Schmid, Mon- sieur Philippe Joly et Monsieur Jean-Marc Odobez, qui ont particip´e `a l’´evaluation de ce travail, pour le temps qu’ils ont consacr´e `a la lecture du pr´esent manuscrit, les commen- taires ´eclair´es qu’ils m’ont dispens´es et les corrections qu’ils m’ont sugg´er´ees. Je remercie particuli`erement Monsieur Thierry Pun, directeur de th`ese, pour sa relecture attentive, ses indications avis´es mais aussi pour m’avoir accept´e au sein de son laboratoire de recherche.

Je remercie chaleureusement Monsieur St´ephane-Marchand Maillet, codirecteur de th`ese et Monsieur ´Eric Bruno, superviseur, pour avoir guid´e ce travail, avoir ´et´e attentifs `a sa qualit´e, et d’avantage peut-ˆetre pour avoir ´et´e des coll`egues et amis durant les trois ann´ees de cette th`ese.

Je remercie ´egalement tous les membres du groupe Viper et du laboratoire CVML pour leurs conseils, leurs remarques durant les r´eunions et les discussions que nous avons eues.

Je remercie les membres du groupe Orion de l’INRIA Sophia-Antipolis pour m’avoir fait d´ecouvrir le domaine passionnant de l’interpr´etation du contenu visuel des s´equences vid´eo et sans qui ce travail n’aurait certainement pas pu exister.

Je remercie en dernier lieu tous ceux qui ont fait de ces trois ann´ees plus qu’une retraite studieuse et parmi eux, avant tout autre, Julie pour son d´elicieux support quotidien et nos trois myst`eres : L´ea, Cassandre et Jenovefa.

(7)
(8)

Nos travaux portent sur le probl`eme de la gestion d’une collection de s´equences vid´eo par leur contenu. Dans ce contexte nous consid´erons plus sp´ecifiquement le probl`eme de l’indexation des s´equences en fonction de leur contenu visuel ainsi que sur la mod´elisation de motifs spatio-temporels dans l’espace d’indexation.

La premi`ere contribution de nos travaux consiste en une d´ecomposition du volume spatio- temporel des s´equences vid´eo. Nous ´etudions dans un premier temps les diff´erentes formes de d´ecomposition de l’espace des images de la s´equence, et plus particuli`erement celles bas´ees sur la d´etection de r´egions saillantes. Ces r´egions, de par leur propri´et´es de robustesse, de r´ep´etitivit´e et d’entropie, non seulement caract´erisent localement le contenu visuel statique mais permettent aussi d’estimer la dynamique de celui-ci. Nous proposons donc un algo- rithme qui consiste `a mettre en correspondance les composantes visuelles spatiales entre les images successives de la s´equence. Selon les trajectoires apparentes ainsi d´etermin´ees, nous utilisons les m´ethodes d’estimation robuste pour estimer les param`etres de la dynamique glo- bale. En compensant les trajectoires apparentes par les trajectoires induites par ce mod`ele, nous obtenons les trajectoires r´eelles des composantes visuelles. Chaque s´equence peut de cette mani`ere ˆetre d´ecompos´ee en un ensemble parcimonieux et repr´esentatif de composantes visuelles robustes, augment´ees de leur trajectoire invariante au contexte dynamique.

Notre seconde contribution est un mod`ele du contenu visuel des s´equences vid´eo dans un espace de repr´esentation induit par la d´ecomposition de leur volume spatio-temporel. Le mod`ele int`egre dans une formulation Bay´esienne l’apparence des composantes visuelles, leur trajectoire r´eelle ainsi que la dynamique globale des s´equences vid´eo. Le mod`ele est estim´e selon le paradigme de la recherche interactive par l’exemple, `a partir d’un ensemble r´eduit d’exemples d’apprentissage. Nous montrons qu’il permet de retrouver efficacement les motifs spatio-temporels locaux apparaissant dans les s´equences vid´eo. En particulier l’int´egration de la dynamique permet d’augmenter significativement la pr´ecision de l’estimation de ces motifs.

Finalement, et ce afin de compl´eter notre r´eflexion, nous ´etudions la probl´ematique de la gestion physique d’une collection de documents vid´eo. Dans ce cadre, notre contribution est un mod`ele g´en´erique de donn´ees multim´edias permettant de rationaliser leur manipulation et l’acc`es `a leur contenu. En particulier, ce mod`ele permet de mettre en oeuvre les solutions d’indexation et de mod´elisation propos´ees dans une application de recherche de documents vid´eo par leur contenu.

(9)
(10)

Our works address the problem of content-based management of video collections and more specifically, the problem of video sequences indexing and spatio-temporal patterns mo- deling in the indexing space.

The first contribution is a decomposition of the video sequences spatio-temporal volume.

We first study the possible decompositions of the sequence frames space, emphasing on the methods based on saliency measure. These local features, because of their robustness, their repetitivity and their entropy permit to locally represent the static visual content and mo- reover permit to estimate its dynamic. Hence, we propose an algorithm that match static local features between successive video frames. Based on the resulting observed trajectories, we use a robust estimator in order to estimate a parametric model of the global dynamic. By compensating the observed trajectory by the global dynamic, the real trajectory of each local feature is finally obtained. Every sequences may be represented that way by its decomposition into a sparse and representative set of robust local features, augmented with their trajectory, invariant to the global dynamic.

Our second contribution is a model of video sequences visual content which is based on the spatio-temporal decomposition of their volume. The proposed model integrates within a Bayesian formulation, the local features appearance and trajectory and the global dynamic.

It is estimated following the interactive query by example paradigm, using only few learning examples. We show that the model is able to retrieve efficiently local spatio-temporal patterns that may occur within video sequences. More specifically, the integration of the dynamics permit to increase significantly the precision of the estimated patterns.

Finally, in order to complete our study, we consider the problem of physically managing video documents collections. In that context, our contribution is a generic multimedia data model that is able to rationalize their storage and the access to their content. That way, the solutions to the indexing and modeling problems we propose may be exploited by a real content-based video sequences retrieval application.

(11)
(12)

Table des mati`eres 11 1 Introduction : Gestion de documents vid´eo par le contenu visuel 15

1.1 Gestion de documents vid´eo . . . 16

1.1.1 Gestion d’information . . . 16

1.1.2 Recherche de documents par le contenu visuel . . . 17

1.2 Analyse du contenu visuel des documents vid´eo . . . 18

1.2.1 D´ecomposition Temporelle . . . 19

1.2.2 D´ecomposition Spatiale . . . 21

1.2.3 Estimation de la dynamique . . . 22

1.3 Indexation du contenu visuel des prises de vue . . . 22

1.3.1 Indexation s´emantique du contenu visuel . . . 23

1.3.2 Indexation du contenu visuel global . . . 23

1.3.3 Indexation du contenu visuel local . . . 24

1.4 Mod´elisation de la requˆete dans l’espace d’indexation . . . 26

1.4.1 Formulation de la requˆete . . . 26

1.4.2 Mod`eles des documents pertinents `a la requˆete . . . 27

1.4.3 Estimation interactive des mod`eles . . . 28

1.5 Contributions . . . 30

1.6 Plan du m´emoire . . . 31

2 Composantes visuelles 33 2.1 D´ecomposition de l’espace visuel . . . 33

2.1.1 D´ecomposition arbitraire . . . 34

2.1.2 D´ecomposition sur crit`ere d’homog´en´eit´e . . . 35

2.1.3 D´ecomposition sur crit`ere de saillance . . . 36

2.2 Saillance visuelle . . . 38

2.2.1 Cartes de saillance . . . 38

2.2.2 Points saillants par ondelettes . . . 39

2.2.3 Coins deF¨orstner-Harris . . . 40

2.2.4 R´egions `a entropie maximale . . . 42

2.3 Invariance `a l’´echelle . . . 43

(13)

2.3.1 Blobs Laplaciens invariants `a l’´echelle . . . 45

2.3.2 Coins invariants `a l’´echelle . . . 47

2.3.3 R´egions `a entropie maximale invariantes `a l’´echelle . . . 49

2.4 Invariance aux transformations affines . . . 50

2.4.1 Blobs Laplaciens invariants aux transformations affines . . . 51

2.4.2 Coins invariants aux transformations affines . . . 51

2.4.3 R´egions `a entropie maximale invariantes aux transformations affines . 52 2.5 Descripteurs de composantes visuelles . . . 53

2.5.1 Descripteurs statistiques . . . 54

2.5.2 Descripteurs par moments . . . 55

2.5.3 Descripteurs diff´erentiels . . . 56

2.5.4 Descripteurs fr´equentiels . . . 57

2.6 Conclusion . . . 57

3 Dynamique des composantes visuelles 61 3.1 D´ecomposition du volume spatio-temporel . . . 62

3.1.1 D´ecomposition sur crit`ere d’homog´en´eit´e . . . 63

3.1.2 D´ecomposition sur crit`ere de saillance . . . 63

3.2 D´ecomposition propos´ee . . . 65

3.2.1 Trajectoires apparentes des composantes visuelles . . . 67

3.2.2 Dynamique globale . . . 70

3.2.3 Trajectoires r´eelles des composantes visuelles . . . 73

3.3 Evaluation exp´erimentale de l’algorithme´ . . . 74

3.3.1 Param`etres de l’algorithme . . . 74

3.3.2 R´esultats . . . 75

3.4 Application `a la structuration temporelle . . . 83

3.4.1 Segmentation temporelle . . . 84

3.4.2 S´election d’images-clefs . . . 86

3.5 Conclusion . . . 88

4 Mod`eles de contenu visuel par composantes dynamiques 91 4.1 Mod´elisation par index unique . . . 92

4.1.1 Projection dans des espaces de caract´eristiques . . . 92

4.1.2 Projection dans des espaces de caract´eristiques induits . . . 94

4.1.3 Projection dans des espaces de dissimilarit´e . . . 96

4.2 Mod´elisation par index multiple . . . 97

4.2.1 Mod`eles de similarit´e . . . 97

4.2.2 Mod`eles probabilistes . . . 98

4.3 Mod´elisation propos´ee . . . 100

4.3.1 Indexation des s´equences vid´eo . . . 101

4.3.2 Mod`ele de motifs spatio-temporels . . . 105

(14)

4.4 Evaluation exp´erimentale du mod`ele . . . 108´

4.4.1 Protocole exp´erimental . . . 109

4.4.2 R´esultats . . . 112

4.5 Discussion . . . 121

5 Mise en oeuvre 123 5.1 Mod`ele conceptuel de donn´ees pour les documents vid´eo . . . 124

5.1.1 Structuration temporelle des documents . . . 125

5.1.2 Espaces de description des segments temporels . . . 126

5.2 M´ethodes d’acc`es aux documents vid´eo . . . 129

5.2.1 Acc`es aux documents multim´edia . . . 129

5.2.2 Acc`es aux annotations . . . 129

5.2.3 Acc`es aux caract´eristiques . . . 130

5.3 ViCoDE : un syst`eme de recherche de s´equences vid´eo . . . 131

5.3.1 Recherche de documents vid´eo . . . 131

5.3.2 Architecture de l’application . . . 136

6 Conclusions et Perspectives 139 A Application `a l’annotation automatique 143 A.1 D´etection et suivi des entit´es visuelles mobiles . . . 144

A.1.1 D´etection des composantes visuelles mobiles . . . 144

A.1.2 Estimation des r´egions de support . . . 146

A.2 D´etection des objets d’int´erˆet . . . 148

A.2.1 Apprentissage de la s´emantique des r´egions . . . 149

A.2.2 Connaissances a priori . . . 149

A.3 D´etection des ´ev´enements . . . 149

A.3.1 D´efinition du langage . . . 150

A.3.2 Expression du langage . . . 150

A.3.3 Inf´erence d’´ev´enements . . . 151

A.4 ´Evaluation pour le domaine des meetings . . . 151

Annexes 143 B Algorithme des moindres carr´es pond´er´es et it´er´es (MCPI) 157 B.1 M-estimateurs . . . 157

B.2 Algorithme MCPI . . . 158

C Algorithme Hongrois de mise en correspondance minimale 159 C.1 Mise en correspondance d’un graphe bi-partit . . . 159

C.2 AlgorithmeHongrois . . . 160

(15)

D Publications 163

Bibliographie 165

(16)

Introduction : Gestion de

documents vid´ eo par le contenu visuel

Dans cette soci´et´e de l’information qui ´emerge, un ph´enom`ene notoire est celui de la multi- plication et de la diversification des sources de mat´eriel audio-visuel num´erique. Cons´equence de la croissance de la production t´el´evisuelle, de l’augmentation des syst`emes de vid´eo- surveillance, des politiques de num´erisation des archives audio-visuelles ainsi que de la d´emocra- tisation des cam´escopes num´eriques, cette ´evolution se heurte aux probl`emes li´es `a la gestion de cette ´enorme masse d’information. En effet, l’accumulation de documents vid´eo n’a de sens que si l’on dispose des moyens de stockage et d’acc`es `a l’information qu’ils contiennent. Or, la nature de cette information, non-structur´ee, fortement bruit´ee, essentiellement temporelle, ne permet pas d’utiliser les m´ethodes classiques de gestion et de recherche qui ont fait leur preuve pour les documents textuels. Le moyen usuel d’appr´ehender le probl`eme consiste `a annoter les documents vid´eo. Il s’agit en fait de projeter manuellement le contenu de ces documents dans un espace s´emantique pouvant ˆetre ais´ement g´er´e par les syst`emes standards de gestion d’information structur´ee. Cependant l’ampleur de la tˆache interdit sa mise en oeuvre syst´ematique, d’autant plus qu’elle ne permet pas de r´epondre `a toutes les requˆetes potentielles puisque par d´efinition le champ s´emantique couvert est limit´e.

La recherche de documents visuels par le contenu est un domaine de recherche parti- culi`erement actif qui ´etudie les moyens d’extraire des documents l’information qu’il contiennent, de d´efinir les espaces de repr´esentation de cette information ainsi que les moyens de mod´eliser interactivement dans cet espace les concepts recherch´es par les utilisateurs. De nombreux progr`es ont ´et´e r´ealis´es depuis les travaux de M. Swain et D. Ballard [168] tant sur le plan de l’analyse du contenu visuel, de l’indexation de celui-ci que de la mod´elisation des requˆetes dans l’espace d’indexation [11, 162, 165]. Malgr´e le nombre croissant de syst`emes propos´es pour g´erer une collection de documents vid´eo [4, 51, 69], les solutions actuelles ne sont pas

(17)

satisfaisantes du point de vue de la complexit´e des algorithmes d’indexation et de recherche, ou de la capacit´e informative des index utilis´es.

Dans ce chapitre nous pr´esentons le probl`eme de la gestion d’une collection de documents vid´eo par leur contenu visuel exclusivement, c’est-`a-dire en ne consid´erant ni leur contenu sonore (p.ex. parole, musique) ni leur contenu textuel (p.ex. sous-titres, texte apparaissant dans le champs visuel). Toutes ces modalit´es sont pourtant n´ecessaires afin de caract´eriser le contenu des documents. En particulier l’information issue de la reconnaissance automatique de la parole dans le flux sonore est essentielle. D’ailleurs, de plus en plus de travaux consid`erent le probl`eme de la fusion des diff´erentes modalit´es en vue d’augmenter les performances des algorithmes de recherche (voir p.ex. E. Bruno et al [18]). Mais, tant que pour chacune de ces modalit´es les moyens d’exprimer efficacement leur contenu ne sont pas identifi´es, aucune solution multimodale robuste ne peut ˆetre propos´ee ; pour cette raison nous limitons notre investigation `a la seule modalit´e visuelle.

Dans ce contexte, nous discutons les probl`emes li´es `a la mod´elisation d’un besoin d’in- formation visuelle et nous argumentons pour une repr´esentation du contenu des documents vid´eo par l’apparence et la dynamique d’un ensemble parcimonieux de composantes visuelles.

1.1 Gestion de documents vid´ eo

Dans notre travail, nous consid´erons donc le probl`eme de la gestion d’une collection de documents vid´eo par leur contenu visuel. Le cadre de cette probl´ematique est tr`es large puisqu’il englobe les aspects relatifs `a la gestion physique des documents, `a leur indexation et `a l’acc`es `a l’information qu’ils contiennent. En fait, nous restreignons ce cadre `a l’´etude des aspects sp´ecifiques aux documents vid´eo, puisque des solutions efficaces existent pour la gestion d’information au sens large.

1.1.1 Gestion d’information

La gestion d’une grande quantit´e d’information est un probl`eme composite qui inclus les tˆaches suivantes :

- Gestion physique : le stockage de l’information dans sa forme num´erique sur des fichiers, l’ajout et la suppression d’´el´ements ainsi que les moyens d’assurer la consistance, la pr´eservation et la publication de cette information (transactions concurrentes, sauve- gardes, r´ecup´erations, autorisations).

- Acc`es : les moyens permettant de formuler un besoin d’information et de retrouver le plus rapidement possible, parmi la masse d’information publi´ee, celle qui r´epond `a ce besoin.

- Agr´egation : les moyens d’extraire l’information induite par les relations entre les ´el´ements stock´es (fouille de donn´ees).

(18)

Pour la probl´ematique de lagestion physiquedes informations, les solutions sont sensiblement les mˆemes quelques soit le support de ces informations. En particulier, les solutions existantes dans les syst`emes de gestion de bases de donn´ees [40] peuvent ˆetre exploit´ees et adapt´ees au contexte d’une collection de documents vid´eo. Il n’en va pas de mˆeme pour la probl´ematique de l’acc`es `a l’information qui d´epend de la forme de cette information et de son support.

Quant `a la probl´ematique de l’agr´egation, ses solutions sont directement li´ees `a celles de l’acc`es.

Les syst`emes de gestion de base de donn´ees (SGBD) standards permettent de g´erer une masse d’information format´ee selon un mod`ele de donn´ees rigide. En ce sens, il est ais´e de formuler une requˆete en utilisant un langage formel tel que SQL (Standard Query Language) et de retrouver les donn´ees qui sont enti`erement d´ecrites par la requˆete.

La gestion d’un ensemble de documents est diff´erente du fait que l’information n’est pas directement manipul´ee et stock´ee, mais contenue dans des documents non-structur´es pou- vant ˆetre de type textuel, sonore ou visuel. En ce qui concerne les documents purement textuels, des m´ethodes efficaces de recherche d’information et d’indexation ont ´et´e propos´ees [6], comme par exemple celles utilis´ees par les moteurs de recherche d’informations sur In- ternet. Ces m´ethodes reposent sur l’indexation non structur´ee des termes apparaissant dans les documents et ´eventuellement sur des heuristiques propres au type des documents (p.ex.

exploitation des hyper-liens pour les documentshyper-textes).

En ce qui concerne les documents visuels (images ou s´equences d’images), leur contenu ne peut pas ˆetre directement utilis´e comme index ´etant donn´e sa complexit´e et sa variabilit´e.

De plus, il n’existe pas de vocabulaire visuel formel et donc la formulation d’une requˆete sur ce type de documents est difficile.

Pour ces diff´erentes raisons, nos travaux sur la gestion d’une collection de documents vid´eo ont port´e principalement sur le probl`eme de l’acc`es `a l’information contenue dans les s´equences d’images que constituent de tels documents.

1.1.2 Recherche de documents par le contenu visuel

De part son volume et la complexit´e de son interpr´etation, le contenu visuel d’un do- cument vid´eo ne peut pas ˆetre manipul´e directement comme peuvent l’ˆetre les mots d’un document textuel. En cons´equence, le contenu visuel doit dans un premier temps ˆetre analys´e pour en extraire une repr´esentation plus simple. Cette repr´esentation du contenu est stock´ee dans une forme qui doit lui permettre d’ˆetre acc´ed´ee efficacement. Il s’agit de l’index des do- cuments dans l’espace duquel les requˆetes des utilisateurs sont projet´ees. Donc, la recherche de documents visuels par le contenu se d´efinit par les diff´erentes probl´ematiques que sont : - Analyse du contenu : l’analyse du contenu visuel qui permet d’en extraire une repr´esentation

simplifi´ee et robuste au bruit.

- Indexation : la description de cette repr´esentation qui est utilis´ee comme index des do- cuments. Les structures d’indexation doivent occuper un espace m´emoire minimal, et

(19)

permettre des acc`es rapides aux index. Ces index doivent pr´eserver au maximum l’infor- mation que contient les documents leur correspondant puisqu’ils d´eterminent la richesse des requˆetes pouvant ˆetre r´epondues.

- Formulation de la requˆete : les moyens disponibles aux utilisateurs leur permettant d’exprimer l’information (ou le motif visuel) qu’ils recherchent.

- Recherche des documents pertinents : la d´efinition dans l’espace d’indexation des r´egions contenant les index des documents pertinents (contenant le motif recherch´e).

Dans ce travail nous consid´erons donc chacune de ces probl´ematiques afin d’identifier une solution au probl`eme de la gestion de documents vid´eo par leur contenu visuel.

1.2 Analyse du contenu visuel des documents vid´ eo

L’information visuelle d’un document vid´eo est contenue dans la la s´equence des images le composant. En effet, une s´equence vid´eo peut s’´ecrire sous la forme :

S:V ×T 7→D (1.1)

o`u V est l’espace visuel des images, c’est-`a-dire la projection des points de l’espace r´eel sur la surface des capteurs de la cam´era. T est l’espace temporel de la s´equence et D l’espace de repr´esentation de chaque ´el´ement du volume spatio-temporel de la s´equence.D d´ecrit en partie les fr´equences des ondes lumineuses ´emises par les objets pr´esents dans l’espace r´eel.

Il s’agit g´en´eralement de l’espace des niveaux de gris ou de l’espace des couleurs.

Une s´equence vid´eo quelconque est un agencement de prises de vues qui correspondent `a la capture d’un ensemble de ph´enom`enes visuels en un lieu et dans un intervalle de temps particulier. Ces ph´enom`enes visuels sont alt´er´es par le mouvement de la cam´era ainsi que par un ensemble de retouches visuelles. Le contenu d’une s´equence vid´eo est donc le r´esultat d’un ensemble de processus d’´edition ainsi que d’un ensemble de ph´enom`enes visuels :

- Processus d’´edition : les diff´erentes manipulations sur le contenu

- Prises de vues : les sous-s´equences du document qui se d´efinissent par la continuit´e de leur contenu visuel. Une prise de vue correspond `a l’ensemble d’images successives qui ont ´et´e prises lors d’un mˆeme processus de capture, donc par la mˆeme cam´era dans un mˆeme lieu et dans un intervalle de temps continu.

- Mouvement de cam´era : le contenu dynamique global d’une prise de vue r´esultant principalement du d´eplacement de la cam´era relativement `a la sc`ene.

- Retouches visuelles : les modifications du contenu de chaque image.

- Ph´enom`enes visuels : les ph´enom`enes physiques qui sont `a l’origine des observations - Sc`ene : le contenu statique global d’une prise de vue, c’est `a dire l’arri`ere plan captur´e

durant la prise de vue.

- Objets : les entit´es visuelles spatiales distinctes de la sc`ene.

(20)

- Ev´enements´ : la dynamique des ph´enom`enes visuels r´esultant principalement du d´eplacement des objets durant la prise de vue.

Or, ces diff´erents ´el´ements d’information sont indissociables dans le volume spatio-temporel de la s´equence qui en cons´equence est particuli`erement difficile `a appr´ehender de mani`ere automatique.

E. Adelson et J. Bergen [1] d´efinissent l’espace d’apparence d’une s´equence d’images pour une sc`ene du monde r´eel par la fonction pl´enoptique suivante :

I(x, y, t, cx, cy, ct, λ) (1.2) o`u (x, y, t) sont les coordonn´ees de la projection dans le volume V ×T d’un point de l’espace r´eel. (cx, cy, cz) sont les coordonn´ees dans l’espace r´eel du point de vue et λ correspond `a une longueur d’onde du spectre lumineux. La fonction pl´enoptique d´ecrit compl`etement les ph´enom`enes visuels tels qu’ils ont ´et´e observ´es. Selon cette d´efinition, une s´equence vid´eo quel- conque peut se d´efinir comme une concat´enation d’´echantillons de la fonction pl´enoptique cor- respondant au diff´erentes prises de vues, ´eventuellement modifi´ees par les processus d’´edition : S = [I(Vx, Vy, Tk, Cx, Cy, Czc) +E(Vx, Vy, Tkc)], k= [1..n]. (1.3) o`uVx×Vy correspond `a l’espaceV des images de la s´equence,Tk`a un sous-ensemble continu de l’espace temporel T de la s´equence, (Cx, Cy, Cz) correspond `a la trajectoire de la posi- tion de la cam´era dans l’espace r´eel et Λc correspond `a l’ensemble des longueurs d’ondes captur´ees par la cam´era. La composante E, quant `a elle repr´esente les modifications de la fonction pl´enoptique dues aux processus d’´edition intervenant apr`es la capture de la sc`ene, comme par exemple les artefacts de compression ou la surimpression de mat´eriel visuels (lo- gos, textes incrust´es ...).

L’analyse du contenu visuel des s´equences vid´eo consiste principalement `a reconstruire la fonction pl´enoptique I. Il s’agit donc de caract´eriser les diff´erents processus d’´edition ainsi que les diff´erents ph´enom`enes visuels qui constituent l’essentiel de l’information port´ee par une s´equence. Cette analyse se divise en trois probl´ematiques majeures : la d´ecomposition temporelle de la s´equence, c’est-`a-dire la d´ecomposition de celle-ci en la succession des seg- ments correspondants au diff´erentes prises de vues, la d´ecomposition spatiale, c’est-`a-dire l’extraction des objets visuels pr´esents dans la sc`ene, et enfin l’estimation de la dynamique, c’est-`a-dire l’estimation du mouvement de la cam´era ainsi que celui des objets.

1.2.1 D´ecomposition Temporelle

La d´ecomposition temporelle d’une s´equence vid´eo est la caract´erisation des segments de la s´equence qui correspondent `a une mˆeme prise de vue. Il s’agit d’identifier les segments

(21)

de la s´equence qui correspondent aux ´echantillons de la fonction pl´enoptique d´efinie sur un support temporel continu :

I(Vx, Vy, Tk, Cx, Cy, Czc) (1.4) La figure 1.1 pr´esente un exemple d’une telle d´ecomposition.

Fig. 1.1:Extraction de la succession des prises de vue d’un document vid´eo.

De nombreuses approches ont ´et´e propos´ees afin de d´ecomposer temporellement une s´equence vid´eo (voir la revue de I. Koprinska et S. Carrato [94]). Elles consistent `a d´etecter les transitions entre les prises de vue potentielles. Elles offrent g´en´eralement de tr`es bons r´esultats en particulier pour l’identification des prises de vues se succ´edant sans effets de transition tels que les fondus enchaˆın´e ou les volets. Elles reposent sur l’hypoth`ese de conti- nuit´e des ph´enom`enes visuels apparaissant entre les images successives d’une mˆeme prise de vue. Ainsi, `a partir d’une mesure F : ΩS 7→ R×T de ce contenu (ΩS ´etant l’ensemble de toutes les s´equence S), les transitions sont d´etect´ees lorsque cette mesure subit de fortes variations entre deux images successives (o`u blocs d’images successifs) :

δF(S(., t))

δt > τ (1.5)

La d´ecomposition temporelle d’une s´equence vid´eo est requise par la plupart des approches d’indexation. En effet elle permet d’identifier les segments dont le contenu visuel est continu et peut ˆetre caract´eris´e globalement. Par exemple, la segmentation en prises de vue peut ˆetre utilis´ee pour d´efinir un ensemble d’images, les images-clefs des prises de vues, de sorte `a ne consid´erer que ces images pour repr´esenter l’information visuelle statique de la s´equence vid´eo.

(22)

1.2.2 D´ecomposition Spatiale

La d´ecomposition spatiale identifie dans l’espace visuel de la s´equence vid´eo, les points correspondant au mˆeme ph´enom`ene visuel (la sc`ene, ou un objet particulier). Il s’agit donc de regrouper les ´el´ements deV en un ensemble de r´egionsVi ⊂V qui chacune correspond `a un objet distinct apparaissant dans la sc`ene, et tel que la r´egion V −S

iVi corresponde `a la sc`ene.

La figure 1.2 pr´esente un exemple d’une telle d´ecomposition qui a ´et´e d´efinie manuellement.

Dans le contexte de la gestion d’une collection de documents vid´eo quelconques, pour les-

Objets physiques Objets d’édition

Scène

Fig. 1.2: D´ecomposition spatiale id´eale : les principaux objets sont extraits et la sc`ene est identifi´ee.

quels aucune connaissance a priori quant `a leur contenu visuel n’est disponible, ce type de d´ecomposition s´emantique est particuli`erement difficile, voire impossible `a mettre en oeuvre automatiquement. En effet aucun crit`ere bas´e seulement sur les caract´eristiques du signal n’est en mesure de distinguer entre des objets divers, tels qu’une personne, une voiture ou un animal, `a cause de la variabilit´e des propri´et´es visuelles qui les distinguent. En cons´equence, seule l’utilisation de d´etecteurs sp´ecifiques permet d’extraire un ensemble de ph´enom`enes visuels donn´es.

Dans notre contexte de recherche, la seule d´ecomposition de l’espace visuel envisageable, telle que pr´esent´ee dans le chapitre 2, consiste `a extraire les r´egions selon leur caract´eristiques visuelles plutˆot que s´emantiques.

(23)

1.2.3 Estimation de la dynamique

La dynamique d’une s´equence vid´eo est d´efinie par les variations du contenu des images appartenant `a une mˆeme prise de vue. Par d´efinition, deux images successives d’une prise de vue ont une partie de leur espace visuel qui caract´erise une mˆeme partie de la sc`ene.

Les modifications de cet espace sont les cons´equences du mouvement soit de la cam´era, soit du mouvement des objets de la sc`ene, soit finalement des textures de mouvements (nuages, frondaisons sous le vent, ressacs, etc).

L’estimation de la dynamique d´etermine ces diff´erents ph´enom`enes, autrement dit, les ph´enom`enes expliquant :

δS

δt ≈ δI(x, y, t, cx, cy, czc)

δt (1.6)

o`u l’on consid`ere que la s´equenceS correspond `a une seule prise de vue et o`u l’on n´eglige les effets d’´edition de post-production.

Le flot optique d´etermine le champ des vecteurs mouvement de l’espace visuel entre deux images successives, c’est-`a-dire le mouvement affectant chaque ´el´ement de l’image. En ce sens, il ne distingue pas entre le mouvement de la cam´era et les objets visuels mobiles.

Diff´erentes m´ethodes d’estimation du flot optique ont ´et´e propos´ees (voir [166] pour une

´etude du probl`eme), telles que l’approche param´etrique de E. Bruno [17]. Le flot optique d´etermine la dynamique dense de la s´equence, c’est `a dire la trajectoire de chaque ´el´ement de l’espace. Or, les algorithmes propos´es, quoique tr`es performants du point de vue de la pr´ecision du flot optique estim´e, ont une complexit´e r´edhibitoire.

Alternativement, les approches reposant sur la mise en correspondance de composantes visuelles robustes que nous pr´esentons dans le chapitre 3, fournissent les moyens efficaces d’estimer le contenu dynamique d’une prise de vue.

1.3 Indexation du contenu visuel des prises de vue

L’indexation des s´equences vid´eo selon leur contenu visuel est la cr´eation de repr´esentations num´eriques (ou index) de celles-ci. En utilisant des m´ethodes d’acc`es sp´ecifiques `a ces repr´esentations, les s´equences vid´eo contenant une certaine information peuvent ˆetre efficacement retrouv´ees.

En g´en´eral cette repr´esentation num´erique est une projection, ou abstraction par caract´eristiques des documents dans un espace d´etermin´e :

F : ΩS 7→ D (1.7)

o`uDest l’espace des caract´eristiques ou d’indexation. L’indexF(S) d’une s´equence vid´eo doit ˆetre le plus expressif possible. c’est-`a-dire qu’il doit couvrir au maximum l’information visuelle de la s´equence, `a savoir les diff´erentes prises de vues caract´eris´ees par leur sc`ene, leur mou- vement de cam´era, leurs objets et finalement leurs ´ev´enements. Une seconde contrainte porte

(24)

sur la taille de cet index. L’index correspondant `a une s´equence vid´eo doit ˆetre le plus simple possible de sorte `a limiter le surcroˆıt de m´emoire n´ecessaire et de sorte `a rendre l’acc`es le plus efficace possible, c’est-`a-dire le plus rapide puisque la complexit´e d’un index d´etermine essen- tiellement la complexit´e des m´ethodes d’acc`es qui peuvent lui ˆetre associ´ees. En cons´equence, plus l’index est complexe et meilleure est sa repr´esentativit´e, avec une couverture maximale si l’on consid`ere un index utilisant la s´equence elle-mˆeme comme repr´esentation num´erique.

Cependant, plus l’index est complexe et moins efficace est l’acc`es `a cette information.

La plupart des techniques d’analyse du contenu que nous avons rapidement pr´esent´ees dans la section pr´ec´edente, ne peuvent ˆetre mises en oeuvre dans un contexte d’indexation d’une grande quantit´e de s´equences vid´eo quelconques. En effet, soit ces techniques ne sont pas suffisamment robustes, soit leur complexit´e algorithmique interdit leur application `a de grands ensembles. Pour cette raison, les index sont g´en´eralement des repr´esentations simples du contenu des s´equences, donc peu expressifs mais tr`es efficacement extraits, stock´es et acc´ed´es. Le vecteur commun est la segmentation temporelle en prises de vue, qui peut malgr´e tout ˆetre remplac´ee par une s´election arbitraire d’un ensemble d’images-clefs.

1.3.1 Indexation s´emantique du contenu visuel

La mani`ere la plus triviale d’indexer une collection de s´equences vid´eo se fait par un en- semble de mots-clefs. Ces mots peuvent ˆetre attach´es `a l’ensemble du document ou seulement

`

a certaines sous-s´equences telles que celles caract´erisant les prises de vue. Il s’agit donc de projeter chaque s´equence dans un espace s´emantique d´etermin´e, c’est-`a-dire pour un domaine (sph`ere de connaissance) particulier.

Un tel index est hautement informatif, sa taille ´etant optimale relativement `a l’information exprim´ee. Cependant, l’extraction supervis´ee de ce type d’index est coˆuteuse en ressources humaines et son extraction automatique n’est possible que pour des collections homog`enes, c’est-`a-dire pour lesquelles le contenu visuel des s´equences est fortement contraint. De plus, l’espace s´emantique ´etant fixe, son expressivit´e, c’est-`a-dire la quantit´e d’information qu’il repr´esente, est limit´ee.

1.3.2 Indexation du contenu visuel global

Afin de capturer le contenu visuel des documents vid´eo l’approche la plus courante ex- trait une description globale pour chaque prise de vue ou pour un ensemble d’images-clef.

Autrement dit, ces ´el´ements de base sont projet´es en un unique point d∈ D, calcul´e `a partir de tous les points du cube spatio-temporel des s´equences ou de l’espace visuel des images.

Cet index repr´esente la totalit´e du contenu visuel et ne permet g´en´eralement pas de r´epondre

`

a des requˆetes sur les objets ou sur les ´ev`enements de la s´equence (requˆetes locales). Toute- fois, l’efficacit´e de l’extraction de tels index et l’efficacit´e des m´ethodes d’acc`es qui leurs sont

(25)

associ´ees, les rendent particuli`erement bien adapt´es au probl`eme de la gestion de grandes collections de documents vid´eo.

Indexation du contenu statique global

Le contenu visuel statique d’une s´equence vid´eoSest l’ensemble des imagesS(., t) consid´er´ees ind´ependamment les unes des autres. La plupart des approches ne consid`erent que l’image- clef de la prise de vue, g´en´eralement l’image m´ediane ou l’image la plus repr´esentative de la s´equence.

Les images peuvent ˆetre repr´esent´ees par la distribution de leur ´el´ements (ou pixels) dans l’espace de descriptionD. Par exemple les travaux pr´ecurseurs et toujours d’actualit´e de M. Swain et D. Ballard [168] consid`erent l’histogramme couleur de ces ´el´ements. Une telle repr´esentation cependant int`egre spatialement l’information, perdant ainsi toute notion de la structure de l’image. Afin de limiter ce ph´enom`ene, l’image peut ˆetre pr´ealablement d´ecompos´ee en blocs, repr´esent´es chacun par un histogramme de couleur.

Similairement, des histogrammes sur les gradients de l’image peuvent ˆetre utilis´es, donnant ainsi une repr´esentation de la texture de l’image.

Indexation du contenu dynamique global

Le contenu dynamique global peut ˆetre appr´ehend´e un consid´erant la trajectoire du contenu global de chaque image de la s´equence vid´eo. Ces trajectoires ´etant de longueurs variables, afin de les projeter dans un espace de dimension fixe, les trajectoires peuvent ˆetre r´eduite en ne consid´erant par exemple que les premiers coefficients d’une transformation de Fourier. Cependant cette approche ne caract´erise pas directement la dynamique du contenu.

Les index calcul´es `a partir du flot optique quant `a eux permettent de caract´eriser la dynamique r´eelle des s´equences. Encore une fois des statistiques peuvent ˆetre calcul´ees sur celui-ci comme par exemple les histogrammes des vecteurs de mouvements [167]. R. Fablet [41] propose quant `a lui de mod´eliser les r´esidus du mouvement global majoritaire par un mod`ele param´etrique capable d’identifier des classes d’activit´es globales.

D’autres travaux ne consid`erent que le mouvement de cam´era observ´e durant la prise de vue (p.ex. S. Porteret al [143]), mais l’expressivit´e d’un tel index est particuli`erement limit´ee.

1.3.3 Indexation du contenu visuel local

La seconde classe d’approches pour d´ecrire le contenu visuel des documents vid´eo consiste

`

a indexer les structures spatiales, temporelles ou spatio-temporelles, du volumeV ×T de la s´equence vid´eo. Ces structures permettent donc de d´ecrire localement les s´equences vid´eo. `A chacune de ces structures est associ´e un index, de sorte `a pouvoir les acc´eder ind´ependemment

(26)

les unes des autres. Malgr´e la complexit´e du processus de d´ecomposition du volume des s´equences et malgr´e la complexit´e accrue de l’index du fait que celui-ci est un ensemble de points dans un espace de description, l’indexation du contenu local offre l’avantage de pouvoir repr´esenter ind´ependemment les diff´erents motifs visuels et/ou temporels qui apparaissent dans la s´equence vid´eo.

Indexation du contenu statique local

Le contenu statique local peut ˆetre repr´esent´e directement par des descripteurs locaux du contenu, c’est-`a-dire les r´eponses `a des filtres locaux appliqu´es aux images de la s´equence.

Par exemple, les champs r´eceptifs, propos´es initialement par B. Schiele [151] et repris par V.

Colin-de-Verdi`ere [33], sont utilis´es pour faire de la reconnaissance d’objets dans les images.

Cette approche `a l’avantage de ne pas n´ecessiter une phase de d´ecomposition de l’espace visuel. Mais sans connaissance a priori des requˆetes utilisateur, l’ensemble des descripteurs doit ˆetre index´e ce qui implique un index trop complexe et trop volumineux pour ˆetre utilis´e dans le contexte de la gestion interactive de s´equences vid´eo.

Alternativement, un ensemble parcimonieux de composantes visuelles peut ˆetre extrait de l’espace des images, qui correspondent aux r´egions les plus repr´esentatives de celui-ci. Des descriptions calcul´ees sur ces composantes permettent alors d’indexer le contenu visuel local, comme propos´e par C. Schmid [152]. Ces descriptions peuvent ˆetre quantifi´ees afin de r´eduire d’avantage la complexit´e de l’index en projetant l’ensemble des composantes en un vecteur caract´erisant le nombre d’occurence de ces mod`eles (voir p.ex. G. Csurka et al [31]).

Indexation du contenu dynamique local

Sur le mˆeme principe des descriptions locales du contenu d’une image, des descripteurs spatio-temporels locaux peuvent ˆetre utilis´es. O. Chomat [24] propose une extension des champs r´eceptifs dans le volume V ×T des s´equences vid´eo. Il utilise les r´eponses `a un banc de filtres de Gabor 3Dpour caract´eriser localement la dynamique du contenu visuel. L.

Zelnik-Manor et M. Irani [192] consid`erent les gradients multi-´echelles normalis´es en chaque point de l’espace V ×T. I. Laptev et T. Lindeberg [100] quant `a eux utilisent des filtres de d´eriv´ees de Gaussienne adapt´es `a la direction du mouvement en chaque point. Ces approches sont tr`es int´eressantes dans le cadre de la reconnaissance d’´ev´enements, mais la complexit´e de l’index et aussi de l’algorithme d’extraction des descripteurs rendent peu praticable leur utilisation dans le contexte de l’indexation de s´equences vid´eo.

Une autre approche consiste `a d´ecomposer parcimonieusement le volume spatio-temporel de la s´equence vid´eo. Elle permet de limiter le volume des caract´eristiques index´ees. Il peut s’agir d’une d´ecomposition jointe des espacesV etT comme propos´ee par exemple par I. Lap- tev et T. Lindeberg [98] ou bien d’une d´ecomposition ind´ependante, reposant sur l’estimation de la dynamique des composantes spatiales telle que pr´econis´ee dans nos travaux.

(27)

1.4 Mod´ elisation de la requˆ ete dans l’espace d’indexation

Etant donn´e un espace d’indexation´ D dans lequel chaque s´equence de la collection est projet´ee, la mod´elisation de la requˆete identifie les points ou les r´egions deD correspondant aux projections des s´equences vid´eo qui sont pertinentes `a la requˆete, c.-`a-d. qui contiennent le motif spatio-temporel recherch´e par l’utilisateur. Pour ce faire, il faut dans un premier temps que l’utilisateur soit en mesure d’exprimer sa requˆete. Ensuite, en fonction de la projection de celle-ci dans l’espace d’indexation, il s’agit d’identifier et de retrouver en fonction de leur index, les s´equences pertinentes de la collection.

1.4.1 Formulation de la requˆete

Dans le cas le plus simple, la formulation de la requˆete se fait par mot-clefs. L’utilisateur d´ecrit textuellement le motif visuel qu’il recherche. Cet ensemble de mots est ensuite compar´e

`

a une description textuelle des documents issue d’un processus d’annotation supervis´e ou au- tomatique ou encore des flux sonores (reconnaissance automatique de la parole) ou textuels fr´equemment associ´es aux flux vid´eo. La requˆete par mots-clefs pr´econise l’utilisation de la parole qui n’est, dans la majeure partie des cas, pas corr´el´ee au contenu visuel, ou la mise en oeuvre d’un processus d’(auto-)annotation qui pr´esuppose la connaissance a priori du contenu visuel des documents et des requˆetes que les utilisateurs vont formuler.

Un autre moyen consiste pour l’utilisateur `a fournir un exemple de ce qu’il cherche, c’est-

`

a-dire la repr´esentation d’un motif visuel. Cette approche est celle commun´ement utilis´ee par les moteurs de recherche de documents textuels (p.ex. Google). En effet, un utilisateur qui recherche un motif textuel particulier fournit un ensemble de mots devant apparaˆıtre dans ce motif. Similairement, la requˆete par esquisse (Query By Sketch) consiste pour l’utilisateur `a dessiner une repr´esentation du motif recherch´e. La requˆete par esquisse est pourtant imprati- cable puisqu’elle pr´esuppose des talents que l’utilisateur ne poss`ede pas forc´ement et requiert un temps dont il ne dispose g´en´eralement pas.

Plus usuelle, la requˆete par l’exemple (Query By (pictorial) Example QBE), consiste pour l’utilisateur `a fournir une image ou une vid´eo qu’il choisit g´en´eralement parmi les ´el´ements de la collection (Query By Internal Example [178]). Une variation de ce type de requˆete consiste

`

a pr´eciser quelle est dans l’exemple, la r´egion spatiale (pour des images) ou spatio-temporelle (pour des vid´eos) support du motif recherch´e.

Une requˆete par l’exemple est donc un ensemble d’´el´ements pertinents, dans notre cas un ensemble de s´equences vid´eo S+ qui contiennent effectivement le motif visuel (spatio- temporel) recherch´e. Cet ensemble peut ˆetre augment´e par des exemples non-pertinents, c’est-`a-dire des s´equences vid´eo S qui au contraire ne contiennent pas ce motif. De cette mani`ere un mod`ele du motif en question peut ˆetre estim´e dans l’espace d’indexation et les s´equences vid´eo de la collection contenant ce motif peuvent ˆetre retrouv´ees `a partir de leur

(28)

index.

1.4.2 Mod`eles des documents pertinents `a la requˆete

Un mod`ele des s´equences vid´eo pertinentes `a une requˆete est un mod`ele, d´efini dans l’es- pace d’indexationD, de la r´egion `a laquelle appartient l’index de toutes (et seulement elles) les s´equences vid´eo contenant le motif visuel recherch´e, c’est-`a-dire une certaine classe d’arri`eres plans, une certaine classe d’objets, une certaine classe de mouvements de cam´era ou une cer- taine classe d’´ev´enements. Plus formellement, un tel mod`ele d´efinit la densit´eP(R|F(S),Θ), o`u R est la variable al´eatoire caract´erisant la pertinence des points de l’espace d’indexation.

La r´egion de pertinence dans D est alors identifi´ee `a une instance de ce mod`ele, d´efinie par une valeur particuli`ere de ses param`etres Θ, estim´es `a partir de l’ensemble d’apprentissage Q={S+,S}.

T. Jebara [79], entre autres, distingue entre les mod`eles discriminants qui repr´esentent directement la probabilit´e conditionnelle :

P(R|F(S),Θ) (1.8)

et les mod`elesg´en´eratifs qui quant `a eux, repr´esentent la probabilit´e jointe :

P(R,F(S)|Θ) =P(F(S)|R,Θ)P(R,Θ) (1.9) qui permet, par la formule de Bayes de retrouverP(R|F(S)).

Mod`eles discriminants

Les mod`eles discriminants, tels que les r´egressions logistiques, repr´esentent donc direc- tement la r´egion pertinente de l’espace d’indexation d´efinie par la probabilit´e conditionnelle P(R|F(S)).

Par exemple E. Changet al [57, 172] proposent d’utiliser une machine `a vecteurs de sup- port (SVM) qui identifient une s´eparation non-lin´eaire dans l’espace d’indexationDentre les index pertinents et les index non-pertinents. Dans ces travaux, le mod`ele est estim´e interac- tivement (voir section suivante) et permet d’identifier les ´el´ements d’une collection d’images contenant un certain motif visuel.

Mod`eles g´en´eratifs

On peut distinguer, de mani`ere artificielle, les mod`eles par similarit´e, qui sont d´efinis par un point de l’espace d’indexation et par une mesure de similarit´e dans cet espace, des mod`eles probabilistes, qui reposent sur l’estimation d’une densit´e plus complexe.

(29)

Le mod`ele par similarit´e mod´elise la r´egion comme une hyper-sph`ere centr´ee en un point. Plus formellement, il s’agit de faire l’approximation de P(F(S)|R) par la similarit´e entre les s´equences vid´eo index´ees et le centre ˆd de l’hyper-sph`ere :

P(F(S)|R)∝d(ˆd,F(S)) (1.10) o`u d : D × D 7→ R+ est la mesure de similarit´e utilis´ee. Le param`etre ˆd est g´en´eralement estim´e comme la moyenne des exemples positifs :

dˆ =E[F(S+)]≈ 1

|S+| X

S∈S+

F(S) (1.11)

Le rayon de l’hyper-sph`ere peut ˆetre choisi arbitrairement (range query), ou alors, un nombre KR est utilis´e qui d´etermine le nombre d’´el´ements `a renvoyer, et dans ce cas le rayon de l’hyper-sph`ere est d´etermin´e par la distance auKRieme ´el´ement le plus proche (K-NN query).

Ce mod`ele, malgr´e sa simplicit´e, est tr`es r´epandu dans le contexte de la recherche d’informa- tion, puisque la formulation de la requˆete ne requiert de l’utilisateur qu’un exemple positif et que les structures d’indexation les plus performantes sont con¸cues pour ce type de requˆetes.

Lesmod`eles probabilistescomplets calculent la pertinence d’un point de l’espace d’in- dexation de mani`ere d´etourn´ee :

P(R|F(S)) = P(F(S)|R)P(R)

P(F(S)) ≈ P(F(S)|R)

P(F(S)) (1.12)

o`u P(R) est n´eglig´e dans la majorit´e des approches, ce qui a pour cons´equence de biaiser l’estimation. De plus le ratio (classifieur Bay´esien na¨ıf) :

P(R|F(S))

P( ¯R|F(S)) ≈ P(F(S)|R)

P(F(S)|R)¯ (1.13)

permet de s’affranchir de l’estimation des ´evidencesP(F(S)).

Dans le contexte de la classification les mod`eles discriminants sont pr´ef´er´es, malgr´e leur plus forte variance, parce qu’ils ne sont pas biais´es par les hypoth`eses fortes ´emises sur la densit´e P(R). Les travaux de A. Ng et M. Jordan [128] montrent cependant que les mod`eles g´en´eratifs sont plus efficaces lorsque le nombre d’exemples est limit´e. Pour un nombre d’exemples donn´e, les mod`eles g´en´eratifs peuvent donc estimer des repr´esentations plus riches d’un motif visuel particulier.

Ainsi par exemple, T. Westerveld et A. de Vries [185] proposent un mod`ele g´en´eratif reposant sur un index des s´equences vid´eo par r´egions de couleur, dont les param`etres sont efficacement estim´es par un maximum a posteriori (MAP).

1.4.3 Estimation interactive des mod`eles

Etant donn´e une requˆete formul´ee par un utilisateur, ainsi qu’un mod`ele de motifs visuels´ dans l’espace d’indexation, il s’agit d’estimer ses param`etres Θ de ce mod`ele qui d´eterminent :

P(R|F(S),Θ) (1.14)

(30)

Leur estimation se fait `a partir de l’ensemble Q = {S+,S} qui exprime, selon le point de vue de l’utilisateur, le motif recherch´e. Or, dans ce contexte, la tˆache impartie `a l’utilisateur consistant `a s´electionner les exemples positifs et n´egatifs est fastidieuse et donc le nombre de ces exemples est limit´e `a quelques uns. Du fait de cette contrainte, la complexit´e des mod`eles de contenu, c’est-`a-dire le nombre de leurs param`etres, doit ˆetre r´eduite.

Afin d’augmenter le cardinal de l’ensemble d’apprentissageQ, le principe de la boucle de pertinence (relevance feedback loop [6]) peut ˆetre mis en oeuvre. Il s’agit d’une estimation interactive du mod`ele qui enrichit progressivementQ. `A partir de l’ensemble d’apprentissage courantQk, les param`etres Θksont estim´es, et en fonction deP(R|S,Θk), l’utilisateur enrichi l’ensemble d’apprentissage :

Qk+1 =Qk∪ {Sk+1+ ,Sk+1 } (1.15) Ainsi le mod`ele tend vers une meilleure pr´ecision au fur et `a mesure de la boucle de pertinence.

La figure 1.3 illustre le principe de l’estimation interactive des param`etres du mod`ele. Reste

Utilisateur

Estimation de la pertinence Ajout d’exemples d’apprentissage

Modèle P(R|F(S))

Fig. 1.3: Illustration du paradigme de boucle de pertinence : l’utilisateur enrichit au fur et `a mesure l’ensemble d’apprentissage en fonction de la pertinenceP(R|F(S)) estim´ee par le mod`ele sous-jacent.

le probl`eme de la s´election de l’ensemble initial Q0, qui est g´en´eralement d´esign´e comme la principale limitation du paradigme de recherche par l’exemple (probl`eme de lapage z´ero).

Cependant, pour que le principe de la boucle de pertinence soit applicable, la recherche doit ˆetre rapide. Plus pr´ecis´ement, l’estimation des param`etres Θ du mod`ele ainsi que le calcul de la pertinence P(R|F(S),Θ) pour toute les s´equence S de la collection C, doit se faire dans un laps de temps inf´erieur `a quelques secondes [129] afin de maintenir l’int´erˆet de l’utilisateur. Cette contrainte d’interactivit´e est essentielle dans le contexte de la gestion de documents vid´eo.

(31)

1.5 Contributions

La probl´ematique trait´ee est l’indexation d’une collection de s´equences vid´eo quelconques et les moyens de r´epondre `a partir de cet index, `a des requˆetes sur des motifs spatio-temporels quelconques. Nous ne supposons donc aucune connaissance a priori ni quant au contenu des s´equences vid´eo ni quant aux requˆetes que les utilisateurs peuvent ´emettre sur cet index.

Ainsi, l’approche propos´ee est valide pour toutes applications de gestion d’une collection de documents vid´eo par leur contenu visuel. Notre recherche s’est ´egalement port´ee sur la ra- tionalisation des probl`emes de stockage et d’acc`es aux bases de donn´ees multim´edias afin de r´esoudre les difficult´es de la mise en oeuvre de ces solutions.

Il apparaˆıt de l’´etude pr´ec´edente que les s´equences vid´eo doivent ˆetre index´ees selon une repr´esentation locale et parcimonieuse de l’apparence et de la dynamique de leur contenu visuel. Donc, la premi`ere contribution de nos travaux est un algorithme de d´ecomposition du volume spatio-temporel des s´equences vid´eo. Cet algorithme calcule une estimation des trajectoires r´eelles des composantes visuelles spatiales sous la contrainte que celles-ci soient suffisamment robustes aux d´eformations de l’apparence des ph´enom`enes visuels qu’elles ca- ract´erisent. Nous montrons que cet algorithme est particuli`erement performant et robuste. Il r´esulte en un ensemble parcimonieux de composantes spatio-temporelles invariantes `a la dyna- mique globale de la sc`ene. Cette repr´esentation est particuli`erement bien adapt´ee au probl`eme de la gestion de s´equences vid´eo par leur contenu visuel. Nous montrons par ailleurs, dans une ´etude de cas, qu’elle peut tout aussi bien ˆetre mise `a profit dans le cadre de la d´etection d’´ev´enements.

Etant donn´ee une d´ecomposition du volume spatio-temporel des s´equences vid´eo, la´ probl´ematique de l’acc`es `a ces s´equences selon leur contenu n´ecessite de d´efinir les mod`eles de motifs visuels qui vont permettre d’identifier les occurrences de tels motifs dans une collec- tion. La seconde contribution de cette th`ese est donc un mod`ele g´en´erique de motifs visuels reposant sur la d´ecomposition spatio-temporelle des s´equences vid´eo propos´ee. Notre mod`ele int`egre non-seulement l’apparence des composantes visuelles, mais aussi leur trajectoire r´eelle et le mouvement de la cam´era. Ce mod`ele n’int`egre pas les relations spatio-temporelles entre les diff´erentes composantes et repose sur l’hypoth`ese d’ind´ependance entre l’apparence des composantes et de leur trajectoire r´eelle. Ces restrictions s’av`erent n´ecessaires pour limiter la complexit´e du mod`ele et ainsi de permettre son estimation interactive. Nous montrons

`

a travers un ensemble d’exp´erimentations que ce mod`ele est en mesure d’estimer efficace- ment des motifs visuels quelconques, c’est-`a-dire aussi bien des objets, des arri`eres plans, des ´ev`enements ou encore une combinaison de tels concepts. En particulier nous montrons que l’estimation est pr´ecise malgr´e le faible cardinal des ensembles d’apprentissage, et qu’elle b´en´eficie significativement de l’int´egration de la dynamique.

(32)

La derni`ere contribution de nos travaux est l’´etude des probl`emes li´es `a la masse et au format complexe des donn´ees multim´edias dans le cadre de la gestion de documents vid´eo.

Nous montrons que le mod`ele de gestion que nous proposons dans ce contexte permet de rationaliser la mise en oeuvre de la plupart des techniques d’indexation et en particulier celle que nous avons propos´ee.

1.6 Plan du m´ emoire

Le chapitre 2 de ce manuscrit pr´esente les diff´erents types de composantes visuelles spa- tiales propos´es `a ce jour. Nous ´etudions leur propri´et´es respectives ainsi que celles des des- cripteurs de leur apparence visuelle.

Le chapitre 3 ´etend cette premi`ere ´etude `a la dimension temporelle des s´equences vid´eo.

Nous identifions les faiblesses des approches existantes et d´etaillons ensuite notre algorithme de d´ecomposition du contenu visuel spatio-temporel. Nous en d´emontrons finalement l’effi- cacit´e et la robustesse `a travers un ensemble d’exp´erimentations sur diverses collections de s´equences vid´eo. L’annexe A illustre l’int´erˆet de cet algorithme dans le contexte de l’annota- tion automatique de s´equences vid´eo par d´etection d’´ev´enements.

Dans le chapitre 4, nous pr´esentons dans un premier temps les diff´erentes m´ethodes d’in- dexation et de mod´elisation du contenu visuel `a partir d’une repr´esentation des s´equences selon un ensemble de composantes visuelles. Ensuite, nous d´etaillons le mod`ele que nos pro- posons qui int`egre en plus de l’apparence usuelle des composantes visuelles, leur trajectoire r´eelle ainsi que le mouvement de la cam´era. Nous validons finalement le mod`ele propos´e dans le contexte de la recherche interactive de motifs spatio-temporels, `a travers un ensemble repr´esentatif de simulations de requˆetes.

Le manuscrit s’ach`eve sur le chapitre 5 qui pr´esente le mod`ele abstrait de donn´ees mul- tim´edias que nous avons d´efini et d´etaille ensuite l’application ViCoDE de recherche de do- cuments vid´eo par leur contenu multimodal que nous avons d´evelopp´ee `a partir de ce mod`ele de donn´ees.

(33)
(34)

Composantes visuelles

La possibilit´e de pouvoir r´epondre `a des requˆetes sur le contenu local des images s’est rapi- dement r´ev´el´ee ˆetre une probl´ematique `a part enti`ere de la recherche d’images par le contenu.

D´ej`a dans [168], M. Swain et D. Ballard discutent cette probl´ematique. Ils proposent d’ailleurs le concept de r´etro-projection d’histogrammes couleurs qui permet de caract´eriser l’inclusion dans l’histogramme global des images index´ees celui d’une sous-r´egion de l’image requˆete.

Comme discut´e dans le chapitre introductif, les descripteurs locaux tels que les r´eponses

`

a un banc de filtres, r´esultent en une repr´esentation trop dense du contenu de l’image. L’in- dex est particuli`erement volumineux, alors que les algorithmes de recherche ne peuvent g´erer interactivement une telle complexit´e. La solution consiste `a ne consid´erer que certains pixels ou groupes de pixels. Cette repr´esentation parcimonieuse permet de r´eduire la complexit´e de l’index. Mais comment choisir ces composantes particuli`eres de l’image ? Quelles doivent ˆetre leurs propri´et´es et comment les d´ecrire ?

Dans ce chapitre nous pr´esentons tout d’abord les principales d´ecompositions de l’espace visuel propos´ees `a ce jour. Ensuite, nous nous focalisons sur les approches d’extraction de r´egions saillantes, en d´efinissant dans un premier temps cette notion tr`es g´en´erique qu’est la saillance visuelle et ensuite en passant en revue les diff´erentes formes de saillance utilis´ees.

Nous pr´esentons les m´ethodes permettant d’obtenir un ensemble de r´egions saillantes inva- riantes `a l’´echelle et aux transformations affines. Et finalement, nous pr´esentons les diff´erents descripteurs qui peuvent ˆetre utilis´es pour caract´eriser l’apparence visuelle de ces compo- santes.

2.1 D´ ecomposition de l’espace visuel

Les composantes visuelles utilis´ees pour indexer une image d´efinissent lesclefs de requˆetes disponibles sur cette image. En d’autres termes, ces entit´es visuelles constituent les ´el´ements de base pour la mod´elisation de la requˆete utilisateur. En cons´equence, la nature de ces compo- santes, c’est-`a-dire leur forme, leur taille et leurs propri´et´es visuelles, vont d´eterminer l’infor-

(35)

mation qui pourra ˆetre mod´elis´ee `a partir d’un tel index. Nous nous int´eressons sp´ecifiquement aux repr´esentations g´en´eriques qui capturent l’essentiel de l’information visuelle et qui sont suffisamment robustes pour pouvoir d´efinir des mod`eles de contenu viables `a grande ´echelle.

Dans ce contexte, une d´ecomposition de l’espace visuel doit satisfaire les conditions suivantes : – Forte localit´e des composantes

– Nombre optimal de composantes (complexit´e de l’indexvs couverture du contenu) – Composantes robustes aux transformations photom´etriques et g´eom´etriques – Faible complexit´e algorithmique du processus de d´ecomposition

La premi`ere contrainte, relative `a la taille des composantes, stipule simplement que les com- posantes visuelles doivent caract´eriser des r´egions suffisamment petites pour que le paradigme de requˆete locale soit valide. La seconde contrainte, relative au nombre des composantes, sti- pule que celui-ci doit ˆetre suffisamment grand pour couvrir l’essentiel du contenu visuel et suffisamment petit afin de limiter la taille de l’index. La contrainte de robustesse est essen- tielle tant pour la caract´erisation de la dynamique d’une s´equence vid´eo (voir chapitre 3) que pour la robustesse des mod`eles de contenu bas´es sur ce type de repr´esentations (voir chapitre 4). Finalement, la complexit´e algorithmique du processus de d´ecomposition ne doit pas ˆetre excessive pour assurer son application `a de grands ensembles de documents visuels.

2.1.1 D´ecomposition arbitraire

Une premi`ere approche d´ecompose l’espace visuel de mani`ere totalement arbitraire. Les composantes obtenues ont une taille fixe et aucune propri´et´e particuli`ere. Par exemple, dans [115, 126] les auteurs d´efinissent un quadrillage fixe de l’espace visuel et proposent d’indexer une image selon les propri´et´es visuelles de chaque cellule (voir figure 2.1). Le choix de la grille est crucial, puisqu’il d´ecide de la complexit´e de l’index et de son expressivit´e. En effet, plus la grille est fine, plus la localit´e de l’index est forte et meilleure est la couverture du contenu.

D’un autre cˆot´e une grille trop fine r´esulte en un index trop complexe, avec un grand nombre de cellules adjacentes caract´erisant la mˆeme information.

Des approches bas´ees sur les Quad-Tree [163] peuvent ˆetre utilis´ees pour r´esoudre ce probl`eme. Les Quad-Tree d´efinissent une d´ecomposition hi´erarchique de l’espace visuel qui adapte la finesse de la grille en fonction de l’homog´en´eit´e des cellules (voir figure 2.1).

Bien que ces approches soient tr`es efficaces du point de vue de leur mise en oeuvre, les r´egions d´efinies s’av`erent peu informatives et particuli`erement instables. Plus pr´ecis´ement,

´etant donn´e leur positionnement fixe, les caract´eristiques utilis´ees pour l’indexation doivent ˆetre tr`es g´en´eriques (p.ex. histogrammes de couleur ou de contour) et donc peu expressives.

En effet, des caract´eristiques plus sp´ecifiques comme par exemple des descripteurs de forme sont largement tributaires de la localisation des r´egions et ne peuvent donc pas ˆetre utilis´ees dans ce contexte.

(36)

Fig. 2.1: Exemples de d´ecompositions arbitraires : d´ecomposition par quadrillage fixe et d´ecomposition parQuad-Tree.

2.1.2 D´ecomposition sur crit`ere d’homog´en´eit´e

La th´eorie de lagestalt (voir par exemple [183]) stipule que le regroupement perceptuel d’´el´ements visuels joue un rˆole fondamental dans le syst`eme de vision humain. Bas´ee sur ces observations, une classe de d´ecomposition extrait les r´egions de l’espace visuel qui sont homog`enes selon certaines caract´eristiques, telles que les niveaux de gris, la couleur, la texture, le mouvement ou encore une combinaison de celles-ci. Il s’agit donc de regrouper les ´el´ements visuels adjacents qui partagent des valeurs tr`es proches dans l’espace des caract´eristiques visuelles. Plus formellement, il s’agit de maximiser l’homog´en´eit´e des r´egions obtenues tout en minimisant le nombre de ces r´egions. La d´ecomposition r´esultante est largement tributaire de ce compromis, et donc variable selon des choix arbitraires.

Depuis plus d’une trentaine d’ann´ees, de nombreuses approches ont ´et´e propos´ees afin de r´esoudre ce probl`eme. Pour un panorama complet de ces algorithmes, le lecteur peut se r´ef´erer aux revues de R.M. Haralick et L.G. Shapiro [66] et de N.R. Pal et S.K. Pal [136].

Les approches par analyse d’histogramme identifient les distributions pro´eminentes dans l’espace des caract´eristiques. Ceci peut ˆetre fait par simple seuillage de l’histogramme [171] ou en appliquant l’algorithme du Mean-Shift [28]. L’image est ensuite filtr´ee selon les diff´erentes distributions identifi´ees, et les r´egions correspondant `a ces distributions sont fina- lement caract´eris´ees.

Les approches par regroupement d´efinissent les groupes de pixels adjacents dans l’es- pace visuel et dans celui des caract´eristiques. Tout algorithme de regroupement peut ˆetre utilis´e `a ces fins, comme par exemple ceux reposant sur l’estimation it´erative d’un mod`ele param´etrique. Dans [92] les auteurs utilisent l’algorithme desK-Moyennes, dans [60] celui des C-Moyennes Floues et dans [20] l’algorithme d’Expectation Maximization (EM) qui estime les param`etres d’un m´elange de Gaussiennes. La segmentation est obtenue en optimisant le

(37)

crit`ere d’homog´en´eit´e contrebalanc´e par un terme de r´egularisation comme celui du Mini- mum Description Length [65] (MDL) relatif `a la complexit´e du mod`ele, c.-`a-d. au nombre de composantes. `A partir des mod`eles de r´egions, afin d’obtenir une d´ecomposition plus lisse, des m´ethodes de r´egularisation peuvent ˆetre utilis´ees, comme les Champs de Markov qui d´efinissent des contraintes de voisinage bas´ees sur les potentiels locaux (voir p.ex. les travaux de J.M. Odobezet al [131]) .

La segmentation par graphe repr´esente une image comme le graphe pond´er´e dont les noeuds sont les ´el´ements de l’image, les arcs les relations d’adjacence spatiale entre ces pixels et les poids de ces arcs leur distance dans l’espace des caract´eristiques. Un premier algorithme de segmentation supprime directement les arcs de poids fort, normalis´es par la variance intra-r´egion (Normalized-Cut [157]). Une autre m´ethode [43] applique un algorithme similaire sur l’arbre de recouvrement minimal du graphe.

Plutˆot que d’identifier les ´el´ements de l’image appartenant `a une mˆeme r´egion, les ap- proches par extraction de contours identifient les ´el´ements situ´es aux fronti`eres de ces r´egions. Par exemple, les auteurs de [114] utilisent le concept de Flot de Contour (Edge Flow) afin de d´etecter les contours de couleur et de texture significatifs. Cependant ces ap- proches sont confront´ees au probl`eme de la fermeture des contours, essentielle pour d´efinir la couverture spatiale des r´egions obtenues.

La d´ecomposition de l’espace visuel sur crit`ere d’homog´en´eit´e tend `a produire une par- tition en r´egions g´eom´etriquement quelconques, puisqu’elles reposent sur une agr´egation de points selon leur caract´eristiques visuelles. Ces approches sont g´en´eralement tr`es coˆuteuses d’un point de vue algorithmique, et surtout les r´egions g´en´er´ees sont instables (voir la table 2.1 qui pr´esente quelques exemples de telles d´ecompositions). En effet, une modification du point de vue ou des conditions de la sc`ene peut bouleverser l’ensemble de la structure ob- tenue. En cons´equence, mˆeme si ces approches permettent d’indexer les composantes selon leur formes (la forme n’´etant pas d´etermin´ee par l’algorithme de d´ecomposition), elle n’ont pas les propri´et´es n´ecessaires pour une gestion g´en´erique du contenu visuel.

2.1.3 D´ecomposition sur crit`ere de saillance

Comme discut´e par R. Haralick et L. Shapiro dans [67], les composantes visuelles, afin d’ˆetre utiles pour caract´eriser le contenu d’une image, doivent ˆetre suffisamment distinctes et discriminantes. Bas´ee sur ce principe et plutˆot que de regrouper les ´el´ements de l’image pour former un ensemble de r´egions homog`enes, cette classe de d´ecompositions repose sur la notion tr`es g´en´erique de saillance visuelle. Il s’agit de d´eterminer parmi toutes les composantes vi- suelles possibles celles dont la saillance est suffisamment importante. La saillance repr´esente g´en´eralement la complexit´e ou la quantit´e d’information port´ee par une r´egion. Comme cette fonction ne peut s’estimer par construction comme pour la fonction d’homog´en´eit´e, ces ap-

Références

Documents relatifs

Partant de cette idée, et considérant aussi que pour un utilisateur d’un système de recherche d’information, ce qui compte le plus c’est la précision et la

Pour les tâches de recherche vocale multilingue, comme les langues parlées dans les documents audio sont supposées inconnues au départ, nous avons décidé de construire des

Grâce à la méthode DMOS et au générateur de systèmes de reconnaissance de documents structurés, nous avons pu produire par compilation un système de reconnaissance capable

A travers cet exemple, on peut identifier plusieurs ´ el´ ements : L’ensemble de tous les candidats possibles :. tous les parcours possibles Une fonction de coˆ

Optimisation combinatoire : Espace de recherche dont les variables sont discr` etes (cas NP-difficile). Optimisation num´ erique (continue) : Espace de recherche dont les variables

Docking mol´ eculaire Mod´ elisation cognitive Calibration de mod` ele agronomique Apprentissage artificiel?. Tˆ ache de m´ emorisation

Introduction Probl` emes d’optimisation combinatoire Probl` emes d’optimisation num´ erique

Fonction f θ d´ ependant de param` etres θ du diam` etre pupillaire en fonction de l’unit´ e de temps pour chacune des situations Comment d´ efinir un comportement moyen. Voir