Dynamiques des composantes visuelles pour la gestion des documents vidéo par le contenu

(1)

Thesis

Reference

Dynamiques des composantes visuelles pour la gestion des documents vidéo par le contenu

MOENNE-LOCCOZ, Nicolas

Abstract

Nos travaux portent sur le problème de la gestion d'une collection de séquences vidéo par leur contenu visuel. La première contribution de nos travaux consiste en une décomposition du volume spatio-temporel des séquences vidéo. Chaque séquence est décomposée en un ensemble parcimonieux et représentatif de composantes visuelles robustes augmentées de leur trajectoire invariante au contexte dynamique. Notre seconde contribution est un modèle du contenu visuel des séquences vidéo dans un espace de représentation induit par la décomposition de leur volume spatio-temporel. Le modèle est estimé selon le paradigme de la recherche interactive par l'exemple. Finalement, nous proposons un modèle de données multimédias qui permet de rationaliser leur manipulation et l'accès à leur contenu.

MOENNE-LOCCOZ, Nicolas. Dynamiques des composantes visuelles pour la gestion des documents vidéo par le contenu. Thèse de doctorat : Univ. Genève, 2005, no. Sc. 3699

URN : urn:nbn:ch:unige-23231

DOI : 10.13097/archive-ouverte/unige:2323

Available at:

http://archive-ouverte.unige.ch/unige:2323

Disclaimer: layout of this document may differ from the published version.

(2)

Docteur St´ephane Marchand-Maillet

Dynamiques des composantes visuelles pour la gestion des documents vid´ eo

par le contenu

TH ` ESE

présentée à la Faculté des sciences de l’Université de Genève pour obtenir le grade de Docteur ès sciences, mention informatique

par

Nicolas Mo¨ enne-Loccoz

de Cluses (France)

Th`ese N^o 3699

GEN`EVE

(3)

de thèse (Département d’informatique), E. BRUNO, docteur (Département d’informatique), Madame C. SCHMID, docteur (Institut National de Recherche en Informatique et en Auto- matique Rhône-Alpes - Projet LEAR - Montbonnot - France), Messieurs J.-M. ODOBEZ, docteur (Institut Dalle Molle d’Intelligence Artificielle et Perceptive - Martigny, Suisse), et Ph. JOLY, docteur (institut de Recherche en Informatique de Toulouse - Toulouse, France), autorise l’impression de la présente thèse, sans exprimer d’opinion sur les propositions qui y sont énoncées.

Gen`eve, le 12 d´ecembre 2005

Th`ese - 3699 -

Le Doyen, Pierre SPIERER

(4)

(5)

(6)

Je tiens à remercier en premier lieu les membres du jury, Madame Cordelia Schmid, Mon- sieur Philippe Joly et Monsieur Jean-Marc Odobez, qui ont participé à l’évaluation de ce travail, pour le temps qu’ils ont consacré à la lecture du présent manuscrit, les commen- taires éclairés qu’ils m’ont dispensés et les corrections qu’ils m’ont suggérées. Je remercie particulièrement Monsieur Thierry Pun, directeur de thèse, pour sa relecture attentive, ses indications avisés mais aussi pour m’avoir accepté au sein de son laboratoire de recherche.

Je remercie chaleureusement Monsieur Stéphane-Marchand Maillet, codirecteur de thèse et Monsieur Éric Bruno, superviseur, pour avoir guidé ce travail, avoir été attentifs à sa qualité, et d’avantage peut-être pour avoir été des collègues et amis durant les trois années de cette thèse.

Je remercie ´egalement tous les membres du groupe Viper et du laboratoire CVML pour leurs conseils, leurs remarques durant les r´eunions et les discussions que nous avons eues.

Je remercie les membres du groupe Orion de l’INRIA Sophia-Antipolis pour m’avoir fait découvrir le domaine passionnant de l’interprétation du contenu visuel des séquences vidéo et sans qui ce travail n’aurait certainement pas pu exister.

Je remercie en dernier lieu tous ceux qui ont fait de ces trois années plus qu’une retraite studieuse et parmi eux, avant tout autre, Julie pour son délicieux support quotidien et nos trois mystères : Léa, Cassandre et Jenovefa.

(7)

(8)

Nos travaux portent sur le problème de la gestion d’une collection de séquences vidéo par leur contenu. Dans ce contexte nous considérons plus spécifiquement le problème de l’indexation des séquences en fonction de leur contenu visuel ainsi que sur la modélisation de motifs spatio-temporels dans l’espace d’indexation.

La première contribution de nos travaux consiste en une décomposition du volume spatio- temporel des séquences vidéo. Nous étudions dans un premier temps les différentes formes de décomposition de l’espace des images de la séquence, et plus particulièrement celles basées sur la détection de régions saillantes. Ces régions, de par leur propriétés de robustesse, de répétitivité et d’entropie, non seulement caractérisent localement le contenu visuel statique mais permettent aussi d’estimer la dynamique de celui-ci. Nous proposons donc un algorithme qui consiste à mettre en correspondance les composantes visuelles spatiales entre les images successives de la séquence. Selon les trajectoires apparentes ainsi déterminées, nous utilisons les méthodes d’estimation robuste pour estimer les paramètres de la dynamique globale. En compensant les trajectoires apparentes par les trajectoires induites par ce modèle, nous obtenons les trajectoires réelles des composantes visuelles. Chaque séquence peut de cette manière être décomposée en un ensemble parcimonieux et représentatif de composantes visuelles robustes, augmentées de leur trajectoire invariante au contexte dynamique.

Notre seconde contribution est un modèle du contenu visuel des séquences vidéo dans un espace de représentation induit par la décomposition de leur volume spatio-temporel. Le modèle intègre dans une formulation Bayésienne l’apparence des composantes visuelles, leur trajectoire réelle ainsi que la dynamique globale des séquences vidéo. Le modèle est estimé selon le paradigme de la recherche interactive par l’exemple, à partir d’un ensemble réduit d’exemples d’apprentissage. Nous montrons qu’il permet de retrouver efficacement les motifs spatio-temporels locaux apparaissant dans les séquences vidéo. En particulier l’intégration de la dynamique permet d’augmenter significativement la précision de l’estimation de ces motifs.

Finalement, et ce afin de compléter notre réflexion, nous étudions la problématique de la gestion physique d’une collection de documents vidéo. Dans ce cadre, notre contribution est un modèle générique de données multimédias permettant de rationaliser leur manipulation et l’accès à leur contenu. En particulier, ce modèle permet de mettre en oeuvre les solutions d’indexation et de modélisation proposées dans une application de recherche de documents vidéo par leur contenu.

(9)

(10)

Our works address the problem of content-based management of video collections and more specifically, the problem of video sequences indexing and spatio-temporal patterns modeling in the indexing space.

The first contribution is a decomposition of the video sequences spatio-temporal volume.

We first study the possible decompositions of the sequence frames space, emphasing on the methods based on saliency measure. These local features, because of their robustness, their repetitivity and their entropy permit to locally represent the static visual content and mo- reover permit to estimate its dynamic. Hence, we propose an algorithm that match static local features between successive video frames. Based on the resulting observed trajectories, we use a robust estimator in order to estimate a parametric model of the global dynamic. By compensating the observed trajectory by the global dynamic, the real trajectory of each local feature is finally obtained. Every sequences may be represented that way by its decomposition into a sparse and representative set of robust local features, augmented with their trajectory, invariant to the global dynamic.

Our second contribution is a model of video sequences visual content which is based on the spatio-temporal decomposition of their volume. The proposed model integrates within a Bayesian formulation, the local features appearance and trajectory and the global dynamic.

It is estimated following the interactive query by example paradigm, using only few learning examples. We show that the model is able to retrieve efficiently local spatio-temporal patterns that may occur within video sequences. More specifically, the integration of the dynamics permit to increase significantly the precision of the estimated patterns.

Finally, in order to complete our study, we consider the problem of physically managing video documents collections. In that context, our contribution is a generic multimedia data model that is able to rationalize their storage and the access to their content. That way, the solutions to the indexing and modeling problems we propose may be exploited by a real content-based video sequences retrieval application.

(11)

(12)

Table des mati`eres 11 1 Introduction : Gestion de documents vid´eo par le contenu visuel 15

1.1 Gestion de documents vid´eo . . . 16

1.1.1 Gestion d’information . . . 16

1.1.2 Recherche de documents par le contenu visuel . . . 17

1.2 Analyse du contenu visuel des documents vid´eo . . . 18

1.2.1 D´ecomposition Temporelle . . . 19

1.2.2 D´ecomposition Spatiale . . . 21

1.2.3 Estimation de la dynamique . . . 22

1.3 Indexation du contenu visuel des prises de vue . . . 22

1.3.1 Indexation s´emantique du contenu visuel . . . 23

1.3.2 Indexation du contenu visuel global . . . 23

1.3.3 Indexation du contenu visuel local . . . 24

1.4 Mod´elisation de la requˆete dans l’espace d’indexation . . . 26

1.4.1 Formulation de la requˆete . . . 26

1.4.2 Modèles des documents pertinents à la requête . . . 27

1.4.3 Estimation interactive des mod`eles . . . 28

1.5 Contributions . . . 30

1.6 Plan du m´emoire . . . 31

2 Composantes visuelles 33 2.1 D´ecomposition de l’espace visuel . . . 33

2.1.1 D´ecomposition arbitraire . . . 34

2.1.2 Décomposition sur critère d’homogénéité . . . 35

2.1.3 D´ecomposition sur crit`ere de saillance . . . 36

2.2 Saillance visuelle . . . 38

2.2.1 Cartes de saillance . . . 38

2.2.2 Points saillants par ondelettes . . . 39

2.2.3 Coins deF¨orstner-Harris . . . 40

2.2.4 R´egions `a entropie maximale . . . 42

2.3 Invariance `a l’´echelle . . . 43

(13)

2.3.1 Blobs Laplaciens invariants `a l’´echelle . . . 45

2.3.2 Coins invariants `a l’´echelle . . . 47

2.3.3 Régions à entropie maximale invariantes à l’échelle . . . 49

2.4 Invariance aux transformations affines . . . 50

2.4.1 Blobs Laplaciens invariants aux transformations affines . . . 51

2.4.2 Coins invariants aux transformations affines . . . 51

2.4.3 R´egions `a entropie maximale invariantes aux transformations affines . 52 2.5 Descripteurs de composantes visuelles . . . 53

2.5.1 Descripteurs statistiques . . . 54

2.5.2 Descripteurs par moments . . . 55

2.5.3 Descripteurs diff´erentiels . . . 56

2.5.4 Descripteurs fr´equentiels . . . 57

2.6 Conclusion . . . 57

3 Dynamique des composantes visuelles 61 3.1 D´ecomposition du volume spatio-temporel . . . 62

3.1.1 Décomposition sur critère d’homogénéité . . . 63

3.1.2 D´ecomposition sur crit`ere de saillance . . . 63

3.2 D´ecomposition propos´ee . . . 65

3.2.1 Trajectoires apparentes des composantes visuelles . . . 67

3.2.2 Dynamique globale . . . 70

3.2.3 Trajectoires r´eelles des composantes visuelles . . . 73

3.3 Evaluation exp´erimentale de l’algorithme´ . . . 74

3.3.1 Param`etres de l’algorithme . . . 74

3.3.2 R´esultats . . . 75

3.4 Application `a la structuration temporelle . . . 83

3.4.1 Segmentation temporelle . . . 84

3.4.2 S´election d’images-clefs . . . 86

3.5 Conclusion . . . 88

4 Mod`eles de contenu visuel par composantes dynamiques 91 4.1 Mod´elisation par index unique . . . 92

4.1.1 Projection dans des espaces de caract´eristiques . . . 92

4.1.2 Projection dans des espaces de caract´eristiques induits . . . 94

4.1.3 Projection dans des espaces de dissimilarit´e . . . 96

4.2 Mod´elisation par index multiple . . . 97

4.2.1 Mod`eles de similarit´e . . . 97

4.2.2 Mod`eles probabilistes . . . 98

4.3 Mod´elisation propos´ee . . . 100

4.3.1 Indexation des s´equences vid´eo . . . 101

4.3.2 Mod`ele de motifs spatio-temporels . . . 105

(14)

4.4 Evaluation exp´erimentale du mod`ele . . . 108´

4.4.1 Protocole exp´erimental . . . 109

4.4.2 R´esultats . . . 112

4.5 Discussion . . . 121

5 Mise en oeuvre 123 5.1 Modèle conceptuel de données pour les documents vidéo . . . 124

5.1.1 Structuration temporelle des documents . . . 125

5.1.2 Espaces de description des segments temporels . . . 126

5.2 Méthodes d’accès aux documents vidéo . . . 129

5.2.1 Acc`es aux documents multim´edia . . . 129

5.2.2 Acc`es aux annotations . . . 129

5.2.3 Acc`es aux caract´eristiques . . . 130

5.3 ViCoDE : un système de recherche de séquences vidéo . . . 131

5.3.1 Recherche de documents vid´eo . . . 131

5.3.2 Architecture de l’application . . . 136

6 Conclusions et Perspectives 139 A Application à l’annotation automatique 143 A.1 Détection et suivi des entités visuelles mobiles . . . 144

A.1.1 D´etection des composantes visuelles mobiles . . . 144

A.1.2 Estimation des r´egions de support . . . 146

A.2 Détection des objets d’intérêt . . . 148

A.2.1 Apprentissage de la s´emantique des r´egions . . . 149

A.2.2 Connaissances a priori . . . 149

A.3 Détection des événements . . . 149

A.3.1 D´efinition du langage . . . 150

A.3.2 Expression du langage . . . 150

A.3.3 Inférence d’événements . . . 151

A.4 ´Evaluation pour le domaine des meetings . . . 151

Annexes 143 B Algorithme des moindres carrés pondérés et itérés (MCPI) 157 B.1 M-estimateurs . . . 157

B.2 Algorithme MCPI . . . 158

C Algorithme Hongrois de mise en correspondance minimale 159 C.1 Mise en correspondance d’un graphe bi-partit . . . 159

C.2 AlgorithmeHongrois . . . 160

(15)

D Publications 163

Bibliographie 165

(16)

Introduction : Gestion de

documents vid´ eo par le contenu visuel

Dans cette société de l’information qui émerge, un phénomène notoire est celui de la multi- plication et de la diversification des sources de matériel audio-visuel numérique. Conséquence de la croissance de la production télévisuelle, de l’augmentation des systèmes de vidéo- surveillance, des politiques de numérisation des archives audio-visuelles ainsi que de la démocra- tisation des caméscopes numériques, cette évolution se heurte aux problèmes liés à la gestion de cette énorme masse d’information. En effet, l’accumulation de documents vidéo n’a de sens que si l’on dispose des moyens de stockage et d’accès à l’information qu’ils contiennent. Or, la nature de cette information, non-structurée, fortement bruitée, essentiellement temporelle, ne permet pas d’utiliser les méthodes classiques de gestion et de recherche qui ont fait leur preuve pour les documents textuels. Le moyen usuel d’appréhender le problème consiste à annoter les documents vidéo. Il s’agit en fait de projeter manuellement le contenu de ces documents dans un espace sémantique pouvant être aisément géré par les systèmes standards de gestion d’information structurée. Cependant l’ampleur de la tâche interdit sa mise en oeuvre systématique, d’autant plus qu’elle ne permet pas de répondre à toutes les requêtes potentielles puisque par définition le champ sémantique couvert est limité.

La recherche de documents visuels par le contenu est un domaine de recherche parti- culièrement actif qui étudie les moyens d’extraire des documents l’information qu’il contiennent, de définir les espaces de représentation de cette information ainsi que les moyens de modéliser interactivement dans cet espace les concepts recherchés par les utilisateurs. De nombreux progrès ont été réalisés depuis les travaux de M. Swain et D. Ballard [168] tant sur le plan de l’analyse du contenu visuel, de l’indexation de celui-ci que de la modélisation des requêtes dans l’espace d’indexation [11, 162, 165]. Malgré le nombre croissant de systèmes proposés pour gérer une collection de documents vidéo [4, 51, 69], les solutions actuelles ne sont pas

(17)

satisfaisantes du point de vue de la complexité des algorithmes d’indexation et de recherche, ou de la capacité informative des index utilisés.

Dans ce chapitre nous présentons le problème de la gestion d’une collection de documents vidéo par leur contenu visuel exclusivement, c’est-à-dire en ne considérant ni leur contenu sonore (p.ex. parole, musique) ni leur contenu textuel (p.ex. sous-titres, texte apparaissant dans le champs visuel). Toutes ces modalités sont pourtant nécessaires afin de caractériser le contenu des documents. En particulier l’information issue de la reconnaissance automatique de la parole dans le flux sonore est essentielle. D’ailleurs, de plus en plus de travaux considèrent le problème de la fusion des différentes modalités en vue d’augmenter les performances des algorithmes de recherche (voir p.ex. E. Bruno et al [18]). Mais, tant que pour chacune de ces modalités les moyens d’exprimer efficacement leur contenu ne sont pas identifiés, aucune solution multimodale robuste ne peut être proposée ; pour cette raison nous limitons notre investigation à la seule modalité visuelle.

Dans ce contexte, nous discutons les problèmes liés à la modélisation d’un besoin d’information visuelle et nous argumentons pour une représentation du contenu des documents vidéo par l’apparence et la dynamique d’un ensemble parcimonieux de composantes visuelles.

1.1 Gestion de documents vid´ eo

Dans notre travail, nous considérons donc le problème de la gestion d’une collection de documents vidéo par leur contenu visuel. Le cadre de cette problématique est très large puisqu’il englobe les aspects relatifs à la gestion physique des documents, à leur indexation et à l’accès à l’information qu’ils contiennent. En fait, nous restreignons ce cadre à l’étude des aspects spécifiques aux documents vidéo, puisque des solutions efficaces existent pour la gestion d’information au sens large.

1.1.1 Gestion d’information

La gestion d’une grande quantité d’information est un problème composite qui inclus les tâches suivantes :

- Gestion physique : le stockage de l’information dans sa forme numérique sur des fichiers, l’ajout et la suppression d’éléments ainsi que les moyens d’assurer la consistance, la préservation et la publication de cette information (transactions concurrentes, sauve- gardes, récupérations, autorisations).

- Accès : les moyens permettant de formuler un besoin d’information et de retrouver le plus rapidement possible, parmi la masse d’information publiée, celle qui répond à ce besoin.

- Agrégation : les moyens d’extraire l’information induite par les relations entre les éléments stockés (fouille de données).

(18)

Pour la problématique de lagestion physiquedes informations, les solutions sont sensiblement les mêmes quelques soit le support de ces informations. En particulier, les solutions existantes dans les systèmes de gestion de bases de données [40] peuvent être exploitées et adaptées au contexte d’une collection de documents vidéo. Il n’en va pas de même pour la problématique de l’accès à l’information qui dépend de la forme de cette information et de son support.

Quant à la problématique de l’agrégation, ses solutions sont directement liées à celles de l’accès.

Les systèmes de gestion de base de données (SGBD) standards permettent de gérer une masse d’information formatée selon un modèle de données rigide. En ce sens, il est aisé de formuler une requête en utilisant un langage formel tel que SQL (Standard Query Language) et de retrouver les données qui sont entièrement décrites par la requête.

La gestion d’un ensemble de documents est différente du fait que l’information n’est pas directement manipulée et stockée, mais contenue dans des documents non-structurés pouvant être de type textuel, sonore ou visuel. En ce qui concerne les documents purement textuels, des méthodes efficaces de recherche d’information et d’indexation ont été proposées [6], comme par exemple celles utilisées par les moteurs de recherche d’informations sur In- ternet. Ces méthodes reposent sur l’indexation non structurée des termes apparaissant dans les documents et éventuellement sur des heuristiques propres au type des documents (p.ex.

exploitation des hyper-liens pour les documentshyper-textes).

En ce qui concerne les documents visuels (images ou séquences d’images), leur contenu ne peut pas être directement utilisé comme index étant donné sa complexité et sa variabilité.

De plus, il n’existe pas de vocabulaire visuel formel et donc la formulation d’une requˆete sur ce type de documents est difficile.

Pour ces différentes raisons, nos travaux sur la gestion d’une collection de documents vidéo ont porté principalement sur le problème de l’accès à l’information contenue dans les séquences d’images que constituent de tels documents.

1.1.2 Recherche de documents par le contenu visuel

De part son volume et la complexité de son interprétation, le contenu visuel d’un document vidéo ne peut pas être manipulé directement comme peuvent l’être les mots d’un document textuel. En conséquence, le contenu visuel doit dans un premier temps être analysé pour en extraire une représentation plus simple. Cette représentation du contenu est stockée dans une forme qui doit lui permettre d’être accédée efficacement. Il s’agit de l’index des documents dans l’espace duquel les requêtes des utilisateurs sont projetées. Donc, la recherche de documents visuels par le contenu se définit par les différentes problématiques que sont : - Analyse du contenu : l’analyse du contenu visuel qui permet d’en extraire une représentation

simplifi´ee et robuste au bruit.

- Indexation : la description de cette représentation qui est utilisée comme index des documents. Les structures d’indexation doivent occuper un espace mémoire minimal, et

(19)

permettre des accès rapides aux index. Ces index doivent préserver au maximum l’information que contient les documents leur correspondant puisqu’ils déterminent la richesse des requêtes pouvant être répondues.

- Formulation de la requˆete : les moyens disponibles aux utilisateurs leur permettant d’exprimer l’information (ou le motif visuel) qu’ils recherchent.

- Recherche des documents pertinents : la définition dans l’espace d’indexation des régions contenant les index des documents pertinents (contenant le motif recherché).

Dans ce travail nous considérons donc chacune de ces problématiques afin d’identifier une solution au problème de la gestion de documents vidéo par leur contenu visuel.

1.2 Analyse du contenu visuel des documents vid´ eo

L’information visuelle d’un document vidéo est contenue dans la la séquence des images le composant. En effet, une séquence vidéo peut s’écrire sous la forme :

S:V ×T 7→D (1.1)

où V est l’espace visuel des images, c’est-à-dire la projection des points de l’espace réel sur la surface des capteurs de la caméra. T est l’espace temporel de la séquence et D l’espace de représentation de chaque élément du volume spatio-temporel de la séquence.D décrit en partie les fréquences des ondes lumineuses émises par les objets présents dans l’espace réel.

Il s’agit g´en´eralement de l’espace des niveaux de gris ou de l’espace des couleurs.

Une séquence vidéo quelconque est un agencement de prises de vues qui correspondent à la capture d’un ensemble de phénomènes visuels en un lieu et dans un intervalle de temps particulier. Ces phénomènes visuels sont altérés par le mouvement de la caméra ainsi que par un ensemble de retouches visuelles. Le contenu d’une séquence vidéo est donc le résultat d’un ensemble de processus d’édition ainsi que d’un ensemble de phénomènes visuels :

- Processus d’´edition : les diff´erentes manipulations sur le contenu

- Prises de vues : les sous-séquences du document qui se définissent par la continuité de leur contenu visuel. Une prise de vue correspond à l’ensemble d’images successives qui ont été prises lors d’un même processus de capture, donc par la même caméra dans un même lieu et dans un intervalle de temps continu.

- Mouvement de caméra : le contenu dynamique global d’une prise de vue résultant principalement du déplacement de la caméra relativement à la scène.

- Retouches visuelles : les modifications du contenu de chaque image.

- Phénomènes visuels : les phénomènes physiques qui sont à l’origine des observations - Scène : le contenu statique global d’une prise de vue, c’est à dire l’arrière plan capturé

durant la prise de vue.

- Objets : les entit´es visuelles spatiales distinctes de la sc`ene.

(20)

- Evénements´ : la dynamique des phénomènes visuels résultant principalement du déplacement des objets durant la prise de vue.

Or, ces différents éléments d’information sont indissociables dans le volume spatio-temporel de la séquence qui en conséquence est particulièrement difficile à appréhender de manière automatique.

E. Adelson et J. Bergen [1] définissent l’espace d’apparence d’une séquence d’images pour une scène du monde réel par la fonction plénoptique suivante :

I(x, y, t, cx, cy, ct, λ) (1.2) où (x, y, t) sont les coordonnées de la projection dans le volume V ×T d’un point de l’espace réel. (cx, c_y, c_z) sont les coordonnées dans l’espace réel du point de vue et λ correspond à une longueur d’onde du spectre lumineux. La fonction plénoptique décrit complètement les phénomènes visuels tels qu’ils ont été observés. Selon cette définition, une séquence vidéo quelconque peut se définir comme une concaténation d’échantillons de la fonction plénoptique correspondant au différentes prises de vues, éventuellement modifiées par les processus d’édition : S = [I(Vx, V_y, T^k, C_x, C_y, C_z,Λc) +E(Vx, V_y, T^k,Λc)], k= [1..n]. (1.3) oùV_x×V_y correspond à l’espaceV des images de la séquence,T^kà un sous-ensemble continu de l’espace temporel T de la séquence, (Cx, Cy, Cz) correspond à la trajectoire de la posi- tion de la caméra dans l’espace réel et Λc correspond à l’ensemble des longueurs d’ondes capturées par la caméra. La composante E, quant à elle représente les modifications de la fonction plénoptique dues aux processus d’édition intervenant après la capture de la scène, comme par exemple les artefacts de compression ou la surimpression de matériel visuels (lo- gos, textes incrustés ...).

L’analyse du contenu visuel des séquences vidéo consiste principalement à reconstruire la fonction plénoptique I. Il s’agit donc de caractériser les différents processus d’édition ainsi que les différents phénomènes visuels qui constituent l’essentiel de l’information portée par une séquence. Cette analyse se divise en trois problématiques majeures : la décomposition temporelle de la séquence, c’est-à-dire la décomposition de celle-ci en la succession des segments correspondants au différentes prises de vues, la décomposition spatiale, c’est-à-dire l’extraction des objets visuels présents dans la scène, et enfin l’estimation de la dynamique, c’est-à-dire l’estimation du mouvement de la caméra ainsi que celui des objets.

1.2.1 D´ecomposition Temporelle

La décomposition temporelle d’une séquence vidéo est la caractérisation des segments de la séquence qui correspondent à une même prise de vue. Il s’agit d’identifier les segments

(21)

de la séquence qui correspondent aux échantillons de la fonction plénoptique définie sur un support temporel continu :

I(Vx, V_y, T^k, C_x, C_y, C_z,Λc) (1.4) La figure 1.1 pr´esente un exemple d’une telle d´ecomposition.

Fig. 1.1:Extraction de la succession des prises de vue d’un document vid´eo.

De nombreuses approches ont été proposées afin de décomposer temporellement une séquence vidéo (voir la revue de I. Koprinska et S. Carrato [94]). Elles consistent à détecter les transitions entre les prises de vue potentielles. Elles offrent généralement de très bons résultats en particulier pour l’identification des prises de vues se succédant sans effets de transition tels que les fondus enchaˆıné ou les volets. Elles reposent sur l’hypothèse de conti- nuité des phénomènes visuels apparaissant entre les images successives d’une même prise de vue. Ainsi, à partir d’une mesure F : Ω_S 7→ R×T de ce contenu (Ω_S étant l’ensemble de toutes les séquence S), les transitions sont détectées lorsque cette mesure subit de fortes variations entre deux images successives (où blocs d’images successifs) :

δF(S(., t))

δt > τ (1.5)

La décomposition temporelle d’une séquence vidéo est requise par la plupart des approches d’indexation. En effet elle permet d’identifier les segments dont le contenu visuel est continu et peut être caractérisé globalement. Par exemple, la segmentation en prises de vue peut être utilisée pour définir un ensemble d’images, les images-clefs des prises de vues, de sorte à ne considérer que ces images pour représenter l’information visuelle statique de la séquence vidéo.

(22)

1.2.2 D´ecomposition Spatiale

La décomposition spatiale identifie dans l’espace visuel de la séquence vidéo, les points correspondant au même phénomène visuel (la scène, ou un objet particulier). Il s’agit donc de regrouper les éléments deV en un ensemble de régionsVi ⊂V qui chacune correspond à un objet distinct apparaissant dans la scène, et tel que la région V −S

iVⁱ corresponde `a la sc`ene.

La figure 1.2 présente un exemple d’une telle décomposition qui a été définie manuellement.

Dans le contexte de la gestion d’une collection de documents vid´eo quelconques, pour les-

Objets physiques Objets d’édition

Scène

Fig. 1.2: Décomposition spatiale idéale : les principaux objets sont extraits et la scène est identifiée.

quels aucune connaissance a priori quant à leur contenu visuel n’est disponible, ce type de décomposition sémantique est particulièrement difficile, voire impossible à mettre en oeuvre automatiquement. En effet aucun critère basé seulement sur les caractéristiques du signal n’est en mesure de distinguer entre des objets divers, tels qu’une personne, une voiture ou un animal, à cause de la variabilité des propriétés visuelles qui les distinguent. En conséquence, seule l’utilisation de détecteurs spécifiques permet d’extraire un ensemble de phénomènes visuels donnés.

Dans notre contexte de recherche, la seule décomposition de l’espace visuel envisageable, telle que présentée dans le chapitre 2, consiste à extraire les régions selon leur caractéristiques visuelles plutôt que sémantiques.

(23)

1.2.3 Estimation de la dynamique

La dynamique d’une séquence vidéo est définie par les variations du contenu des images appartenant à une même prise de vue. Par définition, deux images successives d’une prise de vue ont une partie de leur espace visuel qui caractérise une même partie de la scène.

Les modifications de cet espace sont les conséquences du mouvement soit de la caméra, soit du mouvement des objets de la scène, soit finalement des textures de mouvements (nuages, frondaisons sous le vent, ressacs, etc).

L’estimation de la dynamique détermine ces différents phénomènes, autrement dit, les phénomènes expliquant :

δS

δt ≈ δI(x, y, t, c_x, c_y, c_z,Λ_c)

δt (1.6)

où l’on considère que la séquenceS correspond à une seule prise de vue et où l’on néglige les effets d’édition de post-production.

Le flot optique détermine le champ des vecteurs mouvement de l’espace visuel entre deux images successives, c’est-à-dire le mouvement affectant chaque élément de l’image. En ce sens, il ne distingue pas entre le mouvement de la caméra et les objets visuels mobiles.

Différentes méthodes d’estimation du flot optique ont été proposées (voir [166] pour une

étude du problème), telles que l’approche paramétrique de E. Bruno [17]. Le flot optique détermine la dynamique dense de la séquence, c’est à dire la trajectoire de chaque élément de l’espace. Or, les algorithmes proposés, quoique très performants du point de vue de la précision du flot optique estimé, ont une complexité rédhibitoire.

Alternativement, les approches reposant sur la mise en correspondance de composantes visuelles robustes que nous pr´esentons dans le chapitre 3, fournissent les moyens efficaces d’estimer le contenu dynamique d’une prise de vue.

1.3 Indexation du contenu visuel des prises de vue

L’indexation des séquences vidéo selon leur contenu visuel est la création de représentations numériques (ou index) de celles-ci. En utilisant des méthodes d’accès spécifiques à ces représentations, les séquences vidéo contenant une certaine information peuvent être efficacement retrouvées.

En général cette représentation numérique est une projection, ou abstraction par caractéristiques des documents dans un espace déterminé :

F : Ω_S 7→ D (1.7)

oùDest l’espace des caractéristiques ou d’indexation. L’indexF(S) d’une séquence vidéo doit être le plus expressif possible. c’est-à-dire qu’il doit couvrir au maximum l’information visuelle de la séquence, à savoir les différentes prises de vues caractérisées par leur scène, leur mouvement de caméra, leurs objets et finalement leurs événements. Une seconde contrainte porte

(24)

sur la taille de cet index. L’index correspondant à une séquence vidéo doit être le plus simple possible de sorte à limiter le surcroˆıt de mémoire nécessaire et de sorte à rendre l’accès le plus efficace possible, c’est-à-dire le plus rapide puisque la complexité d’un index détermine essentiellement la complexité des méthodes d’accès qui peuvent lui être associées. En conséquence, plus l’index est complexe et meilleure est sa représentativité, avec une couverture maximale si l’on considère un index utilisant la séquence elle-même comme représentation numérique.

Cependant, plus l’index est complexe et moins efficace est l’acc`es `a cette information.

La plupart des techniques d’analyse du contenu que nous avons rapidement présentées dans la section précédente, ne peuvent être mises en oeuvre dans un contexte d’indexation d’une grande quantité de séquences vidéo quelconques. En effet, soit ces techniques ne sont pas suffisamment robustes, soit leur complexité algorithmique interdit leur application à de grands ensembles. Pour cette raison, les index sont généralement des représentations simples du contenu des séquences, donc peu expressifs mais très efficacement extraits, stockés et accédés. Le vecteur commun est la segmentation temporelle en prises de vue, qui peut malgré tout être remplacée par une sélection arbitraire d’un ensemble d’images-clefs.

1.3.1 Indexation s´emantique du contenu visuel

La manière la plus triviale d’indexer une collection de séquences vidéo se fait par un ensemble de mots-clefs. Ces mots peuvent être attachés à l’ensemble du document ou seulement

`

a certaines sous-séquences telles que celles caractérisant les prises de vue. Il s’agit donc de projeter chaque séquence dans un espace sémantique déterminé, c’est-à-dire pour un domaine (sphère de connaissance) particulier.

Un tel index est hautement informatif, sa taille étant optimale relativement à l’information exprimée. Cependant, l’extraction supervisée de ce type d’index est coûteuse en ressources humaines et son extraction automatique n’est possible que pour des collections homogènes, c’est-à-dire pour lesquelles le contenu visuel des séquences est fortement contraint. De plus, l’espace sémantique étant fixe, son expressivité, c’est-à-dire la quantité d’information qu’il représente, est limitée.

1.3.2 Indexation du contenu visuel global

Afin de capturer le contenu visuel des documents vid´eo l’approche la plus courante extrait une description globale pour chaque prise de vue ou pour un ensemble d’images-clef.

Autrement dit, ces éléments de base sont projetés en un unique point d∈ D, calculé à partir de tous les points du cube spatio-temporel des séquences ou de l’espace visuel des images.

Cet index représente la totalité du contenu visuel et ne permet généralement pas de répondre

`

a des requêtes sur les objets ou sur les évènements de la séquence (requêtes locales). Toute- fois, l’efficacité de l’extraction de tels index et l’efficacité des méthodes d’accès qui leurs sont

(25)

associées, les rendent particulièrement bien adaptés au problème de la gestion de grandes collections de documents vidéo.

Indexation du contenu statique global

Le contenu visuel statique d’une séquence vidéoSest l’ensemble des imagesS(., t) considérées indépendamment les unes des autres. La plupart des approches ne considèrent que l’image- clef de la prise de vue, généralement l’image médiane ou l’image la plus représentative de la séquence.

Les images peuvent être représentées par la distribution de leur éléments (ou pixels) dans l’espace de descriptionD. Par exemple les travaux précurseurs et toujours d’actualité de M. Swain et D. Ballard [168] considèrent l’histogramme couleur de ces éléments. Une telle représentation cependant intègre spatialement l’information, perdant ainsi toute notion de la structure de l’image. Afin de limiter ce phénomène, l’image peut être préalablement décomposée en blocs, représentés chacun par un histogramme de couleur.

Similairement, des histogrammes sur les gradients de l’image peuvent être utilisés, donnant ainsi une représentation de la texture de l’image.

Indexation du contenu dynamique global

Le contenu dynamique global peut être appréhendé un considérant la trajectoire du contenu global de chaque image de la séquence vidéo. Ces trajectoires étant de longueurs variables, afin de les projeter dans un espace de dimension fixe, les trajectoires peuvent être réduite en ne considérant par exemple que les premiers coefficients d’une transformation de Fourier. Cependant cette approche ne caractérise pas directement la dynamique du contenu.

Les index calculés à partir du flot optique quant à eux permettent de caractériser la dynamique réelle des séquences. Encore une fois des statistiques peuvent être calculées sur celui-ci comme par exemple les histogrammes des vecteurs de mouvements [167]. R. Fablet [41] propose quant à lui de modéliser les résidus du mouvement global majoritaire par un modèle paramétrique capable d’identifier des classes d’activités globales.

D’autres travaux ne considèrent que le mouvement de caméra observé durant la prise de vue (p.ex. S. Porteret al [143]), mais l’expressivité d’un tel index est particulièrement limitée.

1.3.3 Indexation du contenu visuel local

La seconde classe d’approches pour d´ecrire le contenu visuel des documents vid´eo consiste

`

a indexer les structures spatiales, temporelles ou spatio-temporelles, du volumeV ×T de la séquence vidéo. Ces structures permettent donc de décrire localement les séquences vidéo. À chacune de ces structures est associé un index, de sorte à pouvoir les accéder indépendemment

(26)

les unes des autres. Malgré la complexité du processus de décomposition du volume des séquences et malgré la complexité accrue de l’index du fait que celui-ci est un ensemble de points dans un espace de description, l’indexation du contenu local offre l’avantage de pouvoir représenter indépendemment les différents motifs visuels et/ou temporels qui apparaissent dans la séquence vidéo.

Indexation du contenu statique local

Le contenu statique local peut être représenté directement par des descripteurs locaux du contenu, c’est-à-dire les réponses à des filtres locaux appliqués aux images de la séquence.

Par exemple, les champs r´eceptifs, propos´es initialement par B. Schiele [151] et repris par V.

Colin-de-Verdi`ere [33], sont utilis´es pour faire de la reconnaissance d’objets dans les images.

Cette approche à l’avantage de ne pas nécessiter une phase de décomposition de l’espace visuel. Mais sans connaissance a priori des requêtes utilisateur, l’ensemble des descripteurs doit être indexé ce qui implique un index trop complexe et trop volumineux pour être utilisé dans le contexte de la gestion interactive de séquences vidéo.

Alternativement, un ensemble parcimonieux de composantes visuelles peut être extrait de l’espace des images, qui correspondent aux régions les plus représentatives de celui-ci. Des descriptions calculées sur ces composantes permettent alors d’indexer le contenu visuel local, comme proposé par C. Schmid [152]. Ces descriptions peuvent être quantifiées afin de réduire d’avantage la complexité de l’index en projetant l’ensemble des composantes en un vecteur caractérisant le nombre d’occurence de ces modèles (voir p.ex. G. Csurka et al [31]).

Indexation du contenu dynamique local

Sur le même principe des descriptions locales du contenu d’une image, des descripteurs spatio-temporels locaux peuvent être utilisés. O. Chomat [24] propose une extension des champs réceptifs dans le volume V ×T des séquences vidéo. Il utilise les réponses à un banc de filtres de Gabor 3Dpour caractériser localement la dynamique du contenu visuel. L.

Zelnik-Manor et M. Irani [192] considèrent les gradients multi-échelles normalisés en chaque point de l’espace V ×T. I. Laptev et T. Lindeberg [100] quant à eux utilisent des filtres de dérivées de Gaussienne adaptés à la direction du mouvement en chaque point. Ces approches sont très intéressantes dans le cadre de la reconnaissance d’événements, mais la complexité de l’index et aussi de l’algorithme d’extraction des descripteurs rendent peu praticable leur utilisation dans le contexte de l’indexation de séquences vidéo.

Une autre approche consiste à décomposer parcimonieusement le volume spatio-temporel de la séquence vidéo. Elle permet de limiter le volume des caractéristiques indexées. Il peut s’agir d’une décomposition jointe des espacesV etT comme proposée par exemple par I. Lap- tev et T. Lindeberg [98] ou bien d’une décomposition indépendante, reposant sur l’estimation de la dynamique des composantes spatiales telle que préconisée dans nos travaux.

(27)

1.4 Mod´ elisation de la requˆ ete dans l’espace d’indexation

Etant donné un espace d’indexation´ D dans lequel chaque séquence de la collection est projetée, la modélisation de la requête identifie les points ou les régions deD correspondant aux projections des séquences vidéo qui sont pertinentes à la requête, c.-à-d. qui contiennent le motif spatio-temporel recherché par l’utilisateur. Pour ce faire, il faut dans un premier temps que l’utilisateur soit en mesure d’exprimer sa requête. Ensuite, en fonction de la projection de celle-ci dans l’espace d’indexation, il s’agit d’identifier et de retrouver en fonction de leur index, les séquences pertinentes de la collection.

1.4.1 Formulation de la requˆete

Dans le cas le plus simple, la formulation de la requête se fait par mot-clefs. L’utilisateur décrit textuellement le motif visuel qu’il recherche. Cet ensemble de mots est ensuite comparé

`

a une description textuelle des documents issue d’un processus d’annotation supervisé ou automatique ou encore des flux sonores (reconnaissance automatique de la parole) ou textuels fréquemment associés aux flux vidéo. La requête par mots-clefs préconise l’utilisation de la parole qui n’est, dans la majeure partie des cas, pas corrélée au contenu visuel, ou la mise en oeuvre d’un processus d’(auto-)annotation qui présuppose la connaissance a priori du contenu visuel des documents et des requêtes que les utilisateurs vont formuler.

Un autre moyen consiste pour l’utilisateur `a fournir un exemple de ce qu’il cherche, c’est-

`

a-dire la représentation d’un motif visuel. Cette approche est celle communément utilisée par les moteurs de recherche de documents textuels (p.ex. Google). En effet, un utilisateur qui recherche un motif textuel particulier fournit un ensemble de mots devant apparaˆıtre dans ce motif. Similairement, la requête par esquisse (Query By Sketch) consiste pour l’utilisateur à dessiner une représentation du motif recherché. La requête par esquisse est pourtant imprati- cable puisqu’elle présuppose des talents que l’utilisateur ne possède pas forcément et requiert un temps dont il ne dispose généralement pas.

Plus usuelle, la requête par l’exemple (Query By (pictorial) Example QBE), consiste pour l’utilisateur à fournir une image ou une vidéo qu’il choisit généralement parmi les éléments de la collection (Query By Internal Example [178]). Une variation de ce type de requête consiste

`

a préciser quelle est dans l’exemple, la région spatiale (pour des images) ou spatio-temporelle (pour des vidéos) support du motif recherché.

Une requête par l’exemple est donc un ensemble d’éléments pertinents, dans notre cas un ensemble de séquences vidéo S⁺ qui contiennent effectivement le motif visuel (spatio- temporel) recherché. Cet ensemble peut être augmenté par des exemples non-pertinents, c’est-à-dire des séquences vidéo S⁻ qui au contraire ne contiennent pas ce motif. De cette manière un modèle du motif en question peut être estimé dans l’espace d’indexation et les séquences vidéo de la collection contenant ce motif peuvent être retrouvées à partir de leur

(28)

index.

1.4.2 Modèles des documents pertinents à la requête

Un modèle des séquences vidéo pertinentes à une requête est un modèle, défini dans l’espace d’indexationD, de la région à laquelle appartient l’index de toutes (et seulement elles) les séquences vidéo contenant le motif visuel recherché, c’est-à-dire une certaine classe d’arrières plans, une certaine classe d’objets, une certaine classe de mouvements de caméra ou une certaine classe d’événements. Plus formellement, un tel modèle définit la densitéP(R|F(S),Θ), où R est la variable aléatoire caractérisant la pertinence des points de l’espace d’indexation.

La région de pertinence dans D est alors identifiée à une instance de ce modèle, définie par une valeur particulière de ses paramètres Θ, estimés à partir de l’ensemble d’apprentissage Q={S⁺,S⁻}.

T. Jebara [79], entre autres, distingue entre les modèles discriminants qui représentent directement la probabilité conditionnelle :

P(R|F(S),Θ) (1.8)

et les modèlesgénératifs qui quant à eux, représentent la probabilité jointe :

P(R,F(S)|Θ) =P(F(S)|R,Θ)P(R,Θ) (1.9) qui permet, par la formule de Bayes de retrouverP(R|F(S)).

Mod`eles discriminants

Les modèles discriminants, tels que les régressions logistiques, représentent donc directement la région pertinente de l’espace d’indexation définie par la probabilité conditionnelle P(R|F(S)).

Par exemple E. Changet al [57, 172] proposent d’utiliser une machine à vecteurs de support (SVM) qui identifient une séparation non-linéaire dans l’espace d’indexationDentre les index pertinents et les index non-pertinents. Dans ces travaux, le modèle est estimé interactivement (voir section suivante) et permet d’identifier les éléments d’une collection d’images contenant un certain motif visuel.

Modèles génératifs

On peut distinguer, de manière artificielle, les modèles par similarité, qui sont définis par un point de l’espace d’indexation et par une mesure de similarité dans cet espace, des modèles probabilistes, qui reposent sur l’estimation d’une densité plus complexe.

(29)

Le modèle par similarité modélise la région comme une hyper-sphère centrée en un point. Plus formellement, il s’agit de faire l’approximation de P(F(S)|R) par la similarité entre les séquences vidéo indexées et le centre ˆd de l’hyper-sphère :

P(F(S)|R)∝d(ˆd,F(S)) (1.10) où d : D × D 7→ R⁺ est la mesure de similarité utilisée. Le paramètre ˆd est généralement estimé comme la moyenne des exemples positifs :

dˆ =E[F(S⁺)]≈ 1

|S⁺| X

S∈S⁺

F(S) (1.11)

Le rayon de l’hyper-sphère peut être choisi arbitrairement (range query), ou alors, un nombre KR est utilisé qui détermine le nombre d’éléments à renvoyer, et dans ce cas le rayon de l’hyper-sphère est déterminé par la distance auK_Rîeme élément le plus proche (K-NN query).

Ce modèle, malgré sa simplicité, est très répandu dans le contexte de la recherche d’information, puisque la formulation de la requête ne requiert de l’utilisateur qu’un exemple positif et que les structures d’indexation les plus performantes sont con¸cues pour ce type de requêtes.

Lesmodèles probabilistescomplets calculent la pertinence d’un point de l’espace d’indexation de manière détournée :

P(R|F(S)) = P(F(S)|R)P(R)

P(F(S)) ≈ P(F(S)|R)

P(F(S)) (1.12)

où P(R) est négligé dans la majorité des approches, ce qui a pour conséquence de biaiser l’estimation. De plus le ratio (classifieur Bayésien na¨ıf) :

P(R|F(S))

P( ¯R|F(S)) ≈ P(F(S)|R)

P(F(S)|R)¯ (1.13)

permet de s’affranchir de l’estimation des ´evidencesP(F(S)).

Dans le contexte de la classification les modèles discriminants sont préférés, malgré leur plus forte variance, parce qu’ils ne sont pas biaisés par les hypothèses fortes émises sur la densité P(R). Les travaux de A. Ng et M. Jordan [128] montrent cependant que les modèles génératifs sont plus efficaces lorsque le nombre d’exemples est limité. Pour un nombre d’exemples donné, les modèles génératifs peuvent donc estimer des représentations plus riches d’un motif visuel particulier.

Ainsi par exemple, T. Westerveld et A. de Vries [185] proposent un modèle génératif reposant sur un index des séquences vidéo par régions de couleur, dont les paramètres sont efficacement estimés par un maximum a posteriori (MAP).

1.4.3 Estimation interactive des mod`eles

Etant donné une requête formulée par un utilisateur, ainsi qu’un modèle de motifs visuels´ dans l’espace d’indexation, il s’agit d’estimer ses paramètres Θ de ce modèle qui déterminent :

P(R|F(S),Θ) (1.14)

(30)

Leur estimation se fait à partir de l’ensemble Q = {S⁺,S⁻} qui exprime, selon le point de vue de l’utilisateur, le motif recherché. Or, dans ce contexte, la tâche impartie à l’utilisateur consistant à sélectionner les exemples positifs et négatifs est fastidieuse et donc le nombre de ces exemples est limité à quelques uns. Du fait de cette contrainte, la complexité des modèles de contenu, c’est-à-dire le nombre de leurs paramètres, doit être réduite.

Afin d’augmenter le cardinal de l’ensemble d’apprentissageQ, le principe de la boucle de pertinence (relevance feedback loop [6]) peut être mis en oeuvre. Il s’agit d’une estimation interactive du modèle qui enrichit progressivementQ. À partir de l’ensemble d’apprentissage courantQk, les paramètres Θ_ksont estimés, et en fonction deP(R|S,Θ_k), l’utilisateur enrichi l’ensemble d’apprentissage :

Qk+1 =Qk∪ {S_k+1⁺ ,S_k+1⁻ } (1.15) Ainsi le modèle tend vers une meilleure précision au fur et à mesure de la boucle de pertinence.

La figure 1.3 illustre le principe de l’estimation interactive des param`etres du mod`ele. Reste

Utilisateur

Estimation de la pertinence Ajout d’exemples d’apprentissage

Modèle P(R|F(S))

Fig. 1.3: Illustration du paradigme de boucle de pertinence : l’utilisateur enrichit au fur et à mesure l’ensemble d’apprentissage en fonction de la pertinenceP(R|F(S)) estimée par le modèle sous-jacent.

le problème de la sélection de l’ensemble initial Q0, qui est généralement désigné comme la principale limitation du paradigme de recherche par l’exemple (problème de lapage zéro).

Cependant, pour que le principe de la boucle de pertinence soit applicable, la recherche doit être rapide. Plus précisément, l’estimation des paramètres Θ du modèle ainsi que le calcul de la pertinence P(R|F(S),Θ) pour toute les séquence S de la collection C, doit se faire dans un laps de temps inférieur à quelques secondes [129] afin de maintenir l’intérêt de l’utilisateur. Cette contrainte d’interactivité est essentielle dans le contexte de la gestion de documents vidéo.

(31)

1.5 Contributions

La problématique traitée est l’indexation d’une collection de séquences vidéo quelconques et les moyens de répondre à partir de cet index, à des requêtes sur des motifs spatio-temporels quelconques. Nous ne supposons donc aucune connaissance a priori ni quant au contenu des séquences vidéo ni quant aux requêtes que les utilisateurs peuvent émettre sur cet index.

Ainsi, l’approche proposée est valide pour toutes applications de gestion d’une collection de documents vidéo par leur contenu visuel. Notre recherche s’est également portée sur la ra- tionalisation des problèmes de stockage et d’accès aux bases de données multimédias afin de résoudre les difficultés de la mise en oeuvre de ces solutions.

Il apparaˆıt de l’étude précédente que les séquences vidéo doivent être indexées selon une représentation locale et parcimonieuse de l’apparence et de la dynamique de leur contenu visuel. Donc, la première contribution de nos travaux est un algorithme de décomposition du volume spatio-temporel des séquences vidéo. Cet algorithme calcule une estimation des trajectoires réelles des composantes visuelles spatiales sous la contrainte que celles-ci soient suffisamment robustes aux déformations de l’apparence des phénomènes visuels qu’elles ca- ractérisent. Nous montrons que cet algorithme est particulièrement performant et robuste. Il résulte en un ensemble parcimonieux de composantes spatio-temporelles invariantes à la dynamique globale de la scène. Cette représentation est particulièrement bien adaptée au problème de la gestion de séquences vidéo par leur contenu visuel. Nous montrons par ailleurs, dans une étude de cas, qu’elle peut tout aussi bien être mise à profit dans le cadre de la détection d’événements.

Etant donnée une décomposition du volume spatio-temporel des séquences vidéo, la´ problématique de l’accès à ces séquences selon leur contenu nécessite de définir les modèles de motifs visuels qui vont permettre d’identifier les occurrences de tels motifs dans une collection. La seconde contribution de cette thèse est donc un modèle générique de motifs visuels reposant sur la décomposition spatio-temporelle des séquences vidéo proposée. Notre modèle intègre non-seulement l’apparence des composantes visuelles, mais aussi leur trajectoire réelle et le mouvement de la caméra. Ce modèle n’intègre pas les relations spatio-temporelles entre les différentes composantes et repose sur l’hypothèse d’indépendance entre l’apparence des composantes et de leur trajectoire réelle. Ces restrictions s’avèrent nécessaires pour limiter la complexité du modèle et ainsi de permettre son estimation interactive. Nous montrons

`

a travers un ensemble d’expérimentations que ce modèle est en mesure d’estimer efficacement des motifs visuels quelconques, c’est-à-dire aussi bien des objets, des arrières plans, des évènements ou encore une combinaison de tels concepts. En particulier nous montrons que l’estimation est précise malgré le faible cardinal des ensembles d’apprentissage, et qu’elle bénéficie significativement de l’intégration de la dynamique.

(32)

La dernière contribution de nos travaux est l’étude des problèmes liés à la masse et au format complexe des données multimédias dans le cadre de la gestion de documents vidéo.

Nous montrons que le mod`ele de gestion que nous proposons dans ce contexte permet de rationaliser la mise en oeuvre de la plupart des techniques d’indexation et en particulier celle que nous avons propos´ee.

1.6 Plan du m´ emoire

Le chapitre 2 de ce manuscrit présente les différents types de composantes visuelles spatiales proposés à ce jour. Nous étudions leur propriétés respectives ainsi que celles des descripteurs de leur apparence visuelle.

Le chapitre 3 étend cette première étude à la dimension temporelle des séquences vidéo.

Nous identifions les faiblesses des approches existantes et détaillons ensuite notre algorithme de décomposition du contenu visuel spatio-temporel. Nous en démontrons finalement l’effi- cacité et la robustesse à travers un ensemble d’expérimentations sur diverses collections de séquences vidéo. L’annexe A illustre l’intérêt de cet algorithme dans le contexte de l’annotation automatique de séquences vidéo par détection d’événements.

Dans le chapitre 4, nous présentons dans un premier temps les différentes méthodes d’indexation et de modélisation du contenu visuel à partir d’une représentation des séquences selon un ensemble de composantes visuelles. Ensuite, nous détaillons le modèle que nos proposons qui intègre en plus de l’apparence usuelle des composantes visuelles, leur trajectoire réelle ainsi que le mouvement de la caméra. Nous validons finalement le modèle proposé dans le contexte de la recherche interactive de motifs spatio-temporels, à travers un ensemble représentatif de simulations de requêtes.

Le manuscrit s’achève sur le chapitre 5 qui présente le modèle abstrait de données mul- timédias que nous avons défini et détaille ensuite l’application ViCoDE de recherche de documents vidéo par leur contenu multimodal que nous avons développée à partir de ce modèle de données.

(33)

(34)

Composantes visuelles

La possibilité de pouvoir répondre à des requêtes sur le contenu local des images s’est rapidement révélée être une problématique à part entière de la recherche d’images par le contenu.

Déjà dans [168], M. Swain et D. Ballard discutent cette problématique. Ils proposent d’ailleurs le concept de rétro-projection d’histogrammes couleurs qui permet de caractériser l’inclusion dans l’histogramme global des images indexées celui d’une sous-région de l’image requête.

Comme discut´e dans le chapitre introductif, les descripteurs locaux tels que les r´eponses

`

a un banc de filtres, résultent en une représentation trop dense du contenu de l’image. L’index est particulièrement volumineux, alors que les algorithmes de recherche ne peuvent gérer interactivement une telle complexité. La solution consiste à ne considérer que certains pixels ou groupes de pixels. Cette représentation parcimonieuse permet de réduire la complexité de l’index. Mais comment choisir ces composantes particulières de l’image ? Quelles doivent être leurs propriétés et comment les décrire ?

Dans ce chapitre nous présentons tout d’abord les principales décompositions de l’espace visuel proposées à ce jour. Ensuite, nous nous focalisons sur les approches d’extraction de régions saillantes, en définissant dans un premier temps cette notion très générique qu’est la saillance visuelle et ensuite en passant en revue les différentes formes de saillance utilisées.

Nous présentons les méthodes permettant d’obtenir un ensemble de régions saillantes invariantes à l’échelle et aux transformations affines. Et finalement, nous présentons les différents descripteurs qui peuvent être utilisés pour caractériser l’apparence visuelle de ces composantes.

2.1 D´ ecomposition de l’espace visuel

Les composantes visuelles utilisées pour indexer une image définissent lesclefs de requêtes disponibles sur cette image. En d’autres termes, ces entités visuelles constituent les éléments de base pour la modélisation de la requête utilisateur. En conséquence, la nature de ces composantes, c’est-à-dire leur forme, leur taille et leurs propriétés visuelles, vont déterminer l’infor-

(35)

mation qui pourra être modélisée à partir d’un tel index. Nous nous intéressons spécifiquement aux représentations génériques qui capturent l’essentiel de l’information visuelle et qui sont suffisamment robustes pour pouvoir définir des modèles de contenu viables à grande échelle.

Dans ce contexte, une d´ecomposition de l’espace visuel doit satisfaire les conditions suivantes : – Forte localit´e des composantes

– Nombre optimal de composantes (complexité de l’indexvs couverture du contenu) – Composantes robustes aux transformations photométriques et géométriques – Faible complexité algorithmique du processus de décomposition

La première contrainte, relative à la taille des composantes, stipule simplement que les composantes visuelles doivent caractériser des régions suffisamment petites pour que le paradigme de requête locale soit valide. La seconde contrainte, relative au nombre des composantes, stipule que celui-ci doit être suffisamment grand pour couvrir l’essentiel du contenu visuel et suffisamment petit afin de limiter la taille de l’index. La contrainte de robustesse est essentielle tant pour la caractérisation de la dynamique d’une séquence vidéo (voir chapitre 3) que pour la robustesse des modèles de contenu basés sur ce type de représentations (voir chapitre 4). Finalement, la complexité algorithmique du processus de décomposition ne doit pas être excessive pour assurer son application à de grands ensembles de documents visuels.

2.1.1 D´ecomposition arbitraire

Une première approche décompose l’espace visuel de manière totalement arbitraire. Les composantes obtenues ont une taille fixe et aucune propriété particulière. Par exemple, dans [115, 126] les auteurs définissent un quadrillage fixe de l’espace visuel et proposent d’indexer une image selon les propriétés visuelles de chaque cellule (voir figure 2.1). Le choix de la grille est crucial, puisqu’il décide de la complexité de l’index et de son expressivité. En effet, plus la grille est fine, plus la localité de l’index est forte et meilleure est la couverture du contenu.

D’un autre côté une grille trop fine résulte en un index trop complexe, avec un grand nombre de cellules adjacentes caractérisant la même information.

Des approches basées sur les Quad-Tree [163] peuvent être utilisées pour résoudre ce problème. Les Quad-Tree définissent une décomposition hiérarchique de l’espace visuel qui adapte la finesse de la grille en fonction de l’homogénéité des cellules (voir figure 2.1).

Bien que ces approches soient très efficaces du point de vue de leur mise en oeuvre, les régions définies s’avèrent peu informatives et particulièrement instables. Plus précisément,

étant donné leur positionnement fixe, les caractéristiques utilisées pour l’indexation doivent être très génériques (p.ex. histogrammes de couleur ou de contour) et donc peu expressives.

En effet, des caractéristiques plus spécifiques comme par exemple des descripteurs de forme sont largement tributaires de la localisation des régions et ne peuvent donc pas être utilisées dans ce contexte.

(36)

Fig. 2.1: Exemples de décompositions arbitraires : décomposition par quadrillage fixe et décomposition parQuad-Tree.

2.1.2 Décomposition sur critère d’homogénéité

La théorie de lagestalt (voir par exemple [183]) stipule que le regroupement perceptuel d’éléments visuels joue un rôle fondamental dans le système de vision humain. Basée sur ces observations, une classe de décomposition extrait les régions de l’espace visuel qui sont homogènes selon certaines caractéristiques, telles que les niveaux de gris, la couleur, la texture, le mouvement ou encore une combinaison de celles-ci. Il s’agit donc de regrouper les éléments visuels adjacents qui partagent des valeurs très proches dans l’espace des caractéristiques visuelles. Plus formellement, il s’agit de maximiser l’homogénéité des régions obtenues tout en minimisant le nombre de ces régions. La décomposition résultante est largement tributaire de ce compromis, et donc variable selon des choix arbitraires.

Depuis plus d’une trentaine d’années, de nombreuses approches ont été proposées afin de résoudre ce problème. Pour un panorama complet de ces algorithmes, le lecteur peut se référer aux revues de R.M. Haralick et L.G. Shapiro [66] et de N.R. Pal et S.K. Pal [136].

Les approches par analyse d’histogramme identifient les distributions proéminentes dans l’espace des caractéristiques. Ceci peut être fait par simple seuillage de l’histogramme [171] ou en appliquant l’algorithme du Mean-Shift [28]. L’image est ensuite filtrée selon les différentes distributions identifiées, et les régions correspondant à ces distributions sont finalement caractérisées.

Les approches par regroupement définissent les groupes de pixels adjacents dans l’espace visuel et dans celui des caractéristiques. Tout algorithme de regroupement peut être utilisé à ces fins, comme par exemple ceux reposant sur l’estimation itérative d’un modèle paramétrique. Dans [92] les auteurs utilisent l’algorithme desK-Moyennes, dans [60] celui des C-Moyennes Floues et dans [20] l’algorithme d’Expectation Maximization (EM) qui estime les paramètres d’un mélange de Gaussiennes. La segmentation est obtenue en optimisant le

(37)

critère d’homogénéité contrebalancé par un terme de régularisation comme celui du Mini- mum Description Length [65] (MDL) relatif à la complexité du modèle, c.-à-d. au nombre de composantes. À partir des modèles de régions, afin d’obtenir une décomposition plus lisse, des méthodes de régularisation peuvent être utilisées, comme les Champs de Markov qui définissent des contraintes de voisinage basées sur les potentiels locaux (voir p.ex. les travaux de J.M. Odobezet al [131]) .

La segmentation par graphe représente une image comme le graphe pondéré dont les noeuds sont les éléments de l’image, les arcs les relations d’adjacence spatiale entre ces pixels et les poids de ces arcs leur distance dans l’espace des caractéristiques. Un premier algorithme de segmentation supprime directement les arcs de poids fort, normalisés par la variance intra-région (Normalized-Cut [157]). Une autre méthode [43] applique un algorithme similaire sur l’arbre de recouvrement minimal du graphe.

Plutôt que d’identifier les éléments de l’image appartenant à une même région, les approches par extraction de contours identifient les éléments situés aux frontières de ces régions. Par exemple, les auteurs de [114] utilisent le concept de Flot de Contour (Edge Flow) afin de détecter les contours de couleur et de texture significatifs. Cependant ces approches sont confrontées au problème de la fermeture des contours, essentielle pour définir la couverture spatiale des régions obtenues.

La décomposition de l’espace visuel sur critère d’homogénéité tend à produire une par- tition en régions géométriquement quelconques, puisqu’elles reposent sur une agrégation de points selon leur caractéristiques visuelles. Ces approches sont généralement très coûteuses d’un point de vue algorithmique, et surtout les régions générées sont instables (voir la table 2.1 qui présente quelques exemples de telles décompositions). En effet, une modification du point de vue ou des conditions de la scène peut bouleverser l’ensemble de la structure obtenue. En conséquence, même si ces approches permettent d’indexer les composantes selon leur formes (la forme n’étant pas déterminée par l’algorithme de décomposition), elle n’ont pas les propriétés nécessaires pour une gestion générique du contenu visuel.

2.1.3 D´ecomposition sur crit`ere de saillance

Comme discuté par R. Haralick et L. Shapiro dans [67], les composantes visuelles, afin d’être utiles pour caractériser le contenu d’une image, doivent être suffisamment distinctes et discriminantes. Basée sur ce principe et plutôt que de regrouper les éléments de l’image pour former un ensemble de régions homogènes, cette classe de décompositions repose sur la notion très générique de saillance visuelle. Il s’agit de déterminer parmi toutes les composantes visuelles possibles celles dont la saillance est suffisamment importante. La saillance représente généralement la complexité ou la quantité d’information portée par une région. Comme cette fonction ne peut s’estimer par construction comme pour la fonction d’homogénéité, ces ap-