Article pp.1073-1076 du Vol.22 n°9 (2003)

(1)

Editorial

Imaginons qu’une agence de communication, disposant d’une base de plus d’un million de clips vidéo, doive faire face à la demande d’un de ses clients :

« retrouvez-moi ce clip où un patineur descend les Champs-Élysées, à la tombée du jour, sous une averse de neige ». Bien qu’il soit aisé pour tout un chacun de se représenter le type d’information recherchée, sa traduction en termes de requête en vue de l’interrogation rapide d’une base de données est extrêmement difficile.

Or, la taille et le nombre de bases d’images, fixes ou animées, ne cessent de croître. Des milliers de nouvelles images sont produites chaque jour, représentant une masse considérable d’informations, et les besoins de recherche dans ces bases vont croissant. Sans outils efficaces, une telle recherche est très difficile.

L’annotation manuelle des images est fastidieuse à réaliser et très subjective : le même contenu ne sera pas perçu de la même manière par différentes personnes. De plus, la même perception peut se traduire par des mots proches sans être exactement identiques.

C’est pourquoi le domaine de « la recherche d’images dans des bases d’images fixes ou animées » est un domaine très actif depuis les années quatre-vingt-dix, avec des contributions venant à la fois de la communauté « analyse d’images »,

« reconnaissance des formes » et de la communauté « bases de données ».

La spécificité des informations visuelles, tant dans la formulation des requêtes que dans la représentation des images rend le problème de la recherche dans des bases d’images intrinsèquement difficile.

La recherche d’information dans les archives visuelles a eu pendant longtemps pour support traditionnel les annotations textuelles, préalablement effectuées à la main. Cette démarche, initiée dans les années soixante-dix, est en perte de vitesse en raison de la quantité trop importante d’images à annoter et de la difficulté à les annoter objectivement. Pour surpasser ces difficultés, le concept de « recherche à partir du contenu » a été proposé dans les années quatre-vingt-dix. L’idée est d’indexer les images par des métadonnées générées automatiquement à partir de leur contenu physique (bas niveau) en plus des annotations textuelles manuelles si elles existent. Les informations utilisées pour réaliser cette indexation reposent sur des propriétés locales ou globales des images telles que la couleur, la forme ou la texture.

La recherche par le contenu visuel soulève plusieurs problèmes dont l’extraction d’indices visuels discriminants, l’indexation multidimensionnelle, la modélisation statistique de l’utilisateur, la catégorisation.

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tsi.revuesonline.com

(2)

1074 Indexation par le contenu visuel

L’extraction d’indices visuels est au cœur de tout système de recherche par le contenu. Les indices extraits des images fournissent une représentation simplifiée des images, mais suffisamment riche pour permettre de retrouver leur contenu. Les indices les plus fréquemment utilisés sont la couleur, la texture, la forme et le mouvement. D’autres descripteurs de l’apparence visuelle peuvent être mis en œuvre pour des contenus spécialisés. Ils peuvent être locaux ou globaux (portant sur toute l’image). La nature des primitives utilisées dépend généralement de l’application considérée. Le problème de l’organisation spatio-temporelle des primitives au sein d’un modèle de scène reste un problème ouvert.

Afin de permettre l’indexation d’un très grand nombre d’images, des techniques d’indexation multidimensionnelles doivent être utilisées. Deux défis se posent : la dimension de l’espace de représentation des indices visuels (souvent supérieur à 100) et la mesure utilisée pour la recherche.

Par ailleurs, l’utilisateur joue un rôle important dans le processus de recherche d’informations. La personnalisation de la recherche à travers des mécanismes de contrôle de pertinence de plus en plus performants par modélisation statistique ou le développement de nouveaux paradigmes d’interaction, autres que celui de la recherche par l’exemple, restent des pistes ouvertes et prometteuses. Nous pouvons citer le paradigme de la recherche d’images mentales. La catégorisation automatique prépare, organise et filtre l’espace de description pour une recherche d’information et/ou navigation plus efficaces dans la base.

La communauté scientifique internationale, mobilisée depuis longtemps sur ce sujet, a proposé de nombreux systèmes de recherche d’images par le contenu. Le système le plus célèbre est certainement QBIC¹, premier système de recherche par le contenu à avoir été commercialisé par IBM dans les années 95. Depuis, de nombreux systèmes ont été proposés. Parmi les plus classiques, nous citons : Virage², RetrievalWare³, PhotoBook⁴, VisualSEEk⁵, Netra⁶ ou encore MARS⁷ et la liste n’est pas exhaustive.

Au niveau européen et national, la communauté est également très active.

Plusieurs projets et réseaux d’excellence européens ont vu le jour autour du thème de l’indexation par le contenu aussi bien à la fin du 5^e Programme Cadre (FP5) que dans le contexte du nouveau programme cadre (FP6) (Schema, Moumir, Delos, Acemedia, Muscle…).

1. http : //www.qbic.almaden.ibm.com/

2. http : //www.virage.com/cgi-bin/query-e 3. http : //vrw.excalib.com/cgi-bin/sdk/cst/cst2.bat 4. http : //web.media.mit.edu/~tpminka/photobook/

5. http : //www.ee.columbia.edu/~sfchang/demos.html 6. http : //vivaldi.ece.ucsb.edu/Netra/

7. http : //jadzia.ifp.uiuc.edu

(3)

Editorial 1075

Sur le plan français, le thème de l’indexation par le contenu a été soutenu par plusieurs réseaux nationaux de recherche : RIAM, RNRT, RNTL, etc., et plus récemment par les Actions Concertées Incitatives (ACI) « Masses de données ».

Dans la première catégorie, nous citons les projets Agir, Recis, Domus Videum, Semantic-3D et bien d’autres. Une structuration de la recherche plus légère, sous forme d’Actions Spécifiques (AS) du CNRS ou d’Actions de Recherche Coopérative (ARC) de l’INRIA, a permis également de soutenir ce thème. La communauté française a été à l’origine du lancement du Workshop international « Content-Based Multimedia Indexing » (CBMI) qui a vu sa troisième édition en septembre 2003.

Il est difficile de couvrir tous les axes de recherche de ce thème dans un seul numéro. Parmi les cinq articles présentés, quatre portent sur l’extraction de primitives visuelles, tandis que le dernier propose une contribution sur l’indexation.

Les pixels d’une image sont très nombreux et portent chacun peu d’information.

La représentation de l’image au moyen de primitives visuelles permet de réduire la quantité d’information tout en rendant ces informations plus abstraites, informatives et discriminantes.

Le premier article, proposé par T. Zaharia et F. Prêteux, propose un descripteur de forme permettant l’indexation de formes 3D. Les objets 3D maillés sont très utilisés en conception assistée par ordinateur, réalité virtuelle ou dans l’industrie des jeux vidéo. Cependant, la recherche dans les bases de modèles est un problème encore peu exploré. L’approche proposée donne des résultats probants sur une base de 1300 modèles.

Une des primitives visuelles naturellement utilisable en indexation d’images fixes est la région. Il s’agit d’un groupe de points ayant une topologie connexe et pour lequel l’ensemble des points vérifie un critère d’homogénéité. Dans le deuxième article de ce numéro, J. Fauqueur et N. Boujemaa proposent une approche d’indexation par régions saillantes. Elle est fondée sur une segmentation grossière, avec comme critère d’homogénéité des distributions de couleurs locales, couplée à une description fine de la variabilité couleur des régions.

Au lieu de décrire localement l’image, certains auteurs choisissent d’utiliser des descripteurs de l’apparence visuelle globale. Certains descripteurs de formes apportent une information globale sur la structure d’une image. Dans leur article, S. Tabbone et L. Wendling proposent d’utiliser une mesure globale fondée sur la transformée de Radon pour calculer une signature de forme permettant de retrouver des objets. Les propriétés d’invariance géométriques de cette mesure sont présentées.

L’indexation d’images animées (films, vidéo clips) oblige le concepteur à enrichir la représentation des images par des informations temporelles. Le mouvement et la structuration temporelle du document comptent pour beaucoup dans le sens que porte le document. Une des difficultés rencontrées lors de l’utilisation du mouvement pour l’analyse de films provient du coût de calcul

(4)

1076 Indexation par le contenu visuel

important. L’idée du travail de J. Benois-Pineau, W. Dupuy et D. Barbat est de réduire le signal 2D de l’image en un signal 1D, par une transformée de Mojette.

L’analyse des propriétés temporelles est ensuite effectuée au moyen de cette représentation 1D, nécessitant des calculs beaucoup plus réduits.

Enfin, comme nous l’avons signalé, si l’extraction de primitives est un problème clé pour la recherche par le contenu, le problème de l’indexation est également un point difficile. La capacité des primitives locales pour la recherche d’images provient de la multiplicité des primitives extraites des images. Cette multiplicité rend le volume des bases à gérer très important. Il faut donc utiliser des algorithmes d’indexation performants. Or, les performances des mécanismes d’indexation sont d’autant moins importantes que la dimension de l’espace des primitives est grande, ce qui est généralement le cas pour ce type d’applications. Pour faire face à cette difficulté, S. A. Berrani, L. Amsaleg et P. Gros proposent un algorithme d’indexation adapté au cas de la recherche d’images décrites par des primitives locales.

Frédéric Jurie CNRS, Clermont-Ferrand [email protected] Nozha Boujemaa INRIA, Roquencourt [email protected]