Acquisition, archivage et recherche de documents accessibles par le contenu : application à la gestion d'une base de données d'images de filigranes

(1)

Thesis

Reference

Acquisition, archivage et recherche de documents accessibles par le contenu : application à la gestion d'une base de données d'images de

filigranes

RAUBER, Christian

Abstract

L'idée principale de cette thèse est la conception d'un système de recherche d'images basé sur le contenu ainsi que la gestion globale des informations pour la création d'archives digitales accessibles depuis le World-Wide-Web. Ce système est basé sur le modèle client-serveur et permet la recherche d'informations au moyen de critères visuels. Comme exemple d'application, nous utilisons les documents et images de filigranes fournis par le Musée Suisse du Papier. L'application pilote, ainsi développée, permet d'authentifier un papier inconnu par comparaison des informations contenues dans la feuille, en particulier le filigrane, avec des documents dont la provenance a déjà été déterminée.

RAUBER, Christian. Acquisition, archivage et recherche de documents accessibles par le contenu : application à la gestion d'une base de données d'images de filigranes. Thèse de doctorat : Univ. Genève, 1998, no. Sc. 2988

DOI : 10.13097/archive-ouverte/unige:142942

Available at:

http://archive-ouverte.unige.ch/unige:142942

Disclaimer: layout of this document may differ from the published version.

(2)

(3)

(4)

REMERCIEMENTS

Mes remerciements s’adressent en premier lieu au Professeur Thierry Pun qui m’a accueilli au sein de son équipe et qui a accepté de diriger cette thèse. Les conseils et encouragements qu’il m’a prodigués ainsi que les remarques et corrections minutieuses de ce travail en ont permis sa réalisation.

Je désire également remercier le Docteur Peter Tschudin et le Professeur Bernard Levrat pour m’avoir fait l’honneur d’être membre du jury. Je leur suis reconnaissant du temps qu’ils ont consacré à la lecture de cette thèse. Les nombreuses remarques et suggestions qu’ils m’ont adressées mon permis de clôturer ce travail.

Mes remerciements vont également à mes amis et collègues du Groupe Vision auquel j’ai fait partie pendant plus de cinq années, à savoir: Olger Bosch, Jean-Marc Bost, Denis Brunet, Catherine De Garrini, Frédéric Deguillaume, Sylvia Gil, Alain Jacot-Descombes, Joe Ó Ruanaidh, Abderrahim Labbi, Marc Lefebvre, Ruggero Milanese, Shelby Pereira, Lori Petrucci, Patrick Roth, David Squire, Serguei Startchik ainsi qu’aux autres membres du Centre Universitaire d’Informatique pour la cordiale atmosphère qui a régné durant ces années. Je remercie tout spécialement Serguei Startchik avec lequel j’ai eu le plaisir de partager mon bureau pendant ces cinq dernières années et aux ingénieurs systèmes Nicolas Mayencourt, François Tamone, Sandro Viale, David Clerc et Daniel Agulleiro pour avoir à maintes reprises configuré ma station de travail. Je remercie également notre bibliothécaire, Dorothée Hauser, pour avoir réussi à trouver la plupart des références bibliographiques ainsi que notre secrétaire, Germaine Gusthiot, pour son aide de tous les jours. Je n’oublierais pas de remercier également à Lorna, Silvia et Raki.

(5)

Finalement, je remercie les professeurs Thierry Pun, Christian Pellegrini, Thierry Vust et Felice Ronga, avec qui j’ai eu l’occasion de travailler dans le cadre de leurs cours, pour leur confiance qu’ils m’ont témoignés.

Je souhaite aussi témoigner ma vive reconnaissance envers mes parents, qui m’ont donné la chance d’étudier et de me soutenir avec leurs encouragements durant ces années.

(6)

RÉSUMÉ

Une limitation considérable des bases de données actuelles est leur forte dépendance envers une représentation textuelle des informations. Cette situation perdure malgré l’importance crois- sante de la description des informations sous forme imagée. Nous utilisons nos capacités visuelles pour voir et comprendre plus que tout autre moyen de communication.

La quantité d’information mise à disposition croissant de ma- nière exponentielle, il devient crucial de disposer d’outils de recherche efficaces. Bien que les moteurs de recherche d’informations textuelles soient devenus courants, ce n’est pas toujours le cas en ce qui concerne la recherche d’images sur la base de leur contenu.

Le développement d’un moteur de recherche spécialisé dans la recherche d’images nécessite l’utilisation de techniques de com- préhenssion d’images par ordinateur. En effet, afin de pouvoir indexer une image selon son contenu, il est nécessaire d’analyser celle-ci afin d’en extraire une représentation résumée qui traduit formellement les caractéristiques subjectives de l’image.

L’idée principale de cette thèse est la conception d’un système de recherche d’images basé sur le contenu ainsi que la gestion globale des informations pour la création d’archives digitales accessibles depuis le World-Wide-Web. Ce système est basé sur le modèle client-serveur et devra permettre la recherche d’informations au moyen de critères visuels. Comme exemple d’application, nous utiliserons les documents et images de filigranes fournis par le Musée Suisse du Papier. L’application pilote ainsi développée permettra d’authentifier un papier inconnu par comparaison des informations contenues dans la feuille, en particulier le filigrane, avec des documents dont la provenance a déjà été déterminée.

(7)

Les problèmes liés à l’acquisition des données, et plus spécifi- quement à la digitalisation des images de filigrane, sont détaillés dans cette thèse. Le traitement informatique des images ainsi que leur mise en forme est un aspect important de ce travail. L’indexation des images dans notre base de données s’effectue sur la base des caractéristiques principales des filigranes. Les différentes mé- thodes et structures d’indexation des données multimédias dans un système de gestion de base de données sont aussi exposés. Les structures

mises à disposition pour la manipulation des données multi-dimensionnelle sont présentées puis comparées (arbres-B, arbres-Q, arbres-R, etc.).

De manière à permettre la recherche des informations sauve- gardées, différentes méthodes, accessibles depuis le Web, ont été développées. La première approche est la consultation page par page des informations au moyen d’hyperliens. La seconde mé- thode se base sur les caractéristiques globales des images à retrouver. La troisième possibilité de recherche permet de retrouver toutes les images possédant un même motif. La dernière approche utilise les caractéristiques morphologiques des images pour retrouver des images similaires.

Finalement, les différentes méthodes de recherche ont été éva- luées qualitativement et quantitativement. Les mesures effectuées démontrent que le système est tout à fait apte à retrouver les informations les plus pertinantes, et donc de satisfaire au but recherché.

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

(23)

(24)

1 INTRODUCTION

1-1 Introduction

Ce travail se situe dans le cadre d’un projet du Programme Prioritaire Suisse de Recherche en Structures d’Information et de Communication (PPR-SIC). Le but de ce projet, dénommé Krypict [80], est d’étudier un système permettant la distribution de documents informatiques multimé- dias à travers le réseau international Internet, en tenant compte des aspects de sécurité de transmission et de préservation des droits d’auteurs sur les données transmises. L’un des objectifs concret du projet Krypict est la création d’un environnement permettant l’archivage et la recherche de documents dans une base de données d’images. L’implémentation de l’environnement doit être faite selon une architecture client-serveur, afin de permettre à des utilisateurs externes de consulter ou d’acquérir ces données. Le système Krypict doit également intégrer des mécanismes de protection de la propriété intellectuelle par l’intermédiaire de l’inclusion d’une marque spécifique, ou Copyright, dans les images ainsi que par une authentification personnelle des utilisateurs. La mise en œuvre de proto- coles sécurisés et de techniques de cryptage permettra en plus de garantir la confidentialité des transferts de données entre le client et le serveur.

Dans ce contexte, ce travail de doctorat se concentre sur les aspects liés à la création, à la gestion et à l’utilisation d’une base de données d’images historiques. Il est le fruit d’une collaboration entre le Groupe de

(25)

vision par ordinateur de l’Université de Genève et le Musée Suisse du Pa- pier à Bâle. La fonction première du prototype réalisé est de permettre l'identification de papiers anciens par inspection de leur filigrane. Les images provenant du musée, à savoir des reproductions de filigranes anciens, ont été utilisées tout au long du travail tant pour l'élaboration que pour l'évaluation du prototype.

Dans l’état actuel, ce prototype appelé SWIC ("Search Watermark Images by Content") permet l’acquisition des données, le traitement des images en vue de leur archivage, et la recherche de données spécifiques au moyen de critères textuels et morphologiques. Finalement, l’interface du prototype a été développée en étroite collaboration avec les utilisateurs du système.

1-2 Apports du travail

Les paragraphes ci-dessous résument les points-clés de ce travail, pour permettre au lecteur d’avoir une première vue globale des apports de cette thèse. Chacun de ces points fait l’objet d’un développement au cours des prochains chapitres.

1-2.1 Système général

Un système complet à été développé permettant l’acquisition, la gestion et la recherche de filigranes à travers le World-Wide Web. L’acquisition des données provenant d’anciens documents est effectuée à Bâle, et la digitalisation d’encyclopédies contenant la reproduction d’images de filigrane est réalisée à Genève. Pour la gestion des données, une base de données relationnelle objet (SGBDO) commerciale est em- ployée. Elle permet de sauvegarder aussi bien les données textuelles que des objets plus complexes, tel que des images ou des pages HTML. En ce qui concerne la recherche des filigranes, plusieurs modules différents sont proposés à l’utilisateur, tous accessibles depuis le réseau. Ce système est actuellement utilisé au Musée Suisse du Papier à Bâle.

(26)

1-2.2 Acquisition des données

Avant de développer des algorithmes de traitement d’image complexes, il est nécessaire d’acquérir une image qui fasse autant que possible ressortir les éléments importants qui la composent. Ceci implique que lors de l’acquisition de l’image, un maximum de perturbations conduisant à une dégradation des performances du système doivent être éliminées.

Après avoir testé plusieurs méthodes différentes de digitalisation, un scanner particulièrement bien adapté à la saisie des filigranes a été sélec- tionné. Une méthodologie nouvelle pour l’acquisition des données provenant des feuilles de papiers anciens a également été proposée.

1-2.3 Traitement d’image pour l’archivage

Différents algorithmes de traitement d’image ont été développés pour permettre l’amélioration des données issues de la digitalisation des documents anciens, en vue de leur archivage. Ces algorithmes permettent la suppression du bruit, l’augmentation du contraste, la suppression d’élé- ments inutiles, la normalisation des images et finalement l’extraction des caractéristiques utiles au moteur de recherche. La plupart de ces algorithmes ont été développés en Java et sont exécutables depuis le World- Wide Web. L’insertion puis le traitement simultané de plusieurs milliers d’images de filigranes ont été effectués automatiquement en utilisant des modules écrit en C par l’intermédiaire d’une plate-forme de développe- ment commerciale (KBVision).

1-2.4 Indexation multidimensionnelle

Pour permettre la sauvegarde des images ainsi que leur recherche ul- térieure, diverses méthodes d’indexation ont été étudiées et comparées.

Les plus adéquates ont ensuite été adaptées pour optimiser l’accès à des données de différents types et dimensionalités. En particulier, les index spatiaux, permettant la gestion de vecteurs multidimensionnels, nous ont permis la création d’une base de données efficace et rapide pour les re- quêtes portant sur des primitives complexes (forme morphologique des filigranes, description des régions, etc.).

(27)

1-2.5 Modules de recherche d’images

L’une des caractéristiques essentielle distinguant les systèmes d’archivage et de recherche d’images entre eux est la facilité d’accès aux don- nées. Ceci implique de fournir des méthodes autorisant des recherches selon divers critères et plusieurs modes, typiquement textuels et morphologiques. Dans ce but, plusieurs méthodes de recherche originales ont été développées. Les requêtes peuvent se baser sur des éléments textuels (mots-clés, date, description), sur l’inspection interactive des données en utilisant des liens HTML (classification de Briquet, code IPH, etc.), sur des caractéristiques globales ou sur la morphologie des filigranes. Toutes ces méthodes peuvent être utilisées à travers le réseau en utilisant un bu- tineur standard du marché.

1-2.6 Applets Java

Plusieurs Applets écrites en Java ont été développées pour permettre la manipulation des images. L’applet principale autorise le tracé manuel d’une esquisse de filigrane, afin d’effectuer une requête morphologique basée sur cette esquisse. Cette interface est aussi accessible à travers le ré- seau et permet à chacun de pouvoir dessiner un modèle de filigrane. Plu- sieurs fonctionnalités sont en outre fournies pour le traitement d’images (squelettisation, érosion, dilatation, etc.).

La seconde applet permet la comparaison de deux filigranes de ma- nière à étudier leur degré de similitude. Ce module peut être appelé après une requête portant sur la morphologie des filigranes et permet ainsi d’évaluer l’adéquation entre l’image modèle et les filigranes retrouvés par le système.

1-3 Organisation du document

Après avoir brièvement introduit le sujet dans le premier chapitre, le second chapitre de cette thèse présente les différentes caractéristiques d’un système général de recherche d’images selon le contenu. Diverses propriétés que doit posséder un tel système sont énumérées et détaillées, que ce soit au niveau interne (architecture, vecteurs caractéristiques, type d’indexation, etc.) ou externe (interface, présentation des résultats, accès

(28)

aux données, etc.). Utilisant ces critères, un certain nombre de systèmes accessibles depuis le World-Wide Web sont décrits et comparés, leurs particularités sont aussi évaluées.

Le troisième chapitre expose les méthodes d’indexation spatiale permettant la gestion de données multidimensionnelles. Diverses structures sont présentées (structures en grilles, arbres-Q, arbres-R, etc.), chacune de ces méthodes d’indexation présentant des avantages et/ou inconvénients suivant le type de données que l’on doit manipuler. Nous concluons ce chapitre par la présentation d’un tableau comparatif de ces différentes structures soulignant leurs caractéristiques essentielles.

Le quatrième chapitre présente les concepts, méthodes et outils déve- loppés pour permettre l’archivage des filigranes. Dans cet objectif, n’ou- blions pas que le but principal de cette recherche est de permettre l’identification de papiers anciens (détermination de leur origine, date de fabrication, lieu d’utilisation, etc.) au moyen de l’inspection du filigrane contenu dans le tramage de la feuille. L’acquisition des données permettant la création de notre base de données d’images est détaillée. Deux mé- thodes différentes sont employées: la première consiste à extraire l’image de filigranes directement à partir d’anciens manuscrits provenant de bi- bliothèques ou de musées; la seconde méthode nécessite l’emploi d’ency- clopédies regroupant la retranscription manuelle de plusieurs milliers d’images de filigranes. Les méthodes de traitement d’image permettant le rehaussement et l’amélioration des filigranes ont été développées et sont détaillées. Les outils développés permettent également d’extraire les principales propriétés physiques de l’image, telles que la taille de la feuille de papier, sa texture, sa couleur, etc. Après l’acquisition et le traitement du document, une phase d’annotations doit être effectuée par un historien afin de le décrire complètement.

Le cinquième chapitre se concentre sur les différentes méthodes qui ont été développées pour permettre de retrouver une image de filigrane.

Ces méthodes sont au nombre de six. La première méthode se base sur la classification effectuée par Briquet [10], et consiste essentiellement en une recherche textuelle qui permet de parcourir la liste de toutes les images de la classe sélectionnée. Cette méthode n’est pas efficiente dans le cas où la signification sémantique du filigrane n’est pas clairement dé-

(29)

ou enfin lorsque l’on a à disposition un nombre important d’encyclopé- dies. La seconde méthode de recherche de filigrane utilise une codifica- tion adoptée par l’Association Internationale des Historiens du Papier (IPH [47]). Un code unique est associé à chaque classe de filigrane, ce qui présente l’avantage de lever la plupart des ambiguïtés linguistiques ou sé- mantiques présentes dans la classification de Briquet. La méthode adop- tée, utilisable en quatre langues, permet d’obtenir les images ou les pages HTML correspondant aux documents désirés. La troisième méthode de recherche est basée sur les informations textuelles accompagnant les filigranes et introduites par les historiens. Pour compléter les possibilités de la recherche, les opérations d’union (et) et d’intersection (and) sont dis- ponibles sur les mots recherchés. La quatrième méthode de recherche consiste à retrouver un filigrane suivant des propriétés globales de l’image, telles que la hauteur, la largeur, l’espacement des fils de chaî- nettes, etc. Cette méthode n’est pas suffisamment performante pour retrouver un filigrane précis, mais permet de limiter une recherche à un sous-ensemble de filigrane plus restreint. La cinquième méthode utilise les caractéristiques morphologiques des filigranes. La description du mo- dèle de recherche peut soit être une image de la base de données, soit être un tracé effectué à la main. Finalement, la dernière méthode de recherche consiste à retrouver les filigranes possédant un pattern identique, qui peut par exemple être un fragment de filigrane inconnu. Cet algorithme a éga- lement été développé sur une machine parallèle.

Le sixième chapitre évalue les résultats obtenus avec les différentes méthodes de recherche. Les valeurs de recall et de precision ont été éva- luées ainsi que la qualité des résultats fournis par les modules de recherche basés sur la morphologie des filigranes. En outre, les algorithmes ont été testés suivants plusieurs critères: robustesse au bruit, aux changements d’échelles et à la rotation.

Finalement, nous concluons dans le dernier chapitre et présentons les éventuelles améliorations que nous pourrions apporter à ce système.

(30)

2 SYSTÈMES DE RECHERCHE D’IMAGES

2-1 Introduction

Divers systèmes informatiques de recherche d’images par le contenu ont été proposés, permettant de retrouver de manière simple et efficace une ou plusieurs images correspondant à des critères définis par l’utilisateur. Dans ce chapitre, nous allons tout d’abord définir les caractéristiques générales que doit comporter un tel système de recherche d’images. Dif- férentes mesures d’évaluation seront ensuite détaillées, permettant de comparer ces systèmes et aussi de quantifier leurs performances. Finale- ment nous présenterons plusieurs de ces dispositifs parmi les plus repré- sentatifs.

2-2 Systèmes de recherche d’images

Dans la décade précédente, les créateurs et utilisateurs d’images ne pouvaient pas sauvegarder directement celles-ci dans une base de données électronique. Ceci était dû essentiellement au manque de capacité ainsi qu’à la lenteur d’exécution des ordinateurs de l’époque. Pour contourner ce handicap, seules les informations textuelles étaient sauvegardées, dé- crivant de manière sommaire et peu structurée chacune des images. Il est vite apparu que cette manière de procéder ne permettait ni de décrire de

(31)

manière efficace et concise toutes les images, ni de pouvoir les retrouver suivant un ou plusieurs critères.

Par exemple, dans le cas de peintures de grands maîtres, il est très dé- licat de décrire textuellement de manière objective le contenu d’un tableau. C’est pour cela que les premiers systèmes de gestion d’images ne permettaient de retrouver des oeuvres artistiques que suivant des critères très simples, tels que l’auteur, l’époque, la galerie où était exposée l’oeuvre, ses dimensions, le style caractéristique, etc. Il était malheureu- sement impossible de retrouver une peinture suivant une description du contenu même de l’oeuvre. Par exemple, obtenir la liste des peintures comportant un ciel bleu sur plus de 50% de l’image et un champ en fleurs sur le bas de l’image devenait impossible. Ces systèmes restaient donc confinés aux galeries d’art et servaient plus à gérer le patrimoine culturel qu’à présenter au grand public les oeuvres exposées ou archivées.

D’une manière générale, concevoir un système de gestion de base de données d’images implique la résolution de trois problèmes:

• La méthode d’accès aux données: quelles sont les méthodes que l’on doit employer afin de stocker, dans la base de données, la re- présentation des objets? Quelle organisation doit-on utiliser afin de permettre une recherche efficiente des objets qui sont similaires à un modèle donné? En d’autres termes, quels sont les mécanismes d’indexations qui doivent être utilisés?

• La représentation de la forme des objets représentés dans les images: quelles propriétés invariantes doivent être extraites des objets qui permettront de les représenter de manière satisfaisante?

Comment ces primitives peuvent-elles être extraites de manière automatique à partir de l’image de l’objet?

• La mesure de similarité: étant donné la représentation de la forme, comment peut-on comparer deux objets à partir de leurs primitives respectives? Quelles sont les mesures de similarités que l’on doit employer afin de déterminer si deux formes sont visuellement similaires (ou dissimilaires)?

Les sections et chapitres qui suivent permettront de répondre aux questions posées.

(32)

2-2.1 Types de requêtes

Avec la venue de systèmes informatiques puissants, bon marchés et interconnectés, il est devenu possible et de manière aisée, de distribuer électroniquement à grande échelle le contenu des bases de données à travers le monde. L’élément essentiel et le problème majeur est situé, de nos jours, dans la manière de pouvoir interroger ces bases de données de ma- nière efficace. Le but principal de l’indexation par similarité (similarity indexing), est le même que les autres méthodes de recherche: minimiser le temps moyen requis pour effectuer une requête à la base de données.

De plus, les structures qui supportent dynamiquement l’insertion (ou la suppression) de nouveaux éléments ainsi que les systèmes qui ont une im- plémentation optimale du point de vue accès disques sont préférables à d’autres méthodes. En effet, les bases de données multimédias font appel à de larges bases de données et l’efficacité d’opérations telles que le rajout, la modification ou la suppression de données est primordiale (chapitre 3).

L’efficacité d’une requête dépend de sa formulation, c’est-à-dire la manière d’introduire la requête, de l’interface mise à disposition, du temps d’exécution de la recherche, du mode de représentation des don- nées retrouvées et de la relevance des données retournées.

Du point de vue de l’utilisateur, il y a plusieurs possibilités de formu- ler une expression pour rechercher une donnée [127][126]:

• Recherche directe (direct access ou query-by-properties): l’utilisateur connaît exactement ce qu’il recherche et sait aussi comment le système a stocké les données ainsi que les relations entre les don- nées, c’est-à-dire les indices utilisés, les primitives extraites durant la phase d’analyse, les points d’accès, etc. Une telle expression peut être directement exprimée en utilisant un langage de dialogue avec la base de données, tel que SQL [35]. C’est en réalité la manière la plus simple d’exprimer une requête et la plus rapide, par exemple en demandant directement d’afficher l’image ayant pour nom porsche.gif. Une requête simple serait typiquement du genre: "se- lect name from database where color=’red’ and type=’porsche’". C’est le moyen d’accès qui demande le plus de connaissance de la part de l’utilisateur. Généralement, ce moyen

(33)

d’accès est retenu par l’informaticien expérimenté, mais pas par les utilisateurs qui ne connaissent pas les liens physiques attachés aux données ainsi que le langage d’interrogation de la base de données.

• Recherche par association (query-by-association): cela signifie qu’il existe un lien entre les items ayant des caractéristiques communes. L’utilisateur a ainsi la possibilité de suivre un lien à partir d’un item déjà trouvé et de se “promener” (surfer) en utilisant les différents liens d’items en items. Cela signifie aussi que l’agence- ment et l’organisation des éléments de la base de données doivent être préparés d’avance. Cette organisation demande beaucoup de travail manuel de la part du gestionnaire de la base. De plus, la base de données est généralement construite de manière statique (peu d’évolution): l’insertion de nouveaux éléments ou d’une nouvelle classe de données s’effectue manuellement. Par exemple, les bases de données comportant des images de toutes natures, dénommées ImageSurfer [141], ou WebSeek [154], sont construites selon ce modèle.

• Le classement similaire (similarity join): cette opération consiste à effectuer la requête suivante: ''Trouve toutes les paires d’items qui sont similaires". Cette opération permet essentiellement de pouvoir réaliser un classement de toute la base de données et de pouvoir déterminer si un partitionnement optimum en différentes classes peut effectivement être créé [79][108]. Il n’y a pas dans ce cas de recherche précise d’un élément, mais une classification automatique de l’ensemble des éléments de la base de données en vue d’une partition optimale des données.

• Recherche par l’exemple (query-by-example, query-by-similarity):

la recherche d’items suivant un exemple ne peut être possible que si la définition de similarité entre items est elle-même définie. Pour les données uniquement textuelles, une mesure de concordance de textes est utilisée. Une autre notion de recherche par l’exemple est fournie par la notion de classification des items (ou de parties d’items). Dans ce cas, chaque item est placé dans une ou plusieurs classes suivant ses caractéristiques. Pour la recherche d’images par l’exemple, le cas typique est d’effectuer une recherche du genre:

"Retrouve les images qui sont similaires à ce

(34)

modèle". La plupart des moteurs de recherche sur le Web fournissent cette possibilité. Le terme "similaire" doit donc être défini clairement et produire des résultats attendus par l’utilisateur. Dans ce cas, le modèle utilisé est une image se trouvant dans la base de données.

L’opération de sélection similaire (similarity selection) est très importante, car elle permet de se déplacer dans la base de données (browsing the content) de manière très efficace. Elle permet aussi de pouvoir exploiter les différents algorithmes de similarité. Cette requête peut être considérée comme analogue à une opération de sé- lection effectuée sur une base de données relationnelle. Par contre, cette requête ne spécifie pas le nombre d’items que le système doit retourner. Il y a alors deux possibilités: soit le système retourne les p items les plus similaires; soit tous les items sont retournés dont la mesure de similarité est inférieure à un certain seuil, noté k, fixé préalablement.

• Recherche par pictogrammes (query by pictorial example): la créa- tion d’une requête consiste à sélectionner des icones prédéfinies et de construire ainsi son image-modèle. Ce principe est surtout utilisé par les bases de données géographiques où les pictogrammes repré- sentent des routes, maisons, arbres, etc [16].

• Recherche par esquisse (sketch-query): ce type de recherche s’ap- plique plus particulièrement sur des images (malgré qu’une esquisse vocale puisse être, par exemple, une phrase parlée par l’utilisateur avec un accent particulier dans le cas d’une base de données sonore). Une esquisse est tracée à la main par l’utilisateur, et peut représenter une forme particulière qu’il désire retrouver parmi toutes les images contenues dans la base de données. Les contours peuvent être définis par des polygones [17] ou par des splines [18] pour les images de type clip-art ou par les gradients pour les images en couleurs [56]. Si des caractéristiques colorimé- triques ont été définies, il est aussi possible de tracer des zones de différentes couleurs [49]. La texture peut aussi être déterminée gra- phiquement avec une interface appropriée [66]. Les images possé- dant les même caractéristiques sont alors retournées par le système.

(35)

nécessite que très peu d’information a priori. Mais en contrepartie, le temps de calcul pour la recherche devient plus important et les ré- sultats produits ne peuvent être qu’approximatifs. Ce type de recherche n’est pour le moment disponible que sur peu de dispositifs.

Sur le Web, notre prototype est l’un des rares systèmes actuellement disponible permettant une requête au moyen d’une esquisse dessinée par l’utilisateur.

Pour l’opération de recherche par similarité et par esquisse, il arrive souvent que le meilleur item retrouvé par le système ne corresponde pas exactement à ce qui est attendu, car les méthodes informatiques utilisées ne correspondent pas exactement à ce que l’utilisateur espère. Les mesures de similarité de l’ordinateur ne sont pas forcément équivalentes à celles d’un être humain. La similarité entre l’esquisse (le modèle) et les données doit être définie de manière à fournir les résultats escomptés par l’utilisateur.

Si un score peut être donné qui représente une mesure de proximité entre les items, alors le système trie les items suivant cette mesure et l’utilisateur a ainsi la possibilité d’examiner en premier les items retrouvés les plus intéressants. Ce principe est intéressant pour les grandes bases de données. En outre, si plusieurs critères de recherche sont appliqués, le score final doit alors regrouper les différents scores partiels.

Du point de vue pratique, l’opération de sélection d’items similaires retourne toujours les p objets les plus similaires au modèle de référence.

Ils sont de plus triés dans l’ordre décroissant de mesure de similarité k.

Dans le cas où de multiple items possèdent la même mesure de similarité avec le modèle, le nombre d’éléments retournés est indéfini. C’est pour cela que deux seuils doivent être précisés: le seuil p permettant de spéci- fier le nombre maximum d’items retournés et le seuil k spécifiant la valeur minimale de similarité qu’une requête doit vérifier. Si le seuil k est au maximum, alors la requête retourne tous les items avec un niveau de si- milarité en dessous de ce seuil. Si le seuil p est mis au maximum, alors le système retourne les k items les plus similaires.

La différence essentielle entre l’indexation par similarité et les autres types d’indexation de base de données est située sur le type de données à manipuler. Les données ou les objets devant être indexés sont représentés

(36)

par un vecteur multidimensionnel, usuellement constitué de 5 à 100 dimensions, voire même davantage. La plupart des structures d’indexation ne sont pas prévues pour manipuler des données possédant une dimensio- nalité si élevée. Le rôle des arbres d’indexation est de fournir un méca- nisme de bas niveau pour l’indexation dynamique dans le cas de recherche de données par similarité (voir le chapitre 3).

2-2.2 Temps de recherche

Le temps de recherche d’un élément sauvegardé dans la base de don- nées dépend de quatre facteurs:

• Le temps de formulation de la requête. Celle-ci dépend surtout du niveau de compétence de l’utilisateur. Si celui-ci est expérimenté dans la formulation de requêtes basées sur un langage évolué de base de données (SQL ou autre), le temps nécessaire à la formulation de la requête sera réduit. Il en va de même pour une requête ba- sée sur le dessin des contours des objets. Même si l’interface permettant de tracer le modèle de recherche est performante, si l’opérateur n’a pas des dons artistiques, la formulation de la requête basée sur la forme d’un tracé effectué à la main risque d’être labo- rieuse et prendre beaucoup de temps.

• Le temps d’analyse de la requête. Celle-ci peut être très rapide pour une requête de bas niveau. Par contre, si la définition de la requête est un dessin d’un modèle, le temps d’extraction des caractéris- tiques devient très important. Ces algorithmes d’études de requêtes peuvent être soit effectués chez le client (par exemple par le biais d’une applet Java), soit sur le serveur.

• Le temps de transfert des données. Ce temps va dépendre essentiellement de la bande passante du réseau utilisé entre le client et le serveur ainsi que du volume de données à transférer. Dans notre cas, le réseau est sollicité à deux moments: lors de l’envoi de la requête au serveur de calculs et lors du retour des résultats de la recherche.

Dans le premier cas, le volume de données à transférer est généra- lement réduit car il s’agit d’envoyer une requête au serveur sous la forme d’une commande SQL. Dans le cas du retour des données,

(37)

passante plus importante car les données à transférer sont sous la forme d’images.

• Le temps de recherche dans la base de données. Ce temps est celui qui risque d’être le plus critique pour un système de recherche basé sur le contenu des données. Il faut en effet rechercher les éléments similaires à un modèle qui sont décrits par un ou plusieurs vecteurs multidimensionnels. Dans le cas le plus défavorable, le moteur de recherche doit parcourir un à un tous les éléments de la base de don- nées et les comparer au modèle de recherche. Plusieurs structures adaptées permettent de réduire ce temps de recherche. Par exemple, les arbres-Q, les arbres-R ou les arbres-SS, décrits dans le chapitre 3, peuvent être utilisés dans ce cas. Le temps de comparaison des vecteurs caractéristiques dépendra aussi de la formule utilisée (L₁, L₂, corrélation, etc.) ainsi que de la dimension n des vecteurs utili- sés.

2-2.3 Représentation des données

La représentation des données retournées par le système est aussi un élément important d’un moteur de recherche. Les données doivent être triées suivant leurs degrés de similitude avec les spécificités énoncées dans la requête (image-modèle, vecteur caractéristiques, etc.). Les don- nées retournées sont affichées sous la forme d’étiquettes représentant les images originelles dans un format réduit. L’utilisateur doit avoir la possi- bilité de sélectionner une de ces étiquettes pour avoir une vue à l’échelle de l’image ainsi que des informations la caractérisant. La distance de si- milarité entre le modèle et chacune des images retournées doit aussi être affichée. Celle-ci est généralement normalisée entre 0 et 1: une image identique au modèle possède une distance de 0 et l’image la plus dissimi- laire une distance de 1. L’utilisateur devrait aussi avoir la possibilité de sélectionner une image satisfaisant à une première requête puis d’effectuer une seconde requête sur cette image. Outre le fait que notre système offre toutes ces possibilités, l’utilisateur peut éventuellement sélectionner une des images retournées par le système et la comparer visuellement avec le modèle. Cette fonctionnalité effectue la superposition de deux images: dans notre implantation, l’image du modèle est affichée en noir

(38)

et la seconde image en rouge, les contours identiques étant signalés en jaune.

2-2.4 Recherche d’informations et recherche de données

Il existe dans la littérature une grande différence entre la recherche d’informations (Information Retrieval) et la recherche de données (Data Retrieval). Cette distinction dépend étroitement du type de gestion de base de données utilisé (SGBD). La table 2.1 montre un éventail des dif- férents attributs permettant de spécifier la différence entre les deux principes.

Pour la recherche d’informations, le modèle sous-jacent permettant d’accéder aux informations est de type probabiliste. En effet, les informations recherchées doivent ressembler subjectivement à un modèle. En ce qui concerne la recherche de données, celle-ci est déterministe par rapport aux opérations de recherches. Si un document (texte, image, son, etc) rem- plit les conditions spécifiées dans la requête de l’utilisateur, il est alors, par définition, relevant.

Le système d’indexation est requis pour accéder rapidement aux larges bases de données, pour son organisation interne et pour limiter la recherche dans un sous-ensemble de la base. La plupart des systèmes de recherche d’informations calculent leur index selon le contenu des items à indexer. Les index peuvent être très simples (comme l’extraction de mots-clefs contenus dans un document textuel), ou peuvent requérir une analyse poussée du document (comme l’extraction de caractéristiques co- lorimétriques d’images). Dans la recherche de données, l’élément lui- même, dans sa globalité, est l’unité d’indexation.

Les requêtes utilisées pour la recherche d’informations sont générale- ment formulées dans un langage naturel. Ces requêtes sont imprécises (tracé de forme ronde à la main pour la recherche de ballons dans les images) et peuvent être ambiguës (est-ce un ballon ou une orange?). Le type de requête reflète plutôt un modèle que l’utilisateur désire retrouver, et celui-ci est considéré comme étant relevant. Il est pris comme étant une sorte de ligne directrice pour retrouver des éléments similaires. La re-

(39)

cherche est basée sur la meilleure façon de mettre en correspondance les items et le modèle. Pour la recherche de données, les requêtes sont expri- mées dans un langage structuré (par exemple dans le langage SQL) pos- sédant une syntaxe bien précise et une sémantique définie. Il n’y a donc aucune ambiguïté dans la requête exprimée, et tous les items de la base de données correspondant exactement à la requête formulée sont retrouvés et retournés. Pour clarifier les termes utilisés, nous emploierons par la suite le terme d’ images retournées pour décrire l’ensemble des données pro- duites par une requête (l’ensemble des images similaires et non similaires) et le terme d’images retrouvées pour désigner l’ensemble des images re- tournées par le système de recherche qui sont effectivement similaires à la requête.

Le résultat de la recherche d’informations est trié selon le degré de mise en correspondance entre le modèle et les items, tandis que pour la recherche de données, la requête est prise comme étant une spécification exacte des items désirés et la recherche est basée sur la correspondance exacte entre la requête et les items. Il n’y a généralement pas de classement des items retrouvés, puisqu’ils correspondent exactement à la re- quête.

2-3 Critères de recherche

Tous les utilitaires de recherche d’images selon le contenu permettent de définir un ou plusieurs critères de recherche. Les primitives principales caractérisant une image sont:

Table 2.1 : Différences entre l’information-retrieval et le data-retrieval.

Attributs Information Retrieval Data Retrieval Modèle de recherche Probabiliste Déterministe Indexation Dérivée du contenu Items complets Matching/Retrieval Partiel ou meilleure

correspondance Appariement exact Types de Requêtes Langage naturel Structuré

Critères des résultats Relevance Tous les éléments Ordonnancement des

résultats Trié Arbitraire

(40)

• l’information textuelle;

• les caractéristiques globales;

• la couleur, la composition des couleurs;

• la texture;

• la forme (contour des objets);

• les régions ainsi que leurs positions absolues ou relatives.

L’utilisation de l’information textuelle est la manière la plus simple et la plus ancienne de procéder pour retrouver des images. La recherche textuelle porte sur le nom du fichier contenant l’image, ou sur une information accompagnant chacune des images. La recherche par nom de fichier est de loin la plus simple, et ne nécessite pas l’introduction manuelle du descriptif accompagnant les images. L’avantage de cette méthode est sa simplicité et sa rapidité lors de la recherche. Les inconvénients majeurs de cette manière de procéder se situent surtout sur le type d’information sur lequel se base cette requête. En effet, le nom du fichier d’une image est généralement sommaire et ne reflète pas en détail le contenu de l’image. Cette méthode permet néanmoins de retrouver des images simples dont le contenu peut facilement être représenté par le nom de l’image (par exemple les images de planètes, de voitures, etc.).

Si on associe un descriptif avec chacune des images, il devient possible d’effectuer des requêtes textuelles plus complexes incluant les opé- rateurs or, not et and. La recherche de toutes les voitures de couleur rouge, de marque Porsche et datant de 1980 est dès lors possible. Pour effectuer une requête de ce type, il faut évidemment que toutes les images de la base de données soient stockées avec un descriptif complet. Ce principe est uti- lisé, par exemple, pour stocker les images d’anciens documents provenant de l’archive nationale du Musée Suisse du Papier à Bâle. Dans [37], une description détaillée d’une quinzaine de systèmes de recherche d’informations textuelle à travers le Web peut être trouvée.

Les caractéristiques globales sont les paramètres extraits des images de manière automatique et qui décrivent des critères globaux. Ces critères permettent surtout de classifier les images de type différent dans de

(41)

grandes classes communes et permettent donc de contraindre la recherche à un sous-ensemble d’images. Ces caractéristiques sont typiquement:

• La taille de l’image (hauteur et largeur): ce critère permet de contraindre le système à rechercher des images d’une taille prédé- terminée.

• Le format de l’image (GIF, TIFF, JPEG,..): l’utilisateur désire retrouver les images d’un certain format, car il ne dispose pas d’outils lui permettant d’afficher d’autres formats.

• Le type de l’image: les images peuvent être catégorisées suivant le nombre de couleurs qu’elles contiennent, telles les images en noir/

blanc (codées sur un bit), les images à niveaux de gris (de 0 à 255), les clip-arts, les images de type bande-dessinées (peu de couleurs sur de grandes plages) et les images naturelles (24 bits). Par exemple, si l’utilisateur n’a qu’un écran noir/blanc, il peut donc op- ter pour une recherche ne portant que sur des images à niveaux de gris.

D’autres critères globaux peuvent être définis [32], mais d’une ma- nière générale ces critères sont très aisés à calculer et permettent simple- ment d’effectuer un tri grossier sur une grande base de données avant d’effectuer une requête plus complexe.

L’information de couleur conduit à la définition de critères très utili- sés pour retrouver des images. Ces critères sont basés sur les composantes rouge/vert/bleu (domaine RGB), HLS, ou encore d’autres domaines de re- présentation colorimétrique. Certains systèmes permettent de spécifier la couleur de certaines plages ainsi que leurs positions respectives [111][112]. Le système WebSafe [153] accessible depuis Netscape permet de spécifier interactivement la position de zones de couleurs.

L’information de texture permet de décrire la variation locale des niveaux de gris dans les images [11]. La définition des différentes textures et la manière de les quantifier et de les représenter est un sujet de recherche toujours d’actualité. L’analyse de textures s’effectue suivant deux méthodes distinctes: les méthodes structurelles et les méthodes statistiques [42]. Les méthodes structurelles consistent à décrire les textures en identifiant des structures primitives répétitives ainsi que leur disposi-

(42)

tion relative. Ces méthodes ne sont appropriées que dans le cas où les textures sont très régulières, et n’ont pratiquement pas d’intérêt dans les autres cas. Les méthodes statistiques sont basées sur différents principes, pouvant par exemple utiliser le spectre de Fourier [97], des matrices de coocurences [66], des modèles fractaux, le modèle Markovien [72], la transformée de Gabor [22][51], les transformées en ondelettes (wavelet transform) [77].

Les informations portant sur la forme de l’objet permettent de définir des méthodes intuitives pour décrire une image en termes visuels. La couleur et la texture sont très utiles pour représenter les objets, la scène ou le fond de l’image. Mais pour retrouver un objet parmi une collection d’images, il faut posséder des primitives permettant de décrire un objet.

Les propriétés morphologiques les plus importantes pour indexer, et par la suite pour retrouver, un objet, sont les contours, la taille, la position ainsi que l’orientation de l’objet.

Les contours des objets peuvent être représentés par des splines [18], par des segments de droites, par les premiers moments d’inertie [131], par les contours globaux ou locaux [56], etc. La position de l’objet est plus facile à définir, car généralement le centre de gravité de l’objet est pris comme coordonnées; il est cependant nécessaire pour cela de séparer les objets du fond de l’image [67]. Pour calculer l’orientation d’un objet oblong, l’approche classique consiste à utiliser l’orientation de son plus long axe d’inertie.

L’utilisation de critères de forme nécessite une segmentation préa- lable de l’image. Cette opération difficile conduit en général à une sura- bondance de primitives extraites, dont l’utilisation est délicate [87]. Dans ce qui suit, nous n’utiliserons comme source que des images dans les- quelles les objets sont clairement séparés du fond (dessins au trait de filigranes). L’information de forme se réduira alors aux seuls contours.

(43)

2-4 Caractéristiques des systèmes de recherche d’images

2-4.1 Fonctionnalités de base

Une liste détaillée des fonctionnalités que doit comporter un système de recherche d’images par le contenu va être énumérée. L’existence de ces fonctionnalités permettra de comparer différents systèmes entre eux.

Pour permettre à un grand nombre d’utilisateurs de pouvoir accéder à une base de données, les possibilités d’accès à travers le réseau Inter- net est une des premières fonctionnalités que doit comporter un tel sys- tème. Le serveur doit être très rapide, car il doit transférer de grands volumes de données à plusieurs clients à travers le réseau. La base de don- nées doit aussi pouvoir supporter la gestion de plusieurs types différents de données imagées. Les catégories d’images les plus courantes sont les images binaires, à niveaux de gris, les clip-arts et les images en couleur.

La base de données doit aussi permettre l’utilisation de différents formats d’images. Près d’une centaine de formats existent sur le marché [68] mais les plus utilisés sont les formats GIF, TIFF et JPEG.

En ce qui concerne les possibilités offertes pour la formulation d’une requête, l’accès aléatoire des images contenues dans la base est une fonc- tionnalité essentielle pour visualiser le type d’image utilisé par le système.

Cela permet également de tester les algorithmes de similarités en sélec- tionnant une image extraite aléatoirement de la base, puis en permettant au moteur de recherche de retrouver les images similaires à ce modèle. Le changement du nombre d’images retournées est une fonctionnalité aussi très utile. Cela permet aux systèmes ayant des possibilités de calculs limi- tés ou bien lorsque la bande passante du réseau est saturée, de limiter le nombre d’images retournées par le système. Quant à l’ordonnancement des images retournées suivant le critère de la requête, il est généralement présent dans tous les systèmes de recherche d’images par le contenu. Par contre, lorsque plusieurs critères sont employés, la méthode d’ordonnancement des différentes images varie d’un système à un autre. La possibi- lité offerte à l’utilisateur de raffiner la recherche est très importante. Cela lui permet de retrouver d’autres images à partir des premiers résultats re- tournés et ceci en utilisant comme modèle les résultats les plus appropriés.

(44)

Dernièrement, la possibilité de tracer à la main un dessin approximatif re- présentant le modèle de recherche est aussi une fonctionnalité permettant d’effectuer une requête plus naturelle pour définir un objet recherché. Elle se trouve dans certains logiciels spécialisés [12][14][31][66] mais à notre connaissance dans très peu de moteurs de recherche mis à disposition sur le Web.

Une autre fonctionnalité importante que doit comporter une base de données est la possibilité de modifier les données. Le rajout, la suppression ou la correction des données par l’utilisateur doit être faisable. Peu de systèmes autorisent cependant ces opérations. D’une part, il n’est pas souhaitable de permettre à tous les utilisateurs de modifier la base de don- nées en y insérant de nouvelles images, ou en supprimant des données.

D’autre part, les images doivent être préparées avant de les insérer dans la base de données (amélioration du contraste, changement de format, calcul des caractéristiques, etc.). Ces manipulations s’effectuent généra- lement avec d’autres machines (par exemple en utilisant une machine pa- rallèle) ou avec d’autres outils et ne peuvent pas être accessibles par les utilisateurs à travers le réseau. De plus, les temps de calculs pour effectuer ces opérations peuvent être élevés et ne sont donc pas effectués en temps réel. Notre base de données de filigranes permet quant à elle le rajout, la modification et la suppression d’éléments. Cependant, seuls les utilisateurs autorisés ont accès à ces possibilités de modification. Un mot de passe spécifique est donc requis pour effectuer de tels changements.

2-4.2 Caractéristiques internes d’un système

Les caractéristiques internes d’un système de recherche d’images permettent de mieux définir leurs fonctionnalités et ainsi de pouvoir appré- cier les différences entre les systèmes.

• La taille du vecteur représentant les paramètres décrivant une image:

ces paramètres sont utilisés pour la comparaison des images et sont spécifiés généralement par un vecteur multidimensionnel. La taille de ce vecteur permet d’estimer approximativement l’espace de recherche ainsi que la complexité des critères.

• L’algorithme de comparaison: les images sont représentées par un (ou

(45)

des images s’effectue à l’aide des deux vecteurs représentatifs. L’algorithme de comparaison des vecteurs, donc des images, varie d’un système à un autre et est souvent l’élément essentiel d’un système.

Une approche classique consiste à rechercher deux histogrammes les plus similaires et le plus rapidement possible.

• La structure de la base de données (arbres-Q, arbres-R, etc.): la repré- sentation interne des vecteurs représentatifs et leur gestion ou leur classement dans la base de données permet d’accélérer efficacement la recherche.

• L’utilisation d’un système de gestion de base de données (SGBD):

certains systèmes utilisent un SGBD commercial pour la gestion des données multi-médias. Les SGBD fournissent directement divers ac- cès aux données et facilitent leur administration. Il n’existe cependant que peu de systèmes commerciaux offrant un accès spécifique aux données multidimensionnelles par l’intermédiaire de structures d’indexations complexes, tel que les arbres-R. Le produit Illustra [140]

d’Informix offre ce type d’accès ainsi que la dernière version d’Oracle [145].

• Le nombre d’images contenu dans la base de données: c’est aussi un élément essentiel pour la comparaison de systèmes. La taille de la base de données influe sur les temps de recherche et sur la précision des algorithmes employés. Il y a seulement trois ou quatre ans, les systèmes de recherche d’images comportaient une base de données incluant seulement quelques dizaines d’images. De nos jours, certaines bases de données comportent plusieurs dizaines de milliers d’images. L’accroissement significatif du nombre d’images manipu- lables est dû essentiellement aux nouveaux moyens de stockage peu onéreux et de grande capacité (CD-ROM, disques durs, etc.) ainsi qu’à la puissance des nouvelles machines et aux grandes mémoires centrales de ces ordinateurs.

• La taille moyenne des images: la dimension des images influence aussi sur les temps de calcul. Généralement, du point de vue de l’interface, une étiquette (thumbnail) qui représente l’image réduite est affichée. En ce qui concerne les calculs, ils sont parfois effectués sur l’étiquette, ou plus généralement sur l’image entière.

(46)

• Le nombre d’opérations moyen pour une image de taille N: cette valeur permet d’estimer la rapidité de la recherche ainsi que la com- plexité des caractéristiques extraites des images. Pour un type de caractéristique donné on recherchera les algorithmes d’extraction ayant la plus faible complexité.

• Le temps moyen d’une recherche: comme nous l’avons déjà expliqué, le temps de recherche va dépendre du temps de calcul pour extraire les caractéristiques de la requête, du temps de recherche dans la base de données (y compris le temps de comparaison entre les données) et du temps de transmission des données.

• La recherche sur plusieurs critères différents: la méthode permettant de combiner plusieurs critères de mesure de distance entre une image de la base et le modèle est très important (voir section suivante).

2-4.3 Mesures de similarités

Lorsque l’on travaille avec une base de données d’images, il est né- cessaire de définir une mesure de la distance séparant deux images similaires. Sémantiquement, une requête simple sur une base de données comportant N images est définie comme ceci:

Etant donné une mesure de similarité s et un mo- dèle M, trier les images I₁,..I_N par rapport à M.

La fonction de similarité s(M, I) est la mesure de distance séparant deux images (dans ce cas entre le modèle M et une image I), chaque image étant représentée sous la forme d’un vecteur de dimension n quantifiant ses caractéristiques. La métrique utilisée pour calculer une mesure de distance séparant deux vecteurs est la norme L₁ou L₂.

s(M,I)_L1 =

s(M,I)_L2 =

avec les vecteurs M=(m₁,..,m_n) et I=(i₁,..,i_n).

m_l–i_l

l=1 n



m_l–i_l

 ²

l=1 n



(47)

Une requête est dite complexe si elle inclut un tri des résultats suivant deux ou plusieurs mesures de similarité. Par exemple, la requête "Affi- cher toutes les images possédant une couleur do- minante orange et ayant une texture granuleuse" est dite complexe. Les mesures de similarités combinées s_and et s_or se défi- nissent comme suit:

s_and(M, I₁, I₂) = min (s₁(M, I₁), s₂(M, I₂)) s_or(M, I₁, I₂) =max (s₁(M, I₁), s₂(M, I₂))

Ces deux formules peuvent être utilisées si la gamme dynamique des valeurs est dans une même plage. C’est pourquoi il faut pouvoir normali- ser les valeurs de s₁ et s₂, par exemple entre 0 et 1. Pour cela, il faut connaître la valeur maximum possible pour s₁et s₂. Cette valeur peut être trouvée expérimentalement ou par calcul, si cela est possible. La manière expérimentale de procéder consiste à choisir comme modèle chacune des images de la base de données puis de trouver les deux images K₁ et K₂ ayant une valeur de dissimilarité la plus importante. La mesure de simila- rité s peut être alors normalisée comme suit:

(M, I) = s(M, I) / s(K₁, K₂)

Une méthode alternative est envisageable si toutes les valeurs i_l des vecteurs de dimension n, sont bornées (i_l < a pour tout i=1..N et l=1..n).

La valeur maximum de la distance s peut être ainsi calculée et on a:

(M, I) = s(M, I) / n.a

Dans ce dernier cas, la valeur maximum n.a n’est pas nécessairement atteinte par les images contenues dans la base de données. Les valeurs ne seront donc pas comprises entre 0 et 1. Pour de très grandes bases de don- nées, si l’on ne désire pas calculer toutes les valeurs (K₁, K₂) pour trouver la distance maximale effectivement atteinte, cette approche alternative très rapide est meilleure que la précédente.

s˜

(48)

2-5 Evaluation des systèmes de recherche d’images

2-5.1 Qualité de la recherche

Les bases de données d’images doivent posséder un moteur de recherche efficace pour permettre aux utilisateurs de retrouver rapidement une image. D’une manière générale, l’utilisateur fournit une ou des primitives permettant de caractériser l’image qu’il désire retrouver. La primi- tive fournie peut être plus ou moins complexe, par exemple une image modèle, ou un contour à retrouver.

Pour évaluer une méthode de recherche d’images, il convient de calculer le nombre d’images retrouvées qui sont similaires au modèle, par rapport à celles qui ne le sont pas. La taille de la base de données doit aussi intervenir, ainsi que le nombre total d’images retournées par le système.

Nous définissons donc les quatre paramètres ci-dessous:

N: Nombre total d’images composant la base de données

I: Nombre d’images définies à priori comme étant similaires au modèle M, avec IN

P: Nombre total d’images retournées suite à une requête, avec PN R: Nombre d’images retrouvées similaires au modèle M, avec R  I et

R P

La figure 2.2 représente de manière graphique les quatre ensembles définis ci-dessus.

Le nombre N d’images composant la base de données influence consi-

Figure 2.2 : Description des ensembles utilisés. La base de données contient N images et la requête en retourne P. Le moteur de recherche a réussi à trouver R images similaires sur un nombre total de I.

Base de données:

Images retournées:

I N-I

P-R R

N P

(49)

Les systèmes courant sont capables de traiter de quelques milliers à quelques dizaines de milliers d’images (table 2.3).

En ce qui concerne le nombre P d’images retournées par le système, il est généralement fixé avant la recherche par l’utilisateur. Les images les plus ressemblantes au modèle sont généralement affichées en premier.

L’évaluation de la qualité d’une recherche est basée sur les cinq cri- tères suivants:

• Précision: la valeur R/P est appelée la précision et mesure la capa- cité à rejeter les items irrelevants [33].

• Correct match ou Recall: nombre d’images retrouvées similaires au modèle (donc appartenant à I) divisé par le nombre total d’images similaires que le système aurait dû retrouver [50]:

R / I

La valeur de recall mesure la capacité du système à retrouver les items relevant. Si le recall vaut 1, toutes les images que le système aurait dû retrouver ont été effectivement retrouvées. Si la valeur de recall est nulle, aucune image identique au modèle n’a été retrou- vée.

• False match: nombre d’images retrouvées n’appartenant pas à I qui ont été classées comme étant similaires au modèle, divisé par le nombre total d’images de la base de données n’étant pas similaires au modèle. Cette valeur mesure les mauvais appariements:

Table 2.3 : Description du nombre approximatif et du type d’images utilisés dans différents systèmes.

Système Nombre d’images Type

QBIC [31] ~2’000 GIF

Excalibur [136] ~1’000 BMP, GIF, TIFF, JPEG, PNG, DDIF, FIT, JFIF

YurImage[155] ~100’000 GIF

SWIC [150] ~4’000 GIF

Chabot [70] ~12’000 PPM

(50)

P-R / (N-I)

• Correct non-match: nombre d’images n’appartenant pas à I et qui n’ont pas été retournées (donc n’appartenant pas à P):

N-I - (P-R) / (N-I)

• Missed match: nombre d’images similaires au modèle (appartenant à I) mais qui n’ont pas pu être retrouvées. Cette valeur mesure les appariements oubliés:

I-R / I

Il est important de noter que ces formules sont biaisées. En effet, si le nombre de classes est très petit, c’est-à-dire que I est grand et proche de N, il est alors fortement probable de retrouver par hasard des images simi- laires [108]. Dans le cas où I est égal à N on obtient à chaque fois des ré- sultats optimaux (R=P=I). Pour tenir compte de cela, il faut, dans le cas idéal, que les cinq conditions ci-dessous soient satisfaites:

R/P  1 : Cette condition indique que le nombre d’images similaires retournées par le système doit tendre vers le nombre total d’images retournées. Si cette formule a la valeur maximale de 1, alors l’algorithme est efficient car il n’a retrouvé que les images qui auraient dû l’être sans qu’il n’y ait de false match. Par contre, toutes les images similaires I ne sont pas forcément présentes; ceci se produit lorsque P est inférieur à I (RI, R=P et P<I). Si la valeur de R/P est très petite, alors l’algorithme est de piètre qualité.

R/I  1 : Cette condition indique que le nombre d’images simi- laires retrouvées doit tendre vers le nombre total d’images similaires. Dans le cas idéal, le nombre d’images retrouvée est égal au nombre total d’images réellement similaires (R=I). Par contre, dans cette formule, le nombre d’images retournées n’intervient pas (R n’est pas forcément égal à P). Par exemple, si P=N alors on a forcément R=I. Il peut donc y avoir des false match.

(51)

Les mesures de recall (R/I) et de précision (R/P) sont in- terdépendantes et généralement l’une des deux mesures ne peut pas être améliorée sans dégrader l’autre. Typi- quement, dans les systèmes de recherche d’images, la valeur de recall tend à croître quand le nombre d’items retrouvés croît; par contre, la précision décroît (figure 2.4.a).

I/N  0 : Le nombre total d’images similaires à un modèle doit être petit par rapport au nombre total d’images de la base de données. En effet, si le nombre d’images similaires est très grand par rapport au nombre total d’images contenues dans la base, il y a de fortes chances que la recherche donne, par hasard, de bons résultats. Le cas idéal (c’est-à-dire le plus difficile pour un moteur de recherche) serait qu’il n’y ait qu’une seule image contenue dans la base qui soit similaire au modèle (I=1).

P/N  0 : Le nombre d’images retournées doit être petit par rapport au nombre d’images contenues dans la base de don- nées. Cette condition est aussi satisfaite dans le cas où le système ne retourne pas d’images.

P/I 1 : Le nombre d’images retournées doit tendre vers le nombre d’images similaires contenues dans la base.

Il convient donc tout d’abord d’estimer le nombre d’images que le système doit retourner, c’est-à-dire la valeur de P. Il est évident que si P est égal à N, le système retourne alors toutes les images de la base de don- nées et on n’a pas, dans ce cas, un système de recherche d’images. Le cas idéal serait d’avoir P=I=R et que P soit petit par rapport à la base de don- nées N. Comme la valeur de I n’est en général pas connue, les différents systèmes affichent entre 10 et 30 images suite à une requête. L’utilisateur a la possibilité de changer ce nombre, mais il faut faire un compromis entre ne retourner qu’une seule image au risque qu’elle soit non relevante, et retourner toutes les images et ainsi avoir une mauvaise précision.

Le graphique 2.4.b affiche les valeurs de recall et de precision pour le système MIR [88] ainsi que pour VisualSeek[105]. L’évaluation des algorithmes du système MIR a produit les courbes 1 à 3. Pour le second sys-

Acquisition, archivage et recherche de documents accessibles par le contenu : application à la gestion d&#039;une base de données d&#039;images de filigranes