Synthèse - Recherche par similarité dans les bases de données multimédia : Application à la rec

Chapitre 2 : indexation

4.3 Synthèse

Ce paragraphe présente une synthèse sur les caractéristiques, les avantages et inconvénients des techniques d’indexation basées sur l’approximation pour la recherche des plus proches voisins présentées précédemment. Les tableaux 2.3, 2.4, 2.5, et 2.6 récapitulent les principales caractéristiques, avantages et inconvénients des méthodes présentées précédemment.

Nous avons distingué deux grandes familles : la famille des méthodes basées sur l’approximation globale (VA-File, VA+-File, C2-VA-File et LPC-File) et les familles des méthodes basées sur l’approximation locale. La première famille de méthodes se caractérise d’une part par le fait d’appliquer uniformément la même stratégie du découpage de l’espace de données et éventuellement le codage des formes géométriques (cellules) issu de ce découpage. En effet, la stratégie du découpage est guidé uniquement par le nombre de bits de codage fixée préalablement et aucune condition sur la distribution des données n’ai prise en considération lors de la création de la structure d’index. D’autre part ces méthodes ont la particularité d’utiliser uniquement deux fichiers pour la gestion des données : un premier fichier contenant les approximations des vecteurs et un deuxième contenant les données réelles. Ainsi aucune structure hiérarchique n’est adoptée par ces méthodes, ceci présente un premier point fort de ces techniques. En effet, la structure hiérarchique des données notamment la structure arborescente, exige certaines propriétés (équilibre, taille des nœuds, etc.). La prise en compte de ces propriétés rend les procédures d’insertion, suppression des données difficile, ces structures sont généralement non dynamiques et non adaptées à la mise à jour. Un deuxième point fort de ces techniques est le fait de ne plus utiliser des formes géométriques englobantes. Les méthodes

00 01 10 11 11 10 01 00 •2 •3 •4 •5 •q lmbr MBR du PCR-Tree [00,11]X[10,11] MBR du R-Tree [0.5 0.9]X[0.7 0.9]

basées sur l’approximation globale procèdent par un codage des vecteurs de données, l’approximation est par conséquent exacte. Cette famille par contre est adaptée surtout aux données de distribution uniforme puisque les données sont indexées est codées de la même manière quelques soit leurs distribution.

La deuxième famille de méthode est basée sur l’approximation locale, son principe étant de partitionner et coder les données localement en se basant sur leurs distributions. Elle est basée sur l’utilisation des formes géométriques qui n’ont pas nécessairement les mêmes propriétés : taille différente possibilité de chevauchement, etc. Ces formes sont indexées par une structure arborescente, la structure arborescente, permet une certaine flexibilité lors de l’indexation des différentes régions de l’espace de données dans le sens ou chaque région peut être représentée et codée différemment. Par contre l’utilisation de cette structure pose des problèmes aux passages à l’échelle par exemple, la taille de l’arbre augmente au fur et à mesure que la taille de données évolue. Par ailleurs le fait d’utiliser les formes géométriques avec des propriétés différentes génère d’une part des approximations précises mais par contre pose de nombreux problèmes en grande dimension (possibilité d’avoir des régions vides, possibilité de chevauchent, problème d’optimisation de l’espace mémoire…). Cette famille de méthodes a l’avantage de pouvoir manipuler des données réelles (de distribution non uniforme) mais par contre elle reste limitée pour les données à grande échelle (grande dimension, grand volume de données).

Pour comparer les caractéristiques des différentes méthodes présentées précédemment, nous avons choisi des critères que nous avons jugé primordiales pour la comparaison des différentes structures d’index: la structure de méthode, sa capacité de supporter les grandes dimensions, le volume des données, l’adaptabilité par rapport aux données réelles, et la sélectivité.

Notons que ces critères ne sont pas exhaustifs. Nous n’avons pas inclus par exemple le critère temps de réponse, celui-ci se déduit de la sélectivité et de la structure de l’index.

Le passage en revue des principales méthodes basées sur l’approximation montre clairement que ces techniques ont de bonnes performances au passage à l’échelle et au grande dimension en comparaison avec les techniques conventionnelles d’indexation multidimensionnelles, leurs performances sont liées cependant selon la méthode à des paramètres comme le nombre de bits de codage, la taille du fichier des approximations ou la méthode du partitionnent de l’espace de données et parfois à la distribution des données. Ces méthodes restent néanmoins les plus utilisées et les plus efficaces à ce jour pour l’indexation des grandes bases de données réelles où la dimension dépasse 100 et la taille de la base de données est considérable. En se basant sur les différents tableaux comparatifs il est facile de montrer qu’aucune des méthodes citées précédemment ne peut être utilisée efficacement dans le domaine de la recherche d’images basée sur le contenu, ou nous avons un grand volume de vecteurs multidimensionnels de nature hétérogène (distribution non uniforme) et de grande dimension. Les méthodes basées sur l’approximation globale sont généralement adaptées aux données de distribution uniforme excepté la méthode C2-VA-File. Les performances de cette méthode sont par contre limitées aux grandes dimensions et au passage à l’échelle. Les méthodes basées sur l’approximation locale quant à elles sont adaptées aux données réelles. En revanche, certaines ont des structures d’index complexe (IQ-Tree), d’autres souffrent considérablement des problèmes de la malédiction de la dimension (A-Tree, PCR-Tree, GC-Tree, Active Vertice) .

Sur la base de cette étude comparative, nous avons remarqué que RA-Blocks possède des propriétés intéressantes en comparaison avec les autres méthodes. A la différence des techniques présentées dans ce chapitre, cette méthode combine les avantages de la famille des méthodes basées sur l’approximation globale en utilisant uniquement des fichiers pour la

gestion des données, et les avantages de la famille des méthodes basées sur l’approximation locale en utilisant des formes géométriques englobantes (des régions) pour regrouper les données. RA-Blocks possède les meilleurs caractéristiques (meilleur taux de sélectivité, structure d’index adaptée au grand volume de données, etc.). Comme toutes les méthodes d’indexation multidimensionnelle, RA-Blocks souffrent des problèmes de la malédiction de la dimension. Sa mise en place dans un système de recherche par contenu nécessite des améliorations. Le chapitre 3 présente en détail la méthode RA-Blocks ainsi que les améliorations apportées à cette méthode pour répondre aux problèmes de la malédiction de la dimension. Le traitement des problématiques liées à l’intégration de cette méthode dans un système de recherche d’images par le contenu sera présenté dans le chapitre 4.

Méthode Avantages Inconvénients

A-Tree * Adaptée aux données réelles *Flexible à la mise à jour *Grande capacité de stockage

* Améliore les performances du VA- File

*Petite taille des entrées d’index (arbre compact)

*Chevauchement entre les MBRs*Dégradation des performances aux passage à l’echelle & grande dimension

* Erreur d’approximaion considérable en grande dimension

IQ-Tree * Bonne selectivité des région * Adaptée aux données réelles * Améliore les performances du VA- File

* Structure d’index complexe

* Non performante pour des données volumineux

* Non adaptée au données uniformes *Dégradation des performances en grande dimension

* Dégradation des performances pour un grand volume de données.

GC-Tree * Adaptée aux données réelles * Améliore les performance du VA- File, LPC-File et IQ-Tree

* Structue dynamique flexible à la mise à jour

* Dégradation des performances en grande dimension

* Dégradation des performances pour un grand volume de données.

Active Vertice

* Améliore les performances du VA- File et LPC-File

* Adaptée aux données réelles.

* Dégradation des performances en grande dimension

* Dégradation des performances pour un grand volume de données.

* Non adaptée au données uniforme * paramétrage complexe

Tableau 2.3 Récapitulatif des avantages et inconvénients des méthodes d’indexation basée sur l’approche approximation locale citées précédemment

PCR-Tree * Adaptée aux données réelles

* structure réduisant le chevauchement entre les MBR

* Améliore les performances du GC- Tree et VA+-File

* Non performante au passage à l’echelle & grande dimension

* Non adaptée au données uniforme *Structure non dynamique, non flexible à la mise à jour

* Non adaptée aux données avec des correlations non linaires

RA-Blocks *Structure dynamique

* Améliore les performances des méthode conventionnelles et du VA- File

* Aucune structure arborescente *Structure dynamique, flexible à la mise à jour

* Bon taux de selectivité

* Tolère de grandes valeurs du nombre de bits de codage=>bonne precision

** Améliore les performances des

méthodes d’indexation conventionnelles et du VA-File

* Non adaptée au données réelles

* Dégradation des performances en grande dimension

* Dégradation des performances pour un grand volume de données.

Méthode Avantages Inconvénients

VA-File * Adaptée aux données uniformes * Améliore les performances des

méthodes d’indexation conventionnelles

* Non adaptée au données groupés (données réelles)

* Approximations non précises pour un i

b faible, dégradation des

performances pour un bi grand

* Dégradation des performances en grande dimension

* Dégradation des performances pour un grand volume de données.

VA+-File *Adaptée aux données réelles

* Améliore les performances des

méthodes d’indexation conventionnelles et du VA-File

* Approximations non précises pour un i

b faible, dégradation des

performances pour un bi grand

* Dégradation des performances en grande dimension

Tableau 2.4 Récapitulatif des avantages et inconvénients des méthodes d’indexation basée sur

l’approche approximation globale citées précédemment

un grand volume de données. C2-VA-File *Adaptée aux données réelles

* Améliore les performances des

méthodes d’indexation conventionnelles et du VA-File

* Structure mieux adapté à l’espace de grande dimension en comparaison avec VA-File

* Approximations non précises pour un i

b faible, dégradation des

performances pour un bi grand

* Dégradation des performances pour un grand volume de données.

* Non adaptée aux données avec des corrélations non linéaires

OVA-File *Adaptée aux données uniformes * Améliore les performances des

méthodes d’indexation conventionnelles et du VA-File

* Adaptée au grand volume des données et aux grandes dimensions

* Non adaptée au données groupés (données réelles)

* Approximations non précises pour un i

b faible, dégradation des

performances pour un b_i grand

LPC-File * Adaptée aux données uniformes

* Codage ou Approximation précise * Améliore les performances des

méthodes d’indexation conventionnelles et du VA-File

* Non adaptée aux données réelles * Dégradation des performances pour un grand volume de données.

* Non adaptée aux données avec des corrélations non linéaires

Méthode Structure Dimension Volume de

données Données sélectivité A-Tree R*-Tree +approximation des vecteurs/ MBR(VMBRs) ♦ ♣♣ réelles ● IQ-Tree R*-Tree +approximation des vecteurs (VA-File) ♦ ♣♣ réelles ● RA- Blocks Aucune structure + approximation des régions ♦ ♣♣♣ uniformes ●●● GC-Tree arborescente+approxi mation des vecteurs selon LPC-File ♦ ♣♣ réelles ●●● Active Vertice Intersection région/sphère+ structure arborescente + approximation du VA-File ♦ ♣♣ réelles --

Tableau 2.5 Récapitulatif de quelques propriétés générales des méthodes d’indexation basées sur

l’approximation locale citées précédemment

Tableau 2.6 Récapitulatif de quelques propriétés générales des méthodes d’indexation basées sur

l’approximation globale citées précédemment

Légende

♦ : dimension faible ♦ ♦ : dimension moyenne

♣ : Base de données de petite taille ♣ ♣ : Base de données de taille moyenne ♣♣♣ : Base de données de grande taille ● : faible taux de séléctivité

●● : taux de selectivité moyen ●●● : meilleur taux de sélectivité

5 Synthèse

Dans ce chapitre nous avons présenté dans un premier temps les principales techniques conventionnelles d’indexation multidimensionnelles. Nous tenons à préciser que l’état de l’art que nous avons mené sur ces méthodes n’est pas exhaustif. Nous nous sommes limités aux méthodes les plus citées et les plus utilisées dans le domaine de l’indexation multidimensionnelle. Sur la base cette étude, nous avons remarqué d’une part que la performance de la plus part de ces méthodes se dégradent au passage à l’échelle et en grande dimension, et d’autre part, parmi ces méthodes certaines sont particulièrement adaptées à un espace Euclidien et d’autre sont convenables uniquement à des distributions de données particulières, notamment uniformes. Nous avons présenté par la suite les problèmes de la malédiction de la dimension qui se posent lors de la manipulation des données de grande

Tree Approximation du

VA-File

Méthode Structure Dimension Volume de

données

Distribution des données

séléctivit é

VA-File Aucune structure

+Approximation des vecteurs

♦ ♣♣ uniformes ●●

VA+-File Aucune structure

+Approximation des vecteurs ♦ ♦ ♣♣ réelles ●● C2-VA- File Aucune structure +Approximation des vecteurs ♦ ♦ ♣♣ réelles --

LPC-File Aucune structure

+Approximation des vecteurs

dimension et les méthodes de la réduction linéaires et non linéaires de la dimension qui ont été proposé dans la littérature pour faire face à ces problèmes. Nous avons montré que ces méthodes réduisent la dimension de l’espace de données, mais leur application reste liée à des contraintes comme la linéarité des données, le paramétrage, etc. Des méthodes d’indexation basées sur l’approche approximation plus efficaces ont été proposées pour pallier aux problèmes de la malédiction de la dimension. Leurs principe de base est la représentation des données par une approximation compactes afin de réduire le temps de parcours lors du processus de la recherche. Nous les avons classé en deux grandes familles : les méthodes basées sur l’approximation globale et celles basées sur l’approximation locale. La première famille est performante au passage à l’échelle et en grande dimension en comparaison avec les méthodes conventionnelles par contre elle est plutôt adaptée aux données de distribution uniforme, la seconde famille a l’avantage de pouvoir manipuler des données réelles mais par contre sa mise en place dans de applications réelles nécessite des améliorations. Nous avons finalement comparé les différentes méthodes que nous avons présentés. Sur la base de cette comparaison nous concluons que la méthode basée sur l’approche approximation local RA-Blocks présente les meilleurs caractéristiques, c’est une méthode que nous trouvons prometteuse pour faire face aux problèmes de la malédiction de la dimension et au passage à l’échelle, et c’est pour ces raisons que nous avons choisi de l’étudier de plus prêt pour améliorer ces performances et l’intégrer dans un système de recherche d’images par le contenu.

Dans le document Recherche par similarité dans les bases de données multimédia : Application à la recherche par le contenu d'images (Page 75-82)