• Aucun résultat trouvé

Etat de l’art sur les méthodes d’indexation “2.5D/3D”

aux méthodes qui projettent l’objet en trois-dimensions sur un ensemble de plans en deux dimensions. Cette famille de descripteur est appelée “2.5D/3D” car ils gardent une infor- mation tridimensionnelle sur l’objet au moyen de cartes de profondeurs par exemple. Il est en général difficile de construire une telle description sans le modèle 3D, ce qui oblige à avoir comme requête un objet de ce type. Cet état de l’art non exhaustif est organisé de la manière suivante :

1. Méthodes par cartes de courbures (3.5.1). 2. Méthodes par coupes (3.5.2).

3. Méthodes par images de profondeurs (3.5.3).

3.5.1 Méthodes par cartes de courbures

Afin de caractériser la forme de l’objet 3D, Assfalg et al. [9] construisent une carte de courbures de sa surface. Après une première étape de prétraitement cherchant à lisser l’objet et à réduire la complexité de son maillage, les auteurs expriment la courbure γ de chaque sommet vi du maillage. Cette mesure est obtenue par la formule :

γvi = 1 2 P vj∈Vvikvi − vj⊥k |Vvi| (3.27) où v

i représente la normale calculée au sommet viet Vvi les sommets dans le voisinage de vi. La carte de courbures en deux dimensions est obtenue en projetant, la mesure en chaque sommet, sur un cylindre. Finalement, les auteurs conservent comme descripteur la partition en région de cette carte avec l’aire et la courbure moyenne pour chacune d’entre elles.

Cette approche donne des résultats satisfaisants, mais nécessite une normalisation de l’objet pour garantir une invariance aux transformations géométriques. Afin de prendre en compte des déformations plus importantes sur la surface, il serait intéressant de mettre en place une comparaison élastique des cartes de courbures.

3.5.2 Méthodes par coupes

Jiantao et al. [56] proposent de décrire un objet 3D par une série de coupes de celui-ci le long de ses trois axes principaux. Afin de garantir une invariance en translation, rotation et mise à l’échelle, les auteurs sélectionnent parmi l’analyse en composantes principales

Chapitre 3 - Etat de l’art

sur les sommets et sur les normales, celle qui minimise la boite englobante. Cela permet d’obtenir dans la plupart des cas un alignement visuellement correct pour un humain. Le modèle 3D est alors représenté par N coupes elles-mêmes décrites par la distribution de la distance entre deux points pris au hasard (voir figure 3.21).

) ) ) ,6 4"+ #2 ? · ? - · (a) Trois objets 3D

( ( (

91+:.,);<)86=,)371$,->67?+62),@/=>7,3<)

? · ? - ·

(b) Coupes des trois objets 3D

Figure 3.21 – Trois objets 3D (a) et leurs coupes (b) le long du premier axe.

L’un des intérêts de cette approche est son indépendance au maillage de l’objet 3D permettant de traiter des cas de surfaces dégénérées. Un travail complémentaire sur cette approche permettrait une recherche partielle de forme3.7.2.

3.5.3 Méthodes par images de profondeurs

Images de profondeurs : Dans sa thèse Vranic [134] a développé un nouveau des- cripteur “DBD”, pour Depth Buffer Descriptor, basé sur les images de profondeurs. Afin de définir une pose canonique pour l’ensemble des objets 3D, l’auteur introduit une amé- lioration de l’analyse en composantes principales qu’il appelle “Continue” (voir section

3.2.2). Afin de décrire la surface du modèle, celui-ci est projeté sur les six faces du cube

englobant où la profondeur des images obtenues correspond à la profondeur de l’objet. Le descripteur correspond finalement aux cœfficients basses fréquences de la transformée de Fourier rapide 2D de chacune des six images de profondeurs (voir figure 3.22).

Évaluée sur la base du Princeton Shape Benchmark [110][19] cette méthode montre de très bons résultats. Son point faible peut venir de sa nature “2.5D/2D” qui nécessite souvent des requêtes en 3D. En effet, l’obtention d’information de profondeur à partir de photos reste délicate même avec une approche stéréoscopique.

Images de profondeurs améliorées : Passalis et al. [96] améliorent l’approche originale par images de profondeurs à la fois sur le plan de l’alignement que sur celui de la description réelle de l’objet 3D. Dans leur méthode, les auteurs capturent toujours un ensemble de six images de profondeurs issues des faces d’un cube. Les améliorations proposées portent sur deux aspects qui sont :

– La correction de la pose du modèle en analysant les informations de symétrie, qui apparaissent en soustrayant les images de profondeurs de deux faces opposées. – Le calcul du descripteur sur la somme et la différence des images, associées aux faces

Figure 3.22 – Extraction du descripteur DBD basé sur les images de profondeurs. La

première ligne correspond aux six images obtenues par projection de l’objet sur les faces de la boite englobante. La seconde ligne correspond, quant à elle, à la transformée de Fourier rapide 2D de ces images.

projections.

Comparée à l’approche originale, cette nouvelle méthode qui est une amélioration de la première accroît sensiblement la pertinence des résultats.

Elagage et alignement itératif : Dans cette nouvelle version de l’approche par

images de profondeurs, Vajramushti et al. [128] proposent une technique visant à amélio- rer la pertinence des résultats. Les auteurs introduisent une mesure de proximité, entre objets, au moyen d’une différence de leur volume. Si celle-ci est inférieure à un seuil ǫ alors une étude plus approfondie est menée afin de donner une mesure de dissimilarité entre les deux modèles. Dans celle-ci, et pour palier les erreurs de l’analyse en composantes princi- pales, un algorithme itératif d’alignement est appliqué aux objets de la base en appliquant de petites déformations et en calculant la dissimilarité de six images de profondeurs.

L’un des principaux reproches que l’on peut faire à cette approche de description d’ob- jets 3D, outre son temps de calcul coûteux, est l’absence de réelle comparaison par rapport à la méthode originale.

Descriptions multi-vues : Afin d’enrichir la description faite par Vranic [134], Oh- buchi et al. [87] proposent non plus d’extraire six images de profondeurs, mais 42. Les points de vues associés à ces images sont uniformément répartis sur la sphère unité et correspondent aux 12 sommets et aux 30 milieux des arrêtes d’un icosaèdre. Les images de profondeurs obtenues sont finalement transformées du système de coordonnées carté- siennes en coordonnées polaires Zhang et Lu [146], avant de garder les cœfficients basses

fréquences de leur transformée de Fourier rapide 2D. Finalement, une invariance en rota- tion est obtenue par l’utilisation du système de coordonnées polaires associé à la mesure de dissimilarité d(OP,OQ) : d(OP,OQ) = 1 42 42 X i=1   min 1≤k≤N   42 X j=1 |fOP ij − f OQ kj |     (3.28)

avec N qui représente la taille du vecteur caractéristique et fOP ij , f

OQ

kj les signatures des objets OP et OQ. Les auteurs ([88]) améliorent leur approche en décrivant chaque image de profondeurs à l’aide des “SIFT” (Scale-Invariant Feature Transform) proposés par Lowe [68]. Grâce à la construction d’un alphabet de taille N sur les points d’intérêts, par un algorithme de k-means non supervisé, les auteurs réduisent la complexité du descripteur en codant dans un histogramme de taille N la fréquence de chaque mot de l’alphabet. Fi- nalement, les histogrammes sont comparés en utilisant la divergence de Kullback-Leibler. Évaluée sur la base du Princeton Shape Benchmark [110] la méthode proposée donne des résultats équivalents au “LFD” (voir section 3.6.1) classé à la première place.

Indices de pertinence : Afin d’améliorer la pertinence, des approches multi-vues

en général, mais plus particulièrement celles qui caractérisent l’information de forme avec des images de profondeurs Chaouch et Verroust-Blondet [25][26][24] proposent, dans les méthodes qu’ils nomment “ESA” et “EDBA”, de donner un poids à chaque vue. Les auteurs proposent trois indices de pertinence (voir figure3.23) :

1. Indice de surface : Il caractérise la surface de la projection de l’objet 3D sur le plan. Il est donné par le nombre de pixels ayant des valeurs positives.

2. Indice de profondeur : C’est la somme de tous les pixels non nuls sur l’image. En d’autres termes, il correspond au volume compris entre les parties visibles de l’objet 3D et la face de projection.

3. Indice global : Il est égal à la somme des distances des points de l’objet visibles sur l’image de profondeur avec le centre de la boite englobante.

Grâce à cette pondération des différentes vues, les auteurs améliorent nettement l’ap- proche originale et introduisent un concept applicable à toutes méthodes utilisant plusieurs vues pour la description d’un modèle 3D.

Lignes de profondeur : L’une des principales faiblesses des techniques utilisant les

images de profondeurs est leur difficulté à prendre en compte la déformation des maillages. Pour accroitre la sensibilité de ce type de méthode Chaouch [24] propose de décrire chaque image avec une séquence d’états. Chaque ligne de l’image de profondeurs est alors codée avec un alphabet réduit, caractérisant la pente de celle-ci (voir figure 3.24).

Grâce à une augmentation du nombre de vues (les vingt sommets d’un dodécaèdre) et à une mise en correspondance élastique, mise en place au moyen d’une “programmation

Figure 3.23 – Exemple d’indices de pertinence globaux (%) pour les images de profondeurs

extraites à partir d’un objet 3D représentant un humain.

(a) Image de profon- deur

(b) Lignes de profon- deurs

(c) Détail d’une ligne de profondeurs

Figure 3.24 – Image de profondeur(a), séquences d’états associées aux lignes de profon-

deurs (b) et transcription d’une ligne de profondeurs(c).

dynamique”, l’auteur améliore très fortement les résultats du descripteur original sur la base de données du Princeton Shape Benchmark [110]. L’auteur nomme ses différentes approches : “CDLA”, “DLA” et “MDLA” (pour Depth Line Approach).