La reconnaissance d’objets

Dans le document The DART-Europe E-theses Portal (Page 72-75)

Cette section a pour objectif de dresser un rapide ´etat de l’art du domaine de la reconnaissance d’objets bas´ee sur la vision et, plus particuli`erement, les techniques utilisant des d´etecteurs de points d’int´erˆet et des vecteurs de caract´eristiques.

En 1999, [Squire et al., 1999] proposent d’appliquer des techniques issues de l’indexation de documents textuels `a la classification d’images. L’id´ee con-siste `a r´eduire une image `a un ensemble de descripteurs, puis `a discr´etiser ces descripteurs au moyen d’une classification. L’image vue comme un ensem-ble de classes de descripteurs est alors analogue `a un document vu comme l’ensemble des mots qui le composent. Les auteurs utilisent une repr´esentation optimis´ee associant `a chaque classe de descripteur les images dans lesquelles elle apparaˆıt. Ils proposent un calcul de distance entre images utilisant une pond´eration bas´ee sur la fr´equence d’occurrence de chaque classe et con-struisent une base de donn´ees d’images capable de r´epondre `a des requˆetes constitu´ees elles-mˆeme de fragments d’autres images.

L’´emergence dans les ann´ees suivantes de descripteurs rapides `a calculer et tr`es robustes va permettre un d´eveloppement important de cette voie de recherche.

[Sivic and Zisserman, 2003] d´eveloppent un syst`eme similaire pour l’in-dexation de vid´eos, en utilisant une version du descripteur SIFT (cf. 5.3.3) utilisant un d´etecteur d’ellipses d’int´erˆet augmentant la robustesse aux trans-formations affines. Le sch´ema g´en´eral du syst`eme reste le mˆeme : un diction-naire de classes de descripteurs d’environ 10 000 mots est cr´e´e `a partir d’un sous-ensemble de la base de donn´ees, en utilisant l’algorithme des k-moyennes (k-means). A chaque image est associ´e un vecteur de taille 10 000 contenant le nombre d’occurrences de chacun des mots en pr´esence de l’image. Chaque composante de ces vecteurs est pond´er´ee par un terme appel´e IDF (inverse-document frequency) ´egal au logarithme de l’inverse de la fr´equence d’oc-currence du mots dans le corpus : plus un mot est rare, plus son poids sera important. La similarit´e entre deux images est alors d´efinie comme le produit scalaire de ces deux vecteurs pond´er´es, normalis´es, qui est aussi le cosinus de l’angle entre ces deux vecteurs. Cette mesure de similarit´e est ensuite utilis´ee pour classer les images de la base en r´eponse `a une requˆete.

De nombreux travaux r´ecents proposent des versions diff´erentes de chaque

´etape de ce mod`ele g´en´eral (d´etection des points caract´eristiques, cr´eation du dictionnaire de descripteurs, calcul de similarit´e entre images `a partir de ce

CHAPITRE 5. TALKING ROBOTS 2.0, MOD `ELE D’OBJET 64 dictionnaire).

Dance et al. [2004] pr´esentent un syst`eme tr`es similaire dans lequel un SVM (support vector machine) est utilis´e pour apprendre des classes d’objets, en prenant comme entr´ee les vecteurs d’occurrences des mots du dictionnaire de descripteurs.

Construction du dictionnaire. [Jurie and Triggs, 2005] analysent l’´etape de construction du dictionnaire de caract´eristiques, r´ealis´ee par un k-mean dans la grande majorit´e des travaux et concluent que cet algorithme est in-adapt´e `a la grande h´et´erog´en´eit´e de la distribution des caract´eristiques de grande dimension (comme SIFT de dimension 128), car il concentre la ma-jorit´e des mots sur la zone la plus dense. Les auteurs montrent que les descrip-teurs les plus utiles sont ceux dont la fr´equence d’occurrence est moyenne : les descripteurs trop fr´equents ne sont pas assez discriminant et les descripteurs apparaissant trop rarement, mˆeme s’ils sont discriminant, sont trop rares pour peser significativement sur le syst`eme global. Les auteurs proposent un algorithme it´eratif qui recherche `a chaque ´etape la boule de rayon fix´e con-tenant le plus grand nombre de descripteurs, cr´ee un mot `a cette position et supprime les descripteurs contenus dans cette boule avant de recommencer.

Les auteurs montrent aussi que la d´etection dense des descripteurs SIFT donne de meilleurs r´esultats que la d´etection sur des points d’int´erˆet.

[Nist´er and Stew´enius, 2006] proposent une version hi´erarchique du k-mean, plus rapide et qui peut ˆetre r´ealis´ee de mani`ere incr´ementale. Le clas-sifieur est un arbre, chaque nœud ayant k fils. Lorsque le syst`eme d´ecide d’´etendre une feuille de l’arbre, un k-mean est r´ealis´e sur tous les descrip-teurs associ´es `a cette feuille et un sous-nœud est associ´e `a chacun des k centres de classe obtenus. Chaque descripteur est associ´e au nœud dont le centre est le plus proche (segmentation de Vorono¨ı). Cette m´ethode permet aussi une recherche rapide du ou des mot associ´es `a un descripteur.

[Moosmann et al., 2006b] utilisent comme classifieur un ensemble d’ar-bres g´en´er´es semi-al´eatoirement. Chaque niveau de chacun des ard’ar-bres coupe l’espace vectoriel du descripteur en deux. Le plan de d´ecoupage est choisi al´eatoirement, mais seuls les d´ecoupages v´erifiant une contrainte entropique sont conserv´es. A chaque descripteur est donc associ´ee une feuille de chacun des arbres. Les auteurs utilisent 5 arbres `a 1000 feuilles chacun. La sortie de ces arbres est utilis´ee pour apprendre un SVN.

Recherche dans le dictionnaire. Rechercher le mot associ´e `a un descrip-teur donn´e est une op´eration r´ealis´ee tr`es fr´equemment par les syst`emes de reconnaissance d’objets. La m´ethode na¨ıve consiste `a tester chacun des mots du dictionnaire. Cette m´ethode se r´ev`ele trop coˆuteuse pour fonctionner en temps r´eel d`es que le nombre de mots d´epasse quelque milliers, surtout pour les descripteurs de dimension ´elev´ee, pour lesquels le calcul de distance est lui-mˆeme coˆuteux.

L’alternative utilis´ee dans la majorit´e des travaux de ce domaine utilise une repr´esentation hi´erarchique du dictionnaire sous la forme d’un kd-tree.

Cette structure permet de faire une recherche du plus proche voisin exacte ou approximative tr`es rapide.

Mod`eles de classification probabilistes. [Sivic et al., 2005] proposent d’appliquer un mod`ele probabiliste issue de l’indexation de textes appel´e PLSA (pour Probabilistic Latent Semantic Analysis) et capable de d´ecouvrir des classes d’objets de mani`ere non supervis´ee. Cette m´ethode mod´elise chaque image comme une combinaison pond´er´ee d’objets (topics) et utilise un algorithme de maximisation d’esp´erance (EM) it´eratif pour les d´ecouvrir.

Les auteurs montrent que le r´esultat de cette classification peut ˆetre utilis´ee ensuite pour segmenter les objets pr´esents dans les images.

[Huei-Ju Chen and Triesch, 2005] utilisent une autre m´ethode proba-biliste en mod´elisant par un r´eseau Bayesien repr´esentant des hypoth`eses sur la reconnaissance et la segmentation des objets. Une m´ethode d’inf´erence probabiliste bas´ee sur le Gibbs sampling (approche type Monte Carlo) est utilis´ee pour construire le r´eseau.

[Fei-Fei et al., 2006] utilise un mod`ele bay´esien capable d’apprendre un mod`ele d’objet `a partir seulement d’une poign´ee d’exemples et fonctionnant avec une centaine de cat´egories d’objets.

M´ethodes de vote. [Murphy-Chutorian et al., 2005] proposent un syst`eme dans lequel chaque descripteur vote de mani`ere pond´er´ee pour les mod`eles d’objets. Les auteurs d´eveloppent un algorithme pour ´evaluer la pond´eration et les seuils de d´etection optimaux.

[Filliat, 2007] d´eveloppe un syst`eme `a base de vote `a deux niveaux pour identifier la pi`ece dans laquelle se trouve un robot. Tout d’abord, chaque descripteur vote pour les mod`eles d’objets pour lesquels il a ´et´e vu. Puis les votes des diff´erents algorithmes sont agr´eg´es. Ce syst`eme pr´esente la

par-CHAPITRE 5. TALKING ROBOTS 2.0, MOD `ELE D’OBJET 66 ticularit´e d’ˆetre capable de ne pas donner de r´eponse si l’image pr´esent´ee n’est pas significative, ce qui lui permet d’obtenir au taux de faux positifs quasi-nul.

Utilisation de l’information spatiale. Certains syst`emes ´etendent le mod`ele sac-de-mots issu de l’indexation de textes, qui ne consid`ere une image que comme l’ensemble de ses descripteurs sans information spatiale.

[Jodogne et al., 2005] utilisent en plus des classes de descripteurs ´el´ementaires des classes composites, compos´ees d’une paire de classes de descripteurs et d’une distance. Les composantes des classes composites peuvent elles-mˆemes ˆetre des classes composites. Ces classes composites sont cr´e´ees en s´electionnant des paires de mots dont la co-occurrence est fr´equente, puis en utilisant l’histogramme de leurs distances sur toutes les images pour choisir l’intervalle de taille fix´ee le plus probable. L’int´erˆet de cette approche est que le syst`eme de classification d’objets utilise indiff´eremment les classes

´el´ementaires et les classes composites.

[Quack et al., 2006] proposent un mod`ele dans lequel un descripteur com-posite est form´e pour un descripteur simple donn´e en prenant les 5 descrip-teurs les plus proches dans l’image et en les associant avec le quadrant de l’image dans lequel ils ont ´et´e d´etect´es.

[Lazebnik et al., 2006] d´eveloppent une repr´esentation d’une image en la recouvrant d’une pyramide de fenˆetres de tailles d´ecroissantes et en associant

`a chaque niveau l’histogramme des descripteurs contenus dans la fenˆetre. Les auteurs utilisent simultan´ement SIFT et un descripteur plus simple mais moins discriminant, associ´e `a un d´etecteur de points caract´eristiques simple pour obtenir un nombre plus important de points.

5.3 Algorithmes de d´ etection de points

Dans le document The DART-Europe E-theses Portal (Page 72-75)