Phase de l’apprentissage des modèles des objets

4.6 Reconnaissance active d’objets représentés par un ensemble de caractéristiques

4.6.1 Phase de l’apprentissage des modèles des objets

Dans la phase d’apprentissage, le système doit apprendre les différents objets à partir de leurs caracté- ristiques. Le résultat est une base de données des objets appris, base qui sera exploitée pour d’ultérieures phases de reconnaissance.

Le méthode d’apprentissage que nous allons utiliser, est identique à celle que nous avons montrée dans la section 4.4. elle vise à exploiter l’Information Mutuelle lors de la reconnaissance. Dans la section 4.4 nous avons montré un exemple du fonctionnement de cet algorithme en utilisant uniquement la couleur. Maintenant nous allons nous servir de tous les descripteurs cités dans les sections précédentes mais aussi de la couleur, comme caractéristiques qui vont décrire nos objets dans la base de données et qui, ensuite, seront exploitées pour les reconnaître.

Le concept d’Information Mutuelle a déjà été défini dans la section 4.4. Nous allons décrire la façon avec laquelle nous allons utiliser les différents descripteurs qui ont été mentionnés précédemment.

Etant donné que nous allons chercher à reconnaître des objets parmi l’ensemble des objets montrés dans la figure 4.46, il faut apprendre pour chaque objet, la probabilité p(ot|at), d’observer une caracté-

ristique ot de l’objet lorsque le capteur se trouve dans une configuration donnée at, autrement dit :

p(ot|at) =

p(ot|xt, at)p(xt)dxt (4.15)

Le processus de création de la base de données pour un objet donné peut se résumer comme suit : 1. Prendre une image de l’objet isolé.

2. Obtenir les vecteurs de caractéristiques, un pour chaque caractéristique.

3. À partir des vecteurs trouvés, mettre à jour moyenne et variance de chaque caractéristique. 4. Garder les vecteurs caractéristiques, leurs moyennes et variances et le numéro de l’action. 5. Si il n’y a pas plus d’image sur l’objet, aller en (6), dans le cas contraire aller en (1) 6. Calculer les valeurs marginales des moyennes et variances

Les images vont être acquises en plaçant le capteur dans les différentes positions obtenues lors de la discrétisation d’une demi-sphère centrée sur l’objet. Cela a été déjà présenté dans le chapitre 3. Cette demi-sphère sera placée autour de l’objet de la façon suivante :

– On acquiert les images gauche et droite de la scène ;

– Par stéréo corrélation on récupère les points 3d de la scène ; on segmente l’objet d’intérêt, celui que l’on veut apprendre ;

– Avec les points 3D segmenté sur l’objet, on calcule le centre de gravité de l’objet ;

– On applique la transformation nécessaire afin que le centre de gravité de la scène soit le centre de la demi-sphère.

Les images montrées dans la figure 4.47 sont quelques unes des 320 images acquises pour un objet.

Actions

Les actions que va pouvoir exécuter le capteur, sont les mouvements de la caméra vers les différentes positions dans lesquelles il a été placé en phase d’apprentissage. Pour chaque position sur la demi-sphère définie autour de l’objet, pour tenir compte des occultations, on va calculer diviser l’image en 16 sections différentes sur lesquelles sont calculées les caractéristiques. Finalement nous aurons donc une quantité d’actions égale à 16 fois le nombre de positions sur la demi-sphère. Comme nous avons discretisé la demi-sphere en 320 points donc nous avons 16 fois 320, soit 5120 actions différentes. c’est-à-dire :

at= (sk,t, ik,t)T (4.16)

où sk, k ∈ (1, ns) est un indice pour la position du capteur sur la demi-sphère, ik, k ∈ (1, ni) est un

indice pour une section de l’image, avec ns nombre des positions discrétisées sur la demi-sphère, et ni

Objet 1 Objet 2

Objet 3 Objet 4

Objet 5 Objet 6

Objet 7 Objet 8

Figure 4.46 – Objets appris dans notre base de donnée exploitée pour valider nos travaux sur la reconnaissance active avec des images de synthèse.

Figure 4.48 – Division d’une image en 16 sections

Division en sections

Avec la finalité de pouvoir reconnaître un objet même s’il est partiellement caché ou s’il se trouve dans une position différente de celle dans laquelle le système l’a appris, il est nécessaire d’utiliser des descripteurs correspondants à une vue partielle, donc à des régions plus petites de l’image.

On pourrait se contenter de diviser une image en seize sections de mêmes surfaces, comme cela est montré en figure 4.48. Mais l’intérêt est de d’abord segmenté l’objet dans l’image et de diviser la région segmentée ; le principal avantage de diviser après segmentation, est quelquesoit la taille apparente de l’objet (donc la distance objet-caméra), on a le même nombre de sections et, en conséquence, on peut analyser les mêmes régions depuis des images acquises depuis des points de vue proches. La figure 4.49 montre la division obtenue pour le même point de vue de la tasse, mais après avoir réalisé la segmentation de l’objet.

Le différentes mesures de caractéristiques vont être realisées sur chacune des sections de l’image afin d’obtenir un vecteur pour chacune d’elles.

Constructions des représentations des objets.

Une fois que nous avons acquis une image depuis une position donnée, on extrait les vecteurs de caractéristiques. Les caractéristiques que nous avons retenues, sont donc : la couleur, la Shape Signature, le Shape context, les points de harris, les points SIFT et la densité sphèrique. Ces caractéristiques ont été déjà présentées aux sections précédents.

Nous avons 6 caractéristiques différentes avec lesquelles on espère obtenir un système de reconnaissance plus robuste que celui qui n’exploite rien d’autre que la couleur. La section suivante présentera les performances de cet algorithme. Pour l’instant nous allons montrer la façon de construire la représentation d’un objet de notre base de donnée. La procédure est décrite dans la suite :

1. Acquisition de l’image i en la position si

2. Segmentation de la scène pour extraire chaque objet ou amas d’objets posés sur la table 3. Division de l’image résultat.

4. Pour chaque sous-image ji,n obtenir :

A les histogrammes en couleur B Les points de Harris

C Les points SIFT

D En utilisant l’image des contours obtenir – La Shape signature et

Figure 4.49 – Division de l’image montrée dans la fig. 4.48 après segmentation.

– le Shape context

E Finalement, en utlisant les points 3D provenant de la stéréo corrélation (si elle est disponible), extraire la densité sphérique.

5. Générer les vecteurs de caractéristiques, et obtenir la moyenne et la variance de ces vecteurs. Dans les figures suivantes (figure 4.50) nous illustrons ce calcul des caractéristiques pour une image correspondant à l’objet 5 dans notre base de connaissances, placée dans une position exploitée lors de l’apprentissage.

On doit répéter le processus pour chaque point de vue différent et pour chaque objet afin d’obtenir la base de connaissance qui va nous servir pour réaliser la reconnaissance active d’objets.

Dans le document Modélisation et reconnaissance active d'objets 3D de forme libre par vision en robotique (Page 95-99)