• Aucun résultat trouvé

1.3 Proposition pour un outil de saisie controlé par la vision

1.3.5 Les contributions de cette thèse

Cette thèse propose des outils pour permettre la saisie d'un objet inconnu à partir d'un clic de l'utilisateur sur une vue globale de la scène dispensée par une caméra déportée. Aucune connaissance a priori n'est disponible sur les objets à saisir et sur la scène, c'est-à-dire il n'y a pas eu de phase préalable de construction de base de données ni de marquage. Les objets à saisir sont vus pour la première fois. Les principales contributions de cette étude concernent les étapes de localisation, de modélisation et d'exploration de la scène pour permettre la saisie d'un nouvel objet.

L'étape la plus coûteuse du scénario Aviso, en terme d'interactions homme - machine, est, sans conteste, l'étape de positionnement de la caméra embarquée qui permet de visualiser et de localiser l'objet. La première contribution de cette thèse est une méthode de localisation d'un objet in- connu en utilisant uniquement l'information donnée par le clicet les informations données en ligne par deux caméras. Nous verrons comment utiliser simultanément les informations données par la ca- méra embarquée et la caméra déportée pour estimer la position de l'objet et nalement positionner la caméra mobile de façon à ce que l'objet soit dans son champ de vision.

La seconde contribution de cette thèse est une modélisation minimale d'objet inconnu per- mettant d'adapter l'approche de la pince à sa forme et à ses dimensions. Connaissant la position de l'objet, il est possible de déplacer la caméra embarquée en bout de pince de sorte à acquérir plusieurs vues de l'objet jusqu'à ce que l'information obtenue soit susante à sa saisie. Nous dénirons quel est le type d'information nécessaire et enn ce que signie une représentation susante.

La troisième contribution est une méthode de vision active permettant de sélectionner par les meilleures vues pour aner la représentaion de l'objet. Cette méthode repose sur la quantité d'information, au sens de l'information de Shannon, contenue dans chaque vue. Nous montrerons que la quantité d'information contenue dans la vue suivante peut être directement prédite à partir des résultats courants de la reconstruction.

Ces méthodes peuvent être vues à la fois comme une alternative ou un complément des méthodes reposant sur des bases de connaissance. En eet, si ces méthodes ont déjà fait leurs preuves dans des applications de saisie d'objet en milieu humain, elles échouent lorsqu'un objet n'est pas reconnu à cause d'un défaut de perception ou s'il est vu pour la première fois. Dans le cas d'un tel échec, les méthodes que nous proposons peuvent être utilisées pour saisir l'objet non reconnu et mettre à jour la base de données en y ajoutant ses caractéristiques. À l'inverse, plutôt que de redécouvrir à chaque saisie un objet que l'on observe fréquemment, il pourrait être intéressant de stocker les informations obtenues à la première saisie, an de les utiliser lors des observations ultérieures, pour gagner du temps sur les phases d'exploration. Cette partie ne sera pas traitée dans cette thèse et sera laissée en perspective. Les quatre grandes étapes du scénario de saisie structurent ce manuscrit : i) l'utilisateur désigne l'objet par un clic, ii) l'objet est localisé puis iii) la caméra embarquée observe l'objet pour le mo-

42 L'assistance robotisée aux personnes en situation de handicap

déliser et enn, iv) l'objet est saisi en adaptant l'approche de la pince à sa pose et à sa forme. Les principales contributions de cette thèse font l'objet des chapitres ultérieurs. La première partie traite de la localisation d'un objet inconnu à l'aide d'un système de deux caméras et à partir d'un clic. La partie suivante traite de la modélisation de l'objet et de l'exploration de la scène en utilisant la caméra embarquée an de dénir la meilleure stratégie de préhension.

L'objectif est de montrer qu'un manipulateur équipé de deux caméras peut saisir un objet inconnu désigné par un clic sur une vue de la scène.

Première partie

One Click Focus : estimation de la

position d'un objet inconnu à partir

d'un clic

45

À l'origine, l'outil d'aide à la saisie disponible préalablement à cette étude, était équipé d'un banc de stéréovision monté sur la pince d'un bras manipulateur [Leroux 06, Remazeilles 08]. La première étape du scénario de saisie consistait alors à positionner la pince, en mode manuel, an que l'objet d'intérêt entre dans le champ de vision des caméras. L'objet était ensuite sélectionné par un encadrement de deux clics (voir le scénario de saisie sur la gure 1.24). Puis une phase de saisie automatique était lancée.

Dans le cadre de cette étude, nous avons choisi de modier l'emplacement des caméras en proposant d'utiliser une seule caméra en bout de pince et une caméra déportée, permettant de sélectionner l'objet par un clic dans une vue globale de la scène. L'object de cette première partie est de proposer une méthode pour estimer la position de l'objet inconnu à partir de l'unique information donnée par un clic de l'utilisateur dans une image et en respectant les hypothèses établies à la n du premier chapitre et rappelées en annexe C : la scène est statique, les objets sont génériques, rigides et détectables en utilisant un système de vision, les objets se situent dans la zone de travail du bras qui est contenue dans la vue de la caméra déportée.

L'outil de saisie que nous proposons repose sur une commande visuelle. La première section de ce chapitre rappelle donc les fondements théoriques de la vision par ordinateur et présente le problème de l'estimation de la position d'un objet dans le cadre de notre application. Les chapitres à venir présentent deux contributions de cette thèse :

 Une commande basée sur la géométrie épipolaire qui permet de parcourir la ligne de vue sur laquelle se trouve l'objet ;

 L'estimation dynamique de la position de l'objet à partir des images acquises au cours du parcours de la ligne de vue.

Une fois l'objet grossièrement localisé, la caméra embarquée sera déplacée de sorte à ce que l'objet soit dans son champ de vision. À la n de cette étape, deux vues de l'objet seront donc disponibles et utilisables pour caractériser sa forme tridimensionnelle.

Chapitre

2

Représentation géométrique

L'outil de saisie One Click que nous proposons est un robot manipulateur qui perçoit son envi- ronnement via deux caméras : l'une est montée sur le support du bras et donne une vue globale de la scène, et l'autre, montée sur la pince, ore une vue des détails.

Pour estimer la position d'un objet à partir d'un système de vision, il est nécessaire d'établir la relation entre le monde tridimensionnel (3D) et sa représentation bidimensionnelle (2D) dans une image acquise par une caméra.

Ce chapitre rappelle les fondements théoriques de la géométrie perspective pour une, puis deux caméras. Elle présente également les principales notations qui sont associées à notre système. Ensuite la stratégie adoptée pour permettre la localisation d'un objet à partir d'un seul clic est présentée. Les méthodes permettant de la mettre en ÷uvre seront développées dans les chapitres suivantes.

2.1

Rappels mathématiques et géométriques

En vision par ordinateur, la géométrie projective est préférée à la géométrie euclidienne car elle permet de rendre linéaire une grande partie des transformations de l'espace euclidien, notamment la projection centrale qui est le modèle de projection le plus souvent utilisé.

Dans ce paragraphe, nous montrerons comment exprimer la position et l'orientation, autrement dit la pose, d'un objet ou d'une caméra dans l'espace euclidien, noté E3et dans l'espace projectif, noté

P3.