Description du projet d’´ etudes - Mise en correspondance de partitions en vue du suivi d'objet

Nos contributions au projet M4M iront de l’étude de viabilité des algorithmes potentiels jusqu’à la mise en œuvre du système en étroite collaboration avec le groupe de développement. Ceci permettra de présenter à la fin du projet un démonstrateur logiciel tournant en temps réel sur un ordinateur portable (pentium III à 500 MHz). L’adjonction d’une caméra permettra ainsi de tester nos algorithmes dans des conditions d’enregistrement réalistes (cf. Chapitre11).

Du point de vue algorithmique, le système doit être capable de produire une séquence de masques détourant le locuteur. Pour cela nous allons procéder en deux étapes : premièrement une phase d’initialisation aura en charge la détection du personnage et la création du masque initial ; ensuite un processus récursif fera le suivi tout au long de la séquence.

Sans rentrer dans les détails techniques, présentons d’abord les grandes lignes des algorithmes qui ont été implémentés.

8.2.1 La proc´edure d’initialisation

Nous allons intégrer dans le démonstrateur un algorithme d’initialisation ayant pour but la détection et segmentation du locuteur sur les premières images de la séquence (cf. Chapitre9). Les méthodes d’initialisation habituellement utilisées dans des applications de vidéoconfé- rence sont très contraignantes, car on a besoin de procéder à une double acquisition : la première de l’image du fond sans le personnage, la deuxième avec lui. Nous avons préféré offrir une plus grande souplesse, en perturbant le moins possible l’enregistrement de la scène. Ainsi, notre approche repose sur une segmentation automatique qui démarre suite à un simple clic de souris sur la zone du visage à détecter. Cette interaction avec l’utilisateur nous permet d’adapter le système de détection aux conditions courantes d’éclairage.

8.2.2 La proc´edure de suivi

La procédure de suivi (cf. Chapitre 10) comporte la segmentation automatique du personnage, ainsi que la procédure interactive de contrôle d’erreurs.

La segmentation automatique du personnage

Nous abordons ici l’étude de viabilité de l’ensemble des outils de filtrage, segmentation et mise en correspondance développés dans un sens plus large au cours de cette thèse. La contrainte du temps réel exerce un lourd poids sur eux : le nombre d’opérations doit être mi- nimisé, leur complexité aussi. Par ailleurs, la fiabilité des algorithmes doit aussi être éprouvée, car on ne pourra pas revenir en arrière en cas d’échec.

Ceci nous obligera `a concevoir une chaˆıne de traitement simple mais solide, ayant recours `

a des techniques plus testées au détriment des techniques en cours de développement qui, bien que pouvant être plus performantes, ne peuvent pas tourner en temps réel.

Contrˆole interactif de la qualit´e du suivi

Dans des conditions réelles d’enregistrement, il peuvent arriver toutes sortes d’accidents : quelqu’un passe devant la caméra, la lumière change, . . . Pour de multiples raisons, l’algorithme de suivi peut perdre le fil, ce qui va se traduire par l’obtention d’un masque erroné : il perd le locuteur en partie ou en totalité, ou bien au contraire il envahit une partie du fond. Pour conférer au système une capacité de prompt rétablissement lorsque ce genre d’accident se produit, nous donnerons à l’utilisateur la possibilité d’interaction tout au long de la séquence. Ainsi, à l’aide de la souris, il pourra corriger facilement des erreurs de segmentation sans que le système de suivi ne s’arrête.

8.3 Conclusions

Ce chapitre, introduisant la dernière partie de cette thèse, nous a servi pour présenter l’ensemble des travaux qui ont été développés dans le cadre du projet européen M4M, la réalisation d’un démonstrateur mettant en valeur la viabilité des techniques implémentées.

Nous verrons dans les chapitres qui suivent comment la mise en œuvre d’une application réelle oblige à prendre des choix parfois douloureux du point de vue du chercheur. Ainsi, des approches plus élégantes devront laisser leur place à des approches plus efficaces, celle-ci étant une nouvelle priorité.

Proc´edure d’Initialisation :

la d´etection du locuteur

D

ans ce chapitre nous allons présenter la procédure d’initialisation qui a été proposée pour détecter et segmenter automatiquement le locuteur au début d’une séquence de vidéophonie. Un bref survol des différentes techniques de segmentation, automatiques et semi-automatiques, nous permettra de faire le point sur leurs performances vis-à-vis de cette application. Parallèlement, nous procéderons `

a l’analyse détaillée de tous les indices qui, étant connus à priori, peuvent aider `

a la détection. Sur de solides bases, nous bâtirons ensuite une procédure d’initialisation établissant un lien étroit entre les algorithmes de segmentation automatiques et l’analyse heuristique. Finalement, l’étude des résultats obtenus permettra d’évaluer les performances obtenues ainsi que d’établir les limites de cette technique.

9.1 Différents scénarios : différentes techniques

En guise d’étude préliminaire, nous allons aborder le problème de l’initialisation en faisant un bref rappel des techniques de segmentation et de leurs domaines classiques d’application. Le problème de la segmentation étant de nature très variée, la conception d’un système universel et complètement automatique devient impossible. Ainsi, les systèmes purement automatiques ne pourront donner une solution qu’à des applications se déroulant dans des environnements contrôlés, l’interactivité étant de plus en plus nécessaire lorsque le domaine d’application s’élargit.

9.1.1 Segmentation automatique

Les méthodes de segmentation automatiques sont con¸cues pour donner des solutions à des problèmes très spécifiques, afin de pouvoir extraire par elles-mêmes des régions avec une valeur sémantique. Nous allons différencier celles qui se basent sur,

Modélisation de la scène : la plus simple des techniques de segmentation concerne le détourage d’un objet qui se trouve dans l’avant plan d’un fond connu (Marixal dans [52]). Ces approches sont généralistes pour ce qui concerne l’objet à segmenter, car la détection est faite par simple comparaison avec le fond de référence. Ceci s’utilise couramment pour composer les scènes télévisées au moyen d’un fond lisse de chromaticité distinctive sur lequel le présentateur évolue.

Analyse du mouvement : sous cette rubrique nous avons englobé l’ensemble des techniques qui détectent des objets à partir de l’analyse de mouvement. Certaines approches considèrent que toute région en mouvement capte l’intérêt du spectateur (Meier et Ngan dans [59]), d’autres plus sophistiquées se basent sur l’étude de l’ordre de la profondeur pour proposer comme régions d’intérêt celles qui se trouvent dans l’avant-plan (Bergen dans [8]).

Modélisation de l’objet : par dualité avec la méthode précédente, ces techniques vont ba- ser la détection sur la connaissance de l’objet d’intérêt. Il s’agit donc de créer un modèle de l’objet le caractérisant au niveau des couleurs, textures, forme, taille, etc. Par la suite, la segmentation va extraire les régions s’adaptant au modèle défini. Notons donc que ces approches sont très spécifiques pour ce qui concerne les objets, mais généralistes pour ce qui concerne leur contexte. La modélisation est utilisée couramment dans le milieu biomédical [24] ainsi que pour la détection de cibles [95].

9.1.2 Segmentation semi-automatique

L’interactivité homme-machine se trouve à la base d’un groupe de techniques de segmentation dites interactives ou semi-automatiques. On les retrouve dans des boˆıtes à outils extrêmement performantes dans le cadre des applications multimédia, pour l’édition d’images fixes ou de séquences. En reprenant la classification faite par Marqués et al. dans [53], ces approches peuvent s’ordonner par rapport au niveau d’interaction qu’elles proposent à l’utilisateur. Ainsi, on retrouve l’interaction,

Au niveau des pixels : le processus de segmentation se déclenche dès qu’un ou plusieurs pixels sont sélectionnés, ce qui permet à l’algorithme d’extraire automatiquement un vec- teur des caractéristiques locales autour de ces points (Chalom dans [19]). A ce stade, les systèmes les plus simples, limités strictement au niveau du pixel, proposent comme segmentation le résultat d’une classification binaire des autres pixels de l’image. Néanmoins, il existe aussi des systèmes mixtes, faisant la transition entre ceux qui sont restreints au niveau du pixel et ceux qui travaillent au niveau des régions, qui proposent comme masque la composante connexe qui inclue le point sélectionné au départ.

Au niveau des régions : nous retrouvons ici des algorithmes qui travaillent sur une partition de l’espace, ou même sur une hiérarchie de partitions comme font ceux de Zano- guera et al. dans [108]. Le système crée de fa¸con automatique une partition de l’espace et attend ensuite que l’utilisateur compose l’objet d’intérêt par sélection des régions.

Au niveau des contours : finalement il existe un autre type de techniques agissant au niveau des contours des objets. Les plus connues sont les contours actifs, qui interpolent un contour à partir d’un ensemble des points sélectionnés par l’utilisateur. Parmi d’autres approches, mentionner celle de Fal¸cao dans [25] qui adapte la tracée de l’utilisateur à la ligne de gradient la plus forte.

9.1.3 Choix d’une strat´egie

Notre tâche ici revient à la conception d’une procédure d’initialisation capable de détecter et segmenter le locuteur au début d’une séquence de vidéoconférence.

A partir du bref survol que nous avons fait sur l’ensemble des techniques qui peuvent donner une solution à ce problème, le choix d’une stratégie s’impose. Néanmoins, nous devrons faire un choix entre deux solutions extrêmes :

− La segmentation automatique est la technique la moins perturbante du point de vue de l’utilisateur, étant donné qu’aucune interaction ne lui est demandée. La détection est faite à partir de l’information disponible a priori. Cependant, la contrainte du temps réel limite le nombre et la complexité des pistes qui peuvent s’exploiter, rendant les résultats peu fiables dans des environnements non contrôlés.

− La segmentation interactive a un taux d’erreur très faible. Dans la mesure où ces techniques confient la détection des objets à l’utilisateur, les seules erreurs ont lieu sur des régions où notre intuition per¸coit un objet mais l’image au niveau des pixels ne permet pas de faire la différence. Comme seul inconvénient on doit remarquer la durée du temps d’interaction, qui peut varier fortement en fonction de l’habileté de l’utilisateur ou de la complexité des images à traiter.

Ainsi, il existe un compromis entre le degré d’automaticité, la robustesse de la procédure et le temps requis pour faire l’initialisation. Notre objectif immédiat est donc d’analyser les indices disponibles a priori avant de pouvoir choisir une procédure d’initialisation entièrement automatique, ou bien avec un certain degré d’interaction.

Dans le document Mise en correspondance de partitions en vue du suivi d'objets (Page 183-188)