• Aucun résultat trouvé

Description du projet d’´ etudes

Nos contributions au projet M4M iront de l’´etude de viabilit´e des algorithmes potentiels jusqu’`a la mise en œuvre du syst`eme en ´etroite collaboration avec le groupe de d´eveloppement. Ceci permettra de pr´esenter `a la fin du projet un d´emonstrateur logiciel tournant en temps r´eel sur un ordinateur portable (pentium III `a 500 MHz). L’adjonction d’une cam´era permettra ainsi de tester nos algorithmes dans des conditions d’enregistrement r´ealistes (cf. Chapitre11).

Du point de vue algorithmique, le syst`eme doit ˆetre capable de produire une s´equence de masques d´etourant le locuteur. Pour cela nous allons proc´eder en deux ´etapes : premi`erement une phase d’initialisation aura en charge la d´etection du personnage et la cr´eation du masque initial ; ensuite un processus r´ecursif fera le suivi tout au long de la s´equence.

Sans rentrer dans les d´etails techniques, pr´esentons d’abord les grandes lignes des algo- rithmes qui ont ´et´e impl´ement´es.

8.2.1 La proc´edure d’initialisation

Nous allons int´egrer dans le d´emonstrateur un algorithme d’initialisation ayant pour but la d´etection et segmentation du locuteur sur les premi`eres images de la s´equence (cf. Chapitre9). Les m´ethodes d’initialisation habituellement utilis´ees dans des applications de vid´eoconf´e- rence sont tr`es contraignantes, car on a besoin de proc´eder `a une double acquisition : la premi`ere de l’image du fond sans le personnage, la deuxi`eme avec lui. Nous avons pr´ef´er´e offrir une plus grande souplesse, en perturbant le moins possible l’enregistrement de la sc`ene. Ainsi, notre approche repose sur une segmentation automatique qui d´emarre suite `a un simple clic de souris sur la zone du visage `a d´etecter. Cette interaction avec l’utilisateur nous permet d’adapter le syst`eme de d´etection aux conditions courantes d’´eclairage.

8.2.2 La proc´edure de suivi

La proc´edure de suivi (cf. Chapitre 10) comporte la segmentation automatique du per- sonnage, ainsi que la proc´edure interactive de contrˆole d’erreurs.

La segmentation automatique du personnage

Nous abordons ici l’´etude de viabilit´e de l’ensemble des outils de filtrage, segmentation et mise en correspondance d´evelopp´es dans un sens plus large au cours de cette th`ese. La contrainte du temps r´eel exerce un lourd poids sur eux : le nombre d’op´erations doit ˆetre mi- nimis´e, leur complexit´e aussi. Par ailleurs, la fiabilit´e des algorithmes doit aussi ˆetre ´eprouv´ee, car on ne pourra pas revenir en arri`ere en cas d’´echec.

Ceci nous obligera `a concevoir une chaˆıne de traitement simple mais solide, ayant recours `

a des techniques plus test´ees au d´etriment des techniques en cours de d´eveloppement qui, bien que pouvant ˆetre plus performantes, ne peuvent pas tourner en temps r´eel.

Contrˆole interactif de la qualit´e du suivi

Dans des conditions r´eelles d’enregistrement, il peuvent arriver toutes sortes d’accidents : quelqu’un passe devant la cam´era, la lumi`ere change, . . . Pour de multiples raisons, l’algo- rithme de suivi peut perdre le fil, ce qui va se traduire par l’obtention d’un masque erron´e : il perd le locuteur en partie ou en totalit´e, ou bien au contraire il envahit une partie du fond. Pour conf´erer au syst`eme une capacit´e de prompt r´etablissement lorsque ce genre d’accident se produit, nous donnerons `a l’utilisateur la possibilit´e d’interaction tout au long de la s´equence. Ainsi, `a l’aide de la souris, il pourra corriger facilement des erreurs de segmentation sans que le syst`eme de suivi ne s’arrˆete.

8.3

Conclusions

Ce chapitre, introduisant la derni`ere partie de cette th`ese, nous a servi pour pr´esenter l’ensemble des travaux qui ont ´et´e d´evelopp´es dans le cadre du projet europ´een M4M, la r´ealisation d’un d´emonstrateur mettant en valeur la viabilit´e des techniques impl´ement´ees.

Nous verrons dans les chapitres qui suivent comment la mise en œuvre d’une application r´eelle oblige `a prendre des choix parfois douloureux du point de vue du chercheur. Ainsi, des approches plus ´el´egantes devront laisser leur place `a des approches plus efficaces, celle-ci ´etant une nouvelle priorit´e.

Proc´edure d’Initialisation :

la d´etection du locuteur

D

ans ce chapitre nous allons pr´esenter la proc´edure d’initialisation qui a ´et´e propos´ee pour d´etecter et segmenter automatiquement le locuteur au d´ebut d’une s´equence de vid´eophonie. Un bref survol des diff´erentes techniques de segmen- tation, automatiques et semi-automatiques, nous permettra de faire le point sur leurs performances vis-`a-vis de cette application. Parall`element, nous proc´ederons `

a l’analyse d´etaill´ee de tous les indices qui, ´etant connus `a priori, peuvent aider `

a la d´etection. Sur de solides bases, nous bˆatirons ensuite une proc´edure d’initia- lisation ´etablissant un lien ´etroit entre les algorithmes de segmentation automa- tiques et l’analyse heuristique. Finalement, l’´etude des r´esultats obtenus permettra d’´evaluer les performances obtenues ainsi que d’´etablir les limites de cette tech- nique.

9.1

Diff´erents sc´enarios : diff´erentes techniques

En guise d’´etude pr´eliminaire, nous allons aborder le probl`eme de l’initialisation en faisant un bref rappel des techniques de segmentation et de leurs domaines classiques d’application. Le probl`eme de la segmentation ´etant de nature tr`es vari´ee, la conception d’un syst`eme universel et compl`etement automatique devient impossible. Ainsi, les syst`emes purement automatiques ne pourront donner une solution qu’`a des applications se d´eroulant dans des environnements contrˆol´es, l’interactivit´e ´etant de plus en plus n´ecessaire lorsque le domaine d’application s’´elargit.

9.1.1 Segmentation automatique

Les m´ethodes de segmentation automatiques sont con¸cues pour donner des solutions `a des probl`emes tr`es sp´ecifiques, afin de pouvoir extraire par elles-mˆemes des r´egions avec une valeur s´emantique. Nous allons diff´erencier celles qui se basent sur,

Mod´elisation de la sc`ene : la plus simple des techniques de segmentation concerne le d´etourage d’un objet qui se trouve dans l’avant plan d’un fond connu (Marixal dans [52]). Ces approches sont g´en´eralistes pour ce qui concerne l’objet `a segmenter, car la d´etection est faite par simple comparaison avec le fond de r´ef´erence. Ceci s’utilise couramment pour composer les sc`enes t´el´evis´ees au moyen d’un fond lisse de chromaticit´e distinctive sur lequel le pr´esentateur ´evolue.

Analyse du mouvement : sous cette rubrique nous avons englob´e l’ensemble des tech- niques qui d´etectent des objets `a partir de l’analyse de mouvement. Certaines approches consid`erent que toute r´egion en mouvement capte l’int´erˆet du spectateur (Meier et Ngan dans [59]), d’autres plus sophistiqu´ees se basent sur l’´etude de l’ordre de la profondeur pour proposer comme r´egions d’int´erˆet celles qui se trouvent dans l’avant-plan (Bergen dans [8]).

Mod´elisation de l’objet : par dualit´e avec la m´ethode pr´ec´edente, ces techniques vont ba- ser la d´etection sur la connaissance de l’objet d’int´erˆet. Il s’agit donc de cr´eer un mod`ele de l’objet le caract´erisant au niveau des couleurs, textures, forme, taille, etc. Par la suite, la segmentation va extraire les r´egions s’adaptant au mod`ele d´efini. Notons donc que ces approches sont tr`es sp´ecifiques pour ce qui concerne les objets, mais g´en´eralistes pour ce qui concerne leur contexte. La mod´elisation est utilis´ee couramment dans le milieu biom´edical [24] ainsi que pour la d´etection de cibles [95].

9.1.2 Segmentation semi-automatique

L’interactivit´e homme-machine se trouve `a la base d’un groupe de techniques de seg- mentation dites interactives ou semi-automatiques. On les retrouve dans des boˆıtes `a outils extrˆemement performantes dans le cadre des applications multim´edia, pour l’´edition d’images fixes ou de s´equences. En reprenant la classification faite par Marqu´es et al. dans [53], ces approches peuvent s’ordonner par rapport au niveau d’interaction qu’elles proposent `a l’uti- lisateur. Ainsi, on retrouve l’interaction,

Au niveau des pixels : le processus de segmentation se d´eclenche d`es qu’un ou plusieurs pixels sont s´electionn´es, ce qui permet `a l’algorithme d’extraire automatiquement un vec- teur des caract´eristiques locales autour de ces points (Chalom dans [19]). A ce stade, les syst`emes les plus simples, limit´es strictement au niveau du pixel, proposent comme seg- mentation le r´esultat d’une classification binaire des autres pixels de l’image. N´eanmoins, il existe aussi des syst`emes mixtes, faisant la transition entre ceux qui sont restreints au niveau du pixel et ceux qui travaillent au niveau des r´egions, qui proposent comme masque la composante connexe qui inclue le point s´electionn´e au d´epart.

Au niveau des r´egions : nous retrouvons ici des algorithmes qui travaillent sur une parti- tion de l’espace, ou mˆeme sur une hi´erarchie de partitions comme font ceux de Zano- guera et al. dans [108]. Le syst`eme cr´ee de fa¸con automatique une partition de l’espace et attend ensuite que l’utilisateur compose l’objet d’int´erˆet par s´election des r´egions.

Au niveau des contours : finalement il existe un autre type de techniques agissant au ni- veau des contours des objets. Les plus connues sont les contours actifs, qui interpolent un contour `a partir d’un ensemble des points s´electionn´es par l’utilisateur. Parmi d’autres approches, mentionner celle de Fal¸cao dans [25] qui adapte la trac´ee de l’utilisateur `a la ligne de gradient la plus forte.

9.1.3 Choix d’une strat´egie

Notre tˆache ici revient `a la conception d’une proc´edure d’initialisation capable de d´etecter et segmenter le locuteur au d´ebut d’une s´equence de vid´eoconf´erence.

A partir du bref survol que nous avons fait sur l’ensemble des techniques qui peuvent don- ner une solution `a ce probl`eme, le choix d’une strat´egie s’impose. N´eanmoins, nous devrons faire un choix entre deux solutions extrˆemes :

− La segmentation automatique est la technique la moins perturbante du point de vue de l’utilisateur, ´etant donn´e qu’aucune interaction ne lui est demand´ee. La d´etection est faite `a partir de l’information disponible a priori. Cependant, la contrainte du temps r´eel limite le nombre et la complexit´e des pistes qui peuvent s’exploiter, rendant les r´esultats peu fiables dans des environnements non contrˆol´es.

− La segmentation interactive a un taux d’erreur tr`es faible. Dans la mesure o`u ces tech- niques confient la d´etection des objets `a l’utilisateur, les seules erreurs ont lieu sur des r´egions o`u notre intuition per¸coit un objet mais l’image au niveau des pixels ne permet pas de faire la diff´erence. Comme seul inconv´enient on doit remarquer la dur´ee du temps d’interaction, qui peut varier fortement en fonction de l’habilet´e de l’utilisateur ou de la complexit´e des images `a traiter.

Ainsi, il existe un compromis entre le degr´e d’automaticit´e, la robustesse de la proc´edure et le temps requis pour faire l’initialisation. Notre objectif imm´ediat est donc d’analyser les indices disponibles a priori avant de pouvoir choisir une proc´edure d’initialisation enti`erement automatique, ou bien avec un certain degr´e d’interaction.