• Aucun résultat trouvé

Sp´ecificit´es des Visages versus G´en´ericit´e des Expressions

vari´et´es pour la repr´esentation des expressions faciales. Les caract´eristiques du visage sont pro-jet´ees sur un espace de dimension plus petite. De telles vari´et´es peuvent prendre en compte le caract`ere continu et m´elang´e des expressions ainsi que la notion d’intensit´e. Stoiber et al. [50] ont mapp´e les vecteurs issus des mod`eles actifs d’apparence (AAM) sur un disque. Ce mapping est r´ealis´e de fac¸on non supervis´ee en trouvant les directions dominantes de l’espace d’apparence d’origine et en les organisant sur un disque. Cette organisation est r´ealis´ee en minimisant l’angle entre les directions dominantes de fac¸on `a garder la proximit´e des expressions proches dans l’es-pace d’apparence. L’esl’es-pace r´esultant donne des r´esultats prometteurs pour l’animation mais est labellis´e manuellement et d´edi´e `a un sujet. Aucune exp´erimentation n’a ´et´e r´ealis´ee sur la recon-naissance d’expressions ni sur la similarit´e des disques entre des personnes diff´erentes.

Chang et al. [51] ont test´e la m´ethode de r´eduction non lin´eaire nomm´ee local linear ding (LLE) - r´eduction localement lin´eaire ainsi que la r´eduction de Lipschitz (Lipschitz embed-ding) pour apprendre la vari´et´e des expressions. Ils ont extrait une vari´et´e pour chaque sujet et les ont ensuite align´ees sur l’ensemble des sujets. Un classifieur de plus proches voisins (k-Nearest Neighbor) a ´et´e utilis´e ensuite pour reconnaˆıtre les expressions. Dans [52], ils abordent le su-jet des expressions m´elang´ees qui ne sont pas inclues dans les bases d’apprentissage. Ils cr´eent une vari´et´e sp´ecifique `a la personne pour chaque sujet par r´eduction de Lipschitz appliqu´ee sur des s´equences vid´eo r´ealisant des transitions entre le visage neutre et l’une des 6 expressions de base. Ces transitions repr´esentent 6 chemins sur la vari´et´e, les expressions m´elang´ees d’inten-sit´e variable se situant entre ces chemins. Ils ont appris un mod`ele probabiliste pour reconnaitre chaque expression, mod`ele qui prend en compte l’information temporelle des s´equences vid´eo. Les expressions m´elang´ees sont alors classifi´ees quantitativement dans les 6 cat´egories. Leurs exp´erimentations ont ´et´e r´ealis´ees sur 5 sujets connus et ne traitent pas des sujets non pr´esents dans la base d’apprentissage. Aucun test n’a ´et´e r´ealis´e sur l’ad´equation entre les repr´esentations des expressions m´elang´ees similaires de diff´erents sujets. Shan et al. [53] ont propos´e une m´ethode appel´ee Supervised LPP (Locality Preserving Projections) pour extraire une unique vari´et´e pour tous les individus. Comme [51], un algorithme de plus proches voisins est ensuite utilis´e pour classifier et reconnaˆıtre les expressions. Comme pour la r´eduction de Lipschitz [51, 52], cette r´eduction n´ecessite une grande quantit´e de donn´ees d’apprentissage pour calculer une vari´et´e qui approxime correctement l’espace des expressions. Ils ne mentionnent pas non plus le comporte-ment de leur syst`eme sur des sujets inconnus.

2.2 Sp´ecificit´es des Visages versus G´en´ericit´e des Expressions

Il est fr´equent de dire que l’identit´e est sp´ecifique `a la personne et que l’expression est com-mune `a tous. Cette section introduit un certain nombre de th´ematiques et d’axes de r´eflexions li´ees `a ce postulat.

2.2.1 D´eformations par rapport au Visage Neutre

Une m´ethode tr`es r´epandue pour minimiser l’impact de l’identit´e sur les donn´ees du vi-sage consiste `a aligner les caract´eristiques faciales des diff´erents sujets en soustrayant les ca-ract´eristiques du visage neutre. Cheon & Kim [54] ont propos´e d’aligner les expressions du vi-sage d´efinies par des vecteurs AAM en utilisant la m´ethode Diff-AAM. Dans cette m´ethode, les caract´eristiques des expressions sont calcul´ees en effectuant la diff´erence entre les caract´eristiques

des mod`eles actifs d’apparence (AAM) du visage expressif et celles du visage de r´ef´erence (visage neutre). Sujet A Sujet B Sujet C Sujet D Sujet E −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4

FIGURE 2.1 – 8 expressions similaires de 5 sujets dont les vecteurs d’apparence ont ´et´e align´es en soustrayant le vecteur du visage neutre. Affichage des deux premi`eres dimensions de l’espace d’apparence, c’est-`a-dire des 2 principales d´eformations faciales.

Ces m´ethodes assument que les personnes ont des motifs d’expression similaires lorsqu’ils passent du visage neutre `a un visage expressif, et lin´eaires (c’est-`a-dire que le passage du visage neutre `a une expression est une droite dans l’espace cr´e´e) ce qui n’est qu’une approximation. A titre d’exemple, certaines personnes r´ealisent des sourires plats alors que d’autres r´ealisent des sourire en croissant. La figure 2.1 montre, dans les 2 premi`eres dimensions de l’espace d’ap-parence, 8 expressions similaires de 5 sujets dont les vecteurs d’apparence ont ´et´e align´es en

2.2 Sp´ecificit´es des Visages versus G´en´ericit´e des Expressions 25

soustrayant le vecteur du visage neutre. Nous constatons que les 2 premi`eres d´eformations ne sont pas suffisamment discriminantes.

Il est aussi `a noter que cette m´ethode est souvent coupl´ee avec d’autres m´ethodes. Cheon & Kim [54] r´ealisent dans leurs travaux un apprentissage de vari´et´e sur les param`etres Diff-AAM avant d’effectuer des tˆaches de reconnaissance (voir section 2.1.2).

Une autre technique prenant en consid´eration le visage neutre consiste `a normaliser les infor-mations par rapport aux donn´ees d’identit´e caract´eristiques de la personne (´ecart entre les yeux, distance de la bouche au menton,...). C’est le cas des unit´es FAPUs (Face Animation Parameter Units) du syst`eme MPEG4 (voir description du MPEG4 dans la section 2.1.1).

Ces m´ethodes s’appuient sur les donn´ees du visage neutre du sujet pour d´efinir l’identit´e de la personne. Dans un syst`eme enti`erement automatis´e, la d´etection du visage neutre et de ses composantes (par exemple un ensemble de points caract´eristiques) sur un sujet inconnu est encore un objet d’´etudes [54].

2.2.2 Mod`eles G´en´eriques ou Sp´ecifiques

Une seconde m´ethode, pour s’affranchir des diff´erences d’identit´e, consiste `a d´efinir des mod`eles sp´ecifiques `a chaque personne. Dans le cadre de la description du visage par extrac-tion des d´eformaextrac-tions de forme et/ou de texture (ACP, IAC), un mod`ele cr´e´e sur un sujet contient dans ses param`etres uniquement des informations de d´eformations li´ees aux expressions. Nous parlons alors de mod`eles sp´ecifiques `a la personne, par opposition aux mod`eles appris sur des visages expressifs de diff´erentes personnes que nous nommons mod`eles g´en´eriques.

Sujet A Sujet B −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 Sujet A −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 Sujet B −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 Sujets A et B

FIGURE2.2 – Vecteurs d’apparence de 8 expressions similaires et visage neutre de 2 sujets avec des mod`eles sp´ecifiques. Affichage des deux premi`eres dimensions de l’espace d’apparence, c’est-`a-dire des 2 principales d´eformations faciales.

L’inconv´enient des mod`eles sp´ecifiques est que les param`etres n’ont `a priori pas de signifi-cation et ne sont de fait pas comparables entre diff´erents sujets. La figure 2.2 montre les deux premi`eres composantes de 8 expressions similaires de deux sujets. Les caract´eristiques sont is-sues de mod`eles actifs d’apparence cr´e´es sur ces 8 expressions. Nous constatons que les premi`eres d´eformations (principales d´eformations) ne sont pas toujours les mˆemes entre les sujets.

Cette technique n´ecessite alors d’aligner `a posteriori les diff´erents sujets. Une premi`ere m´etho-de consiste `a labelliser manuellement `a posteriori l’espace cr´e´e [50] et `a r´ealiser m´etho-des traitements qui sont sp´ecifiques `a la personne. Cette m´ethode a pour avantage de donner des informations tr`es pr´ecises sur les expressions de la personne mais signifie que l’apprentissage est `a r´ealiser `a chaque nouveau sujet.

Une autre technique pour aligner les sujets consiste `a utiliser des algorithmes d’alignement bas´es sur la similarit´e s´emantique des expressions de forte intensit´e [51, 53]. [51] souligne la dif-ficult´e `a aligner les espaces sp´ecifiques. En effet, dans ces travaux, il indique qu’un alignement lin´eaire sur ses vari´et´es cr´e´ees par r´eduction lipchitzienne ne donne pas de r´esultats satisfaisants car ce type d’alignement ne pr´eserve pas la similarit´e s´emantique des points. Une labellisation manuelle s´emantique des vari´et´es semble donc n´ecessaire pour pouvoir aligner les espaces. A no-ter que dans leurs travaux [51, 53], aucun test de similarit´e sur des expressions non prototypiques n’a ´et´e r´ealis´e. Nous n’avons donc pas d’information quantitative sur la pertinence de la vari´et´e finale g´en´erique obtenue.

A noter aussi que les mod`eles cr´e´es sont d´ependants des donn´ees d’apprentissage de chaque personne. Le nombre d’images ainsi que les exemples utilis´es impactent directement les mod`eles cr´e´es et rendent l’alignement d’autant plus difficile.

2.2.3 Extraction de l’Intensit´e

Il n’est pas facile de d´efinir la notion d’intensit´e d’une expression. Nous consid´erons ici que plus la d´eformation faciale du visage par rapport `a sa position au repos (neutre) est importante, plus l’intensit´e de l’expression est ´elev´ee. Tout d’abord, nous pouvons consid´erer que l’intensit´e est sp´ecifique `a chaque sujet dans la mesure o`u chaque personne poss`ede une d´eformation maxi-male du visage, li´ee `a l’´elasticit´e de chacun de ses muscles. Elle peut ˆetre mesur´ee en utilisant les d´eformations g´eom´etriques du visage ou encore la densit´e de rides apparaissant sur le visage. Nous d´efinissons donc l’intensit´e en prenant en compte le visage neutre de la personne ainsi que la d´eformation maximale possible pour cette personne.

Esau et al. [55] ont trait´e de cette notion en utilisant un mod`ele d’´emotion floue qui s’adapte aux caract´eristiques des visages mais n´ecessite une phase pr´ealable d’apprentissage du visage.

De nombreux syst`emes normalisent leurs donn´ees par rapport `a la d´eformation maximale des expressions, permettant ainsi de g´erer cette notion d’intensit´e. Chang et al. [51] alignent les vari´et´es sp´ecifiques aux sujets en prenant en compte les expressions `a leur intensit´e maximale et en les mappant de sorte que les expressions d’intensit´e maximale aient des composantes non nulles valant 1.

2.2.4 Utilisation de la Dynamique

L’importance du chronom´etrage dans la d´efinition d’une expression est d´esormais couram-ment accept´e [56]. L’analyse des expressions au travers de leur dynamique se base sur les re-pr´esentations des sections pr´ec´edentes en ajoutant la prise en compte du facteur temps. C’est-`a-dire qu’il ne s’agit plus de d´ecrire une expression `a partir d’une image mais `a partir d’une