2.2 Contributions des sciences informatiques
2.2.4 Systèmes de reconnaissance automattque .1 Les mesures doimages de visages (mémoire)
2.2.4.2 Détection des traits du visage
Le
premier problème posé parla
détection des traits du visage consiste en la localisation de ses éléments importants comme les yeux,le
nez,la bouche et son contour. On distingue trois appro-ches principales du problème. Une approche de modélisation paramétrique, une approche icono-graphique et une approched'utilisation
d'opérateurs d'intensités de niveaux de gris.La
première approche consisteà utiliser
des modèles déformables ("deformablemodels",
ou"flexible models",
voir
la section 2.2.4.1.6 à la page 83) d'éléments de visages, et à les superposer à I'image en entrée en minimisant une certaine fonction énergétique(Hallinan,
1991; Shackleton, etaI., l99L;Yuille,
1991; Huang et Chen, 1992;Yuille, et a1.,1992). Ces modèles sont construits àpartir
d'ensembles de courbes paramétrées définissant le contour d'une sous-régiond'un
élément (commeI'iris
ou une lèvre, par exemple). La fonction énergétique est définie à partir de versions prétraitées d'éléments d'images (des pics, des vallées ou des bords), et I'ajustement du modèle est effectué en minimisant cette fonction énergétique. Une approche apparentée consiste à construire un modèle global à partir de nombreux éléments de visages, et à le superposer à I'image en variantla
localisation des élémentsindividuels
(Bennett et Craw, 1991; Craw, Tock etBennett,
1992b;Cootes, et a1.,1993; Cootes, et e1.,1995).
L'approche iconographique (ou picturale) consiste à comparer des représentations en
pixels
d'élé-ments faciaux àI'image
en entrée. Ces représentations peuvent être des modèles des principaux traits faciaux, où la mesure de similarité est une corrélation entre I'image et des versions prétrai-tées deI'image (Baron,
1981;Burt,
1989;Bichsel, 1991;Beymer,1993; Brunelli,
et a1.,1993).Ces représentations peuvent également être stockées sous la forme de poids associés à des noeuds
d'un
réseau neuronal (Vincent, Waite et Myers, L99Z;Yaillant, C. et LeCun, L994).L utilisation
d'opérateursd'intérêt
d'intensités de bas niveaux, à I'inverse des approches précé-dentes, n'essaye pasd'isoler
un trait du visage selon son contenu sémantique (comme un oeil, un nez ou une bouche, par exemple). Les traits sont définis par la structure locale des niveaux de gris d'une région d'une image, extraite par la décomposition en fréquences de cette image(Azarbaye-jani, et
aI.,
1992; Manjunath , et a1.,1992; Reisfeld et Yeshurun, 1992; Graf , etal.,
1995).2.2.4.2.8 La
représentation en entréeLa représentation en entrée des visages peut être de deux types: une approche géométrique (mor-phométrique), qui tient compte de la configuration spatiale des traits du visages, ou une approche
Page 87
2.2 Contributions des sciences infunnariques
plus picturale,
qui
est basée surla
structure deI'image
même.De
nombreux travaux basés surl'approche
géométriqueont
été publiés (Kaya,et al.,
1972; Kanade, 1973:wong,
Hudson er Tsang, 1989; Chen et Huang, 1992; Craur, etal.,
L992a;Brunelli, et a1.,1993). Ces systèmes com-mencent par localiser des traits faciaux comme les coins des yeux et de la bouche, le contour du visage, du nez, etc.La
configuration spatiale de ces traits est ensuite enregistrée dans un vecteur de mesures appropriées (distances entre points spécifiques, des anglesou
des courbures). Ces mesures sont standardisées et pondérées selon une mesure de la variance del'échantillon (voir
le chapitre suivant).La
similarité entre deux visages est mesurée par une distance métrique entre les deux vecteurs décrivant les visages.L'approche picturale consiste à représenter les images en entrée en utilisant des
filtres
basés sur des images-modèles. Dans les systèmes basés sur des modèles, la forme de représentation pictu-rale la plus simple, les visages sont représentés comme des images du visages entier, ou comme des sous-régions d'éléments de visages, comme lesyeux, lenez,
etc. (Baron,1981;Burt,
1989;Bichsel,
1991;Brunelli,
etal.,
I993;Yang etGilbert,
1993). Les images-modèles ne proviennent pas nécessairement des imagesen
niveauxde gris;
certains systèmesutilisent le gradient
de magnitude oule
gradient de champs de vecteurs pour obtenir une indépendance aux conditions d'éclairage.Un
visage en entrée est ensuite reconnu par comparaison systématique aux modèles stockés, par une mesure de distance d'images ou une corrélation.Certains auteurs ont exploré les possibilités offertes par l'analyse en composantes principales à la
foispourreprésenteretpourconstruiredesvisages(Kirby, etaL,1990;
Turk,etal.,l99l;Aka-mastu, et
al.,
1992; Craw, etal.,
1992a; Dalla Serra et Brunelli, lgg2).
On peut apparenter cette approche à I'approche picturale, dans la mesure où elle réduit les dimensions du nombre de pixels deI'image
au nombre de"eigenfaces" utilisés dans la représentation. L'espace'visage'est
cons-truit
àpartir d'un
ensemble de visages, et les mesures de distances sont effectuées sur les projec-tions des visages dans cet espace (voir la section 2.2.3.4.5).2.2.4.2.9
Lavariabilité
des conditions de prise de vueLes problèmes
principaux
posés parla
reconnaissance automatique des visages sontla
grandevariabilité
des expressions, des poses, ou des conditions d'éclairaged'un
visage.Les
systèmes existant ne permettent pas une grandeflexibilité
de ces paramètres. Certains systèmes tentent de rendre une représentation plus robuste en filtrant une partie deI'information
présente, ou en stan-dardisant les images.Filtrer l'image
avec un filtre Laplacien4l de bande passante permet de la ren-dre plus ou moins indépendante des conditions d'éclairage.En
assumant que les effets dûs aux41. Un filtre de bande passante ("bandpass") est un type de filtre qui laisse passer une bande de fréquences entre deux fréquences prédéfinies, et anête toutes les autres.
IL Reconnaissatxce et Perception des Visages
conditions d'éclairage se trouvent en basses fréquences, un
filtre
de bande passante préservera les textures des hautes fréquences en éliminant les effets dus à l'éclairage. D'autres transformations, comme I'autocorrélation42ou la
transformation de Fourier, diminuent les effets de poseou
de positionnement dansI'image
(Akamastu, eta|.,1992; Kurita,
Ostu et Sato, 1992). La localisation de deux éléments de visages, les yeux, suffit en gén&al pour standardiser la taille, les translations et rotations (dans le plan de I'image) du visage.La plupart
des systèmesde
reconnaissancene
sont pas conçuspour traiter les
changements d'expression ou de rotation hors du plan de I'image.L'utilisation
de représentations invariantes, comme celles décrites ci-dessus,réduit la
problématique de reconnaissance des visagesà
une situationrigide
bidimensionnelle. Certains systèmes emploient cependant des vues multiples ou des stratégiesde
modèlesflexibles pour
essayer d'appréhenderles
variations induitespar
les expressions ou les rotations hors du plan de I'image (Akamastu, et a1.,1992;Kurita,
et a1.,1992;Manjunath, et a1.,1992). Beymer (Beymer, 1993) propose un système de reconnaissance de visa-ges indépendant de I'angle de pose (rotation hors plan), basé sur des modèles de poses multiples.
2.2.4.3 La
reconnaissance des expressions facialespar ordinateur
La plupart
des travaux surla
reconnaissance des expressions faciales se basent surle
système EACS("Facial Action
Coding System") développé par Ekman et Friesen (1978), pour permettrede
coderles
expressionsà partir de
mouvementsfaciaux
visibles43. Plusieurs laboratoires de recherche surla vision
par ordinateur se sont intéressés ces dernières années au problème de Ia reconnaissance automatique des expressions(Mase, I99I;
Pentland, Moghaddamet
Starner,I994;Yacoob et Davis,1994; Black etYacoob, 1995; Essa et Pentland,I995;Vanger, Hônlinger et Haken, 1995; Yacoob, Lam et Davis, 1995). En effet, le pouvoir de communication du visage
via
ses expression, se révèle comme un problème important en vision par ordinateur. Le FACS réper-torie I'ensemble des mouvements faciaux discernables.
Il
est basé sur l'énumération de toutes les unités d'actions("Action
(Jnits" ou AUs) qui provoquent un mouvement facial.Il
existe un totalde 46 AUs pour décrire
l'ensemble des changements d'expressions faciales.La
diversité des expressions faciales peut être approximée par les différentes combinaisons possibles de ces unités42. L'autocorrélation est la corrélation d'une série avec elle-même, translatée à gauche ou à droite d'un
cer-tain nombre de places. Cette méthode est utilisée pour trouver des motifs répétés (texture) dans une image, par exemple.
43. Il existe une autre approche pour mesurer les expressions faciales: l'électromyographie (EMG). Des élec-trodes de surface sont placées sur différentes régions du visage pour mesurer à travers la peau les déchar-ges électriques lors de contractions musculaires (différences de potentiel). L'EMG est une méthode d'enregistrement directe, qui ne nécessite pas d'apprentissage (comme le FACS), mais elle est très sensi-ble aux moindres contractions musculaires (même invisibles), elle est encombrante (et douloureuse) dans son application. Les nombreuses électrodes font prendre conscience au sujet de ses moindres mouve-ments. Un autre inconvénient est que les électrodes sont spécifiques à une région et non à un muscle (comme I'est le FACS). En conséquence, il n'est pas certain que cette approche permette une différentia-tion aussi fine que celle du FACS (Ekman,1992; Ekman, 1995).
Page 89
2.2 Contributions des sciences informatiques
d'actions. Le
problèmede la
reconnaissance automatique des expressionsfaciales peut
être abordé selon deux approches opposées: la première procède à une catégorisationd'un
ensemble de mouvements faciaux prédéterminés, commele
FACS. Cet ensemble ressemble àun
diction-naire des mouvements faciaux possibles, avec leurs émotions associées (Mase,1991;yacoob
etDavis,
1994). Cette approcheutilise
très peud'information
sur la forme du visage;elle
se repose davantage sur les propriétés statistiques du flux optique (mouvements) dans certaines régions pré-définies du visage (Black et Yacoob, 1995). L'autre approche utilise des modèles basés sur la phy-sionomie de la tête et les propriétés physiques de ses déplacements (peau et muscles inclus). Les mouvements faciaux observés au cours d'expressions sont quantifiés objectivement par I'utilisa-tion de techniques développées en vision par ordinateur (Essa et Pentland,1994; Essa et pentland,199s).
Black
et Yacoob (1995) présentent un système de reconnaissance d'expressions faciales basé sur un modèle des mouvements rigides et non-rigides du visag e44, gràce à une série de modèles para-métriques pour certaines régions localisées. Les régions modélisées sont les sourcils, les yeux et la bouche. Un ensemble de règles permet la reconnaissance de cequ'ils
qualifient des'six
expres-sions faciales universelles' (la suqprise, la tristesse, la peur, la colère, le bonheur et le dégoût). Les taux de reconnaissances publiés sont supérieurs à90Vo pour une centaine de séquences vidéo ana-lysées(en
laboratoire,et
dans des conditions 'naturelles').La
reconnaissance sefait en
deux temps. Premièrement, le déplacement dans le plan du visage entre deux images est estimé grâce àune série de transformations affines, représentées par une série d'équations polynomiales, qui décrivent les mouvements (transformations) rigides. Les mouvements non-rigides sont détectés grâce à
I'utilisation
de modèles déformables ("deformable templafes",(voir le
point2.2.4.I.6),
qui codentI'information
de forme, mais pas de mouvement. Les paramètres de déformation et de déplacement peuvent ensuiteservir à
décrire des actions faciales de moyen-niveau, comme le déplacementd'un
élément de visage ('courbure dela
bouche versle haut',
par exemple)ou
le déplacement de la tête ('déplacement de la tête vers la gauche', par exemple).La
représentation des actions faciales de haut-niveau, comme la reconnaissance des expressions, résulte de l'analyse de la séquence temporelle des actions de moyen-niveau, selon un ensemble de règles declassifica-tion
des expressions. Chaque expression est composée detrois
segments temporels et de règles précises pour les détecter:un
'début', un'pic'
("apex") et une 'fin'45. Le modèledu 'sourire',
par exemple, est décrit comme suit:44. Un mouvement, ou une transformation rigide est le changement de taille de la tête à la suite d'un zoom par exemple. Une transformation non-rigide est la déformation de la bouche lors d'un sourire par exem-ple.
45. Les études d'EMG ont montré que les expressions (actions) faciales se déroulent en trois temps: applica-tion, relachement et relaxation. ou selon Ekman'. "onset" - "opex" - "offset". La séquence qualitative de ces trois temps permet précisement de faire la différence entre une 'émotion vraie' et une 'émotion feinte'.
IL Reconnaissance et Perceptiort des Visages
Mouvement vers
le
haut et versl'extérieur
des coins de la bouche (courbure négative de la bou-che). Les étirements horizontaux et verticaux divergent et créent une déformation, et finalement une translation globale verticale est provoquée par le soulèvement des lèvres inférieures et supé-rieures en réaction à l'étirement.La
séquence inverse est observée à lafin
de l'expression.Le
problèmeprincipal
de cette appro-che, est la description et la caractérisation d'une expression àI'aide
d'un répertoire d'actions dis-crètes(comme
ci-dessus,ou
comme lesAUs du FACS, par
exemple).La description de la
dynamiqued'une
expression,plutôt
que de ses déformations spatiales, semble plus importante dansla
reconnaissance des émotions(voir
les signes rapides d'Ekman décrit aupoint 2.I.7 àla
page 47).
Une autre approche consiste à modéliser
la
géométrie du visage humainet
sa musculature. En combinant une modélisation physique en 3D du visage avec des mesures enregistrées deflux
opti-que d'images de visage en mouvement,il
a été possible de mesurer (plutôt d'estimer) desactiva-tions
musculaires ("muscleacutation") du
visage (Essa,et al.,
L994). Des mesures d'actions musculaires ont été effectuées sur de nombreuxindividus
manifestant une variété d'expressions différentes, et, pour chaque expression,il
a été possible de déterminer unmotif
d'actions muscu-laires typique.Ainsi,
àpartir
d'une nouvelle séquence d'images d'une expression,il
est possible de mesurer leflux
optique facial, estimer les actions musculaires et de classer (en termes de pro-babilités) l'expression parsimilarité
à des motifs d'actions musculaires typiques. Une extension de cette approche fut de compiler les descriptions détaillées d'actions musculaires du modèle phy-sique enun
ensemblede
'détecteurs d'énergie de mouvement'("motion
energy detectors"), et d'associer à chaque expression unmotif
d'énergie de mouvement (ou de déformation) quilui
est propre. Ceci résulte en des 'détecteurs d'expressions',qui
correspondent à une séquencespatio-temporelle particulière de
déformations('d'énergies de mouvement')
associéeavec
chaque expression faciale.Ces représentations des mouvements faciaux sont plus précis (et objectifs) que ceux obtenus par FACS. Les
AUs du
FACS sont des activations musculaires localisées, alors quela
dynamique d'une expression faciale est rarement restreinte à une seule région. De plus,il n'y
a pas de compo-sante temporelle dans le FACS (ou seulement de nature heuristique), alors que la dynamique des mouvements faciaux n'est pas linéaire dans le temps.Ces méthodes ont été testées sur une base de données de 52 séquences vidéo d'expressions
diffé-rentes (correspondant à8 individus
simulant 5 expressions différentes: sourire, surprise, colère, dégoût, haussement de sourcils). Deux sujets sont choisis au hasard pour chaque expression, et composent le vecteur moyen d'action musculaire de la première approche, ou le modèle d'énergiePage
9l
2.2 Contributions des sciences infurruatiques