• Aucun résultat trouvé

2.2 Contributions des sciences informatiques

2.2.4 Systèmes de reconnaissance automattque .1 Les mesures doimages de visages (mémoire)

2.2.4.2 Détection des traits du visage

Le

premier problème posé par

la

détection des traits du visage consiste en la localisation de ses éléments importants comme les yeux,

le

nez,la bouche et son contour. On distingue trois appro-ches principales du problème. Une approche de modélisation paramétrique, une approche icono-graphique et une approche

d'utilisation

d'opérateurs d'intensités de niveaux de gris.

La

première approche consiste

à utiliser

des modèles déformables ("deformable

models",

ou

"flexible models",

voir

la section 2.2.4.1.6 à la page 83) d'éléments de visages, et à les superposer à I'image en entrée en minimisant une certaine fonction énergétique

(Hallinan,

1991; Shackleton, et

aI., l99L;Yuille,

1991; Huang et Chen, 1992;Yuille, et a1.,1992). Ces modèles sont construits à

partir

d'ensembles de courbes paramétrées définissant le contour d'une sous-région

d'un

élément (comme

I'iris

ou une lèvre, par exemple). La fonction énergétique est définie à partir de versions prétraitées d'éléments d'images (des pics, des vallées ou des bords), et I'ajustement du modèle est effectué en minimisant cette fonction énergétique. Une approche apparentée consiste à construire un modèle global à partir de nombreux éléments de visages, et à le superposer à I'image en variant

la

localisation des éléments

individuels

(Bennett et Craw, 1991; Craw, Tock et

Bennett,

1992b;

Cootes, et a1.,1993; Cootes, et e1.,1995).

L'approche iconographique (ou picturale) consiste à comparer des représentations en

pixels

d'élé-ments faciaux à

I'image

en entrée. Ces représentations peuvent être des modèles des principaux traits faciaux, où la mesure de similarité est une corrélation entre I'image et des versions prétrai-tées de

I'image (Baron,

1981;

Burt,

1989;

Bichsel, 1991;Beymer,1993; Brunelli,

et a1.,1993).

Ces représentations peuvent également être stockées sous la forme de poids associés à des noeuds

d'un

réseau neuronal (Vincent, Waite et Myers, L99Z;Yaillant, C. et LeCun, L994).

L utilisation

d'opérateurs

d'intérêt

d'intensités de bas niveaux, à I'inverse des approches précé-dentes, n'essaye pas

d'isoler

un trait du visage selon son contenu sémantique (comme un oeil, un nez ou une bouche, par exemple). Les traits sont définis par la structure locale des niveaux de gris d'une région d'une image, extraite par la décomposition en fréquences de cette image

(Azarbaye-jani, et

aI.,

1992; Manjunath , et a1.,1992; Reisfeld et Yeshurun, 1992; Graf , et

al.,

1995).

2.2.4.2.8 La

représentation en entrée

La représentation en entrée des visages peut être de deux types: une approche géométrique (mor-phométrique), qui tient compte de la configuration spatiale des traits du visages, ou une approche

Page 87

2.2 Contributions des sciences infunnariques

plus picturale,

qui

est basée sur

la

structure de

I'image

même.

De

nombreux travaux basés sur

l'approche

géométrique

ont

été publiés (Kaya,

et al.,

1972; Kanade, 1973:

wong,

Hudson er Tsang, 1989; Chen et Huang, 1992; Craur, et

al.,

L992a;Brunelli, et a1.,1993). Ces systèmes com-mencent par localiser des traits faciaux comme les coins des yeux et de la bouche, le contour du visage, du nez, etc.

La

configuration spatiale de ces traits est ensuite enregistrée dans un vecteur de mesures appropriées (distances entre points spécifiques, des angles

ou

des courbures). Ces mesures sont standardisées et pondérées selon une mesure de la variance de

l'échantillon (voir

le chapitre suivant).

La

similarité entre deux visages est mesurée par une distance métrique entre les deux vecteurs décrivant les visages.

L'approche picturale consiste à représenter les images en entrée en utilisant des

filtres

basés sur des images-modèles. Dans les systèmes basés sur des modèles, la forme de représentation pictu-rale la plus simple, les visages sont représentés comme des images du visages entier, ou comme des sous-régions d'éléments de visages, comme les

yeux, lenez,

etc. (Baron,

1981;Burt,

1989;

Bichsel,

1991;

Brunelli,

et

al.,

I993;Yang et

Gilbert,

1993). Les images-modèles ne proviennent pas nécessairement des images

en

niveaux

de gris;

certains systèmes

utilisent le gradient

de magnitude ou

le

gradient de champs de vecteurs pour obtenir une indépendance aux conditions d'éclairage.

Un

visage en entrée est ensuite reconnu par comparaison systématique aux modèles stockés, par une mesure de distance d'images ou une corrélation.

Certains auteurs ont exploré les possibilités offertes par l'analyse en composantes principales à la

foispourreprésenteretpourconstruiredesvisages(Kirby, etaL,1990;

Turk,etal.,l99l;Aka-mastu, et

al.,

1992; Craw, et

al.,

1992a; Dalla Serra et Brunelli

, lgg2).

On peut apparenter cette approche à I'approche picturale, dans la mesure où elle réduit les dimensions du nombre de pixels de

I'image

au nombre de"eigenfaces" utilisés dans la représentation. L'espace

'visage'est

cons-truit

à

partir d'un

ensemble de visages, et les mesures de distances sont effectuées sur les projec-tions des visages dans cet espace (voir la section 2.2.3.4.5).

2.2.4.2.9

La

variabilité

des conditions de prise de vue

Les problèmes

principaux

posés par

la

reconnaissance automatique des visages sont

la

grande

variabilité

des expressions, des poses, ou des conditions d'éclairage

d'un

visage.

Les

systèmes existant ne permettent pas une grande

flexibilité

de ces paramètres. Certains systèmes tentent de rendre une représentation plus robuste en filtrant une partie de

I'information

présente, ou en stan-dardisant les images.

Filtrer l'image

avec un filtre Laplacien4l de bande passante permet de la ren-dre plus ou moins indépendante des conditions d'éclairage.

En

assumant que les effets dûs aux

41. Un filtre de bande passante ("bandpass") est un type de filtre qui laisse passer une bande de fréquences entre deux fréquences prédéfinies, et anête toutes les autres.

IL Reconnaissatxce et Perception des Visages

conditions d'éclairage se trouvent en basses fréquences, un

filtre

de bande passante préservera les textures des hautes fréquences en éliminant les effets dus à l'éclairage. D'autres transformations, comme I'autocorrélation42

ou la

transformation de Fourier, diminuent les effets de pose

ou

de positionnement dans

I'image

(Akamastu, et

a|.,1992; Kurita,

Ostu et Sato, 1992). La localisation de deux éléments de visages, les yeux, suffit en gén&al pour standardiser la taille, les translations et rotations (dans le plan de I'image) du visage.

La plupart

des systèmes

de

reconnaissance

ne

sont pas conçus

pour traiter les

changements d'expression ou de rotation hors du plan de I'image.

L'utilisation

de représentations invariantes, comme celles décrites ci-dessus,

réduit la

problématique de reconnaissance des visages

à

une situation

rigide

bidimensionnelle. Certains systèmes emploient cependant des vues multiples ou des stratégies

de

modèles

flexibles pour

essayer d'appréhender

les

variations induites

par

les expressions ou les rotations hors du plan de I'image (Akamastu, et a1.,1992;

Kurita,

et a1.,1992;

Manjunath, et a1.,1992). Beymer (Beymer, 1993) propose un système de reconnaissance de visa-ges indépendant de I'angle de pose (rotation hors plan), basé sur des modèles de poses multiples.

2.2.4.3 La

reconnaissance des expressions faciales

par ordinateur

La plupart

des travaux sur

la

reconnaissance des expressions faciales se basent sur

le

système EACS

("Facial Action

Coding System") développé par Ekman et Friesen (1978), pour permettre

de

coder

les

expressions

à partir de

mouvements

faciaux

visibles43. Plusieurs laboratoires de recherche sur

la vision

par ordinateur se sont intéressés ces dernières années au problème de Ia reconnaissance automatique des expressions

(Mase, I99I;

Pentland, Moghaddam

et

Starner,

I994;Yacoob et Davis,1994; Black etYacoob, 1995; Essa et Pentland,I995;Vanger, Hônlinger et Haken, 1995; Yacoob, Lam et Davis, 1995). En effet, le pouvoir de communication du visage

via

ses expression, se révèle comme un problème important en vision par ordinateur. Le FACS réper-torie I'ensemble des mouvements faciaux discernables.

Il

est basé sur l'énumération de toutes les unités d'actions

("Action

(Jnits" ou AUs) qui provoquent un mouvement facial.

Il

existe un total

de 46 AUs pour décrire

l'ensemble des changements d'expressions faciales.

La

diversité des expressions faciales peut être approximée par les différentes combinaisons possibles de ces unités

42. L'autocorrélation est la corrélation d'une série avec elle-même, translatée à gauche ou à droite d'un

cer-tain nombre de places. Cette méthode est utilisée pour trouver des motifs répétés (texture) dans une image, par exemple.

43. Il existe une autre approche pour mesurer les expressions faciales: l'électromyographie (EMG). Des élec-trodes de surface sont placées sur différentes régions du visage pour mesurer à travers la peau les déchar-ges électriques lors de contractions musculaires (différences de potentiel). L'EMG est une méthode d'enregistrement directe, qui ne nécessite pas d'apprentissage (comme le FACS), mais elle est très sensi-ble aux moindres contractions musculaires (même invisibles), elle est encombrante (et douloureuse) dans son application. Les nombreuses électrodes font prendre conscience au sujet de ses moindres mouve-ments. Un autre inconvénient est que les électrodes sont spécifiques à une région et non à un muscle (comme I'est le FACS). En conséquence, il n'est pas certain que cette approche permette une différentia-tion aussi fine que celle du FACS (Ekman,1992; Ekman, 1995).

Page 89

2.2 Contributions des sciences informatiques

d'actions. Le

problème

de la

reconnaissance automatique des expressions

faciales peut

être abordé selon deux approches opposées: la première procède à une catégorisation

d'un

ensemble de mouvements faciaux prédéterminés, comme

le

FACS. Cet ensemble ressemble à

un

diction-naire des mouvements faciaux possibles, avec leurs émotions associées (Mase,

1991;yacoob

et

Davis,

1994). Cette approche

utilise

très peu

d'information

sur la forme du visage;

elle

se repose davantage sur les propriétés statistiques du flux optique (mouvements) dans certaines régions pré-définies du visage (Black et Yacoob, 1995). L'autre approche utilise des modèles basés sur la phy-sionomie de la tête et les propriétés physiques de ses déplacements (peau et muscles inclus). Les mouvements faciaux observés au cours d'expressions sont quantifiés objectivement par

I'utilisa-tion de techniques développées en vision par ordinateur (Essa et Pentland,1994; Essa et pentland,

199s).

Black

et Yacoob (1995) présentent un système de reconnaissance d'expressions faciales basé sur un modèle des mouvements rigides et non-rigides du visag e44, gràce à une série de modèles para-métriques pour certaines régions localisées. Les régions modélisées sont les sourcils, les yeux et la bouche. Un ensemble de règles permet la reconnaissance de ce

qu'ils

qualifient des

'six

expres-sions faciales universelles' (la suqprise, la tristesse, la peur, la colère, le bonheur et le dégoût). Les taux de reconnaissances publiés sont supérieurs à90Vo pour une centaine de séquences vidéo ana-lysées

(en

laboratoire,

et

dans des conditions 'naturelles').

La

reconnaissance se

fait en

deux temps. Premièrement, le déplacement dans le plan du visage entre deux images est estimé grâce à

une série de transformations affines, représentées par une série d'équations polynomiales, qui décrivent les mouvements (transformations) rigides. Les mouvements non-rigides sont détectés grâce à

I'utilisation

de modèles déformables ("deformable templafes",

(voir le

point

2.2.4.I.6),

qui codent

I'information

de forme, mais pas de mouvement. Les paramètres de déformation et de déplacement peuvent ensuite

servir à

décrire des actions faciales de moyen-niveau, comme le déplacement

d'un

élément de visage ('courbure de

la

bouche vers

le haut',

par exemple)

ou

le déplacement de la tête ('déplacement de la tête vers la gauche', par exemple).

La

représentation des actions faciales de haut-niveau, comme la reconnaissance des expressions, résulte de l'analyse de la séquence temporelle des actions de moyen-niveau, selon un ensemble de règles de

classifica-tion

des expressions. Chaque expression est composée de

trois

segments temporels et de règles précises pour les détecter:

un

'début', un

'pic'

("apex") et une 'fin'45. Le modèle

du 'sourire',

par exemple, est décrit comme suit:

44. Un mouvement, ou une transformation rigide est le changement de taille de la tête à la suite d'un zoom par exemple. Une transformation non-rigide est la déformation de la bouche lors d'un sourire par exem-ple.

45. Les études d'EMG ont montré que les expressions (actions) faciales se déroulent en trois temps: applica-tion, relachement et relaxation. ou selon Ekman'. "onset" - "opex" - "offset". La séquence qualitative de ces trois temps permet précisement de faire la différence entre une 'émotion vraie' et une 'émotion feinte'.

IL Reconnaissance et Perceptiort des Visages

Mouvement vers

le

haut et vers

l'extérieur

des coins de la bouche (courbure négative de la bou-che). Les étirements horizontaux et verticaux divergent et créent une déformation, et finalement une translation globale verticale est provoquée par le soulèvement des lèvres inférieures et supé-rieures en réaction à l'étirement.

La

séquence inverse est observée à la

fin

de l'expression.

Le

problème

principal

de cette appro-che, est la description et la caractérisation d'une expression à

I'aide

d'un répertoire d'actions dis-crètes

(comme

ci-dessus,

ou

comme les

AUs du FACS, par

exemple).

La description de la

dynamique

d'une

expression,

plutôt

que de ses déformations spatiales, semble plus importante dans

la

reconnaissance des émotions

(voir

les signes rapides d'Ekman décrit au

point 2.I.7 àla

page 47).

Une autre approche consiste à modéliser

la

géométrie du visage humain

et

sa musculature. En combinant une modélisation physique en 3D du visage avec des mesures enregistrées de

flux

opti-que d'images de visage en mouvement,

il

a été possible de mesurer (plutôt d'estimer) des

activa-tions

musculaires ("muscle

acutation") du

visage (Essa,

et al.,

L994). Des mesures d'actions musculaires ont été effectuées sur de nombreux

individus

manifestant une variété d'expressions différentes, et, pour chaque expression,

il

a été possible de déterminer un

motif

d'actions muscu-laires typique.

Ainsi,

à

partir

d'une nouvelle séquence d'images d'une expression,

il

est possible de mesurer le

flux

optique facial, estimer les actions musculaires et de classer (en termes de pro-babilités) l'expression par

similarité

à des motifs d'actions musculaires typiques. Une extension de cette approche fut de compiler les descriptions détaillées d'actions musculaires du modèle phy-sique en

un

ensemble

de

'détecteurs d'énergie de mouvement'

("motion

energy detectors"), et d'associer à chaque expression un

motif

d'énergie de mouvement (ou de déformation) qui

lui

est propre. Ceci résulte en des 'détecteurs d'expressions',

qui

correspondent à une séquence

spatio-temporelle particulière de

déformations

('d'énergies de mouvement')

associée

avec

chaque expression faciale.

Ces représentations des mouvements faciaux sont plus précis (et objectifs) que ceux obtenus par FACS. Les

AUs du

FACS sont des activations musculaires localisées, alors que

la

dynamique d'une expression faciale est rarement restreinte à une seule région. De plus,

il n'y

a pas de compo-sante temporelle dans le FACS (ou seulement de nature heuristique), alors que la dynamique des mouvements faciaux n'est pas linéaire dans le temps.

Ces méthodes ont été testées sur une base de données de 52 séquences vidéo d'expressions

diffé-rentes (correspondant à

8 individus

simulant 5 expressions différentes: sourire, surprise, colère, dégoût, haussement de sourcils). Deux sujets sont choisis au hasard pour chaque expression, et composent le vecteur moyen d'action musculaire de la première approche, ou le modèle d'énergie

Page

9l

2.2 Contributions des sciences infurruatiques

de

mouvement

de la

seconde approche. Ensuite,

les 52

séquences sont testées

pour les

deux approches. Sans entrer dans les détails des résultats, les taux de reconnaissance observés sont de

I'ordre

de98Vo

pourles

deux approches.

Outline

Documents relatifs