• Aucun résultat trouvé

L’un des aspects les plus importants du développement de tout nouveau système de

reconnaissance ou de détection d’expression faciale est le choix de la base de données qui

sera utilisée pour tester ce nouveau système. De plus, des bases de données communes

sont nécessaires pour évaluer les algorithmes de manière comparative. Dans cette section,

nous allons présenter quelques bases de données d’expressions faciales populaires qui sont

publiquement et librement disponibles. D’autres bases de données sont disponibles et leur

couverture n’est pas faite ici. Ainsi, nous nous intéressons qu’aux bases de données qui ont

été utilisées pour évaluer les travaux de cette dissertation.

Les bases de données disponibles peuvent être classées en deux catégories, comme il sera

mentionné dans la section suivante 2.4 : les bases d’expressions faciales spontanées et les

bases d’expressions faciales posées.

2.3.1 Cohn-Kanade (CK) et son extension Cohn-Kanade (CK+)

La base de données CK [101] est très populaire et a été largement utilisée par la

commu-nauté de reconnaissance d’expressions faciales. La base CK contient 97 étudiants

universi-taires âgés de 18 à 30 ans. Ces sujets sont constitués de 69% de femmes, 31% d’hommes, 81%

d’euro-Américains, 13% d’afro-américains et 6% d’asiatiques et de latinos. Les sujets ont été

instruits par un expérimentateur pour effectuer une série de 23 expressions comprenant des

unités d’action unique (par ex. AU12, i.e. coins de lèvre tirés obliquement) et des

combinai-sons d’unités d’action (par ex. AU1 + AU2, i.e. sourcils intérieurs et extérieurs levés). Avant

d’effectuer chaque expression, un expérimentateur a décrit et modélisé l’expression

souhai-tée. Alors, six de ces expressions étaient basées sur des descriptions d’émotions basiques

(joie, surprise, colère, peur, dégoût et tristesse). Les séquences d’images ainsi présentées

commencent par l’expression neutre et se terminent par le pic de l’expression demandée. Par

ailleurs, la dernière image de la séquence est toujours codée par des experts. Ces images

ont été numérisées en résolution de 640×490 pixels avec une précision de 8 bits pour les

niveaux de gris. A noter, l’orientation de la caméra est frontale et les petits mouvements de

la tête sont présents.

Plus tard, la base de données CK a été étendue à la base de données Cohn-Kanade étendue

(CK+) [132]. L’ensemble de données a été augmenté de 107 séquences et 26 sujets. Ceci

donne au total 593 séquences de 123 sujets. Parmi ces 593 séquences vidéo, seulement 327

séquences (118 sujets) ont des étiquettes d’émotions validées et classées en sept expressions

faciales de base (joie, tristesse, surprise, colère, peur, dégoût et mépris). Les séquences

d’images sont organisées de la même manière que les séquences de la base CK, chaque

vidéo commence par un visage neutre, puis progressivement se développe dans l’une des

sept expressions faciales. La figure 2.1 présente des sujets appartenant aux deux versions de

la base CK simulant les six émotions.

FIGURE2.1 Exemples d’images extraites de la base CK/CK+. De gauche à droite : Neutralité,

2.3.2 Karolinska Directed Emotional Faces (KDEF)

La base de données KDEF [134] a été initialement développée pour la recherche en

neurosciences. Cependant, elle a depuis été utilisée dans le domaine de la vision par ordinateur

en raison de son applicabilité. La base KDEF contient 4900 images prises à partir de 70

personnes (35 hommes et 35 femmes), leur âge allant de 20 à 30 ans. Chaque individu affiche

7 expressions (colère, dégoût, peur, joie, neutralité, tristesse, surprise), qui sont capturées

deux fois à partir de 5 angles différents (-90, -45, 0, +45, +90 degrés) et enregistrées au

format JPEG avec une résolution de 562×762 pixels (Figure 2.2).

Les auteurs de cette base ont gardé un œil sur plusieurs questions importantes lors de

l’élaboration de la base de données. L’environnement (éclairage, arrière-plan, distance de la

caméra) a été maintenu constant tout au long du processus de capture et les sujets ont été

invités à retirer tous les accessoires (chapeaux, lunettes, poils du visage et maquillage).

FIGURE 2.2 Exemples d’images extraites de la base KDEF. De gauche à droite : Neutralité,

2.3.3 Japanese Female Facial Expression (JAFFE)

La base de données JAFFE [135] comprend 213 images d’expressions faciales de dix

femmes japonaises. Ces dernières ont simulé 3 à 4 exemples pour chacune des six émotions

de base, ainsi que l’émotion neutre. La résolution des images est de 256×256 pixels. La

figure 2.3 montre quelques exemples d’images de la base de données JAFFE. En outre,

des images statiques ont été capturées dans un environnement contrôlé. Les évaluations

sémantiques (vérité de terrain) des expressions ont été effectuées à partir d’expériences

psychologiques par 60 autres femmes japonaises. Selon le créateur de la base, Lyons [135],

une expression n’est jamais une pure expression mais un mélange d’émotions différentes.

Ainsi, une échelle de 5 niveaux a été utilisée pour évaluer chacune des images d’expression

(5 pour le haut niveau et 1 pour le bas niveau). Deux de ces évaluations ont été données, l’une

avec des images d’expression de peur et l’autre sans images d’expression de peur. Les images

d’expression sont étiquetées selon l’expression prédominante dans chacune des images.

FIGURE2.3 Exemples d’images extraites de la base JAFFE. De gauche à droite : Neutralité,

2.3.4 Oulu-CASIA

La base de données Oulu-CASIA [253] est composée de 80 sujets, âgés de 23 à 58

ans, avec six émotions de base (colère, dégoût, peur, joie, tristesse et surprise). 50 sujets

proviennent de l’université d’Oulu et les 30 autres de CASIA, dont 73.8% sont des hommes.

Chaque image a une résolution de 320×240 pixels. Les images ont été prises dans trois

conditions d’éclairage différentes : normale, faible et sombre. L’éclairage normal signifie

que les séquences d’images ont été prises dans des bonnes conditions d’éclairage.

L’éclai-rage faible signifie que seul l’écran de l’ordinateur était allumé et que le sujet était assis

devant l’ordinateur lors de l’enregistrement de l’expression faciale dynamique. L’éclairage

sombre signifie qu’aucune (ou presque) lumière n’était présente (proche de l’obscurité).

Les séquences vidéo contiennent des images allant de la phase neutre à la phase apex des

expressions faciales. Le nombre de séquences vidéo est de 480 pour chacune des conditions

d’éclairage. Des exemples d’images des six expressions de la base de données Oulu-CASIA

sont illustrés dans la figure 2.4.

FIGURE2.4 Exemples d’images extraites de la base Oulu-CASIA. De gauche à droite : Joie,

Tristesse, Surprise, Colère, Peur, Dégoût. De haut en bas : condition d’éclairage sombre,

normal, faible.

2.3.5 Facial Expressions and Emotion Database (FEED)

La base de données d’expressions faciales FEED [220] a été créée dans le cadre du projet

de l’Union européenne FG-NET (Face and Gesture Recognition Research Network). Elle

comprend 320 vidéos de 18 sujets exprimant les 6 émotions basiques (joie, surprise, peur,

colère, dégoût, tristesse) définies par Ekman et Friesen [57], ainsi que l’expression neutre.

L’ensemble des données présente des expressions naturelles (ou spontanées), qui ont été

suscitées en montrant aux sujets plusieurs stimulus, sous forme de vidéos, soigneusement

sélectionnés. Chaque sujet visualise trois vidéos pour chacune des émotions. Les réactions

des sujets sont alors enregistrées et labellisées suivant la vidéo stimulante. Par exemple,

pour une vidéo censée stimuler la joie, les expressions faciales du sujet sont enregistrées

et labellisées comme des expressions de joie. Ces expressions sont considérées comme

spontanées. Ceci est différent des bases de données comme CK/CK+[101, 132], où les

sujets ont été invités à effectuer des mouvements faciaux spécifiques. D’ailleurs, les sujets,

appartenant à la base d’images CK/CK+, montrent des séries d’expressions exagérées avec

des changements d’intensité progressifs. Alors que les expressions spontanées affichées dans

la base d’images FEED sont dépourvues de toute exagération et sont très lisses en termes de

changements d’intensité (voir Figure 2.5).

FIGURE2.5 Exemples d’images extraites de la base FEED. De gauche à droite : Neutralité,

Joie, Tristesse, Surprise, Colère, Peur, Dégoût.

2.3.6 Static Facial Expressions in the Wild (SFEW)

La base de données SFEW [47] contient des captures d’écran extraites des films (voir

les exemples de la figure 2.6). Cette base est différente des bases de données d’expression

faciale présentées précédemment et qui sont générées dans des environnements de laboratoire

hautement contrôlés. Cette base de données décrit les conditions du monde réel ou simulées

du monde réel pour la reconnaissance d’expression, en supposant que les films fournissent

des environnements «proches des environnements réels». La base de données est divisée en

trois ensembles. Chaque ensemble contient sept sous-dossiers correspondant à sept catégories

d’expression (colère, dégoût, peur, neutralité, joie, tristesse et surprise). Ces ensembles ont

été créés de manière strictement indépendante de la personne, de sorte qu’il n’y ait pas

de chevauchement entre les personnes appartenant à l’ensemble d’apprentissage et celles

appartenant à l’ensemble de test. La base SFEW comprend 891, 427 et 372 images couleur

pour les ensembles d’apprentissage, validation et test, respectivement.

FIGURE 2.6 Exemples d’images extraites de la base SFEW. De gauche à droite : Neutralité,

Joie, Tristesse, Surprise, Colère, Peur, Dégoût.