L’un des aspects les plus importants du développement de tout nouveau système de
reconnaissance ou de détection d’expression faciale est le choix de la base de données qui
sera utilisée pour tester ce nouveau système. De plus, des bases de données communes
sont nécessaires pour évaluer les algorithmes de manière comparative. Dans cette section,
nous allons présenter quelques bases de données d’expressions faciales populaires qui sont
publiquement et librement disponibles. D’autres bases de données sont disponibles et leur
couverture n’est pas faite ici. Ainsi, nous nous intéressons qu’aux bases de données qui ont
été utilisées pour évaluer les travaux de cette dissertation.
Les bases de données disponibles peuvent être classées en deux catégories, comme il sera
mentionné dans la section suivante 2.4 : les bases d’expressions faciales spontanées et les
bases d’expressions faciales posées.
2.3.1 Cohn-Kanade (CK) et son extension Cohn-Kanade (CK+)
La base de données CK [101] est très populaire et a été largement utilisée par la
commu-nauté de reconnaissance d’expressions faciales. La base CK contient 97 étudiants
universi-taires âgés de 18 à 30 ans. Ces sujets sont constitués de 69% de femmes, 31% d’hommes, 81%
d’euro-Américains, 13% d’afro-américains et 6% d’asiatiques et de latinos. Les sujets ont été
instruits par un expérimentateur pour effectuer une série de 23 expressions comprenant des
unités d’action unique (par ex. AU12, i.e. coins de lèvre tirés obliquement) et des
combinai-sons d’unités d’action (par ex. AU1 + AU2, i.e. sourcils intérieurs et extérieurs levés). Avant
d’effectuer chaque expression, un expérimentateur a décrit et modélisé l’expression
souhai-tée. Alors, six de ces expressions étaient basées sur des descriptions d’émotions basiques
(joie, surprise, colère, peur, dégoût et tristesse). Les séquences d’images ainsi présentées
commencent par l’expression neutre et se terminent par le pic de l’expression demandée. Par
ailleurs, la dernière image de la séquence est toujours codée par des experts. Ces images
ont été numérisées en résolution de 640×490 pixels avec une précision de 8 bits pour les
niveaux de gris. A noter, l’orientation de la caméra est frontale et les petits mouvements de
la tête sont présents.
Plus tard, la base de données CK a été étendue à la base de données Cohn-Kanade étendue
(CK+) [132]. L’ensemble de données a été augmenté de 107 séquences et 26 sujets. Ceci
donne au total 593 séquences de 123 sujets. Parmi ces 593 séquences vidéo, seulement 327
séquences (118 sujets) ont des étiquettes d’émotions validées et classées en sept expressions
faciales de base (joie, tristesse, surprise, colère, peur, dégoût et mépris). Les séquences
d’images sont organisées de la même manière que les séquences de la base CK, chaque
vidéo commence par un visage neutre, puis progressivement se développe dans l’une des
sept expressions faciales. La figure 2.1 présente des sujets appartenant aux deux versions de
la base CK simulant les six émotions.
FIGURE2.1 Exemples d’images extraites de la base CK/CK+. De gauche à droite : Neutralité,
2.3.2 Karolinska Directed Emotional Faces (KDEF)
La base de données KDEF [134] a été initialement développée pour la recherche en
neurosciences. Cependant, elle a depuis été utilisée dans le domaine de la vision par ordinateur
en raison de son applicabilité. La base KDEF contient 4900 images prises à partir de 70
personnes (35 hommes et 35 femmes), leur âge allant de 20 à 30 ans. Chaque individu affiche
7 expressions (colère, dégoût, peur, joie, neutralité, tristesse, surprise), qui sont capturées
deux fois à partir de 5 angles différents (-90, -45, 0, +45, +90 degrés) et enregistrées au
format JPEG avec une résolution de 562×762 pixels (Figure 2.2).
Les auteurs de cette base ont gardé un œil sur plusieurs questions importantes lors de
l’élaboration de la base de données. L’environnement (éclairage, arrière-plan, distance de la
caméra) a été maintenu constant tout au long du processus de capture et les sujets ont été
invités à retirer tous les accessoires (chapeaux, lunettes, poils du visage et maquillage).
FIGURE 2.2 Exemples d’images extraites de la base KDEF. De gauche à droite : Neutralité,
2.3.3 Japanese Female Facial Expression (JAFFE)
La base de données JAFFE [135] comprend 213 images d’expressions faciales de dix
femmes japonaises. Ces dernières ont simulé 3 à 4 exemples pour chacune des six émotions
de base, ainsi que l’émotion neutre. La résolution des images est de 256×256 pixels. La
figure 2.3 montre quelques exemples d’images de la base de données JAFFE. En outre,
des images statiques ont été capturées dans un environnement contrôlé. Les évaluations
sémantiques (vérité de terrain) des expressions ont été effectuées à partir d’expériences
psychologiques par 60 autres femmes japonaises. Selon le créateur de la base, Lyons [135],
une expression n’est jamais une pure expression mais un mélange d’émotions différentes.
Ainsi, une échelle de 5 niveaux a été utilisée pour évaluer chacune des images d’expression
(5 pour le haut niveau et 1 pour le bas niveau). Deux de ces évaluations ont été données, l’une
avec des images d’expression de peur et l’autre sans images d’expression de peur. Les images
d’expression sont étiquetées selon l’expression prédominante dans chacune des images.
FIGURE2.3 Exemples d’images extraites de la base JAFFE. De gauche à droite : Neutralité,
2.3.4 Oulu-CASIA
La base de données Oulu-CASIA [253] est composée de 80 sujets, âgés de 23 à 58
ans, avec six émotions de base (colère, dégoût, peur, joie, tristesse et surprise). 50 sujets
proviennent de l’université d’Oulu et les 30 autres de CASIA, dont 73.8% sont des hommes.
Chaque image a une résolution de 320×240 pixels. Les images ont été prises dans trois
conditions d’éclairage différentes : normale, faible et sombre. L’éclairage normal signifie
que les séquences d’images ont été prises dans des bonnes conditions d’éclairage.
L’éclai-rage faible signifie que seul l’écran de l’ordinateur était allumé et que le sujet était assis
devant l’ordinateur lors de l’enregistrement de l’expression faciale dynamique. L’éclairage
sombre signifie qu’aucune (ou presque) lumière n’était présente (proche de l’obscurité).
Les séquences vidéo contiennent des images allant de la phase neutre à la phase apex des
expressions faciales. Le nombre de séquences vidéo est de 480 pour chacune des conditions
d’éclairage. Des exemples d’images des six expressions de la base de données Oulu-CASIA
sont illustrés dans la figure 2.4.
FIGURE2.4 Exemples d’images extraites de la base Oulu-CASIA. De gauche à droite : Joie,
Tristesse, Surprise, Colère, Peur, Dégoût. De haut en bas : condition d’éclairage sombre,
normal, faible.
2.3.5 Facial Expressions and Emotion Database (FEED)
La base de données d’expressions faciales FEED [220] a été créée dans le cadre du projet
de l’Union européenne FG-NET (Face and Gesture Recognition Research Network). Elle
comprend 320 vidéos de 18 sujets exprimant les 6 émotions basiques (joie, surprise, peur,
colère, dégoût, tristesse) définies par Ekman et Friesen [57], ainsi que l’expression neutre.
L’ensemble des données présente des expressions naturelles (ou spontanées), qui ont été
suscitées en montrant aux sujets plusieurs stimulus, sous forme de vidéos, soigneusement
sélectionnés. Chaque sujet visualise trois vidéos pour chacune des émotions. Les réactions
des sujets sont alors enregistrées et labellisées suivant la vidéo stimulante. Par exemple,
pour une vidéo censée stimuler la joie, les expressions faciales du sujet sont enregistrées
et labellisées comme des expressions de joie. Ces expressions sont considérées comme
spontanées. Ceci est différent des bases de données comme CK/CK+[101, 132], où les
sujets ont été invités à effectuer des mouvements faciaux spécifiques. D’ailleurs, les sujets,
appartenant à la base d’images CK/CK+, montrent des séries d’expressions exagérées avec
des changements d’intensité progressifs. Alors que les expressions spontanées affichées dans
la base d’images FEED sont dépourvues de toute exagération et sont très lisses en termes de
changements d’intensité (voir Figure 2.5).
FIGURE2.5 Exemples d’images extraites de la base FEED. De gauche à droite : Neutralité,
Joie, Tristesse, Surprise, Colère, Peur, Dégoût.
2.3.6 Static Facial Expressions in the Wild (SFEW)
La base de données SFEW [47] contient des captures d’écran extraites des films (voir
les exemples de la figure 2.6). Cette base est différente des bases de données d’expression
faciale présentées précédemment et qui sont générées dans des environnements de laboratoire
hautement contrôlés. Cette base de données décrit les conditions du monde réel ou simulées
du monde réel pour la reconnaissance d’expression, en supposant que les films fournissent
des environnements «proches des environnements réels». La base de données est divisée en
trois ensembles. Chaque ensemble contient sept sous-dossiers correspondant à sept catégories
d’expression (colère, dégoût, peur, neutralité, joie, tristesse et surprise). Ces ensembles ont
été créés de manière strictement indépendante de la personne, de sorte qu’il n’y ait pas
de chevauchement entre les personnes appartenant à l’ensemble d’apprentissage et celles
appartenant à l’ensemble de test. La base SFEW comprend 891, 427 et 372 images couleur
pour les ensembles d’apprentissage, validation et test, respectivement.
FIGURE 2.6 Exemples d’images extraites de la base SFEW. De gauche à droite : Neutralité,
Joie, Tristesse, Surprise, Colère, Peur, Dégoût.
Dans le document
Reconnaissance d'états émotionnels par analyse visuelle du visage et apprentissage machine
(Page 59-65)