3.8 Expérimentations
3.8.4 Expériences de comparaison de SVM vs RF et LBP/LTP vs LBP u /LTP u 87
Dans cette section, quant à la tâche de reconnaissance des expressions faciales, deux
techniques d’apprentissage automatique sont examinées (voir Table 3.20). La première est la
technique SVM avec différents noyaux à savoir linéaire, polynomial et RBF. La deuxième
est la technique RF. Les descripteurs hybrides utilisant LBP/LTP+HOG et LBPu/LTPu+HOG
sont considérés et comparés (voir Table 3.21).
La table 3.20 présente les taux de reconnaissance du descripteur hybride LTP+HOG
calculé par un SVM linéaire, un SVM gaussien (RBF), un SVM polynomial et une RF
sur les jeux de données CK, FEED, KDEF et JAFFE. Les tables 3.18 et 3.19 détaillent les
paramètres utilisés respectivement pour les classifieurs SVM et RF. Nous précisons que nous
avons utilisé la méthode de grille de recherche (grid-search) basée sur une validation croisée
pour trouver les paramètres optimaux des noyaux RBF et polynomial.
TABLE3.18 Les paramètres des noyaux RBF et polynomial.
Noyau RBF Polynomial
CV 5-fold 2-fold
Paramètres
gamma C gamma degrés coef C
5.96E-08 256 0.00015 0.49 274.4 12.5
TABLE3.19 Paramètres utilisés pour la construction de RF
Nombre de caractéristiques à considérer pour la séparation 50
Profondeur maximal des arbres 20
Nombre minimal d’échantillons par nœud à diviser 5
Précision minimale de la forêt 99%
nombre d’échantillons aléatoires par arbre √
p (p est la taille du
descripteur)
Nombre d’arbres de la forêt 300
A partir de la table 3.20, nous observons que les SVM produisent des taux de
reconnais-sance globaux élevés (91-96%) pour les jeux de données CK, FEED et KDEF et un taux
moyen (77.5%) pour le jeu de données JAFFE. Le noyau linéaire et le noyau polynomial
fournissent presque la même performance, meilleure que celle du noyau RBF. La technique
RF produit des performances inférieures à SVM atteignant respectivement 87.72%, 79.86%,
90.06% et 72% pour les jeux de données CK, FEED, KDEF et JAFFE.
TABLE3.20 Performance de reconnaissance des classifieurs SVM avec différents noyaux et
RF à base du descripteur hybride LTP+HOG.
CK FEED KDEF JAFFE
SVM (Lineair) 96.06 92.03 93.34 77.08
SVM (Plynomial) 96.04 92.46 93.36 77.5
SVM (RBF) 91.07 91.24 92.66 77
RF 87.72 79.86 90.06 72
Les comparaisons résumées dans la table 3.21 montrent que les descripteurs uniformes
peuvent améliorer les performances. Plus important encore, l’avantage de ces descripteurs
uniformes réside dans la réduction de leur taille, sans perte d’informations, et par la suite ils
permettent d’accélérer le temps de calcul.
TABLE 3.21 Comparaisons entre les descripteurs hybride LBP/LTP+HOG et
LBPu/LTPu+HOG en utilisant SVM avec un noyau linéaire.
LBP+HOG LBPu+HOG LTP+HOG LTPu+HOG
CK 93.75 93.18 96.06 96.48
FEED 89.89 83.76 92.03 91.61
KDEF 92.2 93.22 93.34 94.32
JAFFE 73.68 74.96 77.08 77.92
3.8.5 Evaluation des bases de données croisées
Nous avons évalué la capacité de généralisation de notre méthode à travers différentes
bases de données en effectuant neuf expériences. Dans chaque expérience, nous avons
effectué l’apprentissage en utilisant un jeu de données et nous avons fait le test sur les trois
autres jeux de données (voir Table 3.22). Comme nous pouvons le voir dans la Table 3.22,
notre méthode peut aboutir à des résultats encourageants. En particulier, lorsque le modèle
est entraîné en utilisant le jeu de données KDEF (émotions posées), les résultats sur les trois
autres jeux de données (émotions spontanées ou posées) sont très intéressants. Cela permet
de prétendre que l’entrainement du modèle avec l’ensemble de données KDEF est utile pour
reconnaître les émotions spontanées et celles posées. Nous pouvons également voir que le
modèle se comporte relativement bien lorsqu’il est entraîné et testé en utilisant des émotions
posées (cas CK/KDEF et KDEF/CK).
TABLE 3.22 Performance avec des bases de données croisées sur les ensembles de données
CK, KDEF, FEED et JAFFE.
Apprentissage CK KDEF FEED
Test FEED KDEF JAFFE CK FEED JAFFE CK KDEF JAFFE
gTR 68.41 79.28 51.17 78.85 79.52 50.7 58.36 67.85 43.66
F-score 70.41 79.35 49.02 77.14 74.17 57.01 57.83 70.04 51.89
3.9 Conclusion
Dans ce chapitre, nous avons présenté une étude empirique complète de l’enregistrement
du visage en considérant différentes décompositions faciales d’une part et d’autre part la
représentation faciale basée sur la texture en utilisant LBP et ses variantes ainsi que la forme
en utilisant HOG et leur combinaison. Les questions clés peuvent être résumées comme suit :
1. La représentation basée sur des régions locales fournit un meilleur enregistrement de
visage contrairement à la représentation holistique. En effet, dans la méthode locale
(la décomposition du visage), la ROI définie contient toujours une seule composante
faciale quelque soit la forme et l’expression du visage. En revanche, dans la
représen-tation holistique, la ROI, à partir de laquelle les descripteurs de caractéristiques sont
extraits, peut contenir plusieurs composantes faciales en fonction de l’expression et la
forme du visage (voir Figure 3.1).
2. L’évaluation des descripteurs a démontré que les hybrides construits par une
concaté-nation hétérogène à partir des caractéristiques de texture et de forme sont les meilleurs,
en particulier la concaténation de LTP et du HOG.
3. l’utilisation des descripteurs uniformes produit une meilleure précision par rapport
aux autres descripteurs. Les motifs uniformes suppriment les estimations bruitées dans
l’image en les accumulant dans un bin d’histogramme, augmentant ainsi la précision
de la reconnaissance. Ces descripteurs se caractérisent par une taille réduite et par la
suite ils permettent d’accélérer le temps de calcul.
4. Après plusieurs expériences avec les noyaux polynomial, RBF et linéaire, nous avons
retenu ce dernier pour ses performances de classification supérieures et pour éviter la
sensibilité des paramètres.
Toutes les expériences de reconnaissance sont effectuées sur des images statiques sans tenir
compte de la dynamique des expressions faciales. Dans le chapitre suivant, nous présentons
des méthodes pour capturer et représenter l’expression faciale en exploitant des images issues
de la multi-observation (sous-ensemble d’images, vidéo,etc.).
Les travaux présentés dans ce chapitre sont publiés dans le journal "Signal processing :
image communication" [118] et "International Conference on Advanced Technologies for
Signal and Image Processing" [119].
Reconnaissance d’expressions faciales
multi-observations basée sur SVM
Sommaire
4.1 Introduction . . . . 91
4.2 Méthodologie proposée . . . . 92
4.2.1 Ensemble d’apprentissage . . . . 95
4.2.2 Ensemble de test . . . . 95
4.2.3 Stratégies proposées pour la REF . . . . 97
4.3 Expérimentations . . . 103
4.3.1 Bases de données et protocole d’expérimentation . . . 103
4.3.2 Expérience sur la base de données Cohn-Kanade étendu (CK+) . 105
4.3.3 Expérience sur la base de données Oulu-CASIA . . . 111
4.3.4 Evaluation des bases de données croisées . . . 114
4.3.5 Expérience sur la base de données KDEF_MV . . . 115
4.3.6 Expérience sur les bases de données CK, FEED et KDEF . . . 116
4.4 Conclusion . . . 121
4.1 Introduction
Le présent chapitre traite le problème de la reconnaissance des expressions faciales (REF)
à partir de séquences vidéos. Nous proposons un schéma dynamique de reconnaissance
d’expression faciale. Nous fournissons des évaluations de performances en utilisant des
séquences vidéos de test avec un nombre d’observations varié. Le chapitre précédent était
consacré à la reconnaissance de l’expression faciale dans des images statiques. A cet effet, de
nombreuses techniques ont été appliquées : SDM (Supervised Descent Method) pour la
loca-lisation des composantes faciales [231], le descripteur hybride "LTP+HOG" pour l’extraction
des caractéristiques et SVM pour la classification. Une limitation très importante de cette
stratégie est le fait que les images statiques captent habituellement le pic de l’expression,
c’est-à-dire, l’instant auquel les indicateurs d’émotion sont les plus marqués. Plus
récem-ment, l’attention s’est déplacée particulièrement vers la modélisation des expressions faciales
dynamiques. Cela est dû au fait que les différences entre les expressions sont modélisées plus
puissamment par des transitions dynamiques entre les différentes étapes d’une expression
plutôt que par leurs images clés statiques correspondantes. Les expressions faciales sont
naturellement dynamiques et peuvent être segmentées en quatre segments temporels : neutre,
onset, apex et offset [65, 64]. Neutre signifie qu’aucune expression n’est affichée, l’onset
est l’instant où la contraction musculaire se produit et augmente en intensité, l’apex est le
pic de l’expression, et offset est l’instant lorsque l’expression commence à disparaître. La
dynamique des expressions faciales constitue l’information cruciale requise pour interpréter
le comportement facial [169].
Contrairement aux travaux existants qui ont utilisé des méthodes plus ou moins complexes
[183, 97, 77, 63, 100, 78, 255, 98, 184, 6, 112], nous proposons dans ce travail un système
dynamique simple et efficace, basé uniquement sur les probabilités a posteriori produites
par le classifieur SVM, afin de classer une multi-observation représentant une émotion dans
un ensemble d’images. Les résultats montrent que le système proposé peut être considéré
comme une méthode puissante pour reconnaître les expressions faciales à partir de séquences
d’images.
Les performances de notre système sont évaluées sur cinq bases de données disponibles
publiquement : CK, CK+, KDEF, FEED, et Oulu-CASIA. Une description plus détaillée des
jeux de données utilisés peut être trouvée dans la section 4.3.1. Les expériences montrent
que notre méthode de reconnaissance des expressions faciales à partir des vidéos en utilisant
la multi-observation surpasse de manière significative les approches existantes.
Dans le document
Reconnaissance d'états émotionnels par analyse visuelle du visage et apprentissage machine
(Page 108-113)