• Aucun résultat trouvé

Expériences de comparaison de SVM vs RF et LBP/LTP vs LBP u /LTP u 87

3.8 Expérimentations

3.8.4 Expériences de comparaison de SVM vs RF et LBP/LTP vs LBP u /LTP u 87

Dans cette section, quant à la tâche de reconnaissance des expressions faciales, deux

techniques d’apprentissage automatique sont examinées (voir Table 3.20). La première est la

technique SVM avec différents noyaux à savoir linéaire, polynomial et RBF. La deuxième

est la technique RF. Les descripteurs hybrides utilisant LBP/LTP+HOG et LBPu/LTPu+HOG

sont considérés et comparés (voir Table 3.21).

La table 3.20 présente les taux de reconnaissance du descripteur hybride LTP+HOG

calculé par un SVM linéaire, un SVM gaussien (RBF), un SVM polynomial et une RF

sur les jeux de données CK, FEED, KDEF et JAFFE. Les tables 3.18 et 3.19 détaillent les

paramètres utilisés respectivement pour les classifieurs SVM et RF. Nous précisons que nous

avons utilisé la méthode de grille de recherche (grid-search) basée sur une validation croisée

pour trouver les paramètres optimaux des noyaux RBF et polynomial.

TABLE3.18 Les paramètres des noyaux RBF et polynomial.

Noyau RBF Polynomial

CV 5-fold 2-fold

Paramètres

gamma C gamma degrés coef C

5.96E-08 256 0.00015 0.49 274.4 12.5

TABLE3.19 Paramètres utilisés pour la construction de RF

Nombre de caractéristiques à considérer pour la séparation 50

Profondeur maximal des arbres 20

Nombre minimal d’échantillons par nœud à diviser 5

Précision minimale de la forêt 99%

nombre d’échantillons aléatoires par arbre √

p (p est la taille du

descripteur)

Nombre d’arbres de la forêt 300

A partir de la table 3.20, nous observons que les SVM produisent des taux de

reconnais-sance globaux élevés (91-96%) pour les jeux de données CK, FEED et KDEF et un taux

moyen (77.5%) pour le jeu de données JAFFE. Le noyau linéaire et le noyau polynomial

fournissent presque la même performance, meilleure que celle du noyau RBF. La technique

RF produit des performances inférieures à SVM atteignant respectivement 87.72%, 79.86%,

90.06% et 72% pour les jeux de données CK, FEED, KDEF et JAFFE.

TABLE3.20 Performance de reconnaissance des classifieurs SVM avec différents noyaux et

RF à base du descripteur hybride LTP+HOG.

CK FEED KDEF JAFFE

SVM (Lineair) 96.06 92.03 93.34 77.08

SVM (Plynomial) 96.04 92.46 93.36 77.5

SVM (RBF) 91.07 91.24 92.66 77

RF 87.72 79.86 90.06 72

Les comparaisons résumées dans la table 3.21 montrent que les descripteurs uniformes

peuvent améliorer les performances. Plus important encore, l’avantage de ces descripteurs

uniformes réside dans la réduction de leur taille, sans perte d’informations, et par la suite ils

permettent d’accélérer le temps de calcul.

TABLE 3.21 Comparaisons entre les descripteurs hybride LBP/LTP+HOG et

LBPu/LTPu+HOG en utilisant SVM avec un noyau linéaire.

LBP+HOG LBPu+HOG LTP+HOG LTPu+HOG

CK 93.75 93.18 96.06 96.48

FEED 89.89 83.76 92.03 91.61

KDEF 92.2 93.22 93.34 94.32

JAFFE 73.68 74.96 77.08 77.92

3.8.5 Evaluation des bases de données croisées

Nous avons évalué la capacité de généralisation de notre méthode à travers différentes

bases de données en effectuant neuf expériences. Dans chaque expérience, nous avons

effectué l’apprentissage en utilisant un jeu de données et nous avons fait le test sur les trois

autres jeux de données (voir Table 3.22). Comme nous pouvons le voir dans la Table 3.22,

notre méthode peut aboutir à des résultats encourageants. En particulier, lorsque le modèle

est entraîné en utilisant le jeu de données KDEF (émotions posées), les résultats sur les trois

autres jeux de données (émotions spontanées ou posées) sont très intéressants. Cela permet

de prétendre que l’entrainement du modèle avec l’ensemble de données KDEF est utile pour

reconnaître les émotions spontanées et celles posées. Nous pouvons également voir que le

modèle se comporte relativement bien lorsqu’il est entraîné et testé en utilisant des émotions

posées (cas CK/KDEF et KDEF/CK).

TABLE 3.22 Performance avec des bases de données croisées sur les ensembles de données

CK, KDEF, FEED et JAFFE.

Apprentissage CK KDEF FEED

Test FEED KDEF JAFFE CK FEED JAFFE CK KDEF JAFFE

gTR 68.41 79.28 51.17 78.85 79.52 50.7 58.36 67.85 43.66

F-score 70.41 79.35 49.02 77.14 74.17 57.01 57.83 70.04 51.89

3.9 Conclusion

Dans ce chapitre, nous avons présenté une étude empirique complète de l’enregistrement

du visage en considérant différentes décompositions faciales d’une part et d’autre part la

représentation faciale basée sur la texture en utilisant LBP et ses variantes ainsi que la forme

en utilisant HOG et leur combinaison. Les questions clés peuvent être résumées comme suit :

1. La représentation basée sur des régions locales fournit un meilleur enregistrement de

visage contrairement à la représentation holistique. En effet, dans la méthode locale

(la décomposition du visage), la ROI définie contient toujours une seule composante

faciale quelque soit la forme et l’expression du visage. En revanche, dans la

représen-tation holistique, la ROI, à partir de laquelle les descripteurs de caractéristiques sont

extraits, peut contenir plusieurs composantes faciales en fonction de l’expression et la

forme du visage (voir Figure 3.1).

2. L’évaluation des descripteurs a démontré que les hybrides construits par une

concaté-nation hétérogène à partir des caractéristiques de texture et de forme sont les meilleurs,

en particulier la concaténation de LTP et du HOG.

3. l’utilisation des descripteurs uniformes produit une meilleure précision par rapport

aux autres descripteurs. Les motifs uniformes suppriment les estimations bruitées dans

l’image en les accumulant dans un bin d’histogramme, augmentant ainsi la précision

de la reconnaissance. Ces descripteurs se caractérisent par une taille réduite et par la

suite ils permettent d’accélérer le temps de calcul.

4. Après plusieurs expériences avec les noyaux polynomial, RBF et linéaire, nous avons

retenu ce dernier pour ses performances de classification supérieures et pour éviter la

sensibilité des paramètres.

Toutes les expériences de reconnaissance sont effectuées sur des images statiques sans tenir

compte de la dynamique des expressions faciales. Dans le chapitre suivant, nous présentons

des méthodes pour capturer et représenter l’expression faciale en exploitant des images issues

de la multi-observation (sous-ensemble d’images, vidéo,etc.).

Les travaux présentés dans ce chapitre sont publiés dans le journal "Signal processing :

image communication" [118] et "International Conference on Advanced Technologies for

Signal and Image Processing" [119].

Reconnaissance d’expressions faciales

multi-observations basée sur SVM

Sommaire

4.1 Introduction . . . . 91

4.2 Méthodologie proposée . . . . 92

4.2.1 Ensemble d’apprentissage . . . . 95

4.2.2 Ensemble de test . . . . 95

4.2.3 Stratégies proposées pour la REF . . . . 97

4.3 Expérimentations . . . 103

4.3.1 Bases de données et protocole d’expérimentation . . . 103

4.3.2 Expérience sur la base de données Cohn-Kanade étendu (CK+) . 105

4.3.3 Expérience sur la base de données Oulu-CASIA . . . 111

4.3.4 Evaluation des bases de données croisées . . . 114

4.3.5 Expérience sur la base de données KDEF_MV . . . 115

4.3.6 Expérience sur les bases de données CK, FEED et KDEF . . . 116

4.4 Conclusion . . . 121

4.1 Introduction

Le présent chapitre traite le problème de la reconnaissance des expressions faciales (REF)

à partir de séquences vidéos. Nous proposons un schéma dynamique de reconnaissance

d’expression faciale. Nous fournissons des évaluations de performances en utilisant des

séquences vidéos de test avec un nombre d’observations varié. Le chapitre précédent était

consacré à la reconnaissance de l’expression faciale dans des images statiques. A cet effet, de

nombreuses techniques ont été appliquées : SDM (Supervised Descent Method) pour la

loca-lisation des composantes faciales [231], le descripteur hybride "LTP+HOG" pour l’extraction

des caractéristiques et SVM pour la classification. Une limitation très importante de cette

stratégie est le fait que les images statiques captent habituellement le pic de l’expression,

c’est-à-dire, l’instant auquel les indicateurs d’émotion sont les plus marqués. Plus

récem-ment, l’attention s’est déplacée particulièrement vers la modélisation des expressions faciales

dynamiques. Cela est dû au fait que les différences entre les expressions sont modélisées plus

puissamment par des transitions dynamiques entre les différentes étapes d’une expression

plutôt que par leurs images clés statiques correspondantes. Les expressions faciales sont

naturellement dynamiques et peuvent être segmentées en quatre segments temporels : neutre,

onset, apex et offset [65, 64]. Neutre signifie qu’aucune expression n’est affichée, l’onset

est l’instant où la contraction musculaire se produit et augmente en intensité, l’apex est le

pic de l’expression, et offset est l’instant lorsque l’expression commence à disparaître. La

dynamique des expressions faciales constitue l’information cruciale requise pour interpréter

le comportement facial [169].

Contrairement aux travaux existants qui ont utilisé des méthodes plus ou moins complexes

[183, 97, 77, 63, 100, 78, 255, 98, 184, 6, 112], nous proposons dans ce travail un système

dynamique simple et efficace, basé uniquement sur les probabilités a posteriori produites

par le classifieur SVM, afin de classer une multi-observation représentant une émotion dans

un ensemble d’images. Les résultats montrent que le système proposé peut être considéré

comme une méthode puissante pour reconnaître les expressions faciales à partir de séquences

d’images.

Les performances de notre système sont évaluées sur cinq bases de données disponibles

publiquement : CK, CK+, KDEF, FEED, et Oulu-CASIA. Une description plus détaillée des

jeux de données utilisés peut être trouvée dans la section 4.3.1. Les expériences montrent

que notre méthode de reconnaissance des expressions faciales à partir des vidéos en utilisant

la multi-observation surpasse de manière significative les approches existantes.