• Aucun résultat trouvé

Descripteurs hybrides

2.6 Extraction des descripteurs

2.6.3 Descripteurs hybrides

Les expressions faciales sont définies à la fois par un changement de la forme des caractéristiques faciales et par une variation de la texture, autour de ces caracté-ristiques et dans d’autres zones du visage. La forme et la texture du visage sont

ainsi fortement liées et la présence des deux informations est indispensable pour une bonne reconnaissance des expressions faciales. Les méthodes représentant l’ap-parence seulement sont souvent critiquées par un manque de représentation des mouvements des caractéristiques du visage [91]. Kotsia et al [92] expliquent que l’utilisation de l’information d’apparence seule peut entrainer une confusion dans la reconnaissance de la colère et la peur. Cependant, l’absence d’informations qui décrivent l’apparence et la texture de l’expression peut amener à négliger de faibles mouvements des muscles faciaux. Les méthodes représentant seulement la forme et les mouvements géométriques négligent quant à elles des informations telles que les rides transitoires qui peuvent être des caractéristiques indispensables à la différentiation entre les émotions.

Une solution pour une description plus efficace des changements faciaux liés à l’expression est la présentation à la fois de l’information d’apparence et de l’infor-mation de forme. Fasel et al [30] indiquent que la combinaison de l’aspect géomé-trique et de l’aspect d’apparence peut être très intéressante notamment lorsqu’ils n’ont pas les mêmes erreurs. La combinaison de la description géométrique de l’ex-pression et de la description d’apparence peut être effectuée soit directement avec des modèles présentant les deux informations comme le modèle actif d’apparence (Active Appearance Model (AAM)), soit avec une combinaison de descripteurs ex-traits par une méthode géométrique et de descripteurs exex-traits par une méthode d’apparence.

Le modèle actif d’apparence est un modèle performant, qui considère à la fois les contraintes de forme et les contraintes d’apparence dans l’alignement et l’ex-traction des caractéristiques faciales. Plusieurs représentations sont dérivées de ce modèle à savoir la similarité normalisée de forme, la similarité normalisée d’appa-rence et la représentation canonique d’appad’appa-rence [93] [91]. La similarité normalisée de forme représente le visage et ses caractéristiques par 74 points. La similarité normalisée d’apparence représente l’apparence de chaque image détectée par un masque modélisé sur la forme de base. La représentation canonique est une repré-sentation où toutes les variations de forme dues à l’expression sont éliminées de l’apparence. La contribution de chacune de ces trois représentations, la contribu-tion de la fusion entre la représentacontribu-tion de forme et la représentacontribu-tion canonique d’apparence sont étudiées dans [93] dans le cadre de la reconnaissance des ex-pressions faciales de la peine. Ashraf et al [93] ont montré que la fusion de la

Descripteurs géométriques

Entité de fusion Descripteurs d’apparence

Classification Emotion

Figure 2.14 – Schéma de fusion en amont

Descripteurs géométriques Classification

Descripteurs d’apparence Classification

Entité de fusion Emotion

Figure 2.15 – Schéma de fusion en aval

forme de l’expression par le biais de la représentation de similarité de forme et de l’apparence par le biais de la représentation canonique d’apparence améliore la reconnaissance de la peine, permettant de dépasser un taux de reconnaissance de 81%. L’avantage de cette combinaison dans un même vecteur est confirmée par Lucey et al [91] dans le cadre de la reconnaissance des actions unitaires. La performance de la fusion de ces deux représentations est également utilisée pour la reconnaissance des six émotions de base dans [4].

Une deuxième alternative est appliquée pour décrire à la fois la forme et l’apparence de l’expression. Elle consiste à extraire chaque information de façon individuelle par une méthode dédiée pour ce but. Une fusion est ensuite appliquée. En général deux schémas de fusion sont utilisés, à savoir un schéma en amont et un schéma en aval.

• Le schéma en amont combine les descripteurs de différents types d’infor-mation avant le passage à l’étape de classification. Dans ce cas un prétrai-tement est appliqué aux deux informations pour pouvoir les fusionner dans un même vecteur. Ce dernier est ensuite utilisé comme donnée d’entrée par la méthode de classification (voir la figure 2.14).

• Le schéma en aval combine les descripteurs après l’étape de classification.

Pour chaque type de descripteurs extraits une classification est appliquée.

Les décisions issues de l’étape de classification sont ensuite combinées dans une entité de fusion. La figure 2.15 présente le schéma en aval.

Dans le cadre de la fusion entre les descripteurs géométriques et les descripteurs

d’apparence, le schéma en amont a été préféré dans plusieurs travaux de la lit-térature [94] [95] [74] [96]. Zhang et al [94] codent l’aspect géométrique par 43 distances entre des points détectés par le modèle actif de forme. Les distances décrivent la représentation des paramètres d’animation faciale (FAP) du standard MPEG-4. D’autre part, plusieurs méthodes ont été utilisées pour l’extraction des descripteurs d’apparence à savoir les filtres de Gabor, la méthode de transforma-tion de caractéristiques visuelles invariantes à l’échelle (SIFT) et la méthode des motifs binaires locaux (LBP). Ces méthodes ont été appliquées localement dans des fenêtres autour de points caractéristiques. Les descripteurs d’apparence ex-traits par chaque méthode sont d’abord sélectionnés puis des fusions en amont avec les descripteurs géométriques sont appliquées. Testée sur la base NVIE et la base FEEDTUM, la fusion entre les descripteurs géométriques et les descripteurs d’apparence extraits par la méthode SIFT et sélectionnés par la méthode de redon-dance minimale et pertinence maximale (mRMR) permet d’obtenir de meilleurs taux de reconnaissance des émotions que les méthodes de fusion combinant les descripteurs géométriques et les descripteurs extraits par les filtres de Gabor et les descripteurs extraits par LBP. Dans [74] les mêmes méthodes sont utilisées pour l’extraction des caractéristiques. Après la fusion, une régression est appliquée à la place de la classification pour une représentation dimensionnelle des émotions. La fusion de la méthode LBP avec les descripteurs géométriques testée sur la base NVIE permet une meilleure représentation des émotions que la fusion des descrip-teurs géométriques avec les descripdescrip-teurs de Gabor et la fusion des descripdescrip-teurs géométriques avec les descripteurs extraits par la méthode SIFT.

Chen et al [95] codent l’aspect géométrique de l’expression par le calcul du dépla-cement de 21 points. L’aspect d’apparence est extrait par la différence de gradient normalisé entre l’image neutre et l’expression. Ce calcul est effectué localement au-tour des 21 points. Une fusion en amont est ensuite appliquée, permettant d’avoir un taux de reconnaissance de 95% pour des expressions d’émotions posées.

Zhengyou et al [96] combinent les coordonnées de 34 points caractéristiques dé-tectés manuellement et les coefficients obtenus par l’application de 18 filtres de Gabor. La fusion est appliquée au niveau de perceptrons à deux couches. La pre-mière couche réduit de façon non linéaire les descripteurs de chaque type d’infor-mation. La deuxième calcule les taux de reconnaissance pour chaque expression émotionnelle. Testée sur la base JAFFE, le taux de reconnaissance atteint 90%.

La fusion en aval combine quant à elle les décisions [97] ou des paramètres qui

résultent de la classification [92]. Song et al [97] différencient deux types d’expres-sions à savoir les expresd’expres-sions symétriques et les expresd’expres-sions non symétriques en se basant sur les paramètres d’animation faciales (FAPs) codés par 27 points. Ils détectent également les déformations de la peau en calculant les rapports d’inten-sité dans 8 patchs. Un SVM est appliqué pour détecter la présence ou l’absence de déformations de la peau liées à l’expression dans chacun des patchs. Ces deux décisions issues de l’aspect géométrique et de l’aspect d’apparence sont combinées dans un seul vecteur formant ainsi de nouveaux paramètres pour une meilleure description des expressions. La reconnaissance des émotions est ensuite effectuée en fonction du type de l’expression symétrique ou asymétrique. Dans le cas où l’expression est détectée comme symétrique, sept SVMs sont utilisés pour classer l’expression parmi l’une des six émotions de base ou l’expression neutre. Dans le cas où l’expression est détectée en tant qu’expression asymétrique, six SVMs classi-fient l’expression parmi l’une des six émotions de base, puisque l’expression neutre est toujours symétrique. Les taux de reconnaissance de cette méthode sur la base Cohn-Kanade, la base JAFFE et une base préparée par les auteurs dépassent 88%

même en présence de variation de luminance. Kotsia et al [92] combinent les dis-tances issues de la classification des informations géométriques et des informations d’apparence. La grille de Candide est appliquée afin de suivre les déformations des muscles pendant l’expression. Les distances entre les nœuds de la grille sont clas-sées par SVM parmi l’une des sept classes (les six émotions de base et l’expression neutre). D’un autre côté, la déformation de la texture est extraite par la factori-sation matricielle discriminante non négative (Discriminant Non-negative Matrix Factorization (DNMF)). La distance entre le vecteur texture de la séquence vidéo et la classe la plus proche est combinée avec la distance calculée par le SVM pour la plus proche classe du vecteur de déformation de Candide. La fusion est ensuite classée par un réseau de neurones à fonction radiale. Un taux de reconnaissance de 92.3% est obtenu pour les six expressions émotionnelles de base et l’expression neutre dans la base Cohn-Kanade.