• Aucun résultat trouvé

Synthèse des évaluations des micro et macro-expressions

Dans le document Analyse faciale dans les flux vidéo (Page 111-116)

3Reconnaissance des expressions

3.3 Variations d’intensité : de la micro à la macro-expression

3.3.4 Synthèse des évaluations des micro et macro-expressions

La Table3.4offre une vue globale sur le positionnement de nos résultats par rapport à l’état de

l’art dans les contextes ciblés : la micro- et la macro-expression.

Table 3.4 – Synthèse des résultats obtenus sur les corpus de micro- et macro-expressions (* augmentation de données / apprentissage profond) .

Micro-expression Macro-expression

Méthode CASME II SMIC CK+ CASIA MMI

HS VIS NIR 7classes VL NI

LBP-TOPZhao et Pietikainen(2007) - - 52,11% - 96,26% 68,13% - 59,51%

LBP-TOP + GaborZhao et al.(2017) - - - - 95,80% 74,37% - 71,92%

AdaLBPZhao et al.(2011) - - - 73,54% 72,09% -

Dis-ExpLetLiu et al.(2016a) - - - - 95,10% 79,00% - 77,60%

HIGO + magnificationLi et al.(2015) 67,21% 68,29% 81,69% 67,61% - - - -

LMP 70,20% 67,68% 86,11% 80,56% 97,25% 84,58% 81,46% 78,26%

CNN + LSTM*Kim et al.(2017) 60,98% - - - -

CNN*Patel et al.(2016) 47,30% 53,60% 56,30% - - - - -

CNN + LSTM*Breuer et Kimmel(2017) 59,47% - - - 98,62% - - -

PHRNN-MSCNN*Zhang et al.(2017a) - - - - 98,50% 86,25% - 81,18%

FN2EN*Ding et al.(2017) - - - 87,71% - -

Les résultats montrent que la méthode que nous proposons présente la singularité de répondre de manière unifiée aux défis posés pour les micro- et les macro-expressions. La méthode dépasse les performances obtenues par les méthodes de l’état de l’art pour les micro-expressions. En moyenne, nous obtenons des résultats meilleurs de 4,93% par rapport aux approches classiques et de 17,7% par rapport aux approches d’apprentissage profond. De plus, nous obtenons des résultats com- pétitifs pour la reconnaissance de macro-expressions dans différentes conditions d’acquisition (sé- quence d’activation, illumination, mouvements de la tête). En moyenne nous devançons de 4,15% les meilleures approches classiques pour tous les corpus considérés. Les approches issues de l’ap- prentissage profond s’appuyant également sur des processus d’augmentation de données nous dépassent de 2,25% en moyenne.

les notres. Toutefois, il est important de mettre en lumière le fait que notre approche est la seule, à notre connaissance, qui traite de manière unifiée et compétitive les micro- et les macro-expressions.

Table 3.5 – Les paramètres utilisés pour obtenir les meilleures performances.

Corpus λρ E M V β bin Micr o CASME II 4 0,5 0,75 100 4 5 6 9 SMIC-HS 3 0,5 0,75 100 3 5 6 9 SMIC-VIS 5 0,5 0,75 100 4 5 3 9 SMIC-NIR 4 0,5 0,75 100 3 5 3 12 Macr o CK+ 3 0,5 1 100 4 5 3 12 MMI 3 0,5 1 100 4 5 6 12 CASIA-VL 4 0,5 1 100 5 5 3 6 CASIA-NI 5 0,5 0,75 100 5 5 6 9

Les paramètres utilisés pour mesurer les performances de notre méthode pour les différents corpus sont présentés dans la Table 3.5. Selon les conditions de capture des corpus de données

(distance par rapport à la caméra, résolution, cadence de trames), les paramètres varient faiblement soulignant la capacité de généralisation de notre approche unifiée.

Les résultats obtenus pour la reconnaissance de micro- et macro-expressions montre l’effica- cité et la robustesse du descripteur et du modèle facial proposé. Notre contribution se positionne comme un bon candidat pour la reconnaissance des expressions dans des contextes difficiles, proches de situations d’interaction naturelle (mouvements de la tête, différents types d’illumina- tion, séquence d’activation et intensités variables).

3.4

Résumé des contributions

Dans ce chapitre nous avons illustré deux de nos contributions dans le domaine de la reconnais- sance des expressions. Nous nous sommes intéressés à la reconnaissance dans un cadre statique en optimisant la construction de masques reflétant l’importance de certaines zones du visage. Dans un cadre dynamique, nous avons montré l’intérêt de filtrer le mouvement sur le visage en s’intéressant aux spécificités des mouvements faciaux.

Ainsi, dans un premier temps, nous avons abordé le problème d’optimisation de caractérisation globale d’un visage en étudiant le choix et l’étendue des régions à caractériser. Nous avons pro- posé une méthodologie de construction de masques non-rectangulaires qui tiennent compte de la contribution de chaque pixel de l’image dans le processus de reconnaissance. Nous réalisons une recherche exhaustive de fenêtres de tailles et formes différentes, disposées à différents endroits sur un visage normé. Cette recherche offre des indications quant aux meilleures et pires configurations (type fenêtre et position) en termes de résultats de classification. Suite à l’analyse des régions sélec- tionnées comme étant les meilleures ou les pires, des opérations topologiques nous permettent de dégager un masque dont les points ont un pouvoir discriminant important. Les expérimentations entreprises ont montré que des régions de petites tailles peuvent apporter plus de précision que des régions de taille supérieure. Cela défend la prédominance du caractère local dans la caractérisation des changements reflétant l’apparition d’une expression. Ce constat est également renforcé par le fait que des régions de même taille produisent des résultats assez différents lorsqu’elles sont dis- tantes de quelques pixels seulement. Malgré le fait que la construction du masque soit laborieuse, son utilisation est simple et efficace. Superposé sur un visage, le masque permet de prendre en

considération uniquement les points labélisés comme pertinents pour la reconnaissance. Des tra- vaux similaires sont menés actuellement dans le cadre de la thèse de Delphine Poux8

. Nous avons transposé cette méthodologie à l’identification des cartes de mouvement spécifiques en présence d’une large typologie d’occultations. Les premiers résultats ont déjà été publié dans (Poux et al.

2018)9.

In a second step, we showed that the coherent movement extracted on the face using LMP allows to obtain high performances for both micro- and macro-expressions. The constraints relating to the orientation and the intensity of the movement make it possible to separate the real movement from the noise. The results illustrated on the CASME2 and SMIC corpora show that our approach surpasses the recent approaches of the state of the art (including deep learning approaches). The precise characterization of the movement allows us to free ourselves from pretreatments artificially intensifying the movement such as magnification or interpolation. Similarly, without using manual annotations or data augmentation techniques, we obtain competitive performances on the CK +, CASIA-VL, CASIA-NI and MMI corpora. Thus, the facial model and the LMP descriptor meet both the challenges posed by the recognition of micro- and macro-expressions under different illumination conditions and in the presence of slight movements of the head.

8. Delphine Poux, doctorante depuis octobre 2015, équipe FOX, lab. CRIStAL cofinancement par l’Ecole d’ingénieurs des Hautes Technologies et du Numérique - ISEN YNCREA.

9. D. Poux ; B. Allaert ; J. Mennesson ; N. Ihaddadene ; I.M. Bilasco ; C. Djeraba - Mastering Occlusions by Using Intelligent Facial Frameworks Based on the Propagation of Movement - Proc. of International Conference on Content- Based Multimedia Indexing (CBMI), Sept. 2018, La Rochelle, France.

4

Synthèse

Ces dernières années, avec mes collègues et collaborateurs, nous avons œuvré à faciliter l’ana- lyse faciale dans des contextes non-contraints. Nous avons étudié et nous avons conduit de nom- breuses expérimentations dans les domaines de l’estimation de l’orientation de la tête, de la recon- naissance du genre et de la reconnaissance des expressions.

Dans le domaine de l’orientation de la tête, nous avons proposé deux approches innovantes. La première, réalisée dans le cadre de la thèse d’Afifa Dahmane1

, est basée sur la caractérisation de la symétrie du visage. La seconde, construite avec Taner Dansiman2

et José Menneson3

, exploite les spécificités de détecteurs frontaux et, par le biais d’une transformation inverse, offre une estimation du roulis et du lacet.

Avec Taner Danisman, nous avons exploré la caractérisation de personnes en nous intéressant à la reconnaissance du genre. Des résultats intéressants ont pu être obtenus dans un contexte de validation entre différents corpus de données en appliquant un processus de normalisation de l’intérieur du visage. Ainsi, nous avons pu prouver que la représentation normalisée du visage, malgré sa petite taille, permet de répondre de manière convenable aux défis rencontrés dans un large panel de bases de données. Toutefois, la caractérisation du genre en se basant uniquement sur les éléments du visage ne peut pas répondre à la variété des situations que nous pouvons rencontrer dans la vie courante. Certains individus ont des traits plus proches du sexe opposé que du leur. Ainsi, nous avons poursuivi ces travaux en les enrichissant avec des informations caractérisant à la fois des éléments précis à l’intérieur (moustache, barbe) et à l’extérieur du visage (cheveux).

Les travaux autour de la reconnaissance du genre ont souligné l’importance des processus de normalisation du visage avant caractérisation. Ainsi, nous avons pu généraliser l’approche précé- dente à la caractérisation de l’état émotionnel des personnes en proposant une méthode globale pour la détection de la joie dans des conditions difficilement abordables (taille d’images très pe- tite, faible illumination, etc.) avec des méthodes classiques. Ces travaux ont permis également de construire des masques de pixels sur les visages capables d’améliorer la reconnaissance de l’ex- pression de joie à partir des niveaux de gris sans passer par des descripteurs complexes.

1. Afifa Dahmane, doctorante de mai 2010 à février 2015, équipe FOX, lab. CRIStAL en co-tutelle avec l’Université de Sciences et Technologies Houari Boumediene (USTHB), Algérie, actuellement Maître de Conférences à l’USTHB.

2. Taner Danisman, post-doctorant septembre 2010 à juin 2011 et ingénieur de recherche de juin 2012 à octobre 2014, équipe FOX, lab. CRIStAL, actuellement enseignant-chercheur à Akdeniz Üniversitesi, Turquie.

3. José Mennesson, ingénieur de recherche de novembre 2014 à décembre 2015, équipe FOX, lab. CRIStAL, actuelle- ment Maître Assistant à l’Institut Mines-Telecom Lille Douai, équipe FOX, lab. CRIStAL.

Les travaux conduits sur des données statiques (images ou trames d’une vidéo) ont été poursui- vis par les recherches menées dans le cadre de la thèse de Benjamin Allaert4

sous ma co-direction. Ces travaux visent à réduire l’écart entre la reconnaissance des expressions exagérées et la re- connaissance des expressions à intensités variables. Nous avons adopté une approche permettant de filtrer et caractériser le mouvement facial en conservant un maximum d’information cohérente indépendamment de l’intensité de l’expression sous-jacente. La méthode mise en œuvre obtient d’excellents résultats pour la reconnaissance de micro- et macro- expressions.

4. Benjamin Allaert, doctorant de octobre 2014 à juin 2018, équipe FOX, lab. CRIStAL, actuellement ingénieur de recherche équipe FOX, lab. CRIStAL.

Dans le document Analyse faciale dans les flux vidéo (Page 111-116)