Reconnaissance automatique des expressions faciales

1.3 Problématiques et objectifs

1.3.1 Reconnaissance automatique des expressions faciales

Dans le cadre de notre travail, nous avons été amenés à exploiter les techno- logies de l’information et de la communication afin de concevoir des systèmes de reconnaissance automatique. Ce genre de système est composé des mêmes blocs qu’un système de reconnaissance de forme standard [34]. Comme illustré dans la Figure1.4, le système intègre quatre blocs distincts, en plus de l’entrée et sortie, qui se chargent d’effectuer des tâches bien spécifiques.

La reconnaissance automatique des expressions faciales fait appel à un système ayant le même schéma et composition que celui présenté dans la Figure1.4. Cependant, chacun des différents blocs a des caractéristiques qui lui sont propres et qui coïn- cident avec la tâche à effectuer, à savoir la reconnaissance automatique d’émotions à travers les expressions faciales. Dans ce qui suit, nous expliquerons brièvement chacun des différents blocs.

Acquisition de données brutes Pré-traitements b b b nème_Classe 1ère_Classe

caractéristiquesGénération des Sélection des_attributs _{classification}Modèle de

Entr´ee

Sortie

FIGURE1.4 – Système de reconnaissance automatique.

Entrée

Dans le contexte de la reconnaissance automatique des expressions faciales, les don- nées d’entrée peuvent être sous deux formes distinctes. La première est la plus simple et elle est dite statique. Elle exploite de simples images où sont représentés les vi- sages de personnes exprimant une émotion précise [61]. L’autre type de données d’entrée est dit dynamique et consiste en l’utilisation de séquences d’images [63]. En tenant compte de l’aspect temporel, il permet de détailler les différentes phases de transitions propres aux expressions faciales (début, sommet et fin). Cette représenta- tion est avantageuse en raison des informations et détails supplémentaires fournis. Néanmoins, il y a un inconvénient à cause de l’augmentation de la complexité de traitement.

Dans le cadre de ce travail, nous nous sommes principalement focalisés sur le développement de méthodes statiques [61, 64, 68, 66, 67, 65] car l’objectif final est l’implémentation dans des systèmes embarqués. En effet, afin d’optimiser leur fonc- tionnement dans des systèmes avec des ressources matérielles limitées, il est néces- saire de réduire la complexité de traitement. Néanmoins, nous avons aussi travaillé sur des méthodes dynamiques en proposant une représentation spatio-temporelle [63, 62]. L’objectif étant de trouver le bon équilibre entre précision et complexité.

Pré-traitements

Généralement les données d’entrée sont brutes et peuvent nécessiter des pré- traitements afin de faciliter l’exécution des étapes suivantes [42]. Néanmoins, cette étape n’est pas indispensable, car il est possible de traiter les données d’entrée telles quelles au détriment d’un bon taux de reconnaissance. Comme illustré dans la Fi- gure1.4, les données d’entrée alimentent un bloc de pré-traitements afin de les forma- ter, rehausser leur qualité et les préparer pour les traitements suivants. Différentes opérations peuvent y être appliquées au niveau de la forme et de la texture.

Génération des caractéristiques

Une des étapes les plus critiques dans les systèmes de reconnaissance automatique reste l’extraction de caractéristiques. Cette opération consiste en la génération d’une représentation pertinente à l’aide de descripteurs spécifiques qui dépendent du type de données d’entrée. En tenant compte des algorithmes qui ont été proposés récemment, nous distinguons deux approches possibles pour la caractérisation des données d’entrée :

1. Manuelle : c’est au concepteur du système de reconnaissance de définir le type de descripteur à exploiter afin de générer une représentation adéquate. Différents types de caractéristiques peuvent être utilisés, parmi lesquels : les motifs binaires locaux [50] ou l’histogramme de gradient orienté [13]. L’inconvé- nient principal de ce genre de descripteurs réside dans le manque de constance, c’est-à-dire qu’un descripteur peut être efficace avec une certaine base de don- nées, mais ne le sera pas forcément avec une autre.

2. Automatique : avec l’apparition des algorithmes d’apprentissage profond, de nouvelles approches d’extraction de caractéristiques inspirées de modèles biologiques ont été proposées [38]. Elles permettent de générer des représen- tations pertinentes de façon automatique et adaptative. Les résultats présen- tés dans les récents travaux attestent de leurs efficacités.

Dans le contexte de la reconnaissance automatique des expressions faciales, nous re- censons trois types de descripteurs qui sont très répandus dans la littérature :

1. Géométrique : ce type de descripteurs se base sur l’utilisation de points de ca- ractéristiques du visage. Il existe différents algorithmes qui peuvent être exploi- tés afin de générer ce genre de représentations tels que l’ASM (Active Shape Model) [11] ou l’AAM (Active Appearance Model) [10]. Le principal avantage de ce type de descripteur réside dans son insensibilité aux effets de contraste et de luminosité. Dans le cadre de ce travail de recherche, nous ferons principalement appel à la technique proposée par Kazemi et Sullivan [31]. Nous avons utilisé ce genre de descripteur dans le cadre des travaux suivants : [61, 63,67].

2. Apparence : ce genre de descripteurs exploite les caractéristiques de textures. De nombreuses techniques peuvent être exploitées afin d’extraire une repré- sentation pertinente à partir de l’ensemble de pixels de l’image. Parmi ces différentes techniques, nous pouvons citer des coefficients issus de la trans- formée en ondelettes [56], les motifs binaires locaux [50], l’histogramme de gradient orienté [13] ou les filtres de Gabor [45]. Nous avons utilisé ce genre de descripteur dans le cadre des travaux suivants : [66,65].

3. Hybride : ce dernier descripteur exploite la fusion des informations issues des deux représentations précédentes (géométrique et apparence). Le principal avantage de ce genre de descripteurs réside dans le fait de combiner deux représentations pertinentes afin d’améliorer le taux de reconnaissance. Il y a deux façons de fusionner les représentations et qui consistent en :

(a) Amont : où la combinaison des descripteurs est réalisée par une simple concaténation des vecteurs de caractéristiques.

(b) Aval : où chacune des deux représentations est traitée indépendamment et la fusion est réalisée au niveau du bloc de classification.

Dans le cadre de cette thèse, nous avons proposé une méthode hybride où les deux représentations (géométrique et apparence) sont combinées en aval [66].

Sélection des attributs

Selon les données d’entrée et la technique utilisée pour la génération des carac- téristiques, la taille de la représentation obtenue sous forme d’un vecteur de carac- téristiques peut être volumineuse. La taille du descripteur affecte directement les performances du système de reconnaissance automatique en termes de précision et de rapidité. En effet, la représentation initiale peut contenir des attributs redon- dants et d’autres qui peuvent être perçus comme du bruit. Afin de remédier à cette contrainte, il est possible d’ajouter un bloc optionnel au système afin de se débarras- ser de ces attributs. Nous distinguons deux types de techniques qui peuvent être utilisés afin de réduire la taille du vecteur de caractéristiques :

1. Score : où une technique est exploitée afin d’accorder à chaque attribut un certain score qui dépend de critères spécifiques. Ensuite, les attributs sont classés par ordre décroissant suivant le score attribué. Afin de sélectionner un certain nombre d’attributs, nous devons définir, généralement de façon empi- rique, une valeur de seuillage. Il y a de nombreuses méthodes qui peuvent être exploitées. Parmi lesquelles, nous pouvons citer celle proposée dans certains de nos travaux et qui se base sur l’utilisation de la variance comme critère [61, 63]. Il est aussi possible d’utiliser des techniques d’apprentissage supervisé tel quel les arbres extrêmement aléatoires [66,67].

2. Transformation : où le vecteur de caractéristiques est complètement modi- fié et l’information est réarrangée. Le principe consiste en l’application d’une projection de la représentation initiale afin d’en générer une nouvelle où l’information est réarrangée afin de faciliter son utilisation. Dans le cadre de cette thèse, nous avons pu comparer les performances de deux techniques qui sont très utilisées à savoir l’analyse en composantes principales et indépendantes [65]. Il est aussi possible d’exploiter une des nouvelles techniques d’apprentissage profond à savoir les auto-encodeurs [22] qui permettent entre autres de réduire la dimension de la représentation initiale.

Modèle de Classification

Le dernier bloc d’un système de reconnaissance automatique est de loin le plus critique. C’est celui qui est chargé de la tâche de reconnaissance. Dans le contexte de ce travail de recherche, nous avons utilisé différentes techniques qui peuvent être classées en deux catégories distinctes selon l’apprentissage [60,15]

1. non-Supervisé : c’est une technique d’intelligence artificielle et plus préci- sément un problème d’apprentissage automatique. Il permet de partitionner les échantillons dans un certain nombre de segments (ou cluster). Cette opération est effectuée sur des échantillons non étiquetés. La technique la plus com- mune et qui est utilisée dans le cadre de cette thèse reste le k-moyennes (voir

Chapitre 5). L’apprentissage non-supervisé permet aussi l’estimation de den- sité de distribution ainsi que la réduction de densité en exploitant l’analyse en composantes principales (voirChapitre 3).

2. Supervisé : par contraste aux techniques non-supervisé, les algorithmes super- visés ont comme objectif la classification des échantillons suivant un certain nombre de classes prédéfinies. Ces algorithmes opèrent sur des échantillons étiquetés sur lesquels est réalisée une phase d’entrainement afin de générer un modèle. En exploitant le modèle généré, il est possible de reconnaître et de clas- sifier les échantillons non-étiquetés. Dans le cadre de ce travail de recherche, nous avons utilisé diverses techniques parmi lesquelles : machine à vecteurs de support [61,63,67,66], perceptron multi-couche [61], k plus proches voisins [61, 63], arbres de décision [61] et forêt d’arbres décisionnels [68].

Nous avons également utilisé, dans le cadre de cette thèse, un autre type d’algorithme qui est d’actualité et qui consiste en l’apprentissage profond. Nous nous sommes focalisés sur une technique en particulier ; le réseau de neurones à convolution avec une architecture optimisée afin de développer une méthode de reconnaissance automatique des expressions faciales [68,64]. Le principal avantage de ce genre de techniques réside dans le fait que les représentations sont générées de façon automatique et non prédéfinies par le concepteur.

Sortie

C’est le dernier bloc du système. Après avoir appliqué l’algorithme ou modèle d’apprentissage pour l’identification de l’émotion à partir de l’expression faciale, la sortie est composée d’un certain nombre de classes nominales. Se basant sur les travaux d’Ekman et Friesen [17], la plupart des méthodes existantes permettent de reconnaître de façon automatique les six émotions de base à savoir : peur (FE), surprise (SU), joie (HA), dégoût (DI), colère (AN), tristesse (SA) et l’état neutre (NE). Ainsi, dans le cas des systèmes statiques, nous dénombrons sept classes de sortie. Quant aux sys- tèmes dynamiques, ils disposent de six classes de sortie. Le nombre de classes dépend aussi de la base de données d’évaluation utilisée (se référer aux Tables1.1et1.2).

Dans le document Reconnaissance des expressions faciales pour l’assistance ambiante (Page 35-41)