• Aucun résultat trouvé

Reconnaissance automatique d’expressions faciales

1.4 Contributions de la thèse

1.4.1 Reconnaissance automatique d’expressions faciales

Depuis l’avènement des technologies de l’information et de la communication, les chercheurs se sont toujours intéressés à la reconnaissance automatique des émo- tions. Même si le domaine commence à dater, il reste néanmoins d’actualité surtout avec l’apparition des nouveaux algorithmes d’apprentissage profond [36, 3]. Dans ce contexte, nous avons proposé dans le cadre de cette thèse différentes méthodes ayant chacune des spécificités qui lui sont propres.

Nous nous sommes principalement concentrés sur le traitement de données d’en- trée statique pour la facilité d’implémentation dans des systèmes embarqués avec ressources matérielles limitées. Ainsi, nous avons commencé par proposer diverses méthodes statiques utilisant différents types de descripteurs : géométriques [61], appa- rence [65] et hybride [66]. Toutes ces méthodes se basent sur l’utilisation de techniques d’apprentissage automatique classiques.

En premier lieu, nous nous sommes intéressés aux descripteurs géométriques. L’intérêt de ce type de descripteurs est qu’ils sont insensibles aux effets de contrastes

et de luminosité. Pour cela, de nombreux chercheurs ont proposé des méthodes ba- sées sur l’utilisation de l’ASM et de l’AAM. D’autres chercheurs ont utilisé des tech- niques pour l’extraction des points caractéristiques du visage. Ensuite, ils ont calculé des distances spécifiques en s’inspirant du FACS proposé par Ekman [18]. Dans notre cas, nous avons proposé d’utiliser la méthode qui se base sur la technique de Kazemi et Sullivan [31] pour l’extraction des soixante-huit points caractéristiques du visage. Ensuite, toutes les distances euclidiennes possibles sont calculées avant d’utiliser une méthode de sélection des attributs pour définir le vecteur de caracté- ristiques le plus optimisé. Deux méthodes de sélection des attributs ont été utilisées, l’une est basée sur la variance [61] et l’autre sur les arbres extrêmement aléatoires [67]. En ce qui concerne la partie reconnaissance, nous avons fait appel à deux différentes techniques d’apprentissage automatique : k plus proches voisins [61] et machine à vec- teurs de support [67]. Le principal avantage des méthodes proposées réside dans le fait que les distances calculées ne sont pas choisies manuellement mais de façon auto- matique à l’aide de critères de sélection spécifiques.

Parmi les principales limites des caractéristiques géométriques figure l’étroite dé- pendance aux techniques d’extraction des points caractéristiques du visage. En effet, ces techniques offrent de bonnes performances avec des images frontales, mais res- tent très sensibles à l’échelle et aux changements d’angle. Les descripteurs de types apparence ne souffrent pas de ces limitations. Ils se basent sur les caractéristiques et opèrent sur l’ensemble des pixels de l’image. Dans le cadre de cette thèse, nous nous sommes intéressés à l’utilisation d’une version étendue des motifs binaires locaux [65]. C’est un descripteur proposé par Ojala et al. [50] et qui a été utilisé de ma- nière efficace pour la reconnaissance faciale. La méthode proposée commence par extraire les cinq sous-régions spécifiques du visage (les yeux, le nez et la bouche). Ensuite, la représentation basée sur les motifs binaires locaux est générée à partir de chacune des sous-régions. Afin d’avoir un seul et unique vecteur de caractéristiques, les différentes représentations sont concaténées. L’une des contributions de cette mé- thode réside dans la comparaison entre deux techniques de sélection des attributs (par transformation) : l’analyse en composantes principales et indépendantes. En ce qui

concerne la partie reconnaissance, elle est réalisée en utilisant un classifieur multi- classe basé sur les machine à vecteurs de support.

Après avoir évalué les deux méthodes avec les deux types des descripteurs, nous avons constaté que les informations fournies par chacun d’entre eux sont différentes, mais complémentaires. Pour cela, nous avons proposé une méthode hybride combi- nant les deux types de descripteurs précédents [66]. En ce qui concerne la repré- sentation géométrique, nous avons repris le travail que nous avons fait précédem- ment [61,67]. Par contre, pour le descripteur de types apparence, nous avons utilisé les coefficients générés par la transformée en ondelettes. Afin de réduire la taille des deux représentations résultantes, nous avons utilisé la technique des arbres extrême- ment aléatoires. La fusion des deux représentations est réalisée en aval, en combinant les sorties de deux classifieurs multiclasse basé sur les machine à vecteurs de support. Comme prédit, les résultats obtenus en combinant les deux types de descripteurs sont meilleurs que ceux obtenus par chacun d’eux.

Avec l’apparition, relativement récente, des nouvelles techniques d’apprentis- sage automatique, il est possible de générer de façon automatique des représen- tations pertinentes à partir de données brutes. Contrairement aux approches clas- siques où il est nécessaire de définir au préalable le type de descripteur à utiliser, les méthodes basées sur les techniques d’apprentissage profond permettent d’extraire et de sélectionner les informations utiles de façon automatique. Dans le cadre de ce travail de recherche, nous avons proposée une nouvelle architecture de réseau de neu- rones à convolution [64] inspirée de LeNet-5 proposée par LeCun et al. [38]. L’archi- tecture proposée est non seulement optimisée pour la reconnaissance des expressions faciales, mais elle est allégée afin de faciliter son implémentation sur des systèmes embarqués limités en ressources matérielles. Afin d’assurer les bonnes performances de l’architecture, nous avons aussi inclue des opérations de pré-traitement. Les ré- sultats obtenus sont bien meilleurs que ceux des méthodes précédentes confirmant ainsi l’efficacité des techniques d’apprentissage profond.

Toutes les méthodes proposées et décrites ci-dessus opèrent sur des données d’entrée statique. La raison est due au fait que ces méthodes sont destinées à être

implémentées sur des systèmes embarqués avec des ressources matérielles limitées. Cependant, nous nous sommes quand même intéressés aux méthodes dynamiques traitant des vidéos et séquences d’images. Ainsi, nous avons proposé une méthode qui permet d’extraire une représentation spatio-temporelle efficace à base de descrip- teurs géométriques. L’un des principaux inconvénients des méthodes dynamiques ré- side dans la nécessité de normalisation des séquences afin qu’elles aient le même nombre d’images. La méthode que nous avons proposée permet de remédier à ce problème, en générant une représentation de même taille peu importe la séquence d’entrée. L’autre avantage apporté réside dans la réduction de la complexité, car non seulement le vecteur de caractéristique initial est réduit, mais nous avons aussi ap- pliqué des méthodes de sélection des attributs afin de réduire encore sa taille. Dans le travail [63], nous avons utilisé une méthode basée sur la variance [61]. Alors que dans le travail [62], nous avons utilisé les arbres extrêmement aléatoires. La partie re- connaissance a été réalisée en utilisant un classifieur multiclasse basé sur les machines à vecteurs de support.

Documents relatifs