• Aucun résultat trouvé

Conception de descripteurs statistiques pour des images de structure figée

Nous considérons que les images de visages sont de structure figée, dans le sens où les visages sont tous composés de caractéristiques faciales (yeux, nez, bouche, etc.) agencés de manière similaire quel que soit l’individu. Bien sûr, l’apparence de ces caractéristiques faciales (couleur, forme, texture, etc.) varie en fonction de l’individu. Cependant, lorsque l’on cherche à décrire ou à reconnaître des images de visages, la prise en compte explicite ou implicite de la présence de cette structure dans les images de visages peut être utile. Par exemple, la technique très réputée des eigenfaces, proposée par Turk et Pentland en 1991 dans [Turk 1991] et qui consiste à appliquer une ACP (Analyse en Composantes Principales) sur une basse

d’entraînement en niveaux de gris et à décrire chaque visage par les coefficients de sa projection sur le sous-espace principal, ne fonctionne que parce que tous les visages ont à peu près la même structure (logiquement et physiquement), comme on peut le voir facilement dans la FigureA.1. Il en est de même pour la technique des fisherfaces [Belhumeur 1997], qui consiste à appliquer séquentiellement une ACP puis une ADL (Analyse Discriminante Linéaire). L’ADL permet d’obtenir des signatures plus compactes et plus discriminantes (puisqu’elle est basée sur un apprentissage supervisé), tout en augmentant leur invariance vis-à-vis des facteurs extérieurs à l’apparence des visages en eux-mêmes (changements d’illumination par exemple) qui affectent beaucoup les eigenfaces. Pour autant, ces techniques de projection statistique ne vont pas jusqu’à la prise en compte explicite de la structure des visages, défaut partiellement pallié par la technique des sous-espaces modulaires [Pentland 1994], qui est basée sur de multiples ACP locales réalisées autour de chacune des caractéristiques faciales. Il existe par contre des techniques structurelles prenant en compte de manière explicite la structure des visages et qui ont fait leurs preuves pour la description des visages, comme par exemple la méthode introduite dans [Tefas 2001].

FigureA.1 – Les 5 premières eigenfaces (associées aux plus grandes valeurs propres) obtenues sur une sous-base de l’Asian Face Database PF01 [Hwang 2004], comptant 107 personnes et 4 vues par personne. Chaque eigenface correspond à un axe principal obtenu par application de l’ACP sur les vecteurs obtenus par concaténation des pixels de l’image, et remis sous la forme d’une image pour leur visualisation. Chaque visage de la collection est ensuite décrit par ses coefficients de projection dans la base composée des eigenfaces. Autrement dit, chaque visage peut être considéré comme une combinaison linéaire des eigenfaces extraites de la base, et le vecteur composé de ces coefficients constitue son descripteur. Figure extraite de [Visani 2005a].

Dans le cadre de ma thèse [Visani 2005a], j’ai proposé des descripteurs par projection sta-tistique spécifiques pour la description de visages (en niveaux de gris), préalablement détectés [Viola 2001,Garcia 2004] et normalisés en utilisant une localisation des caractéristiques faciales [Duffner 2005]. Étant donnés ces pré-traitements, les signatures qui en dérivent ne doivent être que partiellement invariantes vis-à-vis des translations, rotations dans le plan de l’image et changements d’échelle. En revanche, ces signatures doivent être dotées d’une certaine robus-tesse vis-à-vis de changements de pose de la tête (hors du plan de l’image), de variations dans l’expression faciale et d’occultations (port de lunettes, moustache, cache-nez, etc.).

Tout comme la technique des fisherfaces, les descripteurs que j’ai proposés sont basées sur une ADL, ce qui leur confère par nature un caractère discriminant. À la différence de la technique des fisherfaces qui considère l’image de visage en entrée comme un immense vecteur composé de la concaténation des lignes de pixels, les descripteurs que j’ai proposés prennent mieux en compte la structure bidimensionnelle des images de visages.

Plus précisément, j’ai proposé un descripteur appelé « Analyse Discriminante Linéaire 2D-orientée » (ADL2Do) qui revient (en résumé) à appliquer une ADL sur les lignes (respectivement les colonnes) des images de visages [Visani 2004a,Visani 2006]. Ce descripteur présente plusieurs

avantages par rapport au descripteur issu des fisherfaces. Tout d’abord, en appliquant l’analyse multimensionnelle des données sur les lignes (ou les colonnes) et non sur les très grands vecteurs image issus d’une concaténation des lignes de pixels, on contourne le problème de la singularité de la matrice de covariance intra-classes (problème lié à la malédiction de la dimensionnalité), et ainsi il n’est pas nécessaire d’appliquer préalablement à l’ADL une technique de réduction de dimension (comme par exemple l’ACP dans le cas des fisherfaces). Le coût et l’instabilité lors de l’extraction des descripteurs est également réduite par rapport à la plupart des descripteurs par projection statistique basées sur une ADL de l’état de l’art [Visani 2005a]. Quand on l’applique à la reconnaissance de visages avec une simple stratégie au plus proche voisin et une distance Euclidienne, la signature issue de l’ADL2Do donne de meilleurs résultats que les fisherfaces, et ce, qu’elle soit appliquée en lignes ou en colonnes. Par contre, la taille du descripteur est plus importante qu’avec la plupart de ces techniques.

Une analyse poussée des matrices de confusion obtenues durant l’analyse des performances en reconnaissance a montré que les deux versions de l’ADL2Do (en ligne et en colonne) ont un comportement complémentaire, à savoir qu’il n’est pas rare qu’un visage soit correctement reconnu avec une signature composée de l’un des deux descripteurs, mais pas avec l’autre.

J’ai donc proposé un autre descripteur, que j’ai nommé « Analyse Discriminante Bili-néaire » (ADB), et qui peut être considéré comme réellement bidimensionnel, puisqu’il combine efficacement les deux versions (en ligne et en colonne) de l’ADL2Do. Deux algorithmes itéra-tifs basés sur une application alternative des deux versions de l’ADL2Do ont été détaillés dans [Visani 2005b,Visani 2005e], dont un qui permet de déterminer automatiquement le nombre de vecteurs propres. Si elle n’est pas prouvée formellement, la convergence est en pratique atteinte au bout d’un nombre limité d’itérations, comme nous l’avons montré dans [Visani 2005a] à l’is-sue d’une campagne d’évaluation intensive. La signature isl’is-sue de ce descripteur est de taille très réduite en comparaison avec celle obtenue par ADL2Do ; sa taille est comparable à celle de la plupart des signatures par projection statistique de l’état de l’art basées sur une ADL. L’ADB est également plus stable selon ses paramètres, et robuste vis-à-vis de changements de pose, de variations dans l’expression faciale et d’occultations que l’ADB et la plupart des signatures existantes basées sur une ADL (pour plus de détails merci de se référer à la section 5.2. de [Visani 2005a]).

Du fait de la nature même de cette signature, il n’est pas surprenant que la distance Euclidienne soit particulièrement adaptée pour la comparaison de signatures ADB, ce que j’ai vérifié expérimentalement dans la section 5.2.3. de ma thèse. Lorsqu’elle est combinée avec un réseau de fonctions à base radiale normalisée pour une application finale de reconnais-sance, cette signature permet d’obtenir des taux d’identification en monde ouvert (avec rejet) compétitifs avec les autres approches basées sur une ADL et proposées jusque-là [Visani 2005d]. Puisque l’on dispose de la localisation des caractéristiques faciales [Duffner 2005] et afin de prendre en compte de manière plus explicite la structure des visages, j’ai également proposé dans [Visani 2005c] une version modulaire de l’ADB, à savoir l’ADBM (Analyse Discriminante Bilinéaire Modulaire). Plusieurs ADB sont extraites depuis différentes régions faciales (et depuis la totalité du visage), puis combinées dans un but de reconnaissance. Les résultats montrent une robustesse accrue, en particulier vis-à-vis de changements d’expression faciales et d’occultations, en compensation d’une complexité calculatoire plus importante lors de la phase d’extraction de la signature.

ci-dessus permettent de prendre en compte la structure bidimensionnelle des images de visages, à la différence de la plupart des descripteurs basés sur une projection statistique et proposés jusque-là. Outre les visages, ces descripteurs pourraient être utilisés pour tout autre type d’objets (2D ou 3D) dont la structure est figée, comme par exemple la technique des eigenfaces qui a été réutilisée pour la reconnaissance de paumes de la main dans [Lu 2003].

Cependant, de par la nature statistique de ces descripteurs, le niveau de prise en compte de la structure des images n’atteint pas celui des descripteurs structurels. La section suivante présente brièvement une signature statistico-structurelle dédié à la description d’images de symboles techniques.

A.3 Conception d’une signature statistico-structurelle pour des