• Aucun résultat trouvé

2.2.1 Reconnaissance de visages de sujets non conditionn´es

Nature et disponibilit´e des images. La comparaison de visages est longtemps rest´ee can- tonn´ee `a des portraits de sujets conditionn´es, c’est `a dire, des images centr´ees sur des visages posant de face, sans variations d’intensit´e majeures ou de jeux de lumi`ere complexes. Afin de construire un syst`eme capable d’adresser la diversit´e des visages extraits de vid´eos de concert, il est n´ecessaire de sortir de ce cadre id´ealiste et de consid´erer la r´ealit´e des visages extraits de vid´eos. La base de donn´ees Labelled Faces in the Wild (LFW) a ´et´e con¸cue pour repr´esenter le contenu du web. Ainsi, les photographies de LFW pr´esentent des visages sans restriction sur la pose ou les conditions de lumi`ere. Par ailleurs, le nombre d’images dispo- nibles pour l’apprentissage d’un classificateur varie d’individu en individu, selon une courbe en exponentielle d´ecroissante. La probl´ematique de la disponibilit´e d’images d’entraˆınement en reconnaissance de visages est notamment mentionn´ee par Stone et al.(Stone et al., 2010). Posant le probl`eme de l’apprentissage d’un classificateur d’individus, ils soulignent que le nombre de photographies moyen disponibles en ligne pour une personne est inf´erieur `a cinq photographies.

Alignement. L’alignement est un incontournable en classification de visages. La proc´edure consiste `a d´etecter des points cl´e sur les visages pour les aligner sur un axe commun de l’es- pace en 3D. Les m´ethodes bas´ees sur l’AAP (Active Appearance Model) sont tr`es largement utilis´ees dans la litt´erature (Valstar et al. (2010), Vukadinovic et Pantic (2005)) du fait de leur grande pr´ecision. Ces m´ethodes pr´esentent cependant l’inconv´enient d’ˆetre tr`es lourdes d’un point de vue computationnel (le temps de traitement est de l’ordre de la minute par image). En 2011, Hasan et Pal pr´esentent un dispositif d’alignement capable de traiter les images en quasi-temps r´eel, bas´ee sur la d´etection et la mise en correspondance de r´egions du visage (M. K. Hasan, 2011).

L’´ecart dans la pose des individus est sans conteste un facteur important nuisant `a la comparaison des visages. Il est donc naturel d’avoir l’intuition d’une proc´edure distinguant les cas selon la pose. La prise en compte de la pose des individus pour l’alignement a ´et´e notamment trait´ee par Odobez et al. puis par Dong et al. En 2009. Odobez et al. proposent une proc´edure capable de diff´erencier 91 poses diff´erentes du visage (Ricci et Odobez, 2009). Dong et al. s’int´eressent plus tard a 21 poses (Dong et al., 2010). En 2012, Hasan et al. soulignent l’avantage d’une distinction selon 3 poses sur la proc´edure d’apprentissage (Hasan et al., 2012) en reconnaissance de visages.

2.2.2 Comparaison d’images

Sur la base de donn´ees LFW, les performances des algorithmes sont compar´ees selon leur aptitude `a diff´erentier les paires de visages identiques des paires de visages compos´ees de deux identit´es distinctes (on parle de v´erification). Plusieurs sc´enarios sont alors propos´es pour l’´evaluation des algorithmes : (a) l’exp´erimentation est conduite sans donn´ees externes, avec les seules images fournies par LFW, (b) l’exp´erimentation a recours `a des donn´ees ext´erieures. Dans le cadre de ce m´emoire, nous nous pla¸cons dans le premier cas de figure (a). En 2009, Wolf et al. obtiennent un taux de v´erifications correctes de 86% pour (a) (Wolf et al., 2009a). Ils utilisent, apr`es une phase d’alignement, une description au moyen de plusieurs descripteurs : LBP, TPLBP, FPLBP et SIFT. La classification est bas´ee sur deux extensions de la technique d’analyse locale discriminante de Fisher (LDA), l’OSS (One Shot Similarity measure) et la TSS (Two Shots Similarity measure). Dans le cadre du second sc´enario (b), l’´etat de l’art est repr´esent´e par Yin et al., dont la m´ethode est bas´ee sur le recours `a une base de visages externe permettant d’´evaluer les variations de l’apparence d’un individu et d’affiner la pr´ediction finale (Yin et al., 2011). Le score obtenu en v´erification sous cette configuration d´epasse les 90%. La strat´egie d’apprentissage de similarit´e en cosinus (Cosine Similarity Metric Learning) a prouv´e sa robustesse en terme de comparaison de visages `a travers de nombreux articles de la litt´erature. Introduite par Nguyen et al. en 2010, la m´ethode consiste `a apprendre une mesure de similarit´e optimis´ee pour la comparaison des visages (Nguyen et Bai, 2010). L’avantage de cette m´ethode est qu’elle s’accompagne d’une r´eduction importante de la dimensionnalit´e, ce qui permet une classification rapide. Une revue compl`ete des r´esultats obtenus sur LFW est donn´ee par Huang et al. (Huang et al., 2005). 2.2.3 Classification d’individus `a grande ´echelle

Le probl`eme de la reconnaissance de visages est rarement formul´e en termes de classi- fication (jusqu’`a pr´esent nous avons ´evoqu´e la tˆache de v´erification). En 2011, Rim et Pal proc`edent `a la classification des 50 identit´es correspondant aux individus poss´edant le plus d’images dans LFW. Ils atteignent une pr´ecision de 82% en ajoutant des donn´ees bruit´ees issues de vid´eos YouTube (Rim et Pal, 2011). En 2009, Guillomin et al. rapportent des r´esul- tats concernant la classification de dix-sept sujets (Guillaumin et al., 2009). En 2011, Wolf et al. s’int´eressent `a un ensemble plus large de 610 individus. La classification est r´ealis´ee au moyen d’une SVM multiclasse et la pr´ecision atteinte est de l’ordre de 25%. En ajoutant des donn´ees additionnelles, ils atteignent un taux de 45% de pr´ecision pour 100 sujets (Wolf et al., 2011).

2.2.4 Bases de donn´ees, ordre de grandeur

Les r´esultats donn´es ci-apr`es sont `a prendre avec parcimonie. En effet, les performances d´ependent tr`es largement du nombre de visages disponibles pour l’entraˆınement. Ainsi, Rim et al. travaillent sur une base de donn´ees dont chaque individu poss`ede au moins 20 visages, tandis que Wolf et al. utilisent beaucoup moins d’images d’entraˆınement, ce qui impacte bien sˆur n´egativement les performances.

Tableau 2.2 Bases de donn´ees et r´esultats de r´ef´erence en reconnaissance de visages Base de donnee Tˆache Nombre d’individus Etat de l’art M´ethode

LFW Verification - 90.5% AP Yin et al. (2011)

LFW Classification 50 82% prec. Rim et Pal (2011)

LFW Classification 100 24% prec. Wolf et al. (2011)

Documents relatifs