HAL Id: tel-00452469
https://tel.archives-ouvertes.fr/tel-00452469
Submitted on 2 Feb 2010
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
reconnaissance automatique de visages
Muriel Visani
To cite this version:
Muriel Visani. Vers de nouvelles approches discriminantes pour la reconnaissance automatique de
visages. Interface homme-machine [cs.HC]. INSA de Lyon, 2005. Français. �tel-00452469�
THÈSE
pour obtenir legrade de
Do teur de l'Institut National des S ien es Appliquées de Lyon
Spé ialité Informatique
E ole do toraleInformatiqueetInformationpour la So iété (EDIIS)
Vers de nouvelles appro hes
dis riminantes pour la re onnaissan e
automatique de visages
par
Muriel VISANI
Thèse soutenue le25 Novembre 2005
Composition du jury
POGGIJean-Mi hel Professeur Université de Paris 5 Président
JOLION Jean-Mi hel Professeur INSA de Lyon Dire teur
GARCIA Christophe Cher heu r Fran eTélé om R&D Dire teur
LALLICH Stéphane Professeur Université de Lyon 2 Rapporteur
POSTAIRE Ja k-Gérard Professeur Université de Lille1 Rapporteur
CHIMIE DE LYON
Responsable : M. Denis SINOU
M. Denis SINOU
Université Claude Bernard Lyon 1
Lab Synthèse Asymétrique UMR UCB/CNRS 5622
Bât 308
2
ème
étage
43 bd du 11 novembre 1918
69622 VILLEURBANNE Cedex
Tél : 04.72.44.81.83 Fax : 04 78 89 89 14
E2MC
ECONOMIE, ESPACE ET MODELISATION
DES COMPORTEMENTS
Université Lyon 2
14 avenue Berthelot
MRASH
Laboratoire d’Economie des Transports
69363 LYON Cedex 07
Tél : 04.78.69.72.76
Alain.bonnafous
∂
ish-lyon.cnrs.fr
E.E.A.
ELECTRONIQUE, ELECTROTECHNIQUE,
AUTOMATIQUE
M. Daniel BARBIER
M. Daniel BARBIER
INSA DE LYON
Laboratoire Physique de la Matière
Bâtiment Blaise Pascal
69621 VILLEURBANNE Cedex
Tél : 04.72.43.64.43 Fax 04 72 43 60 82
E2M2
EVOLUTION, ECOSYSTEME,
MICROBIOLOGIE, MODELISATION
http://biomserv.univ-lyon1.fr/E2M2
M. Jean-Pierre FLANDROIS
M. Jean-Pierre FLANDROIS
UMR 5558 Biométrie et Biologie Evolutive
Equipe Dynamique des Populations Bactériennes
Faculté de Médecine Lyon-Sud Laboratoire de Bactériologie BP
1269600 OULLINS
Tél : 04.78.86.31.50 Fax 04 72 43 13 88
E2m2
∂
biomserv.univ-lyon1.fr
EDIIS
INFORMATIQUE ET INFORMATION
POUR LA SOCIETE
!M. Lionel BRUNIE
M. Lionel BRUNIE
INSA DE LYON
EDIIS
Bâtiment Blaise Pascal
69621 VILLEURBANNE Cedex
Tél : 04.72.43.60.55 Fax 04 72 43 60 71
!EDISS
INTERDISCIPLINAIRE SCIENCES-SANTE
http://www.ibcp.fr/ediss
"#$ $%M. Alain Jean COZZONE
IBCP (UCBL1)
7 passage du Vercors
69367 LYON Cedex 07
Tél : 04.72.72.26.75 Fax : 04 72 72 26 01
&'' &MATERIAUX DE LYON
& ! (M. Jacques JOSEPH
M. Jacques JOSEPH
Ecole Centrale de Lyon
Bât F7 Lab. Sciences et Techniques des Matériaux et des
Surfaces
36 Avenue Guy de Collongue BP 163
69131 ECULLY Cedex
Tél : 04.72.18.62.51 Fax 04 72 18 60 90
" &) " & * +, -./ *0 123*01. 453631. 7/ 89*01. 453 / 87:0*3710;3 < & => ? % & => ? %Université Claude Bernard Lyon1
Institut Girard Desargues
UMR 5028 MATHEMATIQUES
Bâtiment Doyen Jean Braconnier
Bureau 101 Bis, 1
er
étage
69622 VILLEURBANNE Cedex
Tél : 04.72.43.27.86 Fax : 04 72 43 16 87
@ ! @MEGA
*3 A07. 453 B3739C31. 453 BC37.3 A.D.; B 0A8561.453 ( & % ? ! E (M. François SIDOROFF
M. François SIDOROFF
Ecole Centrale de Lyon
Lab. Tribologie et Dynamique des Systêmes Bât G8
36 avenue Guy de Collongue
BP 163
69131 ECULLY Cedex
Tél :04.72.18.62.14 Fax : 04 72 18 65 37
& ! &Jetiens toutd'abord àexprimermaprofondegratitudeàmesdire teursdethèseChristophe
Gar ia, ingénieur de re her he et expert pour le groupe Fran e Télé om R&D et Jean-Mi hel
Jolion, professeur à l'INSA de Lyon, pour m'avoir en adrée et guidée ave lairvoyan e, pour
leurs nombreux onseils, leur onan eet leur soutien onstanttout aulong de es troisannées
dethèse. Je lesremer ie également pour leur disponibilité, leurs très grandes qualitéshumaines
et leurrele ture minutieusedumanus rit.Mer i.
Je remer ie vivement Jean-Mi hel Poggi, professeur à l'Universitéde Paris 5,pour avoir
a - epté de présider mon jury de thèse. Je suis également très re onnaissante à Stéphane Lalli h,
professeuràl'UniversitédeLyon2etàJa k-GérardPostaire, professeuràl'UniversitédeLille1,
des'êtrepen hésave rigueuretgrandintérêtsur etravailetdem'avoirfaitl'honneurd'enêtre
lesrapporteurs.Mesplussin ères remer iementsvont égalementàJean-Lu Dugelay, professeur
àl'InstitutEuré om (Sophia-Antipo lis), quiaexaminé etravail dethèse eta parti ipéau jury.
Cetravaildethèseaétéréalisédansle adred'unCDDdeformationpar lare her he Fran e
Télé om R&D,queje remer ie pour m'avoirfourni d'ex ellentes onditions logistiqueset
nan- ières.Lors de es troisannéesde thèse,j'aiévoluéausein deslaboratoires LIRIS(UnitéMixte
deRe her he5205)etIRIS(Fran eTélé om R&D,Rennes).Jeremer ie leursdire teurs
respe -tifsBernard Pero he et Vin ent Mar atté ainsiquetous les her heursde es laboratoires pour
leura ueil haleureuxet pour m'avoirfaitproter de leurexpérien eet de leursavoir. Grâ eà
eux, j'ai eu la han e de travailler dans un environnement de re her he extrêmement onvivial
et motivant.
Je remer ie également Henri Sanson,responsable del'équipe CIMdu laboratoireIRIS, pour
l'intérêt onstant qu'il aportéà montravail.
Mer i àSid-Ahmed Berrani pour sarele ture détaillée despremiers hapitres dumanus rit.
Mer i également à toutes les personnes qui m'ont entourée et aidée durant es trois années de
travailet notamment à tousles membresde l'équipe CIM.
Ungrandmer iàmesparents,àmas÷uretàtoutemafamillepourleursoutienindéfe tible.
Enn,rienn'auraitétépossiblesansEri ,quim'aépauléeeten ouragéedanslesinstantsdi iles
mes parents
Introdu tion générale 1
Chapitre 1
La re onnaissan e automatique de visages: problématiques et appli ations
1.1 Introdu tion . . . 5
1.2 Position duproblème . . . 6
1.3 Appli ations et enjeux . . . 7
1.3.1 Biométrie . . . 9
1.3.2 Indexation de do umentsmultimédia . . . 10
1.3.3 Sé urité . . . 11
1.3.4 Divertissement . . . 11
1.3.5 Appli ations visées dansle ontextede ette thèse . . . 11
1.4 La re onnaissan e humaine de visages . . . 12
1.4.1 La re onnaissan e humaine de visages: un pro essus spé ique . . . 12
1.4.2 Utilisation des ara téristiqueslo ales et globales . . . 13
1.4.3 Impa t desdiérentes sour esde variabilité . . . 13
1.4.4 Dis ussion . . . 14
1.5 Di ultés inhérentesà lare onnaissan e automatique . . . 14
1.5.1 Les variations de pose . . . 15
1.5.2 Les hangements d'illumination . . . 15
1.5.3 Les expressionsfa iales. . . 16
1.5.4 Les o ultations partielles . . . 17
1.5.5 Le vieillissement et les hangementsd'aspe t . . . 17
1.5.6 Les fa teursindividuels . . . 18
1.5.7 L'impa t de lataille de labase . . . 18
1.5.8 Con lusion . . . 18
1.6 Déte tion et segmentation du visagedansl'image . . . 19
1.6.2 Déte tion des ara téristiquesfa iales . . . 20
1.6.3 Normalisation . . . 20
1.7 L'évaluation desperforman es des systèmesde re onnaissan eautomatique . . . 21
1.7.1 Lesstatistiques de mesurede laperforman e . . . 21
1.7.2 Le proto ole FERET . . . 23
1.7.3 Lesévaluations FRVT . . . 23
1.7.4 Dis ussion . . . 24
1.8 Con lusion . . . 24
Chapitre 2 État de l'art des te hniques de re onnaissan e automatique de visages 2.1 Introdu tion . . . 25
2.2 Lesappro hesglobales . . . 25
2.2.1 La orrélation . . . 26
2.2.2 Lesappro hesde proje tion statistique . . . 26
2.2.3 LesModèles A tifsd'Apparen e. . . 39
2.2.4 LesRéseauxde Neurones . . . 40
2.2.5 LesMa hines àVe teursde Support . . . 41
2.3 Lesappro heslo ales ou hybrides . . . 43
2.3.1 Lesappro hesgéométriques . . . 43
2.3.2 Leste hniques modulaires . . . 44
2.3.3 L'AnalysedesCara téristiques Lo ales . . . 45
2.3.4 LesModèles deMarkovCa hés . . . 46
2.3.5 Lesappro hesbasées surles graphes . . . 48
2.4 Comparaisondes performan es desméthodes . . . 50
2.4.1 Présentation desrésultatsexpérimentaux . . . 50
2.4.2 Con lusion . . . 51
2.5 Con lusion. . . 52
Chapitre 3 Analyse Dis riminante Linéaire et re onnaissan e automatique de visages 3.1 Introdu tion . . . 55
3.2 L'AnalyseDis riminante Linéaire . . . 56
3.2.1 Introdu tion . . . 56
3.2.2 Données et notations . . . 57
3.2.3 Des ription simpliéede l'ADL . . . 58
3.3.2 Position duproblème . . . 62
3.3.3 Solutions possiblesauproblème dela singularité. . . 64
3.3.4 Stabilisation par réé hantillo nnage . . . 72
3.3.5 Con lusion . . . 73
3.4 Variantesde l'ADLdansle asoùses hypothèses sont nonvériées . . . 73
3.4.1 Introdu tion. . . 73
3.4.2 L'ADL hétéros édastique . . . 74
3.4.3 L'ADL robuste . . . 74
3.5 L'Analyse Dis riminante Linéaire ànoyau . . . 78
3.5.1 Les fon tionsde noyau . . . 80
3.5.2 Des ription de late hnique d'ADL àNoyau . . . 81
3.5.3 Évaluationet omparaison desperforman es . . . 82
3.6 Con lusion. . . 84
Chapitre 4 Unenouvellete hniqueDis riminanteBidimensionnelleOrientéeenmondefermé 4.1 Introdu tion . . . 85
4.2 Données et notations . . . 86
4.3 L'ACPBidimensionnelle . . . 87
4.3.1 Introdu tion. . . 87
4.3.2 Des ription . . . 88
4.3.3 Évaluationdes performan es . . . 89
4.3.4 Évaluationde latoléran e àdiérentsfa teursde variabilité . . . 90
4.3.5 Dis ussion . . . 95
4.3.6 Con lusion . . . 97
4.4 L'Analyse Dis riminante Linéaire Bidimensionnelle Orientée . . . 97
4.4.1 Introdu tion. . . 97
4.4.2 Extra tion designatures . . . 98
4.4.3 Classi ation . . . 104
4.4.4 Séle tion du nombre de omposantes . . . 107
4.4.5 Impa t de diérentsfa teurssur lesperforman es dusystème . . . 110
4.4.6 Évaluation des performan es et omparaison aux te hniques usuelles de proje tion statistique. . . 113
4.4.8 Dis ussion . . . 119
4.5 Con lusion. . . 120
Chapitre 5 Une nouvelle appro heDis riminanteBidimensionnelle en monde fermé ou ou-vert 5.1 Introdu tion . . . 123
5.2 L'analyseDis riminante Bilinéaire . . . 124
5.2.1 Introdu tion. . . 124
5.2.2 Extra tion de signatures . . . 124
5.2.3 Classi ation . . . 129
5.2.4 Impa t dediérentsfa teurssurles performan es du système . . . 130
5.2.5 Évaluation des performan es et omparaison aux te hniques usuelles de proje tion statistique . . . 131
5.2.6 Dis ussion . . . 138
5.2.7 Con lusion . . . 138
5.3 Versune appro hehybride: la fusiond'experts modulaires . . . 139
5.3.1 Introdu tion. . . 139
5.3.2 La ombinaisond'experts . . . 140
5.3.3 Évaluationde laméthode proposée . . . 142
5.3.4 Dis ussion . . . 146
5.4 Classi ation dessignatures par RéseauxdeFon tionsàBase Radiale Normalisés 147 5.4.1 Introdu tion. . . 147
5.4.2 LesRéseauxde Fon tionsà Base Radiale . . . 147
5.4.3 La méthode proposée. . . 152
5.4.4 Évaluationde laméthode proposée . . . 155
5.4.5 Con lusion . . . 160
5.5 Con lusion. . . 161
Con lusion et perspe tives Annexes Annexe A Les bases de visages utilisées A.1 La baseFERET . . . 170
A.2 La basede Yale . . . 171
A.6 La baseAR . . . 175
A.7 La basePIE . . . 176
Annexe B La déte tion de visages et de ara téristiques fa iales B.1 Déte tion de visages . . . 177
B.2 Déte tion de ara téristiquesfa iales . . . 180
Annexe C Normalisation des visages dans les images Annexe D Les mesures de dissimilarité usuelles D.1 Les distan esde Minkowski et leurs extensionsfra tionnaires . . . 183
D.2 La mesured'angle . . . 183
D.3 La mesurede divergen e deKullba k-Leibler . . . 184
D.4 Les mesuresde dissimilaritéutilisées pour leseigenfa es . . . 184
D.5 Les mesuresde dissimilaritéutilisées pour lessherfa es . . . 185
Annexe E Des ription de l'ADL E.1 Formulation géométrique: l'Analyse Fa torielle Dis riminante . . . 187
E.1.1 Critère àoptimiser . . . 187
E.1.2 Classi ation desdonnées . . . 191
E.1.3 Insusan e desrèglesgéométriques. . . 192
E.2 Formulation probabiliste . . . 192
E.2.1 La règle Bayésienne . . . 192
E.2.2 Le modèle multinormal . . . 193
E.2.3 Le modèle multinormal homos édastique . . . 193
E.3 Algorithmes de onstru tion du modèle. . . 194
E.3.1 La pro édure derésolution standard . . . 194
E.3.2 La pro édure derésolution par diagonalisations (algorithme deFukunaga) 194 Annexe F L'ADL sous-optimale F.1 L'ADL dansle noyau . . . 197
F.1.1 L'ADL
0
. . . 197F.1.2 L'ACP+ADL
0
. . . 198F.1.3 La méthode desVe teurs Dis riminants Communs . . . 199
F.1.4 Synthèse . . . 200
F.2 L'ADL Dire te . . . 200
F.3 L'ADL Duale . . . 201
F.3.1 L'ADL Duale deWanget Tang . . . 201
F.3.2 L'ADL Duale deYang et al. . . 203
Annexe G Les te hniques de réé hantillonnage G.1 Leste hniques deréé hantillo nnage usuelles et l'ADL. . . 205
G.2 Le réé hantillo nnage de l'ADLpour la re onnaissan ede visages . . . 207
G.2.1 La te hnique de Luet Jain . . . 207
G.2.2 La méthode de Wang et Tang . . . 207
Contexte
Re onnaître un visage, 'est lui ae ter une identité parmi elles d'un ensemble de visages
onnus.Leshumainssontdotésd'uneex ellenteaptitudeàidentierleurssemblables.Lesétudes
biologiquestendent àprouver quelare onnaissan ehumaine desvisages onstitue unpro essus
spé ique de re onnaissan e d'objets, qui serait mené dans une région parti ulière du erveau.
On peut onsidérer qu'il en est de même de la re onnaissan e automatique, qui onstitue un
domaine parti ulier du traitement d'images et de la re onnaissan e de formes. Ses spé i ités
proviennentsurtoutdelanaturedesobjetsàdiéren ier.Eneet,lesvisagesdedeuxpersonnes
diérentessontstru turellementtrèspro hes, ardotésdesmêmes ara téristiquesfa iales(yeux,
nez,bou he),dontlalo alisationvarietrèspeu.Deplus,lessour esdevariabilitéentredeuxvues
d'unmêmevisagesontmultiples,etpeuventmême engendrerdesdissimilaritésplusimportantes
que ellesobservéesentredeuxvisagesdiérents.Aussipeut-on onsidérerqu'ils'agitd'unetâ he
de lassi ationplus omplexequelare onnaissan ed'objetsgénériques.Eneet, ettedernière
onsistegénéraleme ntà lasserunobjetobservédanssa atégoried'appartenan e.Dansle asdes
visages,ils'agiraitde lasserunvisagedansla atégorie desvisages,tâ hequenousdésignerons
danslasuite parle terme déte tion devisages. En revan he,dansle adrede lare onnaissan e,
nous onnaissonslanaturedel'objetmais her honsàlemettreen orrespondan eave lesobjets
desa atégorie quiluisontleplus similaires.Ilexiste don unediéren e fondamentale entrela
re onnaissan ed'objetsgénériquesetlare onnaissan edevisagesquiné essiteune lassi ation
àun niveau supérieur.
Motivation
Vingt années de re her he intensive dans le domaine de la re onnaissan e automatique de
visages dans des images numériques ont abouti à la on eption de systèmes d'authenti ation
performants.Dans e ontexte,lapersonnequiseprésenteausystèmeprétendavoirune ertaine
identitéetlepro essusdoitêtre apablededéterminer demanièreablesil'identitérevendiquée
est ou non authentique. Par ontre, dans un adre d'identi ation plus générale, où l'on ne
dispose d'au une information a priori on ernant l'identité du visage, la plupart des systèmes
onnaissent une baisse de leurs performan es dans des onditions réelles d'appli ation. Nous
nous intéresserons dans ette thèse à l'identi at ion de visages humains, en monde fermé ou
ouvert . Le monde est dit fermé si tout visage présenté au système est enregistré dans la base
de onnaissan e, et ouvert sinon. Le nombre d'appli atio ns potentielles est très important. Il
n'y avait pas à l'initiative de ette thèse d'appli atio n parti ulière ment visée. D'où lané essité
de on evoir un système qui soit le plus universel possible, 'est-à-dire qui ne dépende pas de
visages utilisées (telles quelataille delabase par exemple).
Problématique
La re onnaissan eautomatiquedevisagesné essiteàlafoislamiseen÷uvredetraitements
des images (lo alisation/seg mentation du visage, orre tion d'illumination, et .) [BJL03℄ et de
te hniques d'apprentissage et de dis rimination [Fuk90℄. On onsidère que les traitements des
imagessontee tués en amont dela re onnaissan e. Dans ette thèse,nousnous on entrerons
plus parti ulière ment sur les phases de modélisation et de lassi ation. La gure 1 s hématise
lepro essusde re onnaissan ede visages qui, omme toutetâ he de re onnaissan ed'objets,se
dé ompose en deuxétapes:
extra tiond'éléments ara téristiques ( signatures);
lassi ation dessignatures. L'ensemble desimages devisages onnus est sto ké dansune
base de onnaissan e . Cette base de onnaissan e peut ontenir plusieurs images d'une
mêmepersonne,sousdes onditionsdeprisedevuediérentes.Chaqueimageestétiquetée
par son identité asso iée. À haque personne de la base de onnaissan e, on asso ie une
signature quiluiest ara téristique.La re onnaissan ed'un visage-requête sefaitendeux
étapes. Dans une première phase, on extrait sa signature à l'aide de la même te hnique
que elle appliquée à la base d'apprentissage. Puis, la signature-requête ainsi obtenue est
mise en orrespondan e ave la signature de la personne la plus pro he dans la base de
onnaissan e.On endéduit l'identité du visage-requête.
Base de connaissance
Pierre
Paul
Base de signatures
Pierre
Paul
Phase hors-ligne
visage-requête
Extraction
de
signatures
Extraction
de
signatures
Signature-requête
Classification
Pierre
Phase en-ligne
Fig. 1 S hématisation du pro essus de re onnaissan e devisages.
Pour le hoix des signatures, on privilégie un ertain nombre de propriétés. Celles- i doivent
être invariantes et dis riminantes. Le terme invariant s'applique à des ara téristiques qui ne
sont pas ou peu ae tées par des hangements a eptables
1
d'apparen e . En d'autres termes,
les signatures extraitesde deuxvues d'une même personne doivent être le plus pro he possible
(au sens du ritère utilisé pour leur lassi ation), même si les onditions de prise de vue sont
1.Letermea eptable estvolontairementvague;eneet,leseuild'a eptabilitédes hangementsvarieen
Notonsquele hoixdelaméthodede lassi ationesttrèsdépendant delanaturedes
signa-turesetde l'appli ationviséeet aglobalementdonné lieuàmoinsdere her hesquel'extra tion
de elles- i.
Contributions et plan du manus rit
Les ontribution sde ettethèse on ernentàlafoisl'extra tiondesignatures ara téristiques
desvisages et la lassi ation de elles- i.
Tout d'abord, nous introduisons une rele ture des très nombreux travaux relevant de e
domainequi permettra,nousl'espérons,àtout her heur d'appréhend er la omplexitéde e
do-maineetde sesavan éesré entes.Con ernant l'extra tiondesignatures,nousintroduisonsdans
unpremier temps une appro he originale,basée sur une Analyse Dis riminante Linéaire et une
modélisationbidimensionnelleorientée(2Do)desdonnées.Cetteappro heglobale,baptisée
Ana-lyse Dis riminante Linéaire Bidimensionnelle Orientée (ADL2Do), se dé line en deux versions,
selon quel'on onsidère les lignes ou les olonnes desimages. La représentation 2Do permet de
mettre en ÷uvre l'analyse de données dire tement sur les lignes ou les olonnes de l'image, et
ainsi d'éviter impli itement le problème de la singularité inhérent à la sous-représentation des
donnéesde visages. Après avoir hoisi une mesurede dissimilarité permettant d'obtenir de très
bons résultatsde lassi ation, nousmontrerons la omplément arité de es deuxte hniques de
re onnaissan e, e quiouvrelavoieàleurfusion.Nousintroduirons dansunese ondeétape une
méthode nommée Analyse Dis riminante Bilinéaire (ADB), qui onstitue un mode de
ombi-naison e a e des deuxappro hes orientées. Il s'agit d'une te hnique globale bidimensionnelle,
au sens où elle allie les avantages des appro hes orientées en ligne et en olonne. Après avoir
séle tionnéune mesurededissimilarité adaptée, nousmettronsen éviden e sestrès bonnes
per-forman es pour l'identi ati on en monde fermé et la omparerons aux te hniques de l'état de
l'art.Andegarantirunetoléran ea rueàdesvariationsd'expressionfa iale,nousintroduirons
dansun troisième temps une appro he hybride nommée ADB Modulaire (ADBM). Celle- i est
baséesurl'utilisation onjointedetroisexpertsADB, onstruitsindépendam mentsurdesrégions
fa iales diérentes. Plusieurs modes de ombinaison des experts seront étudiés. Nous mettrons
enéviden e sestrès bonnes performan es pour l'identi at ion de visagesen monde fermé.
Notre ontribution dans le ontexte de la lassi ation provient en premier lieu de l'étude
de l'e a ité de diérentes mesures de similarité pour la lassi ation des signatures obtenues
par ADL2Do et par ADB. Nousétudierons notamment les performan es des distan es de
Min-kowski et desmesuresde Minkowski fra tionnaires,et montreronsqu'une stratégie d'ae tation
au plus pro he voisin est plus e a e qu'à la plus pro he moyenne. Cette règle d'ae tation
présente ependant le désavantaged'être oûteuse, et potentiellement inuen ée par des
obser-vations aberrantes. Nous introduisons don dans un se ond temps l'utilisation de Réseaux de
Fon tions à Base Radiale Normalisés (RFBRN), qui permettent de modéliser les lasses de
si-gnatures ave un faible nombre de paramètres, et ainsi de réduire la omplexité en termes de
tempsde al uldelaphasede lassi ationpar rapportàunpluspro hevoisin.Deplus, etype
de réseau de neurones permet de mieux prendre en ompte les distributions des lasses lors de
la lassi ation, e qui engendre une robustessea rue à d'éventuelles observations aberrantes.
Celanouspermet également dedénirdesrèglesde dé isionsimplesmaise a esquinous
per-mettrontd'appliquer l'appro he ainsidéniedansun ontexteen mondeouvert. Uneévaluation
enmondefermé ommeouvertetsatoléran eàunensembledesour esdevariationsré urrentes
dans le problème de la re onnaissan e de visages ( hangement s de pose, o ultations partielles
desvisages, et .)
Andedétailler esapports,nousavons hoisid'arti ulernotreétudeautourde inq hapitres
prin ipaux.
Le premier hapitre vise à positionner pré isément le problème ainsi que les enjeux et les
appli ations possibles de la re onnaissan e de visages. Nous étudierons également le système
de re onnaissan e humain de visages, an de tirer les meilleurs enseignements des ex ellentes
aptitudesdu erveauhumaindans edomaine.Puis,nousprésenteronslesprin ipauxproto oles
d'évaluation des systèmes automatiques et nous mettrons en lumière le nombre important de
di ultésinhérentes àlare onnaissan e de visages.
Dans le deuxième hapitre, nousétudierons les prin ipales te hniques de l'état de l'art
pro-posées pour la re onnaissan e de visages humains. Nous présenterons les performan es de es
te hniques, et dis uteronsde leurs avantages et deleurs in onvénients.
Dansletroisième hapitre,nousnousfo aliseronssurl'étudedesappro hesbaséessur
l'Ana-lyseDis riminante Linéaireainsiquesesvariantes lesplusutiliséesdansle ontextedela
re on-naissan e devisages.
Le quatrième hapitre visedans un premier temps à mettre en éviden e les avantages de la
représentation 2Do des données tant en termes de performan e que de toléran e à diérentes
sour esdevariations.Puis, nousprésenterons lesdeuxversionsissuesdel'AnalyseDis riminante
Linéaire Bidimensionnelle orientée (ADL2Do) et nous mettrons en éviden e leurs très bonnes
performan es et leur omplément arit é.
Dans le inquième hapitre, nous introduirons la te hnique d'Analyse Dis riminante
Bili-néaire (ADB), puis montrerons qu'il s'agit d'un mode de fusion e a e des deux versions de
l'ADL2Do. Par la suite, nous présenterons l'ADB Modulaire, et mettrons en lumière ses très
bonnes performan es et notamment satoléran e a rue à des hangements d'expression fa iale.
Nousmontreronségalementl'e a ité del'utilisationde RFBRNpourla lassi ation de
signa-tures issuesde l'ADB dansle ontextede l'identi at ion devisages en mondeouvert.
Une on lusion terminera e mémoire et introduira les prin ipalesperspe tivesde e travail
La re onnaissan e automatique de
visages : problématiques et appli ations
1.1 Introdu tion
Lespremiers travaux on ernant lare onnaissan eautomatiquede visagesremontent au
dé-butdesannées1970.Leste hniquesintroduitesàl'époqueutilisaientpourlaplupartdesmesures
estiméesautourdesélémentsfa iauxdesvisages[Ble66,Kel70,Kan77℄.Mais en'estqu'audébut
desannées1990quelevolumedere her he on ernantlare onnaissan edevisagesaréellement
ommen éà roître. Par lasuite,l'engouement pour ette problématiquen'afait qu'augmenter,
si bien qu'aujourd'hui la re onnaissan e de visages onstitue l'un des domaines les plus
explo-rés de la re onnaissan e de formes et de l'analyse d'images. Cet intérêt roissant s'est soldé
par l'apparitionde onféren es internationa les surlesujet,telles quel'International Conferen e
on Automati Fa e and Gesture Re ognition (AFGR) en 1995 et l'International Conferen e on
Audio-and Video-Based Authenti ation (AVBPA)en 1997.Lagure1.1montrel'évolution dans
letemps des publi ations référen ées dans labase de re her he IEEE Xplore
2
, et ayant trait à
lare onnaissan ede visages.
Cettetendan e peut être expliquéepar desenjeux roissants, notamment dansles domaines
de l'indexation et de la sé urité, mais aussipar les avan ées te hnologiques réalisées les trente
dernières années dans le domaine de l'analyse d'images. Ces dernières permettent aujourd'hui
de proposer des solutions exploitables au moins partielles à e problème. Le domaine de la
re onnaissan e de visages ontinue à attirer de nombreux her heurs issus de dis iplines telles
que le traitement d'images, la re onnaissan e de formes, les réseaux de neurones, la vision par
ordinateur, lesinterfa es homme/ma hine, laneurophysiologie et laneuropsy hologie.
Malgréleseortsengagés,onnepeut pas onsidérerà e jourquelare onnaissan e
automa-tiquede visages soit unproblème résolu, omme lemontrelaré ente évaluation desprin ipales
te hniquesproposéesdans e ontexte,menéeparleNationalInstituteofStandardsandT
e hno-logy(NIST)[PGM
+
03℄.Eneet,malgrélamaturitédesmeilleureste hniquesévaluées, elles- i
peuventêtreinsusantesdansle ontexted'appli ationsréelles,oùlessour esdevariabilitésont
multiples (illumination, anglede prisede vue, et .).Étant donné quelesvisages sont desobjets
stru turellement très pro hes, es hangements peuvent engendrer des diéren es plus
impor-tantes entre deux vues d'un même visage qu'entredeux vues de visages diérents. Cela fait de
lare onnaissan eautomatiquedevisagesunproblèmede lassi ation parti ulière ment di ile.
2.Cettebasedere her heréféren elesarti lesparusdanslesjournaux,magazineseta tesde onféren eIEEE
Nombre de publications référencées dans IEEE Xplore
0
20
40
60
80
100
120
140
160
180
200
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
année
N
o
m
b
re
d
'a
rt
ic
le
s
Fig.1.1 Nombre depubli ations référen éespar lemoteur dere her h e IEEE Xplore, en
fon -tiondel'année depubli ation. Lestitres desarti les omptabilisés ontiennentaumoins l'undes
termes- lés suivants:Fa e Re ognition,Fa eIdenti ation,Fa e Authenti ation,Fa e
Represen-tation et Fa e Veri ation. On note un engouement roissant depuis le début des années 1990,
ave una roissement exponentiel du nombre de publi ations en2004.
Ce hapitre est organisé omme suit. Après avoir pré isément déni la problématique en
se tion 1.2, nous présenterons en se tion 1.3 ses prin ipales appli ations et les énormes enjeux
asso iés. En se tion 1.4, nous nous pen herons sur le pro essus de re onnaissan e humaine de
visages, an de tirer les meilleurs enseignements des ex ellentes aptitudes du erveau humain
dans e domaine. Lase tion 1.5met enéviden e les prin ipalessour esde di ultésinhérentes
àlare onnaissan eautomatique.Ense tion1.6nousprésenteronslesprin ipaux prétraiteme nt s
des imagesné essaires à la miseen ÷uvre de laplupart dessystèmes de re onnaissan e. Enn,
les te hniquesd'évaluationde essystèmes seront étudiées ense tion 1.7.
1.2 Position du problème
La plupart desalgorithmes de re onnaissan eautomatique de visagesportent sur la
lassi- ationd'imagesxes2D.Ondisposed'unebase de onnaissan e ontenantdesphotographiesde
personnes onnues, 'est-à-direles personnes que lesystème est ensé re onnaître lors de toute
apparition ultérieure. Lorsqu'un visage-requête (image d'un visage à re onnaître) est présenté
au système, elui- i va her her à lui assigner une identité parmi elles ontenues dans la base
de onnaissan e.Le systèmede re onnaissan eestbasé surunmodèle généraleme nt onstruità
partir d'une base d'apprentissage ontenant un ensemble d'images de visages, par le biais d'un
algorithmed'apprentissage.Dans ertains as,labased'apprentissage etlabasede onnaissan e
sont onfondues. Le modèle est alors spé iquement onçu pour les visages qu'il vise à
re on-naître. Dans d'autres as au ontraire, soit du fait des spé i ités de late hnique utilisée, soit
à ause del'appli atio n, lesbases d'apprentissageet de onnaissan e sontdistin tes. La plupart
ompte la ouleur nesontpour laplupart quedesgénéralisations à trois anauxdes te hniques
utiliséesen niveauxde gris [TRL99℄.
Ces dernières années, la re onnaissan e de visages depuis des vidéos ommen e à être
ex-plorée [ZCPR03℄. Un avantage de esappli ations est quel'on peut, par lebiaisde l'utilisation
d'un module de suivi des visages, disposer d'un nombre important de vues du visage-requête
suivi.La plupart dessystèmesreposent surl'utilisation dete hniquesinitialement onçuesdans
le ontexte d'images xes. La plupart du temps, on se ramène à un problème de lassi ation
d'images xes par l'utilisation de l'une des troisstratégies suivantes. La première onsiste à
sé-le tionner une image- lé représentative de l'ensemble des vues du visage-requête. La deuxième
solution est d'utiliser un algorithme de vote sur les résultats de lassi ation obtenues pour
ha une de es vues [GMP00℄. La troisième possibilité est de onstruire un modèle spé ique
pour haque personne de la base de onnaissan e, ainsique pour le visage-requête, à partir de
l'ensemble des vues de la personne onsidérée dont on dispose. Les ara téristiques du modèle
du visage-requête sont alors omparées à elles desmodèles de la base de onnaissan e an de
luiassigner l'identité dumodèleleplus pro he [YFM98 , TB99a, TLV00, WS03℄.
Très ré emment, lesavan éesdansledomaine del'a quisition de donnéestridimensionne lles
(notamment par lebiaisde s annerslaser)ontpermisl'émergen e dete hnologies de
re onnais-san e3D.Ilexistedeuxgrandesfamillesdeméthodes: ellesbaséessurlamiseen orrespondan e
d'objets3Ddire tement[CBF05℄,et ellesseramenantpourla lassi ationàunproblèmede
re- onnaissan e2D[RBBV04℄.Lepremiertypedeméthodesné essitegénéraleme ntquel'ondispose
d'images3Daussibienpourlesvisages delabased'apprentissage quepour lesvisages-requêtes,
tandisquedanslese ond asseuleslesvues 3Ddelabased'apprentissagesontrequises. Quelle
que soit la solution retenue, il est né essaire de olle ter un ertain nombre de visages par le
biaisde apteurs3D, equi réduitle hampdesappli ations. Eneet,de tels apteursreposent
en oreà e jour suruneprise de vueintrusive, au sensoù elle requiert la oopération du sujet.
Dansle adrede ettethèse,nousnousintéressonsauxte hniquesbaséessurl'étuded'images
xes 2D des visages, ara térisées par des valeurs de pixels en niveaux de gris. La plupart des
méthodes reportées, proposées et/ou évaluées dans le présent do ument sont onçues pour la
re onnaissan e de visages dans des images xes, mais omme nous l'avons vu plus haut elles
peuvent fa ilement êtreétendues à lare onnaissan e dansdesvidéos.
1.3 Appli ations et enjeux
L'impa tstratégiqueetlesenjeuxnan iersdumar hémondialdel'informationéle tronique
sonténormes.Ilestessentieldesé uriserlestransa tionsenprotégeantl'identité desutilisateurs
d'unepart,et d'analyser le ontenuinformationnel d'autre part. Par ailleurs, lademandede
sé- urisationdeslieuxpubli ss'estfaitedeplusenpluspressante esdernièresannées.Ceséléments
expliquentengrandepartie l'eortde re her he investidansleste hniquesdere onnaissan e de
visages.Fa eà ettedemande, denombreusesentreprisesontproposédesproduits ommer iau x,
dont les prin ipaux sontrépertoriés en table 1.1.
Danslasuitede ettese tion,nousprésenteronslesprin ipalesappli ationsdelate hnologie
de re onnaissan e de visages, ainsi que leurs enjeux. La table 1.2 répertorie es appli ations
Compagnie Produit Site internet
Neven Vision, In . Mobile-i
http://www. nevenvision. om
(an iennement Eyemati ) Fa e Re ognition SDK
Identix, In . Fa eItSDK http://www. identix. om
HumanS an Co. BioID SDK http://www. bi oid. om
Viisage Fa eFinder http://www.viisage. om
Cognite Fa eVACS http://www. ogni te -systems.de
Fa eKey Corp. Fa eKey http://www.fa ekey. o m
Visiphor
VisiphorBIE http://www. imagiste hnologies. om
(an iennement Imagis)
A sysBiometri s Corp. A sysFRS http://www. a sysbiome tr i s o rp. om
C-VIS GmbH Fa eSnapRe order http://www. -vis. o m
DreamMirh Co.,Ltd. MIRH Eye http://www. dreammir h. om
VisionSphere UnMask Plus, It'sMe,
http://www. vision sph erete h. om
Te hnologie s, In . Fa eCam
IstitutoTrentino di Cultura SpotIt! http://spotit.it .it
ImageWareSystems, In . IWSProdu ts http://www. iwsin . om
RealUserCorp. Passfa es http://www. realuser. om
Tab.1.1 Prin ipaux systèmes ommer iauxdere onnaissan e devisages ( ertains de es sites
internet peuvent avoir hangé).
qui ontient toutes les images de personnes onnues. La taille de la BC est qualiée de petite
sile nombre de personnes enregistréesn'ex ède pasune vingtaine,on parlera de taille moyenne
pour un nombre d'individus inférieur à deux ents environ et de grande taille pour un nombre
de personnessupérieur.
Onpeut lasserlesappli ationsendeuxgrandesfamilles: ellesenmonde fermé(F),oùtout
visage-requêteestenregistrédanslabasede onnaissan e,et ellesenmonde ouvert (O),oùdes
visages de personnesin onnuespeuvent êtreprésentées ausystème.
Lare onnaissan epeut onsisterenunetâ hed'identi ation(Id),oud'authenti ation(Au).
Identierun visage, 'estlui assignerune identitésans prendreen ompteau une information a
priori sursa lassed'appartena n e présumée.Enrevan he,dansle ontextedel'authenti ation
( véri ation), toute personne se présentant au système revendique une ertaine identité. Le
pro essus onsiste àvérier qu'ils'agit biende ette personne.
lassi ation. Par exemple, on pourra onsidérer que si un système onçu dans un but de
di-vertissement ee tue une mauvaise lassi ation, la portée de ette erreur sera moindre que si
elle- iavait amenéà une usurpationd'identité pour une transa tion nan ière.
Domaine Appli ation
Tâ he Taille Niveau Monde
de de
Id Au BC sé urité O F
Biométrie
Contrle parental X petite moyen X
A ès àson
X
petite/
haut X
poste detravail moyenne
Sé urisation des
X petite haut X
transa tions
Indexation
Contenupersonnel X petite faible X
Contenu spé ique X moyenne moyen X
Contenugénérique X grande moyen X
Sé urité Aide àladé ision X moyenne/ haut X grande Analysede X grande haut X s ènes a posteriori
Vidéosurveillan e X grande haut X
Divertissement
Intera tion
X petite faible X
homme-ma hine
Tab.1.2Prin ipales appli ationsdela re onnaissan e devisages.Ondétaillei i ledomainede
mise en ÷uvre, la tâ he (Identi ation/Authenti ation), la taillede la Base de Connaissan e,
leniveau de sé urité, ainsique le ontexte (monde Ouvert/Fermé).
1.3.1 Biométrie
À e jour, le moyen le plus répandu d'authentier une personne de manière éle tronique
repose sur l'utilisation d'un ode personnel, omposé de hires et/ou de lettres. Ce mode de
véri ationd'identité estrelativement peusûr,puisqu'il sutde onnaîtrele ode dequelqu'un
d'autre pour usurper son identité. De plus, la multipli ation des transa tions et des
ommu-ni ations éle troniques fait que l'usager moyen doit retenir un nombre roissant de odes: un
pour retirer de l'argent depuis un distributeur automatique, un pour a éder à sonordinateur,
plusieurspour se onne ter àdessitesinternet,et . Sibien quelebesoin de systèmes
d'authen-ti ation onviviauxet sûrssefaitdeplus enpluspressant.La biométrie onsiste àauthentier
unepersonneàl'aidede equ'elleest,etnonpasde equ'ellesaitoudétient.Parmilesméthodes
de biométrie les plus e a es, on peut iter elles basées sur l'étude de l'iris, de la rétine, ou
où elles né essitent la oopération de l'utilisateur) e qui réduit le hamp des appli ations. De
plus, leur déploiement repose sur l'utilisation d'un matériel dédié. À l'inverse, la te hnique de
re onnaissan e devisages est non-intrusive onpeut vérier l'identité de quelqu'un sans même
qu'ils'enrende ompteetunmatérieldeprisedevue ourant( ommeparexempleunappareil
photographique numérique ou une web am) sut pour l'a quisition des données. Selon le
rap-port G-276 [GBM03℄ rédigé par la Business Communi at ions Company, In ., le mar hé global
de la biométrie représentait 946 millions de dollars en 2002. Les prévisions font état d'un taux
d'a roissement annuelmoyende29,1% jusqu'en2007,oùlemar hédevraitreprésenter 3,4
mil-liardsdedollars. C'estlare onnaissan ed'empreinte sdigitalesquireprésentelapartderevenus
laplus importante, maisla re onnaissan e fa ialedevrait avoir untaux d'a roissement annuel
moyen plusimportant, ave 33,3% ontre 29,2% pour les empreintes digitales. Lesappli ations
de biométrielistéesen table 1.2sont:
le ontrle parental pour l'a ès à la télévision passée une ertaine heure par exemple.
S'agissant debiométrie dansun adre familial, onpeut onsidérer quelemonde estfermé
etlabasede onnaissan edepetitetaille.Anderendrelesystèmeleplus onvivialpossible
etnotamment denepasavoiràsolli iterla ollaborationdel'utilisateur,onpréféreradans
e ontextemettreen ÷uvreune tâ he d'identi at ion qued'authenti at ion;
l'a ès à son poste de travail, (bâtiment ou environnement personnel dans l'ordinateur
de bureau). Le nombre de personnes autorisées d'a ès étant limité, la taille de la BC
estpetite à moyenne. Il s'agittypiquement d'une appli ation d'authenti ation enmonde
ouvert(puisquedesimposteurspeuventtenterd'a éderàlazone protégée).Ilestpossible
d'amener l'utilisateur à oopérer, par exemple en lui demandant de pla er sa tête à un
empla ement pré is, e quipeut grandement simplierlatâ hede re onnaissan e;
la sé urisation des transa tions, dont les ara téristiques sont très semblables à elles de
l'appli atio n i-avant, sauf que le nombre de personnes autorisées est généraleme nt plus
faible.
1.3.2 Indexation de do uments multimédia
Levolumesans esse roissantd'informationmultimédiaexistante,tantsurinternetquedans
desorganisationsde onservationdupatrimoine (telles quel'InstitutNationalde l'Audiovisuel),
rend né essairelamise àdispositionde moyensperformantsd'indexation ( lassement) et de
re- her heparmi esdo uments.L'identité despersonnesreprésentées dansuneimagevéhi uleune
information sémantique forte. Par exemple, si l'onre onnaît M. Ja ques Chira et M. Vladimir
Poutine dans une image, il s'agit sans doute d'une photographi e prise lors d'un évènement à
ara tère politique. Les appli ationsd'indexation sont né essairement ee tuées a posteriori de
laprisedevueetdon ellesreposent généraleme ntsurunetâ hed'identi ation. Lesprin ipales
appli ations d'indexationlistéesen table 1.2sont:
l'indexation de ontenu personnel . Il peut s'agir par exemple de trier les photographies
de va an es d'un utilisateur. On onsidère que le er le des personnes potentiellement
représentées (en général desamis) estfermé et limité (basepetite à moyenne);
l'indexation de ontenu spé ique ,tel quedesJournaux Télévisés(JT).Dans etexemple,
il peut être utile de distinguer la séquen e plateau de elles de reportage . Dans
e but, on peut utiliser l'outil de re onnaissan e de visages, généralement onjointement
ave d'autres te hniques d'analyse d'images et de dé oupage en séquen es. Ce système
nous permet de vérier les résultats par l'identi at ion du présentateur. Le nombre de
petitetaille.Par ontre,ilpeutyavoirdesinvitésextérieursetdon onestdansun ontexte
de monde ouvert;
l'indexation de ontenugénérique.Ondisposed'unevidéooud'unensembled'imagesxes,
sansau uneinformationapriorisurson ontenu.Lebutestdedéterminersidespersonnes
onnuessontprésentesdans esdo uments. LaBCestpotentiellement grandeetlemonde
ouvert.
1.3.3 Sé urité
Il estsouventsouhaitable que lasurveillan eautomatique de lieuxpubli sou privéssefasse
de manière non intrusive, 'est-à-dire sans demander aux passants de dé liner leur identité, e
qui évite d'installer des points de ontrle qui restreindraient les personnes dans leurs
mouve-ments. Onsepla ealors dansle adred'unetâ he d'identi at ion et nond'authenti at ion. La
re onnaissan e de visages est l'une des te hniques privilégiées dans e ontexte de surveillan e,
à ause desanon intrusivité et de larelative fa ilité d'a quisitionde photographies d'un visage
qui rend la onstitution de la base de onnaissan e assez aisée. Les prin ipales appli ations de
sé urité sont( f.table 1.2):
l'aide à la dé ision. Un expert dispose dela photographi ed'une personne, dont il her he
l'identité parmi unensemblepotentiellement grand de personnes onnues.Il questionne le
systèmequi doitluifournirlesnoms des andidatspossibles.C'estl'opérateur humain qui
tran hera:soitau undes andidatsproposésne orrespond,etl'onpourraendéduirequele
visage-requête n'est pasenregistrédanslabase de onnaissan e,soit l'unde es andidats
onvient et le visage-requête est identié. Le monde est don ouvert, et le nombre de
personnesenregistrées vade quelquesdizaines àplusieurs entaines;
la vidéosurveillan e. Une améra numérique est pla ée dans un lieu publi ou privé, en
intérieurouenextérieur,et olle tedesimagesenpermanen e .Dèsqu'unvisageestdéte té,
l'image orrespondante estprésentéeaupro essusd'identi ation.Laqualitéde esimages
peutêtretrèsmauvaise,etleurrésolutiontrès(trop)faible.Letempsderéponsedusystème
doit obligatoirement être trèsrapide.
l'analyse a posteriori de ontenu. Les ara téristiques de ette appli ation sont très
sem-blables à elles de la vidéosurveillan e; laseule diéren e ave ette dernière est que l'on
disposegénéralement de plusde temps pour mener à bienl'identi at ion.
1.3.4 Divertissement
Dans le domaine du divertissement , nous avons répertorié les intera tions homme-ma hine,
omme par exemple les jeux vidéos en réseau où haque joueur, pla é devant une web am, est
automatiquementre onnu. Sonidentitéétant onnue,onpeut alorspro éderàune onguratio n
automatique de son environnement de jeu: il est par exemple possible de hoisir
automatique-ment omme personnage du jeu l'avatar de ette personne parmi les avatars de l'ensemble des
utilisateurs. Le nombre de joueurs potentiels étant limité, on peut onsidérer qu'il s'agit d'une
appli ation en monde fermé, où la taille de la base d'apprentissage est petite. Dans un but de
onvivialité, on privilégiera unetâ he d'identi ation par rapportà l'authenti ation.
1.3.5 Appli ations visées dans le ontexte de ette thèse
Dans ette thèse,nous nousintéresserons plus spé iquement à la tâ he d'identi ation, en
ouvert au hapitre 5. Nous her hons à on evoir un système able pour des tailles de la base
de onnaissan e petite àmoyenne, .-à-d.n'ex édant pasune àdeux entainesd'individus.Nous
ne visons au une des appli ations itées i-dessus en parti ulier; néanmoins, le développement
d'un teloutilnousouvreles domainesdudivertissement,de labiométriedansun adrefamilial,
de l'indexation de ontenu personnel ouspé ique, et del'aide àladé ision dansle ontextede
la sé urité.Les expérimentations reportées aux hapitres 4. et 5. seront onçues pour tester les
performan es desalgorithmesproposés dansde tels s enarii.
1.4 La re onnaissan e humaine de visages
L'aptitudeàre onnaîtresessemblablesestl'unedes apa ités ognitiveslesplusimportantes
de lara e humaine, indispensable à l'organisationen so iété.La re onnaissan e d'unepersonne
par le erveau humain passe par l'utilisation de nombreusesinformations visuelles (visage,
pos-ture, oupe de heveux, et . ) ou non visuelles (voix, parfum, et .). Le ontexte est également
un fa teur important: on re onnaîtra plus rapidement un ollègue sur son lieu de travail que
dans la rue. Néanmoins, la per eption d'un visage sut généraleme nt à sa re onnaissan e: la
plupart deshumains sont apables, par l'étude d'une photographie de qualité susante, de
re- onnaîtreune personne onnue,ou dedistinguer deux visages diérents(sauf s'ils'agit devrais
jumeaux), et e en une fra tion de se onde.Les premiers travauxportant sur lare onnaissan e
humainedevisagesontétémenésdansledomainedelaneuropsy hologiedèsledébutdesannées
1950.Depuis,notamment grâ eauxavan éesdansledomainedel'imagerie médi ale,desétudes
de neurophysiologie sont venues ompléter es re her hes. C'est ave un grand intérêt que les
s ientiques her hant àautomatiserlepro essussuivent estravaux,dansl'espoirde on evoir
un algorithme apable de opier les prodigieuses fa ultésde re onnaissan edu erveau humain.
Ainsi, Zhao et al. ont dressédans[ZCPR03℄ un inventaire assez omplet desprin ipales études
relativesà lare onnaissan e humaine desvisages.
1.4.1 La re onnaissan e humaine de visages: un pro essus spé ique
Comme nousl'avons vuen introdu tion de ette thèse, la re onnaissan e de visages
onsti-tue une tâ he de lassi ation plus omplexe que la re onnaissan e d'objets génériques [DC86,
RML90, GT97℄. Aussi serait-il plausible que ette tâ he repose surun mé anisme spé ialisé et
indépendant de eux impliqués dans la re onnaissan e d'autres objets. Plusieurs onstatations
viennent a réditer ette thèse[BK98℄.Premièrement, le erveau humainala apa itéde
re on-naître un visagefamilier àpartir de relativement peu d'information, omparé àd'autres objets.
Ledeuxièmeargumentenfaveurde ettehypothèseestl'existen ed'unemaladie(trèsrare)
nom-mée prosopagnosie et telleque lessujets qui en sont ae tés sont in apablesde distinguer deux
visages, oude re onnaître visuellement desvisages familiers,alors queleurs autres apa ités de
re onnaissan evisuellesontinta tes. Lesmalades peuvent distinguerun visaged'un autreobjet
et déte ter ses ara téristiques fa iales,mais sont in apables de ombiner es éléments dansun
but dere onnaissan e. Chez ertainsd'entreeux, ona dé elé unelésion érébrale lo alisée dans
unerégionspé iquedu ortexvisuel.Ceseraitdon ettepartiedu erveauquiseraitimpliquée
dansla re onnaissan e de visages, hypothèse que viennent a réditer desétudes
neurophysiolo-giques montrant une a tivité a rue dans ette région lors du pro essus de re onnaissan e de
1.4.2 Utilisation des ara téristiques lo ales et globales
Lespsy hophysi iensetlesneuros ientiquesont her héàdéterminersile erveauhumainse
baseplutt surl'étude de ara téristiquesglobales ou lo ales du visagepour sare onnaissan e.
De nos jours, la plupart des her heurs s'a ordent à dire que les deux types d'informations
sont utilisées [BHB98℄. Si l'analyse de l'information des bassesfréquen es de l'image (reétant
saglobalité) sont susantes à lare onnaissan e d'un visage très familier, les heveux, la forme
du visage, les yeux et la bou he sont re onnues omme étant des ara téristiques primordiale s
danslaper eptionetlamémorisationdesvisages.Beau oupd'étudesmontrentquel'importan e
du nez est insigniante dans le adre de la re onnaissan e d'un visage de fa e, mais devient
importante pouruneposede prolou detrois-quarts,oùl'onpeutmieuxappréhender saforme.
Dans le adre de visages onnus mais non familiers, l'÷il humain prend en ompte à la fois les
ara téristiquesintérieures(bou he,yeux)etextérieures( heveux)àl'ovaleduvisage,tandisque
pour la re onnaissan e de visages familiers nous analysons essentiellement les ara téristiques
intérieures. De plus, le fait que l'on soit doté de la apa ité à re onnaître au premier oup
d'÷il le sujet d'une ari ature tend à prouver le pouvoir dis riminant des yeux, du nez et de
labou he. En eet, e sont là lesprin ipaux traits roqués (etgénéraleme nt exagérés)dans les
ari atures[Per75℄.Ilaégalementétémontréquelapartiesupérieureduvisageauneplusgrande
importan e quelapartie inférieure.
1.4.3 Impa t des diérentes sour es de variabilité
Ilestégalementtrèsintéressantd'étudierl'impa tdesdiérentessour esdevariabilitésurles
performan es du systèmevisuel humain en termesde re onnaissan e desvisages. Une personne
ayant vu unvisage en une seule o asion peut lere onnaître dans des onditions d'orientatio n,
d'expressionfa iale oude luminosité trèsdiérentes[TH96, BVB87, Mos93℄.
Desexpérimentations ontmontréqu'unvisagefamilieré lairéparunesour elumineusesitué
sous le visage est plus di ile à identier [JHC92℄. Ainsi, la dire tion d'illumination inue sur
notreaptitudeàre onnaîtreunvisage;les onditionsd'illuminationlesplusfavorables onsistent
enun é lairage par lehaut [HB96℄.
Selon des études neurophysiologiques, il semblerait que l'analyse de l'expression fa iale se
fasseparun pro essusindépendant delare onnaissan edu visage.Certainspatientsatteintsde
prosopagnosie peuvent atégoriser les expressions fa iales alors même qu'ils sont in apables de
re onnaîtrelevisagelesarborant.Àl'inverse, ertainespersonnessourantd'un typeparti ulier
desyndromeorganiquedu erveausont apablesdere onnaîtreunvisage,maispasd'interpréte r
sagestuelle fa iale. Demanièregénérale, l'expression fa ialea peu d'inuen esurnos apa ités
dere onnaissan e, pour autant qu'ellereste raisonnable.
Par ontre,laquestiondesavoirsilare onnaissan eestounonindépendant edelaposen'est
pasen ore tran hée. Étant donné qu'une image de visage se présente généraleme nt à l'endroit,
lefa teur leplusvariableestlarotation enprofondeur.Onparlederotationen profondeurpour
desmouvementsdetypeho hement detête, ounégation.Denombreuxs ientiques s'a ordent
à dire que la pose n'a d'inuen e signi ative sur la re onnaissan e que si son amplitude est
trèsimportante. Eneet,ilest di ilede mettreen orrespondan elesdeux prolsd'un même
visage, tandis que pour deux vues de trois quarts ette tâ he est relativement aisée [HSA97℄.
Cette onstatation tend à prouver que notre erveau est apable d'utiliser, dans une ertaine
1.4.4 Dis ussion
Un ertain nombre d'enseignement s peuvent être tirés de es études, dans le but de
on e-voir un système de re onnaissan e automatique qui soit leplus e a e possible. Tout d'abord,
les onstatations données en se tion 1.4.1 ont amené un grand nombre de her heurs à
propo-ser des systèmes de re onnaissan e de visages spé ialement onçus pour ette tâ he et non pas
dire tement des appli ations de te hniquesplus générales de re onnaissan e de formes.
Deuxiè-mement, les éléments soulignés en se tion 1.4.2 plaident en faveur des te hniques hybrides (au
sensoùellessontbasées surl'étude onjointedes ara téristiquesglobalesetlo ales desvisages)
et a ordant une importan e parti ulière aux ara téristiques issues de lapartie supérieure du
visage [ZCPR03℄.
Les études exposées en se tion 1.4.3 tendent à prouver l'importan e de l'apprentissage pour
la re onnaissan e humaine: nous avons, depuis notre enfan e, observé susamment de visages
pour avoir omplètement intégréleursymétrie,onestdon apabled'inférerunevueàpartir de
sonopposée. Àl'inverse,onapeu l'o asionderen ontrer danslanaturedessour esd'é lairage
provenantdusol;par onséquent,ilnousestdi iledere onnaîtreunvisagedans es onditions.
Ces remarques montrent qu'il ne sut pas de onsidérer les dissimilarités entre deux visages
diérentspour onstruireun outilde re onnaissan eautomatiqueperformant: ilfautégalement
prendre en ompte l'ensemble desvariations possiblesentredeux vuesd'un même visage.
1.5 Di ultés inhérentes à la re onnaissan e automatique
Les systèmes automatiques de re onnaissan e de visages doivent rester invariants à tout
fa teur indépendant del'identité duvisage,même si e fa teur engendredes hangements
d'ap-paren e du visage. Or, de nombreux fa teurs, extérieurs au visage ou en lien ave sa nature
intrinsèque, peuvent inuer sur elle- i. Les onditions de prise de vue, notamment l'anglesous
lequel levisage est observé et la puissan e dessour es de luminosité,inuent onsidérablement
sur l'apparen e d'un visage. Nouspouvons iter les propos de Moses et al. dans [MAU94℄
(tra-duit de l'anglais): Les variations entre des images d'un même visage duesà l'illumination et
à l'angle de vision sont presque toujours plus importantes que les variations entre images dues
à un hangement de l'identité du visage. L'expression fa iale arborée par le sujet à l'instant
où l'image est olle tée, ainsique d'éventuelles o ultations partielles (une partie du visage est
a héeparunautreobjet,parexempledeslunettes)ainsiquelevieillissementpeuventégalement
engendrer des hangementsd'aspe timportants. Des fa teursindividuels relatifs auxpersonnes
àre onnaître,telsqueleursexeouleurâge,ainsiquelatailledelabasede onnaissan e,peuvent
également avoir unimpa tsur lesperforman es dusystème.
Dans ettese tion,nouspasseronsenrevue esprin ipauxfa teursetétudieronsleurimpa t.
L'analyse des résultats expérimentaux obtenus dans le adre des FRVT 2000 et 2002 [BBP01,
PGM
+
03℄etparGrossetal. dans[GSC01℄ nouspermettradetirerun ertainnombrede
on lu-sions.Le proto oleFRVT,quisera détailléense tion1.7.3,a permisessentiellement de
ara té-riser l'impa t de lapose, des onditions d'illumination, du délai entre diérentes prises de vue,
defa teursindividuelsetdelatailledelabase.Dans[GSC01℄,Grossetal.fournissentuneétude
systématique de l'impa t de diérents paramètres sur les performan es du système, variés de
manièreisolée ou onjointe.Lessixfa teurs onsidérés sont: laposedelatête, les hangements
d'illumination,l'expressionfa iale,leso ultations,l'intervalledetempsentredeuxprisesdevue
1.5.1 Les variations de pose
Un hangement de l'angle d'in linaison du visageengendre de nombreux hangements
d'ap-paren e dansl'image olle tée, (pour une position xe du apteur). Nousnous intéresserons i i
aux rotations du visage en profondeur (mouvement de type ho hement de tête ou négation).
En eet, on suppose quela phase préliminaire de normalisation du visage qui sera détaillée en
se tion 1.6 permet de orriger d'éventuelles rotations dansle plan de l'image. Les rotations en
profondeur engendrent deuxtypesde di ultés. Tout d'abord, elles amènent desdiéren es de
profondeurqui,projetées surleplan2Ddel'image, résultent en desdéformations(étirement de
ertainesparties duvisageet ompa tage d'autresrégions). La formedu visage,et don les
dis-tan es entre ara téristiques fa iales, varient. Se ondement , elles peuvent mener à l'o ultation
de ertaines parties du visage(par exemple, dansune vue de troisquarts, une partie du visage
est a hée).
Si lapose duvisage-requête dièresigni ativement de elle desvisages enregistrés,les
per-forman esdessystèmes dere onnaissan edevisages sontae tées etlestauxde re onnaissan e
baissent sensiblement, omme l'a mis en éviden e le FRVT [BBP01℄. En eet, selon le FRVT
2000, la rotation de la tête n'entraîne pas de baisse des taux de re onnaissan e signi ative
jusqu'à
±
25◦
, alors qu'àpartir de
±
40◦
on onstate une hute desperforman es.
Dans [GSC01℄, Gross et al. ont montré que, si le seul fa teur de variation entre l'image
enregistréeet l'image-requêt eestune rotationenprofondeur delatêteinférieure à30
◦
,les taux
dere onnaissan e dessystèmes (statistiques) a tuelssont de l'ordre de90%. Des rotations plus
importantes engendrent une forte baisse desperforman es. Pour beau oup d'appli atio ns telles
quelabiométrie,lesanglesderotationsontgénéralementinférieursà30
◦
etdon lesperforman es
desalgorithmes a tuelssont très intéressantes. Par ontre, pour d'autres appli ationstelles que
lavidéosurveillan e,iln'estpassusant degarantird'ex ellentesperforman esave unanglede
rotationinférieur à 30
◦
. Eneet, les amérasde surveillan e sont souvent lo alisées en hauteur
et,siellessontenintérieur,pro hesdes oinsdespiè es, equiimpliquenaturelleme ntdesangles
deprisede vueendehorsde eslimites.Grosset al. ont également misen éviden elefaitqu'un
modèle onstruit à partir de poses frontalesprésente une meilleure apa ité de généralisation à
d'autresposes qu'un modèle onstruit à partir de poses nonfrontales.
Il est parfois né essaire, pour ertains types de te hniques et dans le ontexte de ertaines
appli ations,de onstruireplusieurs modèles dere onnaissan e (unpar typedepose).Enphase
dere onnaissan e, ilfaudraalors utiliser un lassieur depose
3
en amont delare onnaissan e,
demanière à e quetout visage-requête nesoit omparé qu'au modèle desapose.
1.5.2 Les hangements d'illumination
L'intensité et la dire tion d'illuminati on lors de la prise de vue inuent toutes deux
énor-mément sur l'apparen e du visage dans l'image. Dans la plupart des appli ations réelles, des
hangements dansles onditions d'illumination sont néanmoins inévitables, notamment lorsque
les vues sont olle tées à desdates diérentes, en intérieur ou en extérieur. Étant donné qu'un
visagehumainestunobjetintrinsèquement3D,des hangementsd'illuminationpeuventfaire
ap-paraîtresurlevisagedesombresa entuantou,au ontraire,masquant ertaines ara téristiques
fa iales( f.gure 1.2).
L'évaluationduFRVT[BBP01℄ on lutquedes hangementsimportantsdansles onditions
d'illumination peuvent mener à des baisses onsidérables dans les taux de re onnaissan e. En
3.Modulepermettantde ara tériserl'angledeprisedevueduvisage,àpartirparexempledespositionsdes
Fig. 1.2 Extrait de [MAU94℄. Eets de variations dans les dire tions d'illumination sur
l'ap-paren e d'un visage.
eet, si la plupart des systèmes de re onnaissan e de visages sont stables à des hangements
raisonnables des onditions d'illumination en intérieur, en extérieur on note des dé its de
re- onnaissan e del'ordre de40%ave lesmeilleurs outilstestéspar leFRVT. Cesbaisses detaux
de re onnaissan e peuvent être dues à des variations de la somme de luminosité réé hie par
lapeau et/ouà desréglages ee tués automatiquement par la améra pour garantir unebonne
qualité d'image(par exemplela orre tiongamma, le ontrasteet les propriétés d'exposition).
Grossetal. [GSC01℄ont étudiédemanièreisoléel'impa tdufa teurderéexiondelapeau,
grâ eàuneétudemenéesurlabasePIE,dé riteenannexeA.Lesrésultatsobtenusmontrentque
les algorithmes de re onnaissan e de visages a tuelssont en fait robustes aux eetsde
hange-mentsd'illumination purs(déjàenpartie orrigéspar l'égalisationd'histogrammeappliquéelors
delaphasedenormalisation) .Ceseraientdon lesajustementsnonlinéairesdes amérasqui
en-gendreraienten grandepartie lesbaisses deperforman e deste hniqueslinéairesobservéesdans
le adreduFRVT, et imputéesà tortdansunpremier tempsà des hangementsd'illumination.
Par onséquent, lorsque l'on peut ontrlerles onditions de prise de vue (biométrie, sé urité),
l'onnesauraittropre ommanderde ontrlerlesréglagesdela améra.Par ontre,puisqu'ilest
di ile de orriger les eetsdesréglages automatiques, ilnousfaudra faire ave lorsque l'on ne
peut les ontrler (appli ation s d'indexation par exemple). Gross et al. remarquent également
quelesperforman esdesalgorithmes baissent sensiblement lorsqueles onditions d'illumination
extrêmes engendrent une o ultation d'une partie du visage. Par onséquent, le ouplage de
variations d'illumination et devariations de pose onstitue une di ulté importante.
1.5.3 Les expressions fa iales
Les visages sont des objets non rigides. L'expression fa iale de l'émotion, surtout ombinée
ave laparole, peut produire des hangements d'apparen e importants des visages. Le nombre
de onguratio ns possiblesse ompte enmilliers. L'inuen edel'expressionfa ialesurla
re on-naissan e est don di ile à évaluer. Puisque l'expression fa iale ae te la forme géométrique
et les positions des ara téristiquesfa iales,il semblelogique queles te hniquesglobales ou
hy-brides y soient plusrobustes que laplupart des te hniquesgéométriques. Grosset al. [GSC01℄
ont étudié l'impa tde hangementsd'expressions fa iales surlare onnaissan e, grâ eà la base
les algorithmes sont relativement robustes aux hangements d'expression fa iale, à l'ex eption
des as extrêmes engendrant d'importantes déformations de la bou he (telles que le ri) et le
rétré issement ou lafermeture omplète desyeux.
Il peut don être utile de repérer en amont de la re onnaissan e es expressions
probléma-tiques.Si l'on est apable de atégoriser l'expression fa iale du visage-requête, deux appro hes
sont possibles. Soit plusieurs modèles de visages ont été appris (un par atégorie d'expression
fa iale), et l'onpeut alors omparerdire tement levisage de testà labasedes visagesarborant
lamême expression. Soit on utilise une te hnique générative qui,grâ e à l'utilisation d'un
mo-dèle de visages susamment pré is, nous permet de transformer le visage-requête de manière
à e qu'il se présente dans des onditions moins di iles. Il existe de nombreux systèmes de
re onnaissan edesexpressionsfa iales.Pourdesétudesbibliographique srelativement omplètes
et ré entes, se reporter à [PR00, FL03a℄. Certaines appro hes [BLFM03℄ onsistent à lasser
les émotions en sept expressions basiques: neutre, olère, dégoût, peur, joie, tristesse, surprise.
D'autres, onstatant que e genred'émotions basiques n'estque rarement observé dansle adre
d'appli ations réelles, ont mis en pla e des systèmes apables de re onnaître des hangements
plussubtils d'expression [TKC02℄.
1.5.4 Les o ultations partielles
Le visage peut être partielleme nt masqué par des objets dans las ène, ou par leport
d'a - essoires tels que des lunettes de soleil. Les o ultations peuvent don être intentionnel les ou
non. Dans ertains as, il peut s'agir d'une volonté délibérée de ontre arrer la re onnaissan e
(dansle ontextedelavidéosurveillan e par exemple).Ex eptédansle ontextedelabiométrie
oududivertissement,les systèmesproposés doivent êtrenon intrusifs, .-à-d. qu'onne peut pas
omptersurune oopération dusujet.Par onséquent,ilestimportant desavoirre onnaîtredes
visagespartielleme nto ultés.Grossetal. ontévaluédans[GSC01℄ l'impa tduportdelunettes
de soleil, et d'un a he-nez o ultant la partie inférieure du visage, par le biais de l'utilisation
delabaseAR ( f.annexe A).Leursrésultatsexpérimentaux montrent quelesperforman es des
algorithmestestéssont engénéral faiblesdans es onditions.Deplus, lesdiérents algorithmes
présentent un omportement diérent vis-à-vis des o ultations. Nous reviendrons sur e point
ense tion 2.4.
1.5.5 Le vieillissement et les hangements d'aspe t
Les visages hangent d'apparen e au l du temps. Les modi atio ns on ernent la tension
desmus les, l'apparen e de lapeau (apparition de rides), le portde lunettes, éventuellement le
maquillageou laprésen ed'une frangeo ultant une partie dufront.
Gross et al. [GSC01℄ utilisent la base AR ( f. annexe A) pour déterminer l'impa t de es
fa teurs.SurlabaseAR,où ledélai entredeuxprisesdevueestseulement dedeuxsemaines,la
baissedestauxde re onnaissan e estestimée à 20%.
DansleFRVT2000,leseetsdutempsontétémesurésàl'aidedesvuesdupli ate delabase
FERET: elles- isont omparéesauxvuesFA, equipermetd'établiruntauxdere onnaissan e
( f.annexeA).Lestauxfournisparlesmeilleursalgorithmessontde63%surlesvuesdupli ateI,
et64%pourles vuesdupli ateII, ontre58%et 52%pour l'évaluationde1996.Ré emment,les
systèmes de re onnaissan e ont don réalisé d'énormes progrès pour gérer au mieux le délai de
temps entredeux prises de vue. Néanmoins, bienque l'intervalle de temps entre lesvues FA et