Conception de nouveaux algorithmes pour la reconnaissance des visages

(1)

Rabat

No_{d’ordre: 2494}

THÈSE DE DOCTORAT

Presentée par:

Khalid CHOUGDALI

Discipline: Sciences de l’Ingénieur Spécialité: Informatique et Microélectronique

Conception de nouveaux algorithmes pour la

reconnaissance des visages

Soutenue le 14-05-2010 Devant le jury composé de :

Président:

Mr. Noureddine ZAHID Professeur (PES) à la Faculté des Sciences de Rabat

Examinateurs:

Mr. Abderrahmane SBIHI Professeur (PES) et Directeur de l’ENSA de Tanger

Mr. Kosai RAOOF Professeur à l’Université Joseph Fourier, Grenoble, France Mme. Fakhita REGRAGUI Professeur (PES) à la Faculté des Sciences de Rabat

Mr. Mohamed JEDRA Professeur (PES) à la Faculté des Sciences de Rabat Mr. Aziz ETTOUHAMI Professeur (PES) à la Faculté des Sciences de Rabat

Invité:

Mr. Abdenabi BELHADJ Responsable Veille Technologique,

Direction Planification et Contrôle des Réseaux, Maroc Télécom

(2)

Les travaux présentés dans cette thèse ont été effectués au Laboratoire Conception et systèmes (Microélectronique et Informatique) dans l’Unité de Formation et de Re-cherche : Architecture des Systèmes Informatiques (ASI) de la Faculté des Sciences de Rabat sous la direction du Professeur M. JEDRA.

Je tiens à exprimer ma profonde gratitude à Monsieur M. Jedra, Professeur à la fa-culté des sciences de Rabat et responsable de l’U.F.R : Architecture des Systèmes Infor-matiques, pour sa disponibilité, sa grande rigueur scientifique et pour le soutien qu’il m’a accordé depuis qu’il dirige mes travaux. Je voudrais lui exprimer ma reconnais-sance pour l’aide qu’il m’a constamment octroyée tout au long de ce travail, qu’il trouve, en ce mémoire, le témoignage de mes sincères remerciements.

Je tiens à exprimer ma haute considération à Mr. N. Zahid, Professeur à la Faculté des Sciences de Rabat, d’avoir présidé ce jury de thèse. Je le remercie vivement pour ses remarques pertinentes, ses nombreux conseils, et pour l’intérêt qu’il a manifesté à ce travail en acceptant la charge de suivre de près mes travaux de recherche.

Je présente à Monsieur A. Ettouhami, Professeur à la Faculté des sciences de Rabat, l’expression de ma profonde reconnaissance, pour le grand honneur qu’il me fait en acceptant de participer à ce jury de thèse.

Il m’est particulièrement agréable d’exprimer ma vive gratitude à Madame F. Regra-gui, Professeur à la Faculté des Sciences de Rabat, pour le grand honneur qu’elle me fait en participant à ce jury de thèse.

(3)

suis très reconnaissant d’avoir accepté de faire partie de mon jury de thèse.

Mes remerciements et ma haute considération vont également à Monsieur K. Raoof, Professeur à l’Université Joseph Fourier de Grenoble, pour l’intérêt qu’il a porté à ce travail et pour l’honneur qu’il me fait de participer au jury.

J’adresse mes vifs remerciements à Monsieur A. Belhadj, responsable Veille Tech-nologique au sein de la Direction de Planification et de Contrôle des réseaux à Maroc Télécom, pour m’avoir fait l’honneur de bien vouloir faire partie de mon jury.

Je tiens à remercier tous les membres du Laboratoire Conception et Systèmes (Mi-croélectronique et Informatique), Professeurs et Doctorants, pour leur esprit de groupe. Qu’ils trouvent ici le témoignage de toute mon estime et ma sincère sympathie.

(4)

(5)

Journaux internationales

1. K. Chougdali, M. Jedra, N. Zahid, Kernel relevance weighted discriminant ana-lysis for face recognition, Pattern Anaana-lysis & Applications journal, Vol 13 (2), pp.213-221, Springer-Verlag London, 2010.

2. K. Chougdali, M. Jedra, N. Zahid, Fuzzy linear and nonlinear discriminant analy-sis algorithms for face recognition, International journal of Intelligent Data

Ana-lysis(IDA), Vol 13 (4), pp.657-669, IOS Press The Netherlands, 2009.

3. K. Chougdali, M. Jedra, N. Zahid, Fuzzy kernel scatter-difference discriminant analysis for face recognition, International journal of Graphics Vision and Image

Processing, Vol 8 (2), pp.9-14, 2008.

4. K. Chougdali, M. Jedra, N. Zahid, Face recognition using relevance weighted LDA with QR decomposition, International journal of Graphics Vision and Image

Pro-cessing, Vol 6 (2), pp.27-31, 2006.

Conférences internationales à comité de lecture

1. K. Chougdali, M. Jedra, N. Zahid, Using wavelets and relevance weighted discri-minant analysis for face recognition, In Proceedings of International workshop on Pattern Recognition and Information Systems (PRIS), pp.183-188, Madeira, Portu-gal, 2007.

2. K. Chougdali, M. Jedra, N. Zahid, Kernel weighted scatter-difference-based dis-criminant analysis for face recognition, In Lecture Notes in Computer Science (LNCS), volume 5112, pp.977-983, ISSN 0302-9743 , Springer, 2008.

(6)

Intelligents : Théories Et Applications (SITA08)", Rabat, Maroc, 2008.

4. K. Chougdali, M. Jedra, N. Zahid, Contourlet feature based kernel relevance weigh-ted discriminant analysis for face recognition, In Proceedings of IEEE International conference on machine and computer science (ICMCS), pp.183-188, Ouarzazate, Morocco, 2009.

(7)

Introduction générale 1

1 Etat de l’art 4

1.1 Introduction . . . 4

1.2 Architecture d’un système biométrique . . . 5

1.2.1 Phase d’apprentissage . . . 6

1.2.2 Phase de reconnaissance . . . 6

1.3 Présentation de quelques technologies biométriques . . . 7

1.3.1 Les empreintes . . . 7 1.3.2 La voix . . . 8 1.3.3 L’iris . . . 8 1.3.4 La signature . . . 9 1.3.5 La géométrie de la main . . . 9 1.3.6 Le visage . . . 10 1.4 Reconnaissance du visage . . . 11 1.5 Approches globales . . . 13 1.5.1 Méthodes linéaires . . . 14

(8)

1.6.1 Appariement élastique des graphes (EBGM) . . . 21

1.6.2 Modèles de Markov cachés . . . 21

1.6.3 Analyse locale des traits caractéristiques (LFA) . . . 22

1.7 Conclusion . . . 23

2 Méthodes pour la reconnaissance des visages 24 2.1 Introduction . . . 24

2.2 Méthodes d’analyse et de reconnaissance linéaires . . . 25

2.2.1 Analyse en composantes principales . . . 26

2.2.2 Analyse discriminante linéaire . . . 30

2.2.3 Fisherface . . . 31

2.2.4 LDA dans l’espace nul de Sw . . . 33

2.2.5 Analyse discriminante linéaire directe . . . 35

2.2.6 Analyse discriminante linéaire avec décomposition matricielle . . . 35

2.2.7 Analyse discriminante linéaire avec décomposition QR . . . 36

2.3 Méthodes non linéaires à noyau . . . 37

2.3.1 Analyse en composantes principales à noyau . . . 39

2.3.2 Analyse discriminante à noyau . . . 42

3 Techniques d’extraction des caractéristiques 46 3.1 Introduction . . . 46

3.2 Filtres de Gabor . . . 47

3.3 Ondelettes . . . 48

3.4 Contourlets . . . 51

(9)

3.7.1 Moments géométriques . . . 60

3.7.2 Moments de Zernike . . . 61

3.7.3 Descripteur local binaire (LBP) . . . 62

4 Développement d’une nouvelle méthode d’analyse discriminante pondérée 65 4.1 Introduction . . . 65

4.2 Méthode RWLDA/QR . . . 66

4.3 Analyse discriminante pondérée et pertinente à noyau . . . 76

4.4 Résultats obtenus avec des bases de données standards . . . 79

4.5 Résultats avec intégration des contourlets . . . 85

5 Nouveaux algorithmes d’analyse discriminante floue 88 5.1 Introduction . . . 88

5.2 Classification floue . . . 89

5.3 Analyse discriminante floue avec décomposition QR . . . 92

5.4 Analyse discriminante à noyau basée sur la différence des dispersions . . 94

5.5 Analyse discriminante floue à noyau basée sur la différence de dispersions 99 5.6 Résultats expérimentaux . . . 101

(10)

Afin de simuler le système visuel humain, une discipline à la frontière de l’infor-matique et les mathél’infor-matiques a été née, c’est la vision par ordinateur. Malgré les dé-veloppements importants réalisés dans le domaine de la vision par ordinateur, il reste un champ de recherche très actif avec de nombreux problèmes non résolus. Parmi ces problèmes, les techniques de reconnaissance et d’identification automatique d’un visage humain, sont parmi les sujets les plus traités par la communauté scientifique, vu la grande demande actuelle pour la sécurité informatique, le contrôle d’accès des lieux publics et la vidéosurveillance.

En effet, la sécurité de l’information est l’une des préoccupations majeures de notre société. La vérification et l’identification des individus est l’un des moyens permettant d’assurer cette sécurité. Or, pour identifier les personnes et/ou les objets, l’être humain se sert quotidiennement de son système visuel de façon automatique sans même y prêter attention, bien que le processus mis en jeu soit complexe.

Mais, vu la très grande diversité des individus et objets à identifier, l’homme a mis en place des moyens de vérification d’identité qui sont liés, soit à ce que possède une personne telle qu’une carte d’identité ou un passeport, soit à ce que sait cette personne, c’est le cas du mot de passe ou un code PIN. Néanmoins, ces éléments peuvent être oubliés, volés ou falsifiés. Pour contourner ces limitations, un autre moyen de sécurité a été développé qui permet d’utiliser, non pas l’information qu’un individu possède ou connaît, mais une information (propre) intrinsèque à cette personne. Cette nouvelle façon d’identification des individus est la biométrie.

(11)

L’intérêt principal de la biométrie est donc de reconnaître et d’identifier automati-quement les identités des individus en utilisant leurs caractéristiques physiologiques ou comportementales. Les caractéristiques physiologiques peuvent inclure le visage, l’iris, les empreintes, la géométrie de la main. Les caractéristiques comportementales incluent la voix, la signature, la démarche etc.

Dans cette thèse, nous nous intéresserons à la biométrie du visage qui possède beau-coup d’avantages tels que, la facilité d’utilisation, l’acceptation par l’utilisateur et le faible coût. Ainsi, la reconnaissance du visage est déjà intégrée dans des systèmes de sécurité biométriques utilisant un certain nombre d’algorithmes classiques. Malheureu-sement, ces algorithmes ont des limitations et des contraintes d’utilisation.

Les travaux de cette thèse s’inscrivent dans un contexte global de recherche et dé-veloppement de nouveaux algorithmes pour la reconnaissance de visages sans fixer au préalable un domaine d’application particulier. Ainsi, au cours de cette thèse, nous aurons à concevoir de nouveaux algorithmes qui essayent de contourner les limitations des algorithmes classiques en particulier ceux basés sur l’analyse discriminante linéaire et non linéaire.

Au cours du chapitre 1, nous commencerons par la présentation des différentes tech-nologies biométriques, puis nous donnons l’architecture générale d’un système de sé-curité biométrique. Dans un deuxième temps, nous détaillerons le fonctionnement d’un système de reconnaissance de visages. Puis, nous verrons comment on peut classer les méthodes de reconnaissance de visages selon deux grandes approches. Les approches globales qui utilisent l’image entière du visage et les approches locales pour lesquelles on utilise des parties du visage. Les approches globales à leur tour peuvent être divisées en des méthodes linéaires et non linéaires.

Le deuxième chapitre sera consacré à l’étude détaillée des algorithmes linéaires et non linéaires les plus connus. L’analyse en composante principale et l’analyse discrimi-nante linéaire seront décrites tout en mettant en évidence leurs limitations dans le cadre de la reconnaissance des visages. En particulier, le problème de la sous représentativité des données et la singularité des matrices connu sous le nom de SSS (Small Sample Size Problem). Puis, nous donnerons les solutions les plus connues à ce jour pour résoudre ces problèmes.

Dans le troisième chapitre, nous nous intéresserons aux techniques d’extraction de caractéristiques utilisées dans la reconnaissance faciale. Ces techniques sont en géné-ral basées sur des transformées appliquées aux images (Fourier, ondelettes,...) ou sur le calcul de moments géométriques (Zernike, Hu,...). Elles permettent de générer des

(12)

général, ces méthodes sont combinées avec les méthodes de réduction de dimensions et de discrimination présentées au cours du chapitre 1.

Le quatrième chapitre permettra dans un premier temps de mettre en évidence les limitations de l’analyse discriminante linéaire. En particulier, la singularité des ma-trices de dispersion et la sensibilité aux données aberrantes. Nous proposerons un al-gorithme (RWLDA/QR) qui résoudra ces deux problèmes en s’appuyant sur la dé-composition QR et en intégrant une fonction de pondération pour limiter l’effet des données anormales qui peuvent surgir dans les images de visages. Puis, nous propo-serons un deuxième algorithme (KRWDA) qui se base sur la théorie des noyaux pour rendre l’algorithme RWLDA/QR non linéaire. A ce stade, nous introduisons aussi deux nouvelles fonctions noyaux qui n’ont pas été utilisées pour la reconnaissance du visage. Ces deux fonctions ont l’avantage d’être plus rapides que les noyaux conventionnels. Enfin, et pour évaluer nos méthodes nous avons effectué une série de tests sur des bases de données standards. Les résultats que nous avons obtenus sont concluants et les taux de reconnaissances se sont nettement améliorés par rapport à ceux des méthodes existantes.

Le cinquième chapitre introduira le concept du flou dans des algorithmes d’analyse discriminante pour la reconnaissance de visages. Pour cela, nous rappellerons dans un premier temps le principe des méthodes de classification floue, et en particulier l’algorithme fuzzy c-means. De plus, nous mettrons en relief les fondements théoriques de l’analyse discriminante floue et les limites de son application dans le contexte de la reconnaissance des visages. Ensuite, nous donnerons une solution au problème SSS à travers un nouvel algorithme nommé LDA/QR flou, qui est une extension floue de l’algorithme linéaire LDA/QR.

Dans un deuxième temps, nous présenterons la méthode KSDA. Cette méthode utilise une approche visant à pallier le problème SSS de façon simple tout en prenant en compte les non-linéarités des données à travers l’utilisation des noyaux. Toutefois, elle n’est pas robuste vis-à-vis des données aberrantes. Afin de résoudre ce problème, nous allons proposer un nouvel algorithme nommé KWSDA en intégrant des matrices de dispersion pondérées.

Par la suite, nous développerons une autre méthode qui est une extension floue de l’algorithme non linéaire KSDA. Cette nouvelle méthode a pour objectif principal la gestion d’incertitudes entre les images faciales acquises sous des conditions variables et non contrôlées.

En conclusion, nous récapitulerons les principales contributions de ce travail de thèse avant d’exposer les perspectives envisagées.

(13)

Etat de l’art

1.1 Introduction

Depuis quelques décennies l’explosion de l’informatique et son intégration dans divers domaines fait augmenter le besoin d’identification de personnes. L’identification fiable des individus est devenue donc un problème majeur de notre société et ce pour des raisons de sécurité telles que le contrôle d’accès aux lieux publics, la vidéosur-veillance, etc.

Classiquement, la manière d’identifier un individu utilise deux approches. La pre-mière est basée sur la connaissance par l’utilisateur d’un un mot de passe ou un code PIN. C’est la plus ancienne et facile méthode d’authentification. Cependant, cette ap-proche n’est pas sûre puisque les mots de passe peuvent être oubliés ou piratés.

Afin d’augmenter le niveau de sécurité une deuxième approche a été utilisée, elle est basée sur la possession d’un élément physique telle qu’une carte à puce, ou une pièce d’identité. Toutefois, ces éléments physiques peuvent être à leur tour volés, perdues ou falsifiés.

Pour améliorer l’identification des individus un autre moyen de sécurité a été dé-veloppé. Il s’appuie sur les caractéristiques physiologiques qui sont propres à chaque personne. Ces caractéristiques ne peuvent être perdues, volées ou reconstituées comme

(14)

FIGURE1.1 – Architecture générale d’un système de sécurité biométrique

c’était le cas avec les approches précédentes. C’est ainsi que la biométrie a été née pour répondre aux exigences actuelles de sécurité.

De façon générale, la biométrie est un domaine de l’analyse des caractéristiques biologiques d’un individu. Son but consiste à reconnaître ou vérifier automatiquement l’identité d’une personne à partir de ses caractéristiques physiologiques mesurables ou comportementales.

Les caractéristiques physiologiques incluent le visage, les empreintes digitales, la rétine, l’iris, la géométrie de la main, les émissions thermiques, les veines des doigts etc.Les caractéristiques comportementales comprennent les signatures, la voix, l’écri-ture, le rythme de frappe sur un clavier, les allures et les gestes.

Afin de mieux comprendre le fonctionnement d’un système biométrique nous dé-taillerons par la suite son architecture générale.

1.2 Architecture d’un système biométrique

Dans un système biométrique, il existe toujours au moins deux modules : le module d’apprentissage et celui de reconnaissance ou de test. Pendant la phase d’apprentissage, le système va acquérir une ou plusieurs mesures biométriques qui serviront à construire un modèle (ou template) de l’individu. Ce modèle de référence servira de point de comparaison lors de la reconnaissance. La figure 1.1 donne le schéma général d’un système biométrique.

(15)

1.2.1 Phase d’apprentissage

Au cours de la phase d’apprentissage, la caractéristique biométrique est mesurée grâce à un capteur. En général, cette acquisition n’est pas directement stockée et des transformations lui sont appliquées. En effet, le signal contient de l’information inutile à la reconnaissance et seules les caractéristiques pertinentes sont extraites.

Après l’étape d’acquisition, un module spécifique basé sur des méthodes d’extrac-tion de caractéristiques est inclu dans le système. Ce module permet de générer le template qui est une représentation compacte du signal capturé. Ceci permet de faciliter la phase de reconnaissance mais aussi de réduire la taille des données à traiter.

Il est à noter que la qualité du capteur peut influencer les performances du sys-tème. Ainsi, il est souvent nécessaire de faire des prétraitements sur la caractéristique biométrique avant d’extraire les paramètres pertinents. Un exemple typique de pré-traitement utilisé dans un système biométrique basé sur le visage est l’égalisation de l’histogramme.

A la fin de la phase d’apprentissage, le modèle de référence généré peut être stocké, soit dans une base de données (figure 1.1), soit sur une carte à puce.

1.2.2 Phase de reconnaissance

Au cours de la phase de reconnaissance, la caractéristique biométrique est capturée et un ensemble de paramètres est extrait comme lors de l’apprentissage. La suite de la reconnaissance sera différente suivant le mode opératoire du système : identification ou vérification (authentification).

En mode identification, le système doit deviner l’identité de la personne. Dans ce mode, le système compare la biométrie mesurée avec les différents modèles contenus dans la base de données. En général, lorsque l’on parle d’identification, on suppose que toute personne qui utilise le système possède un modèle dans la base de données.

Par contre, en mode vérification l’utilisateur propose une identité au système et le système doit vérifier que l’identité de l’individu est bien celle proposée. Il suffit donc de comparer le signal avec un seul des modèles présents dans la base de données.

(16)

1.3 Présentation de quelques technologies biométriques

Aucune biométrie unique ne pouvait répondre efficacement aux besoins de toutes les applications d’ identification. Un certain nombre de techniques biométriques ont été proposées, analysées, et évaluées. Chaque biométrie a ses forces et ses limites, et en conséquence, chaque biométrie est utilisée dans une application particulière.

Pour les caractéristiques physiques, nous décrirons la reconnaissance de visage, les empreintes digitales, la géométrie de la main et de l’iris. Pour les caractéristiques com-portementales, nous décrirons les biométries basées sur la voix et la signature. Il existe d’autres méthodes biométriques basées sur les veines de la main, l’A.D.N, l’odeur cor-porelle, la forme de l’oreille, la forme des lèvres, le rythme de frappe sur un clavier, la démarche, qui ne seront pas développées dans ce chapitre.

1.3.1 Les empreintes

A l’heure actuelle la reconnaissance des empreintes digitales est la méthode biomé-trique la plus utilisée. Les empreintes digitales sont composées de lignes localement parallèles présentant des points singuliers (minuties) et constituent un motif unique, universel et permanent.

Pour obtenir une image de l’empreinte d’un doigt, les avancées technologiques ont permis d’automatiser la tâche au moyen de capteurs intégrés, remplaçant ainsi l’uti-lisation classique de l’encre et du papier. Ces capteurs fonctionnant selon différents mécanismes de mesure (pression, champ électrique, température) permettent de me-surer l’empreinte d’un doigt fixe positionné sur ce dernier (capteur matriciel) ou en mouvement (capteurs à balayage).

L’image d’empreinte d’un individu est capturée à l’aide d’un lecteur d’empreinte digitale puis les caractéristiques sont extraites de l’image puis un modèle est créé. Si des précautions appropriées sont suivies, le résultat est un moyen très précis d’authen-tification.

Les techniques d’appariement des empreintes digitales peuvent être classées en deux catégories : les techniques basées sur la détection locale des minuties et les techniques basées sur la corrélation. L’ approche basée sur les minuties consiste à trouver d’abord les points de minuties puis trace leurs emplacements sur l’image du doigt. Cependant, il y a quelques difficultés avec cette approche lorsque l’image d’empreinte digitale est d’une qualité médiocre, car l’extraction précise des points de minutie est difficile. Cette méthode ne tiens pas en compte la structure globale de crêtes et de sillons.

(17)

Les méthodes basées sur la corrélation sont capables de surmonter les problèmes de l’ approche fondée sur les minuties. Ces méthodes utilisent la structure globale de l’em-preinte, mais les résultats sont moins précis qu’avec les minuties. De plus, les techniques de corrélation sont affectées par la translation et rotation de l’image de l’empreinte. C’est pour cela que les deux approches sont en général combinées pour augmenter les performances du système.

1.3.2 La voix

De tous les traits humains utilisés dans la biométrie, la voix est celle que les humains apprennent à reconnaître dès le jeune age. Les systèmes de reconnaissance de locuteur peuvent être divisé en deux catégories : les systèmes dépendant du texte prononcé et les systèmes indépendants du texte. Dans le premier cas, l’utilisateur est tenu d’utiliser un texte (un mot ou une phrase) fixe prédéterminé au cours des séances d’apprentissage et de reconnaissance. Alors que, pour un système indépendant du texte le locuteur parle librement sans texte prédéfini. Cette dernière catégorie est plus difficile, mais elle est utile dans le cas où l’on a besoin de reconnaître un locuteur sans sa coopération.

La recherche sur la reconnaissance de locuteur est en pleine croissance, car elle ne nécessite pas de matériel cher, puisque la plupart des ordinateurs personnels de nos jours sont équipés d’un microphone. Toutefois, la mauvaise qualité et le bruit ambiant peuvent influencer la vérification et par suite réduire son utilisation dans les systèmes biométriques.

Dans un système de reconnaissance de locuteur le signal est premièrement mesuré puis décomposé en plusieurs canaux de fréquences passe-bande. Ensuite, les caracté-ristiques importantes du signal vocal sont extraites de chaque bande. Parmis les ca-ractéristiques les plus communément utilisées sont les coefficients Cepstraux. Ils sont obtenus par le logarithme de la transformée de Fourier du signal vocal dans chaque bande. Finalement, la mise en correspondance des coefficients Cepstraux permet de re-connaître la voix. Dans cette étape, généralement on fait appel à des approches fondées sur les modèles de Markov cachés, la quantification vectorielle, ou la déformation temps dynamique.

1.3.3 L’iris

L’utilisation de l’iris comme caractéristique biométrique unique de l’homme a donné lieu à une technologie d’identification fiable et extrêmement précise. L’iris est la région,

(18)

sous forme d’anneau, située entre la pupille et le blanc de l’oeil, il est unique. L’iris a une structure extraordinaire et offre de nombreuses caractéristiques de texture qui sont uniques pour chaque individu. Les algorithmes utilisés dans la reconnaissance de l’iris sont si précis que la planète toute entière pourrait être inscrite dans une base de données de l’iris avec peu d’erreurs d’identification.

L’image de l’iris est généralement capturée à l’aide d’une caméra standard. Cepen-dant, cette étape de capture implique une coopération de l’individu. De plus, il existe plusieurs contraintes liées à l’utilisation de cette technologie. Par exemple, il faut s’as-surer que l’iris de l’individu est à une distance fixe et proche du dispositif de capture, ce qui limite l’utilisation de cette technologie.

1.3.4 La signature

La vérification de la signature analyse la façon dont un utilisateur signe son nom. Les caractéristiques dynamiques de la signature comme la vitesse et la pression, sont aussi importantes que la forme géométrique de la signature.

Il existe deux approches pour vérifier la signature statique et dynamique. Dans la vérification de signature statique, seules les formes géométriques de la signature sont utilisées pour authentifier une personne. Dans cette approche, en règle générale, la signature est normalisée à une taille connue ensuite décomposée en éléments simples. La forme et les relations de ses éléments sont utilisées comme caractéristiques d’iden-tification. Quant à la deuxième approche de la vérification de signature elle utilise, en plus de la forme géométrique, les caractéristiques dynamiques telles que l’accélération, la vitesse et les profils de trajectoire de la signature. Il est à noter que la signature est une biométrie comportementale, elle évolue dans le temps et est influencée par les conditions physiques et émotionnelles de la personne.

1.3.5 La géométrie de la main

La géométrie de la main est une technologie biométrique récente. Comme son nom l’indique, elle consiste à analyser et à mesurer la forme de la main, c’est-à-dire mesurer la longueur, la largeur et la hauteur de la main d’un utilisateur et de créer une image 3-D. Des LEDs infrarouges et un appareil-photo numérique sont utilisés pour acquérir les données de la main.

Cette technologie offre un niveau raisonnable de précision et est relativement facile à utiliser. Cependant elle peut être facilement trompée par des jumeaux ou par des

(19)

personnes ayant des formes de la main proches. Les utilisations les plus populaires de la géométrie de la main comprennent l’enregistrement de présence et le contrôle d’accès. Par contre, les systèmes de capture de la géométrie de la main sont relativement grands et lourds, ce qui limite leur utilisation dans d’autres applications comme l’au-thentification dans les systèmes embarqués : téléphones portables, voitures, ordinateurs portables, etc.

1.3.6 Le visage

Nos visages sont des objets complexes avec des traits qui peuvent varier dans le temps. Cependant, les humains ont une capacité naturelle à reconnaître les visages et d’identifier les personnes dans un coup d’oeil. Bien sûr, notre capacité de reconnaissance naturelle s’étend au-delà de la reconnaissance du visage, où nous sommes également en mesure de repérer rapidement des objets, des sons ou des odeurs. Malheureusement, cette aptitude naturelle n’existe pas dans les ordinateurs. C’est ainsi qu’est né le be-soin de simuler artificiellement la reconnaissance afin de créer des systèmes intelligents autonomes.

Simuler notre capacité naturelle de la reconnaissance des visages dans les machines est une tâche difficile mais pas impossible. Tout au long de notre vie, de nombreux visages sont vus et conservés naturellement dans nos mémoires formant une sorte de base de données. La reconnaissance des visages par ordinateur nécessite également une base de données qui est habituellement construite en utilisant des images du visage, où parfois des images différentes d’une même personne pour tenir compte des variations dans les traits du visage.

Les systèmes actuels de reconnaissance du visage sont composés d’un module d’ac-quisition d’images avec une caméra. Il procède d’abord à une détection du visage dans l’image acquise. Ensuite, l’image du visage détecté est normalisée pour être transmise au module de reconnaissance qui va la traiter en utilisant des algorithmes afin d’ex-traire une signature du visage. Finalement, cette signature est comparée, à l’aide d’un classificateur, avec les signatures déjà existantes dans une base de données locale, afin d’identifier l’individu en question. Les différentes étapes de la reconnaissance des vi-sages sont illustrées dans la figure 1.2.

Durant la dernière décénie de recherche, la performance des systèmes de reconnais-sance du visage s’est grandement améliorée, mais les résultats sont encore loin d’être parfaits. Ces systèmes sont très sensibles aux variations d’illumination et de pose.

(20)

FIGURE1.2 – Schéma synoptique d’un système de reconnaissance faciale

Dans cette thèse, nous allons étudier et concevoir différents algorithmes qui tentent de résoudre certains problèmes d’un système de reconnaissance de visages et ainsi amé-liorer leur performance en termes du taux de reconnaissance et de temps d’exécution. Pour un survol des différentes méthodes de reconnaissance du visage, on peut consulter l’article de Zhao et Chellapa [192].

Après cet aperçu rapide de quelques systèmes biométriques les plus connus, nous allons détailler, dans la section suivante, le fonctionnement des systèmes de reconnais-sance de visages avec les méthodes mathématiques mises en oeuvre pour reconnaître un visage depuis une image fixe.

1.4 Reconnaissance du visage

Vu la demande grandissante pour la surveillance et le contrôle d’accès des lieux publics tels que les aéroports, banques et administrations, la reconnaissance du visage a connu un grand intérêt parmi la communauté scientifique de recherche et développe-ment.

Si pour un être humain, reconnaître un visage relève d’une action naturelle et facile, il en va tout autrement pour un système biométrique autonome. Pour un ordinateur, une telle opération se base au contraire sur une chaîne de traitements complexes, repo-sant sur des algorithmes complexes.

Les systèmes de reconnaissance du visage reposent sur des algorithmes d’analyse de l’image, pouvant identifier les personnes qui y sont associées. Ces programmes créent une image du visage, en mesurant ses caractéristiques. Ils en produisent ensuite un fi-chier individuel, dénommé "template ou signature". Les templates sont alors comparées avec toutes les images existantes au niveau de la base de données, en ressortant un score de similitude.

Les sources typiques des images valorisées dans le cadre de la reconnaissance du visage incluent les caméras vidéo et les appareils photo numériques. Il s’agit ensuite de détecter la présence d’un visage sur l’image en faisant appel à des techniques

(21)

d’intelli-gence artificielle. La détection du visage est un domaine très vaste et ne fera pas l’objet de notre étude. Le lecteur intéressé pourra se référer aux articles [64] [175].

Par ailleurs, on peut classifier les systèmes de reconnaissance du visage en deux grandes catégories selon la source de capture de l’image : reconnaissance du visage dans une séquence vidéo [80] ou bien à partir d’images fixes. Dans ce dernier cas, on peut aussi différencier les systèmes basés sur des images 3D [110] de ceux utilisant des images 2D.

Nous allons nous intéresser essentiellement aux systèmes de reconnaissance du vi-sage basés sur des images 2D fixes à travers des bases de données d’images construites et partagées par les laboratoires de recherche spécialisés dans ce domaine. Néanmoins, l’extension aux images mobiles (vidéo) peut-être facilement envisageable en reprenant la plupart des méthodes mathématiques proposées dans cette thèse.

FIGURE1.3 – Classification d’algorithmes pour la reconnaissance des visages Les méthodes de reconnaissance de visages peuvent être classées en trois grandes approches (figure 1.3). Une approche globale dans laquelle on analyse le visage (l’image pixéllisée du visage) dans son entier ; une approche locale basée sur un modèle, dans laquelle le système essaie de détecter, regrouper et reconnaître les différents éléments constitutifs du visage tel que le nez, les yeux et la bouche. Enfin, il existe des méthodes

(22)

1.5 Approches globales

La particularité des algorithmes basés sur l’apparence (appearance based) c’est l’uti-lisation directe des valeurs d’intensité des pixels de l’image entière du visage comme caractéristiques sur lesquelles la décision de reconnaissance sera fondée. L’inconvénient de cette approche c’est la taille importante des données à traiter. En effet, dans ces méthodes, une image de taille n = p × q pixels, est représentée par un vecteur de la même taille, dans un espace de grande dimension.

Dans le but de réduire la dimension des données de départ, plusieurs méthodes ont été proposées en vue de transformer le vecteur des données originales dans un autre espace, de faible dimension, sans pour autant éliminer les informations discriminatoires qui seront utilisées durant l’étape de classification. La transformation des vecteurs de données peut être réalisée de manière linéaire ou non-linéaire.

Par ailleurs, les méthodes globales peuvent être à leur tour classifiées en deux grandes catégories à savoir les méthodes linéaires et les méthodes non linéaires. Ces méthodes appelées aussi méthodes de projections (subspace methods) sont basées sur la décom-position de l’image sur un sous espace réduit et sur la recherche d’un vecteur de carac-téristiques (template) optimal décrivant l’image du visage à reconnaître.

Ainsi, les vecteurs images originaux de grande taille seront projetés dans un espace de plus faible dimension. Les nombreuses méthodes de projection existantes privilé-gient la bonne représentation des données suivant un point de vue. Par exemple, l’ana-lyse en composantes principales ou le classical multidimensional scaling (MDS) [33] permettent de maximiser la variance des données dans la représentation. La représen-tation exprime alors la forme générale du jeu de données. Les méthodes supervisées comme l’analyse discriminante projettent les données de façon à valoriser la séparation des classes.

Le Locally Linear Embedding (LLE) [134], le Laplacian Eigenmaps [8] et le Hessian-based Locally Linear Embedding (HLLE) [46] supposent que les données sont situées sur une surface localement linéaire. Ces méthodes permettent alors le dépliement de l’espace à l’aide de projections linéaires locales.

Nous allons présenter ces approches en utilisant les méthodes non supervisées li-néaires et non-lili-néaires basées sur les noyaux ou sur l’apprentissage de variétés. Les méthodes supervisées seront aussi présentées comme l’analyse discriminante linéaire (LDA) et la corrélation canonique (CCA).

(23)

1.5.1 Méthodes linéaires

Analyse en composantes principales

L’analyse en composantes principales -Principal component analysis (PCA)- est une méthode statistique qui permet de réduire la dimension d’une matrice de données tout en maximisant leur variance. Elle transforme les données initiales de haute dimension en un ensemble de plus petite dimension composé de nouvelles variables qui sont des combinaisons linéaires des variables originelles.

Pour ce faire, PCA cherche une base de composantes principales à partir des vecteurs propres de la matrice de covariance des données. L’approche PCA a été très utilisée pour la reconnaissance de visages [157] [158].

Par ailleurs, cette méthode souffre de plusieurs limitations telles que sa sensibilité à l’illumination, sa nature linéaire et non discriminante. Pour remédier aux limitations de PCA plusieurs variantes, alternatives et améliorations ont été publiées.

C’est le cas notamment de Torre [153] qui propose une PCA robuste aux données aberrantes, et de Hastie et al. [63] qui ont proposé une PCA non linéaire (principal curves), ou encore Moghaddam et al. [118, 119] qui ont introduit une PCA intégrant la théorie bayésienne des probabilités. Tandis que, Wang [161] essaie de résoudre le problème de la sélection optimale des composantes principales. Artac [3] a proposé un algorithme PCA incrémentiel pour résoudre les problèmes de calcul matriciel. Puis enfin, Torre [154] a récemment présenté une autre variante qui maximise la variance totale mais aussi minimise la variance dans les directions supposées contenir du bruit.

Analyse multidimensionnelle (MDS)

L’analyse multidimensionnelle –MultiDimensional Scaling (MDS)– est un ensemble de techniques utilisées pour réduire les dimensions des données et la visualisation d’informations afin d’explorer les similarités ou dissimilarités entre ces données. MDS est une méthode proche de PCA, mais qui se base sur les matrices de distances [10].

Pour réduire la dimensionalité des données, l’algorithme MDS minimise une fonc-tion "objectif" qui mesure la déviafonc-tion entre les distances géodésiques mesurées dans l’espace initial de grande dimension, et les distances Euclidiennes mesurées dans l’es-pace d’arrivée de plus petite dimension. Il existe plusieurs types et variantes d’algo-rithmes MDS tel que Sammon mapping qui est un algorithme de la famille "metric

(24)

Analyse en composantes indépendantes

L’analyse en composantes indépendantes –Independent Component Analysis (ICA)– a été introduite afin de résoudre le problème de séparation de sources [31]. L’ICA a pour objectif de décomposer un signal aléatoire multivariable en une combinaison linéaire de signaux indépendants (les signaux sources), pour faire ressortir des signaux aussi indépendants que possible à partir des signaux mesurés. l’ICA a été utilisé avec succès pour la reconnaissance du visage [186] [41] [50] [98] [47] [76] [95]. Elle a l’avantage d’être plus robuste aux bruits comparée à PCA.

Analyse de corrélation canonique

L’analyse de corrélation canonique –Canonical Correlation Analysis (CCA)– est un outil standard pour inspecter les relations linéaires entre deux variables aléatoires ou bien entre deux ensembles de vecteurs [66] [75].

Étant donné deux ensembles différents de variables aléatoires, l’objectif de CCA est de déterminer un sous espace vectoriel, engendré par des vecteurs appelés facteurs canoniques, tel que la projection des deux ensembles de variables sur ce sous-espace maximise leur corrélation.

Comme PCA, la méthode CCA permet de réduire la dimensionalité des données en ne prenant qu’un nombre limité de facteurs canoniques pour représenter efficacement les données originelles [146] [145].

Factorisation en matrices non négatives

La factorisation en matrices non négatives –Non negative Matrix Factorization (NMF)– est une méthode générale de décomposition matricielle pour réduire les dimensions des données [84] [85]. Elle permet d’approximer toute matrice positive V de taille n × m, par une décomposition de la forme V ≈ W H, où W et H sont des matrices (n × k) et (k × m). La matrice V contient les vecteurs réels de dimension m, la matrice W contient les vecteurs correspondants dans un espace de dimension k < m, et la matrice de passage Hcontient les vecteurs de base.

L’originalité de la NMF réside dans les contraintes de non-négativité qu’elle impose à W et H ; c’est-à-dire que leurs éléments doivent être tous positifs. La NMF a été appliquée en reconnaissance de visages [60] [156] [133]. Il existe plusieurs variantes de cette méthode [59] [168] [12] [188].

(25)

Analyse discriminante linéaire

L’analyse discriminante linaire –Linear Discriminant Analysis (LDA)– est une tech-nique de classification supervisée qui permet de trouver une séparation linaire entre plusieurs classes [54]. Pour cela, l’LDA maximise la dispersion inter-classe (individus différents) tout en minimisant la dispersion intra-classe (même individu).

LDA a été très utilisée pour réaliser des systèmes de reconnaissance faciale. Cette méthode cherche un ensemble de vecteurs de projection W maximisant la matrice de dispersion inter-classe Sb, tout en minimisant la matrice de dispersion intra-classe Sw.

Cependant la méthode LDA classique souffre d’un problème connu sous le nom de "Small Sample Size Problem" (SSS) qui surgit avec les données qui ont une grande dimension par rapport au faible nombre d’échantillons d’apprentissage. En effet, une simple image de taille 100 × 100 est utilisée comme un vecteur de 10.000 éléments. Ainsi, la matrice Sw peut devenir singulière et cela rend difficile le calcul des vecteurs

de projections.

Plusieurs approches ont été proposées pour résoudre ce problème. Parmi les solu-tions on peut citer l’utilisation de la méthode Fisherface (PCA+LDA) [7] [88] [194] [97] qui consiste à utiliser une étape supplémentaire de réduction de dimensions avant d’appliquer LDA. La méthode LDA régularisée (R-LDA regularized LDA) [35] [130] [108,109] qui ajoute une matrice diagonale α × I à la matrice Swpour enlever la

singula-rité de celle-ci. La méthode de l’espace nul de Sw [52] [160] qui calcule la transformation

W en utilisant l’espace nul de Sw. Un autre algorithme appelé Direct LDA (D-LDA) [183]

essaie de résoudre ce problème en inversant les étapes de diagonalisation simultanées. Ye et al. [182] [180] ont proposés un algorithme basé sur la décomposition QR pour enlever la singularité des matrices de dispersion. Hansun Park [67] [177] [68] a utilisé la décomposition SVD généralisée pour résoudre le SSS. Enfin, parmi les variantes ré-centes de LDA on peut citer celles pour lesquelles les vecteurs de projections sont non corrélés ou orthogonaux [73] [181].

1.5.2 Méthodes non linéaires

En général on distingue d’une part, les méthodes linéaires qui ne prennent pas en compte les non-linéarités des données traitées. Et d’autre part, les algorithmes dits non linéaires introduits par les chercheurs pour essayer de résoudre les problèmes de variations d’illumination et de la pose du visage devant le capteur vidéo.

(26)

Ces problèmes peuvent dégrader d’une façon considérable les performances d’un système de sécurité biométrique en termes de taux de reconnaissance. Les algorithmes non linéaires les plus utilisés sont ceux basés sur les noyaux (kernel based methods) et sur l’apprentissage de variétés1_{(Manifold learning).}

Méthodes basées sur les noyaux

Afin de comparer des vecteurs de haute dimensionnalité de manière efficace, l’utili-sation des fonctions noyaux a été très intensive ces dernières années. Le concept princi-pal suggéré par l’utilisation des fonctions noyaux (kernels) est la projection non linéaire des données vers un espace de caractéristiques de haute dimension.

En pratique, les noyaux calculent les produits scalaires des arguments dans ce nou-vel espace. Les arguments sont passés, en format de l’espace original, à la fonction qui calcule implicitement leur produit scalaire dans l’espace des caractéristiques.

Il y a plusieurs fonctions noyaux disponibles. Chacune définit, avec ses paramètres, un espace de caractéristiques unique. Par ailleurs, les algorithmes qu’utilisent des fonc-tions noyaux sont conçus de telle manière que les coordonnées des projecfonc-tions ne soient plus nécessaires. Seule est nécessaire la relation entre données en termes de produits scalaires et de distances dans l’espace de caractéristiques.

Plusieurs algorithmes de reconnaissance des formes peuvent être développés de ma-nière à intégrer des fonctions noyaux et ainsi étendre des algorithmes simples (linéaires) dans l’espace de caractéristiques à des algorithmes non-linéaires dans l’espace original. Ainsi, et pour la reconnaissance de visages la plupart des algorithmes linaires ont été "‘kernelisés"’. On cite notamment, Kernel PCA [140, 155, 176], kernel LDA et ses variantes [117] [99] [40] [38, 72, 91, 92, 100, 101, 103, 167, 171, 176, 195], kernel ICA [114], kernel CCA [169] et kernel NMF.

Méthodes basées sur l’apprentissage de variétés

Une autre approche intéressante pour réduire la dimensionnalité des données de façon non linéaire est l’apprentissage des variétés. Cette approche considère que les données de haute dimensionnalité sont des échantillons d’une variété de faible dimen-sion.

(27)

Plusieurs méthodes basées sur l’apprentissage de variétés ont été développées pour la reconnaissance de visages. C’est le cas pour l’algorithme Isomap [151] [174] qui est une généralisation non-linéaire de l’algorithme MDS. L’algorithme Locally Linear Em-bedding (LLE) [134] [115] qui utilise une approche différente à Isomap mais partage la même philosophie : les images de départ dans un espace de haute dimensionnalité étant voisins doivent se retrouver proches dans une projection de faible dimension. On souhaite que la disposition des plus proches voisins soit préservée. Une des limi-tations d’Isomap et de LLE est qu’ils ne sont pas adaptés pour traiter des ensembles non convexes. L’algorithme Hessian LLE [46] est une alternative conçue pour ce type de problème.

L’algorithme Laplacian Eigenmaps [8] calcule une représentation de faible dimen-sion des données en préservant leurs relations de proximité dans l’espace de départ. Cet algorithme ressemble un peu au LLE, cependant il possède un fondement théorique différent puisque l’information de voisinage est récupérée à l’aide d’un graphe mais les coordonnées de faible dimension sont obtenues à partir de la notion du Laplacien du graphe [29].

Machines à vecteurs de support

Une machine à vecteurs de support ou séparateur à vaste marge –Support Vector Machine (SVM)– est une technique de discrimination qui a été développée dans les années 1990 à partir des travaux théoriques de Vladimir Vapnik [159] sur le développe-ment d’une théorie statistique de l’apprentissage.

Elle consiste à séparer deux ou plusieurs ensembles de points par un hyperplan en projetant les données dans un espace de très grande dimension dans lequel les données deviennent linéairement séparables .

En général, il peut y avoir plusieurs séparateurs possibles entre les classes (en sup-posant le problème linéairement séparable). Dans les SVMs, nous faisons un choix par-ticulier parmi tous les séparateurs possibles, c’est celui avec la "‘marge"’ maximale (figure 1.4).

Lorsque les données ne sont pas linéairement séparables, il est possible, par le prin-cipe des noyaux, de projeter les données dans un espace de plus grande dimension pour trouver la solution adéquate, sans avoir à former explicitement ce nouvel espace des caractéristiques. Plusieurs applications sur la détection et la reconnaissance de visages ont été effectuées à l’aide des SVM [124] [61] [89].

(28)

FIGURE 1.4 – Exemple de deux classes linéairement séparables. L’hyperplan déterminé par la SVM, maximisant la marge, permet de séparer les deux classes de manière optimale.

Réseaux de neurones

Un réseau de neurones peut être vu comme une fonction ayant un certain nombre d’entrées et un certain nombre de sorties. Le principe de l’apprentissage consiste à donner à l’entrée du réseau de neurones un certain nombre d’exemples et de fixer la sortie à la valeur désirée. Une méthode d’apprentissage permet alors au réseau de s’adapter au mieux pour qu’il affiche la même sortie quand on lui donnera des donnés proches des données d’apprentissage.

Les réseaux de neurones sont généralement utilisés pour leur faible sensibilité au bruit et leur capacité d’apprentissage. Malheureusement, ils sont souvent difficiles à construire puisque leur structure (nombre de couches cachées et nombre de neurones par couche pour les perceptrons) influe beaucoup sur les résultats et il n’existe pas de méthode pour déterminer automatiquement cette structure. Néanmoins, nous donnons des exemples d’études ayant utilisées les réseaux de neurones pour la reconnaissance de visages.

Cottrell et al. [32] ont cherché des méthodes d’analyse automatique du visage les plus proches possible de la réalité biologique. Ainsi, un réseau de neurones dit auto-supervisé, c’est-à-dire dont la couche d’entrée et la couche de sortie sont identiques et égales à l’image d’un visage, effectue une analyse en composantes principales. Le nombre de composantes principales est donné par le nombre de neurones de la couche cachée. Chaque neurone de la couche cachée correspond aux valeurs propres de la décomposition.

(29)

Lawrence et al. [83] choisissent de classer les vecteurs de caractéristiques, extraites par cartes de Kohonen, à l’aide d’un réseau de neurones convolutionnel. Ce type de réseau de neurones est partiellement invariant à des transformations globales telles que la translation, la rotation et les changements d’échelle. Les résultats expérimentaux ont montré la supériorité des réseaux de neurones convolutionnels sur les réseaux auto-supervisé de Cottrell [32].

Lin et al. [93] ont utilisé un réseau de neurones à décision probabiliste alliant ainsi les avantages des approches statistiques et des réseaux de neurones. Il a été montré que les performances de cette solution sont comparables à la méthode de Lawrence et al. , tout en étant beaucoup moins coûteuse en termes de temps de calcul.

De plus, les réseaux de fonctions à base radiale (RBF) ont été également utilisés pour la reconnaissance de visages. Ainsi, Thomaz et al. [152] ont suggéré d’utiliser un réseau RBF pour la classification des vecteurs de caractéristiques extraites à l’aide de la technique des visages propres. Les mêmes auteurs ont montré dans [53] que l’utilisation d’un réseau RBF en avant de PCA donne des résultats équivalents à l’utilisation d’une LDA.

Er et al. [51] ont montré aussi l’efficacité des réseaux RBF pour la classification des modèles issus de la méthode Fisherfaces. Leur technique est néanmoins coûteuse en termes de construction du modèle, puisqu’elle nécessite la mise en oeuvre d’une PCA, suivie d’une LDA, puis d’une initialisation itérative des paramètres du réseau RBF, et enfin l’apprentissage de celui-ci.

1.6 Approches locales

Les approches locales emploient généralement des traitements locaux comme les filtres de Gabor afin d’effectuer une analyse spatiale et fréquentielle des informations contenues dans une image. Ensuite, elles appliquent un traitement global séparé comme un modèle probabiliste ou un modèle de grille déformable.

Les traitements locaux exigent un choix empirique de paramètres, par exemple : le nombre d’échelles et de direction pour les filtres de Gabor, ainsi qu’une présélection empirique des zones des images dans lesquelles les filtres sont appliqués. Ces zones sont notamment délimitées par une grille à pas constant. Ces paramètres empiriques sont très difficiles à déterminer et c’est l’un des inconvénients des approches locales.

(30)

En effet, la qualité des résultats obtenus par les filtres de Gabor est fortement liée aux paramètres choisis. De plus, les filtres paramétrés empiriquement sont très sensibles aux variations de luminosité des images.

1.6.1 Appariement élastique des graphes (EBGM)

L’approche appelée Elastic Bunch Graph Matching a été publiée par Wiskott et al. [163]. Cette approche utilise un graphe afin de modéliser une structure de visage. Le graphe correspond à un maillage appliqué sur une image. Dans le modèle de la structure du visage, chaque noeud du graphe représente un ensemble d’apparences possibles d’un élément facial du visage. La déformation à appliquer sur chaque noeud du graphe pour faire correspondre un modèle de visage d’une personne sur une autre image de visage de la même personne permet de construire une distance entre les différents visages. Une autre approche est décrite par Brunelli et Poggio [11] utilise des modèles géométriques comme la distance entre des paires de caractéristiques locales afin de classer les visages.

1.6.2 Modèles de Markov cachés

L’idée derrière l’utilisation des modèles de Markov cachés (MMC) dans la recon-naissance du visage c’est que la structure d’un visage peut être considérée comme une séquence de parties distinctes, ou de régions, et que l’ordre de cette séquence est tou-jours conservé (par exemple, le front, yeux, nez, bouche, menton). Les caractéristiques extraites de chaque région agissent comme un flux d’images, ou de vecteurs décrivant la structure du visage. L’image du visage est ainsi modélisée en utilisant un MMC unidimensionnel en assignant à chacune des régions du visage un état (figure 1.5).

FIGURE 1.5 – L’image de visage est segmentée en bandes de hauteur h pixels, avec un recouvrement r. L’ordre d’apparition des observations oi est de haut en bas [121].

(31)

L’utilisation des MMC dans la reconnaissance du visage a été initiée par les travaux de Samaria et Nefian [135] [121]. Dans cette approche, les images de visage sont dé-coupées en plusieurs régions ou en plusieurs bandes. Les transitions entre ces régions sont, pour chaque individu, modélisées de manière probabiliste à l’aide de MMC. Les mesures de la similarité entre les différents visages sont ensuite évaluées de manière probabiliste par un décodage des différents MMC.

Une autre approche plus récente est basée sur les travaux de Perronnin et al. [128]. Cette approche utilise des MMC en deux dimensions pour apprendre à modéliser non pas des transitions entre des bandes de l’image mais des variations locales de texture et de forme dans l’image du visage.

1.6.3 Analyse locale des traits caractéristiques (LFA)

Local Feature Analysis (LFA) est une technique qui répond à deux grands problèmes de la méthode PCA. Puisque, l’application de celle-ci sur un ensemble d’images permet d’obtenir une représentation globale des caractéristiques de l’image qui n’est pas ro-buste à la variabilité en raison de changements locaux qui peuvent surgir au niveau de cette image. En outre, PCA est une représentation non topographique, car les pixels voisins après réduction de dimension ne correspondent pas nécessairement à ces mêmes valeurs originelles. LFA surmonte ces problèmes en effectuant une analyse locale des

FIGURE 1.6 – L’image en haut donne les positions sur le visage des centres des

différentes grilles locales. Les images (a) à (e) montrent les noyaux locaux associés à ces grilles [126].

traits caractéristiques du visage (yeux, nez, bouche) à l’aide de filtres multiéchelles. Les caractéristiques extraites sont ensuite encodés avec PCA pour obtenir une description compacte des visages.

(32)

En d’autres termes, LFA utilise des noyaux à support local, que l’on peut voir comme un ensemble de filtres locaux FGi, où les Gi sont les grilles. Ces grilles, ainsi que leurs

noyaux associés, sont illustrés par la figure 1.6.

Cependant, cette approche souffre de deux inconvénients majeurs : premièrement, la taille des vecteurs de caractéristiques (templates) des visages est beaucoup plus im-portante qu’avec la méthode des visages propres. Deuxièmement, LFA repose sur une procédure d’optimisation itérative, coûteuse et instable. De plus les caractéristiques sont choisies de manière à être le plus représentatives possible des images de visages, mais non dans le but de séparation des classes.

1.7 Conclusion

Dans ce chapitre, nous avons passé en revue les principales technologies biomé-triques. Ensuite, nous avons présenté dans un premier temps l’architecture de base d’un système biométrique pour se focaliser, dans un deuxième temps, sur la reconnaissance de visages.

Ces dernières années, de nombreuses approches pour la reconnaissance automa-tique de visages ont été proposées. Elles peuvent être regroupées en deux types d’ap-proches principales. Les apd’ap-proches globales pour lesquelles les caractéristiques sont extraites directement de l’image du visage en entier, et les approches locales basées sur l’extraction de traits locaux du visage, tel que les yeux, le nez ou la bouche.

Dans ce chapitre nous avons passés en revu les méthodes globales et locales les plus importantes. Nous avons décrit également leurs avantages et leurs inconvénients puis dégager les problèmes liés à leur application dans un environnement réel. En effet, un système de reconnaissance automatique de visages est efficace dans le cas où les images faciales seraient bien cadrées et prises dans de bonnes conditions de luminosité. Sa performance se dégrade fortement lorsque ces images, utilisées pour l’apprentissage ou lors de la reconnaissance, présentent des variations importantes de luminosité et/ou de pose du visage.

(33)

Méthodes pour la reconnaissance des visages

2.1 Introduction

Les méthodes de reconnaissance automatique des visages ont pour but de décrire et de classer des individus caractérisés par un nombre important de variables numériques. Ces variables, appelées par la suite caractéristiques, peuvent être les valeurs des pixels d’une ou plusieurs images faciales de la personne à identifier. La tâche de reconnais-sance de visages peut se décomposer en deux grandes étapes ; à savoir l’extraction de caractéristiques et leur classification.

La première étape permet de fournir une représentation compacte et pertinente des visages sous la forme de vecteurs de caractéristiques (templates), alors que la seconde étape sert à mettre en correspondance ces templates.

Tout d’abord, nous donnons un certain nombre de préliminaires qui nous aiderons à détailler le fonctionnement des algorithmes de reconnaissance de visages.

Soit une image x de taille n × m pixels, dans la plupart des cas cette image est représentée par un vecteur de pixels, appelé vecteur-image, de très grande dimension d = nm. Ce vecteur-image est obtenu par concaténation des lignes ou des colonnes de pixels de l’image initiales.

(34)

Notons l’existence d’un certain nombre de méthodes qui ne procèdent pas à la vec-torisation de l’image, dans le sens ou elles utilisent directement la matrice de pixels de l’image sans concaténation. Ces méthodes sont appelées méthodes de reconnaissance de visages bidimensionnelles, à l’opposé des méthodes unidimensionnelles qui utilisent un vecteur-image.

Par la suite nous nous intéressons exclusivement aux méthodes unidimensionnelles dans lesquelles chaque vecteur-image représente un point dans un espace I appelé espace des images ou espace initial. L’espace des images a des dimensions égales au nombre de pixels constituant l’image. Par exemple, pour une image de taille 100 × 100, l’espace I est de dimension P = 10000.

Quand toutes les images faciales sont converties en vecteurs, elles seront groupées dans une certaine location de l’espace I. Puisqu’elles ont une structure similaire, ayant les yeux, le nez et la bouche en commun, leurs positions relatives sont donc corrélées. Ainsi, les visages ne sont pas distribués aléatoirement dans l’espace I et une grande partie des points de cet espace ne peuvent correspondre à des visages.

Par conséquent, si on veut classifier des visages d’une base d’apprentissage, il suffit de chercher le sous-espace F de I, de dimension inférieure, contenant seulement les visages. Cet espace est appelé espace de visages ou espace des caractéristiques (feature space).

Les méthodes des sous-espaces (subspace methods), aussi appelées méthodes de projections statistiques, permettent de définir le sous-espace F qui facilitera la mise en correspondance et la classification des visages.

Les méthodes de projections statistiques peuvent être classées en deux grandes fa-milles : les méthodes linéaires et les méthodes non linéaires.

Dans ce chapitre, nous présenterons les principales approches de projections statis-tiques pour la reconnaissance des visages. Dans un premier temps, nous détaillerons les méthodes linéaires telle que PCA et LDA. Ensuite, nous présenterons les méthodes non linéaires reposant sur les noyaux.

2.2 Méthodes d’analyse et de reconnaissance linéaires

Les méthodes linéaires visent essentiellement à définir une nouvelle base de l’espace initial des images. Une fois les données projetées linéairement dans cette nouvelle base, on élimine les vecteurs qui ne portent pas une information aidant à classifier les visages.

(35)

Cette élimination se fait en respectant un critère bien choisi au départ, ce qui permet donc de définir le sous-espace de dimension réduite F. En d’autres termes, si x = (x1, . . . , xd)t est une variable aléatoire de dimension d. Alors, le but c’est chercher une

autre représentation y = (y1, . . . , y`)t, avec ` < d, compacte et optimale au sens d’un

critère d’optimisation fixé.

Ainsi, les données transformées par ces techniques sont des combinaisons linéaires des données initiales. Elles sont définies par y = Wt_x_{. Où W est la matrice de taille d × `}

de la projection linéaire.

Afin de classifier une image de test quelconque, elle est projetée dans l’espace F. Puis, on calcule la distance de similarité entre cette image projetée et les images de la base d’apprentissage pour définir à quelle classe elle appartient.

2.2.1 Analyse en composantes principales

PCA est une technique d’analyse de données permettant de définir un sous-espace décrivant le mieux possible la distribution des données dans l’espace initial. Elle vise à définir le sous-espace F de l’espace initial tel que la dispersion des données, projetées orthogonalement dans F, soit maximale. Ce sous-espace est engendré par une base orthonormée de vecteurs principaux déterminé par PCA, et est appelé sous espace principal.

Soit χ l’ensemble d’images de visages disponibles, formé de N images Iide taille n×

mpixels, tout d’abord la matrice Iiest convertie en un vecteur colonne xide taille (d×1)

avec d = nm. En ajoutant chaque colonne, l’une après l’autre pour toutes les images, une matrice des données d’apprentissage X = [x1, x2, . . . , xN]est formée. La taille de X est

de d × N , avec N est le nombre total des images d’apprentissage. Après l’obtention de X, on calcule la matrice du visage moyen de toutes les images avec l’équation suivante :

m = 1 N N X i=1 xi (2.1)

De plus, pour chaque image d’apprentissage on définit la matrice ψi = xi − m, qui

est la différence entre chaque image d’apprentissage et l’image moyenne. Ensuite, on rassemble toutes les images soustraites de la moyenne dans une matrice unique : Ψ = X − m = [ψ1, ψ2, . . . , ψN].

(36)

Enfin, la matrice de covariance, appelée aussi matrice de dispersion totale, de taille d × dest calculée avec la formule suivante :

St = Ψ.Ψt= 1 N N X i=1 ψiψti = 1 N N X i=1 (xi− m)(xi− m)t. (2.2)

Notons W la matrice constituant une base orthonormée de F. La projection ortho-gonale de xi sur W est donnée par :

yi = Wtxi (2.3)

et par conséquent la matrice de dispersion des données projetées dans F peut s’écrire : ˜

St = WtStW (2.4)

Le critère d’optimisation à résoudre, basé sur la dispersion des données projetées, est donc :

Wpca = arg max W

WtStW

(2.5)

La solution W = [ω1, ω2, . . . , ω`]tdu critère (2.5) est donnée par l’ensemble des ` vecteurs

propres orthonormés, ωi, de la matrice St. Ces vecteurs propres, appelés aussi visages

propres ou eigenfaces, sont triés selon un ordre décroissant des valeurs propres asso-ciées. Car plus une valeur propre est grande, plus la variance capturée par le vecteur propre associé est importante. La figure 2.1 présente un exemple de visages propres calculés sur la base de données ORL1_.

A l’issue de cette étape, les images d’apprentissage sont projetées dans le sous-espace propre F défini par les axes discriminants ωi. Ainsi, le poids de chaque vecteur

propre pour représenter l’image centrée ψi dans l’espace propre est calculé par : vi =

ω_itψi. vi représente en quelque sorte la i−`eme coordonnée de l’image faciale dans le

nouveau sous-espace. Ces coefficients forment le template stocké dans le vecteur Ωi ₌

Wt_ψ

i = [v1, v2, . . . , v`]t, où ` ≤ d, qui décrit en fait la contribution de chaque visage

propre dans la représentation de l’image d’apprentissage xi.

D’autre part, et durant la phase de test, cette même procédure est poursuivie en utilisant une image de test ˜xi pour calculer sa signature correspondante ˜Ω = Wt( ˜xi −

m) = [ ˜v1, ˜v2, . . . , ˜v`]t. Ceci nous amène à l’étape de classification qui se base sur les

mesures suivantes : similarité et distance "seuil".

(37)

FIGURE2.1 – Visages propres

Une mesure de similarité est définie comme la distance entre l’image de test ˜xi et la

i−`emeimage de la base d’apprentissage :

δi = ˜ Ω − Ωi = v u u t ` X k=1 ( ˜vk− vk)2 (2.6)

Alors que, la distance "seuil" est définie comme la moitié de la distance maximale entre toutes les classes :

θ = 1 2max Ωi− Ωj (2.7) La procédure de classification de la méthode eigenfaces assure que les images des visages soient les plus proches de leur reconstruction. Ainsi, on définit la distance entre l’image originale centrée ψi = xi− m et celle reconstruite ψf à partir des visages propres

par la formule suivante :

2 = kψi− ψfk2 (2.8)

où ψf =

P`

k=1vkωkest l’image reconstruire.

Finalement, la reconnaissance d’une image de test, connaissant les deux mesures δi

et , est définie comme suit :

1. Si l’erreur de reconstruction est plus grande qu’un seuil, i.e. ( > θ), alors l’image de test n’est pas un visage reconnu indépendamment des valeurs de δi.

(38)

FIGURE2.2 – Schéma de base d’un système de reconnaissance du visage basé sur PCA

3. Par contre, si < θ et pour un i tel que δi < θalors l’image de test appartient à la

classe i puisque sa signature est la plus proche de la signature Ωi_.

La figure 2.2 résume la procédure globale d’un système de reconnaissance du visage utilisant l’analyse en composantes principales.

PCA est une méthode efficace couramment utilisée pour la réduction de dimension-nalité. Néanmoins, elle ne tient pas en compte de l’information intrinsèque des classes. Ceci entraîne que l’approche PCA maximise non pas seulement les variations entre les classes, nécessaire à la classification, mais aussi les variations intra-classe, ce qui peut fausser la classification.

Par ailleurs, PCA est aussi très sensible à la variation d’illumination, de pose et des expressions faciales. Ainsi, si on utilise des images de visages prises sous une illumi-nation variable, la matrice de projection W contiendra aussi des composantes prin-cipales qui maintiennent du bruit dû à l’éclairage. Et par conséquent, les vecteurs-images projetés dans l’espace F ne seront pas bien séparés. C’est pour cela que d’autres algorithmes de discrimination plus élaborés ont été introduits ces dernières années pour effectuer une véritable séparation entre les classes et ainsi améliorer les performances d’un système de reconnaissance du visage. C’est le cas notamment de la technique d’analyse discriminante linéaire et ses variantes.

(39)

2.2.2 Analyse discriminante linéaire

Considérons un ensemble de personnes connues ayant un certain nombre d’images d’apprentissage. Ces personnes sont partitionnées en c classes (groupes), chaque classe correspond à une identité différente. Chacun des individus étant décrit par une image de d caractéristiques et l’on connaît sa classe d’appartenance. L’analyse discriminante linéaire (LDA) est donc une technique supervisée, qui a pour but de construire à partir de ces données, un sous-espace linéaire de l’espace initial des données, dans lequel les c classes sont les mieux séparées possible. Pour déterminer l’identité d’un nouvel individu, il suffit de le projeter dans ce sous-espace et de déterminer à quelle classe il est le plus proche.

D’un point de vue mathématique, l’analyse discriminante linéaire (LDA) est une technique supervisée, basée sur la maximisation d’un critère de séparabilité. Soit un ensemble de N images d’apprentissage xi ∈ <d, appartenant à c classes différentes.

Chaque classe Xi contient ni images d’une personne. Notre but est de trouver le

sous-espace linéaire F maximisant par projection la séparation entre classes, tout en rédui-sant au minimum les variations à l’intérieur des classes.

Les directions de projections wi, i = 1, . . . , `, appelées axes discriminants,

corres-pondent à des directions de <d_{qui séparent le mieux possible en projection les c classes.}

Ces ` vecteurs wi, de longueur d, définissent le sous-espace discriminant F. La matrice

W = [w1, w2, . . . , w`] contenant les axes les plus discriminants définit la matrice de

projection sur le sous-espace F. La projection yi de xisur W est donnée par :

yi = Wtxi (2.9)

Le vecteur yi ainsi obtenu, de longueur `, définit la nouvelle représentation compacte

associée au vecteur-image xi.

La méthode LDA standard essaie donc de trouver l’ensemble des vecteurs de pro-jections wi formant la matrice W , et ce en maximisant l’un des rapports équivalents

suivants : J (W ) = |W t_S bW | |Wt_S wW | , (2.10) où J (W ) = trace((WtSwW )−1(WtSbW )) (2.11)