• Aucun résultat trouvé

Détection et suivi de visages en temps Réel sur Flux Vidéo

N/A
N/A
Protected

Academic year: 2021

Partager "Détection et suivi de visages en temps Réel sur Flux Vidéo"

Copied!
166
0
0

Texte intégral

(1)

راتخم يجاب ةعماج

-ةبانع

Université Badji Mokhtar-Annaba

Badji Mokhtar-Annaba University

Ministère de l'Enseignement Supérieur et de la Recherche Scientifique

ةرازو

ميلعتلا

يلاعلا

يملعلا ثحبلاو

Faculté des Sciences de l'Ingéniorat

Département Informatique

Thèse

Présentée en vue de l’obtention du diplôme

De doctorat troisième cycle LMD

Année : 2015/2016

Intitulée :

Détection et suivi de visages en temps Réel sur Flux

Vidéo

Option

Traitement d'Image et Vision Artificielle

Par

Mohammed khammari

Devant le jury

Pr Rachid Boudour Professeur à l’université d’Annaba Président

Pr Yamina Tlili Professeur à l’université d’Annaba Directeur de thèse

Pr Djamel Chikouche Professeur à l’université de M'sila Examinateur

Pr Salim Ghanemi Professeur à l’université d’Annaba Examinateur

Pr Hicham Tebbikh Professeur à l’université de Guelma Examinateur

Dr Ch-Ennehar Bencheriet Docteur à l’université de Guelma Invité d’honneur

(2)

Dédicace

Afin d’être reconnaissant envers ceux qui m’ont appuyé et encouragé

à effectuer ce travail de recherche, je dédie ce mémoire :

À ma très chère mère pour son sacrifices consentis, soutien moral,

et pour tous les sentiments d’affection et d’amour qui représentent

pour moi le pilier de tous mes efforts.

A mon père : ton souvenir reste à jamais gravé dans ma mémoire.

Dans les jardins du paradis, si Dieu le veut.

La patience et l’encouragement de ma femme m’ont aidé à surmonter

toutes les difficultés rencontrées au cours de cette thèse.

A ma fille Ines

A vous mes frères : Salah el dine et Abd el Karim.

À tous les membres de ma famille sans aucune exception.

(3)

Par ces quelques lignes, je tiens à remercier toutes les personnes qui ont participé de près ou de loin au bon déroulement de cette thèse, en espérant n’avoir oublié personne…

Je tiens à remercier spécialement mon directeur de thèse Pr Tlili Yamina. Je vous remercie d'avoir cru en mes capacités, pour le temps et la patience que vous m’avez accordés tout au long de ces années en me fournissant d'excellentes conditions logistiques. Je garderai dans mon cœur votre générosité, votre compréhension et votre efficacité. Pour tout ce que vous m'avez donné, je vous remercie très sincèrement.

Je tiens à remercier mon co-directeur de thèse Dr Chemesse Ennehar Bencheriet d'avoir bien assuré la direction et l'encadrement de mes travaux de thèse. Merci pour votre gentillesse, votre patience et vos précieux conseils. J'ai beaucoup apprécié travailler à vos coté. Je garde toujours beaucoup de plaisir à discuter avec vous et à bénéficier de vos conseils.

Mes sincères remerciements et ma gratitude vont aussi à Pr Rachid BOUDOUR pour avoir accepté de juger ce travail et d’en présider le jury de soutenance. Que vous soyez assuré de mon entière reconnaissance. Je remercie Pr Salim GHANEMI, Pr Chikouche Djamel et Pr Tebbikh Hicham d'avoir accepté de juger ce travail. Soyez assurés, chers professeurs, de mon estime et de ma profonde gratitude.

(4)

Résumé

A côté des techniques sophistiquées d’identification telles empreintes digitales, empreintes génétiques, examen de l’iris, voix, réseaux capillaires, etc., l’identification la plus basique d'un individu vivant, se fait par reconnaissance faciale après détection de visages.

Viola et Jones ont présenté une nouvelle et efficace méthode de détection de visage. La première méthode capable de détecter des visages en temps-réel. Le travail de Viola et Jones rend possible l’utilisation des applications de la détection de visage dans le monde réel tels que appareil photos numérique, mobile, caméra de surveillance, etc.

Pour notre détecteur de visage humain, nous nous sommes intéressés à l’hybridation de méthodes existantes dans la littérature. Pour cela, nous avons utilisé les Filtres de Haar like, les LBP (Motifs binaires locaux), les WLD (Descripteur Locale de Weber), les réseaux de neurones, entraînés par Adaboost et SVM (Machine à Vecteur de Support). L’information couleur de peau est utilisée pour minimisé l’espace de recherche dans l’image, ce qui permet au détecteur de scanner uniquement les régions susceptibles d’être des régions de peau. Cela a permis de réduire le temps de calcul et aussi dans certains cas les fausses détections.

Des études comparatives ont été menées entre les filtres de Haar like et LBP avec les SVM et Adaboost sur des images couleur et niveaux de gris, la comparaison entre les 2 approches se comporte sur les performances et le temps d’exécution. Pour les images niveau de gris ils balaient toute l’image en cherchant des visages tant disque pour les images couleur on utilise l’information couleur de peau pour minimiser le champ de recherche des visages, la meilleure méthode peut être utilisée pour le suivi du visage dans une séquence d'images.

Les résultats sont très prometteurs, nous avons augmenté le taux de détection avec la combinaison des caractéristiques, nous avons trouvé une différence de facteur de 3,77 dans le temps de calcule entre les deux approches et un facteur de 2,4 dans le temps de calcule avec la même approche.

Mots clés : détection de visage, segmentation de peau, filtres de Haar like, LBP,WLD, Adaboost, SVM, RNA, temps réel.

(5)

Besides the sophisticated identification techniques such fingerprints, DNA, examination of the iris, voice, capillary networks, etc., the most basic identification a living individual is through facial recognition after face detection.

Viola and Jones presented a new and efficient face detection method. The first method capable of detecting face in real-time. The work of Viola and Jones makes possible the use of the applications of face detection in the real world such as digital camera photos, mobile surveillance camera.

For our human face detector, we were interested to hybridization of existing methods in the literature. For this, we used the Haar filters, LBP (Local Binary Patterns), WLD (Weber Local Descriptor) neural networks, trained by Adaboost and SVM (Support Vector Machine). The skin color information is used to minimize the search space in the image, which allows to the detector scanner only the regions likely be areas of skin. This helped to reduce the computing time and in some cases false detections.

Comparative studies have been conducted between the Haar like features and LBP with SVM and Adaboost on color images and grayscale, the comparison between the two approaches has on performance and execution time. For grayscale image they sweep the image looking faces as disc in color image, skin color information is used to minimize the search field faces, the best method can be used for face tracking in a sequence of images.

The results are very promising; detection rate is increased with the combination of features, it has been found a factor of 3.77 difference in the execution time between the two approaches and a factor of 2.4 with the same approach.

Keys words: face detection, skin segmentation, Haar filters, LBP, WLD, Adaboost, SVM, RN, real time.

(6)

LBP WLD Adaboost

و

SVM LBP SVM Adaboost 7733 472 LBP ، WLD ، Adaboost ، SVM

،

RN ،

(7)

Table des matières

Introduction générale ... 17

1. Détection de visage ... 19

1.1. Introduction ... 20

1.2. Système de détection ... 20

1.3. Problèmes de la détection de visage ... 21

1.4. Méthodes de détection ... 23

1.4.1. Approches basées sur les connaissances ... 23

1.4.2. Approches basées sur des caractéristiques invariables ... 26

1.4.2.1. Couleur de peau ... 26

1.4.2.2. Les caractéristiques faciales ... 28

1.4.2.3. Multi-caractéristiques ... 29

1.4.3. Approches basées sur la mise en correspondance ... 31

1.4.3.1. Les modèles de visages ... 31

1.4.3.2. L’algorithme de correspondance ... 33

1.4.4. Approches basées sur l’apparence globale ... 33

1.4.4.1. Réseau de neurones ... 34

1.4.4.2. Des méthodes basées sur la distribution ... 35

1.4.4.3. Machine à Vecteur de Support (SVM) ... 36

1.4.4.4. Détecteur de Viola et Jones ... 39

1.5. Comparaison des méthodes ... 40

1.6. Les bases d’image utilisée pour la détection de visages ... 41

1.7. Les travaux connexes ... 45

1.8. Conclusion ... 45

2. Détection de peau ... 46

2.1. Introduction ... 47

(8)

2.3. Les espaces de représentation de la couleur ... 50

2.3.1. Les systèmes luminance-chrominance ... 50

2.3.1.1. Les espaces de type YCrCb ... 50

2.3.2. Les systèmes perceptuels ... 51

2.3.2.1. L'espace L*a*b* ... 51

2.3.2.2. L'espace HSI ... 52

2.3.2.3. L'espace HSV ... 52

2.3.3. Les systèmes d'axes indépendants ... 53

2.3.3.1. L'espace I1I2I3 ... 53

2.4. Techniques de segmentation ... 53

2.4.1. Méthodes non paramétriques ... 54

2.4.1.1. Table normale de correspondance ... 54

2.4.1.2. Classifieurs bayésien couplé à l'histogramme ... 55

2.4.1.3. Réseaux bayésiens ... 56

2.4.1.4. Réseaux perceptron multicouches ... 56

2.4.1.5. Cartes auto organisatrices (SOM) ... 57

2.4.2. Méthodes paramétriques ... 58

2.4.2.1. Simple Gaussienne ... 58

2.4.2.2. Mélange de gaussiennes ... 59

2.4.2.3. Modèle elliptique de borne ... 59

2.4.2.4. Maximum d'entropie ... 60

2.4.3. Seuils fixés ... 61

2.4.4. Autres modèles pour la distribution de la peau ... 62

2.5. Performance des techniques existantes ... 63

2.6. Remarques ... 65

2.7. conclusion ... 66

3. Extraction des Caractéristiques du visage ... 67

3.1. Introduction ... 68

3.2. Détecteur de Viola et Jones ... 69

3.2.1. Les caractéristiques pseudo-Haar ... 69

3.2.2. Image intégrale ... 70

(9)

3.2.6. Limitations de la méthode de Viola et Jones ... 77

3.2.7. Améliorations de la méthode de Viola et Jones ... 78

3.2.7.1. Amélioration des caractéristiques de Haar ... 78

3.2.7.2. Améliorations de l’ensemble d’apprentissage ... 79

3.2.7.2.1. L’avancée de Chen et al ... 79

3.2.7.2.2. L’avancée de Wu et al. ... 79

3.2.7.2.3. Dernières avancées : Xiaohua et al. ... 80

3.3. Motifs binaires locaux (LBP : Local Binary Pattern) ... 81

3.3.1. LBP multi échelle ... 82

3.3.2. LBP uniformes ... 83

3.3.3. LBP invariant par rotation ... 84

3.3.4. La détection du visage par LBP ... 85

3.3.5. Les variétés de LBP ... 86

3.3.5.1. ILBP pour Improved LBP ... 86

3.3.5.2. ALBP pour Advanced LBP ... 87

3.3.5.3. MB-LBP pour Multi-Block LBP ... 87

3.3.5.4. CS-LBP pour centre symétrique LBP ... 87

3.3.5.5. tLBP pour Transition LBP ... 88

3.3.5.6. LTP pour local ternary patterns ... 88

3.4. Autres Caractéristiques ... 89

3.5. Conclusion ... 93

4. Approche proposé ... 94

4.1. Introduction ... 95

4.2. Architecture générale du système ... 95

4.3. Détection de la peau ... 96

4.3.1. Étapes de détection de la couleur de peau ... 96

4.3.2. Seuillage ... 97

(10)

4.3.2.2. Espace HSV ... 97

4.3.3. Modèle Gaussien simple ... 98

4.3.3.1. Création du modèle ... 98

4.3.3.2. Détection ... 100

4.3.4. Mélange Gaussien ... 101

4.3.5. Exemple de tests de détection de la peau ... 102

4.4. Prétraitement des segments de peau ... 104

4.4.1. Application des opérateurs morphologiques ... 104

4.4.2. Etiquetage ... 105

4.4.3. Application des contraintes de surface et de ratio ... 106

4.5. Détection de visage ... 108

4.5.1. Détection de visage avec les réseaux de neurones ... 109

4.5.1.1. Architecture du réseau PMC ... 110

4.5.1.1.1. Apprentissage ... 110

4.5.1.1.2. Détection des visages ... 112

4.5.2. Détection de visage avec les filtres de Haar ... 113

4.5.2.1. L’extraction des caractéristiques de Haar ... 115

4.5.2.2. Classification ... 115

4.5.2.2.1. Machines à vecteurs de support ... 115

4.5.3. Détection de visage avec les LBP ... 118

4.5.3.1. L’extraction des caractéristiques de LBP ... 120

4.5.3.2. Classification ... 121

4.5.4. Détection de visage avec la combinaison des caractéristiques... 121

4.5.4.1. L’extraction des caractéristiques de LBP et SWLD ... 123

4.5.4.2. L’extraction des caractéristiques Haar-LBP et Haar-SWLD ... 123

4.5.4.3. La fusion des caractéristiques ... 123

(11)

5.1. Introduction ... 127

5.2. Les bases d’images de tests ... 127

5.3. Tests de détection de la peau ... 130

5.3.1. Comparaison entre seuillage et modèle gaussien simple ... 130

5.3.2. Comparaison entre modèle gaussien simple et la mixture de plusieurs modèles gaussiens ... 131

5.4. Tests de détection de visage ... 136

5.4.1. Tests de détection de visage avec les réseaux de neurones ... 136

5.4.2. Tests de détection de visage avec les filtres de Haar ... 137

5.4.3. Tests de détection de visage avec les LBP ... 138

5.4.4. Les filtres de Haar vs les LBP ... 139

5.4.5. Tests de détection de visage avec combinaison des caractéristiques ... 140

5.5. Illustration de quelques tests ... 141

5.6. Temps de d’exécution ... 145

5.6.1. Temps d’exécution de la détection de la peau ... 146

5.6.2. Temps d’exécution des filtres de Haar, LBP et WLD ... 147

5.6.3. Traitement des vidéos ... 149

5.7. Conclusion ... 150

Conclusion générale ... 151

(12)

Liste des figures

Figure 1.1 : Système de détection de visages ... 21

Figure 1.2 : Certaines difficultés de détection ... 23

Figure 1.3 - Le modèle type exploité par la méthode de Yang et Huang ... 24

Figure 1.4 - Méthode basée sur la projection : a)L'image dans laquelle un candidat de visage est déterminé. b) L’image avec laquelle cette méthode est échouée. Kotropoulous et Pitas ... 26

Figure 1.5 - La distribution des composants Cr et Cb de couleur de peau humaine dans l’espace Y CrCb. ... 27

Figure 1.6 - la détection de la couleur de peau ... 28

Figure 1.7 - Méthode de Leung. (a) les filtres dérivés à multi-échelle et multiorientation. (b) exemples des dispositions correcte et incorrecte de " Random Graph Matching ". ... 29

Figure 1.8 - Localisation de visage : a)image originale b) segmentation de couleur c) groupement des composants connexes d) détermination des régions elliptiques. ... 30

Figure 1.9 - a) Modèle de visage avec l’égalisation de l’histogramme b) Modèle de visage après avoir écarté le fond. ... 32

Figure 1.10 - Génération des modèles de visages ... 32

Figure 1.11 - L'algorithme de base pour la détection de visage. H. A. Rowley, S. Baluja, et T. Kanade. ... 35

Figure 1.12 - Distribution des exemplaire de visages et non-visages. Sung et Poggio. ... 36

Figure 1.13 - Les hyperplans entre 2 classes avec la petite marge et la grande marge. ... 37

Figure 1.14 - Structure de système de détection de visage basé sur SVM Haizhou, Lihang Ying et Guangyou Xu. ... 38

Figure 1.15 : Les 4 types de rectangle utilisé pour l’extraction des caractéristiques du visage. ... 39

Figure 1.16 : (a) Image Intégrale (b) la somme des pixels dans la région D est 1+4-(2+3). .. 40

Figure 1.17 : des images de la base MIT ... 43

Figure 1.18 : des images de la base CALTECH ... 43

Figure 1.19 : des images de la base CMU. ... 44

Figure 2.1- Exemple de détection de la peau. ... 48

Figure 2.2 - Quelques variétés de la couleur de la peau. ... 49

Figure 2.3 -Quelques objets ayant une couleur semblable à celle de la peau. ... 49

(13)

Figure 3.2 : Caractéristiques pseudo-Haar de Viola et Jones ... 70

Figure 3.3 - Exemple d'application de deux caractéristiques différentes, à une fenêtre. ... 70

Figure 3.4 : (a) Image Intégrale (b) la somme des pixels dans la région D est 1+4-(2+3). .... 71

Figure 3.5 : Principe du calcul des caractéristiques pseudo-Haar grâce aux images intégrales ... 71

Figure 3.6 : Entraînement d'un classifieur faible à partir de deux images d’entraînement calcul de son seuil et de sa parité. ... 72

Figure 3.7 : Fonction de calcul des coefficients de pondération des classifieurs faibles en fonction de leur erreur sur la base d'image d’entraînement. ... 74

Figure 3.8 : Architecture et fonctionnement de la cascade de classifieurs. ... 75

Figure 3.9 : Evolution des valeurs de taux di ou fi à chaque étage d'une cascade en fonction des taux globaux D ou F souhaités. ... 77

Figure 3.10 : Set de caractéristiques de Haar obtenu par Lienhart et al. en utilisant les concepts d'image intégrale et d'image intégrale inclinée. ... 79

Figure 3.11 : 3 types d'échantillons positifs utilises par Xiaohua pour améliorer les performances du classifieur en cascade. Le format de gauche est d'abord utilise puis lorsque son potentiel en caractéristiques devient trop faible le format suivant est utilisé et ainsi de suite. ... 80

Figure 3.12 : En haut : quelques ondelettes de Gabor. Une fréquence à plusieurs orientations est présentée. En bas : échantillon des ondelettes de Gabor simplifiées utilisées comme caractéristiques pour le classifieur en cascade. ... 81

Figure 3.13 : Un exemple d’opérateur LBP basique. ... 82

Figure 3.14 : Quelques exemples de différents points de voisinage avec le rayon. ... 83

Figure 3.15: Les 58 différents modèles uniformes dans le voisinage (8, R). ... 84

Figure 3.16: Effet de la rotation de l'image. ... 85

Figure 3.17: Représentation du visage : une image du visage est représentée par la concaténation d’une série d’histogrammes LBP locales. ... 86

Figure 3.18 : Un exemple de l’operateur ILBP. ... 86

Figure 3.19 : Un exemple de l’operateur MB-LBP. ... 87

Figure 3.20 : Un exemple de l’operateur CS-LBP. ... 88

Figure 3.21 : Un exemple de l’operateur tLBP. ... 88

(14)

Figure 4.1 : Etapes de la conception ... 95

Figure 4.2 : Processus de détection de peau. ... 96

Figure 4.3 : Histogramme des pixels de peau dans l'espace (a)Y CrCb (b) HSV. ... 97

Figure 4.4 : Ensemble d’échantillons tirés de la base peaux utilisée. ... 99

Figure 4.5 : Modèle gaussien de peau : (a) dans l’espace YCbCr (b) dans l’espace HSV. .. 100

Figure 4.6 : Application du modèle gaussien (Image issu de la base BAO) : (a) image original (b) image probabilité (c) image binaire de couleur de peau. ... 101

Figure 4.7 : Exemple de détection de la peau (Images issu de la base BAO) : (a) images original (b) Détection par seuillage (c) Détection par modèle gaussien simple (d) Détection par mélange gaussien ... 102

Figure 4.8 : Prétraitement des segments de peau. ... 104

Figure 4.9 : Application des opérateurs morphologiques (Image issue de la base CALTECH) : (a) Image original (b) Détection de la peau (c) Dilatation (d) Erosion. ... 105

Figure 4.10 : Etiquetage de l’image binaire de peau (Image issu de la base BAO) : (a) Image original (b) Image Binaire de peau (c) Image Etiquetée. ... 106

Figure 4.11 : Application des contraintes de surface et de ratio (Images issu de la base BAO) : (a) Images original (b) Images Binaire de peau (c) Images contrainte de surface (c’) Images contrainte de surface et de ratio. ... 107

Figure 4.12 : Processus de détection de visage. ... 108

Figure 4.13 : Processus de détection de visage avec les réseaux de neurones. ... 109

Figure 4.14 : Exemples de la base d’apprentissage : (a) visages (b) non visages ... 110

Figure 4.15 : Exemple de test détection de visage avec les réseaux de neurones (Images issu de la base BAO) : (a) Image original (b) Détection de peau (c) segments de peau (d) Détection de visage ... 112

Figure 4.16 : Les 4 types de rectangle utilisé pour l’extraction des caractéristiques du visage. ... 113

Figure 4.17 : Processus de détection de visage avec les filtres de Haar. ... 113

Figure 4.18 : (a) Image Intégrale (b) la somme des pixels dans la région D est 1+4-(2+3). 114 Figure 4.19 : Le problème de séparation linéaire entre 2 classes et les vecteurs de support. L’hyperplan de séparation avec une marge maximale (à gauche) et une marge faible (à droite). ... 116

Figure 4.20 : Une surface de décision construite par un classifieur polynomial. Cette figure illustre le cas de données séparables par fonction non linéaire. ... 116

(15)

Figure 4.22 : Exemple de test détection de visage avec les filtres de Haar (Images issu de la base CALTECH) : (a) Image original (b) Détection de peau (c) segments de peau (d)

Détection de visage ... 118

Figure 4.23 : Processus de détection de visage avec les LBP. ... 118

Figure 4.24 : Un exemple d’opérateur LBP basique. ... 119

Figure 4.25 : Quelques exemples de différents points de voisinage avec le rayon. ... 119

Figure 4.26 : Représentation du visage : une image de visage est représenté par une concaténation d'un global et un ensemble d'histogrammes LBP locales. ... 120

Figure 4.27 : Exemple de test détection de visage avec les LBP (Images issu de la base CALTECH) : (a) Image original (b) Détection de peau (c) segments de peau (d) Détection de visage ... 121

Figure 4.28 : Processus de détection de visage avec la combinaison des caractéristiques. .. 122

Figure 5.1 : Des images de la base CALTECH. ... 127

Figure 5.2 : Des images de la base BAO ... 128

Figure 5.3 : Des images de la base CMU-MIT ... 129

Figure 5.4 : Courbes ROC dans l'espace rgb ... 131

Figure 5.5 : Courbes ROC dans l'espace YCrCb ... 132

Figure 5.6 : Courbes ROC dans l'espace HSI ... 132

Figure 5.7 : Comparaison des trois espaces avec un modèle gaussien simple. ... 133

Figure 5.8 : Courbe ROC de Performances pour les filtres de Haar et LBP dans les images couleur et niveau de gris dans la base d’image Caltech... 139

Figure 5.9 : Courbe ROC de fausse détection positif pour les filtres de Haar et LBP dans les images couleur et niveau de gris dans la base d’image Caltech ... 139

Figure 5.10 : Courbe ROC pour CMU+MIT frontal face. ... 141

Figure 5.11 : Exemple d’image de tests : (a) image original (b) détection de directe (c) détection de peau (d) détection de visage on utilisons la peau ... 145

(16)

Liste des tableaux

Tableau 1.1. La comparaison entre les différentes méthodes. ... 42

Tableau 1.2 : tableau des différentes bases d'images les plus importantes pour la détection de visages ... 43

Tableau 1.3 : Résultats reporter sur le terme de pourcentage de bonne détection sur le nombre de fausse positive avec les bases CMU et MIT. ... 44

Tableau 2. 1. Performance de différentes méthodes de détection de peau ... 64

Tableau 3.1 : Algorithme de boosting proposé par Viola et Jones ... 74

Tableau 3.2. Caractéristiques pour la détection d'objet et visage ... 92

Tableau 4.1. Algorithme de création du modèle Gaussien de peau ... 99

Tableau 4.2 : Evolution de l’erreur du réseau PMC ... 111

Tableau 5.1 : Performance de la détection de peau par seuillage. ... 130

Tableau 5.2 : Performance de la détection de peau par modèle gaussien simple. ... 130

Tableau 5.3 : Résultat de détection de peau avec la base BAO ... 134

Tableau 5.4 : Résultat de détection de peau avec la base BAO ... 134

Tableau 5.5 : Résultat de détection de peau avec la base CALTECH ... 135

Tableau 5.6 : Résultats des tests sur la base d’image CALTECH. ... 136

Tableau 5.7 : Résultats des tests sur la base d’image BAO. ... 136

Tableau 5.8 : Résultats des tests sur la base d’image CALTECH ... 138

Tableau 5.9 : Résultats des tests sur la base d’image BAO ... 138

Tableau 5.10 : Tableau récapitulatif des tests de comparaison entre les filtres de Haar et LBP. ... 139

Tableau 5.11 : Performance de notre méthode dans la base d’image CALTECH. ... 141

Tableau 5.12 : Tableau comparatif du temps de calcul du mélange gaussien sous Matlab et sous Matlab avec le langage C pour la détection de peau.. ... 146

Tableau 5.13 : Temps d’exécution pour l’operateur LBP. ... 147

Tableau 5.14 : Temps d’exécution pour les filtres de Haar. ... 147

Tableau 5.15 : Temps d’exécution pour les LBP et WLD. ... 147

Tableau 5.16 : Comparaison des temps d’exécutions pour les filtres de Haar, LBP et WLD ... 148

(17)

17

Introduction générale

La vision par ordinateur est un domaine de recherche qui n'a cessé de se développer depuis le début des années 40, et qui trouve aujourd'hui des applications dans de nombreux secteurs d'activité. Les systèmes d'imagerie, caméras et systèmes de vision, sont de plus en plus accessibles et performants, et induisent des progrès considérables dans les domaines de la santé (scanners, endoscopes, échographes, etc.), de l'industrie (réalisation de tâches dans des environnements à risque), de la production (systèmes de production automatisés) ou de la communication (réalité virtuelle, télévision numérique, 3D TV, etc.).

Des développements importants ont été réalisés, mais la vision par ordinateur reste un champ d'investigation très actif avec de nombreux problèmes difficiles et non entièrement résolus, et l'émergence de nouvelles perspectives dues à l’évolution des moyens de communication.

D'une manière générale, la vision par ordinateur peut être considérée comme un processus de traitement de l'information, information issue d'images numérisées. Les questions qui se posent alors concernent la nature de ces informations et leur représentation : quelle sorte d'information extraire de l’image ? Comment décrire et/ou représenter cette information pour en faciliter l’interprétation ?

Les premiers systèmes de détection de visages ont été développés dans les années 70, ils sont efficaces dans peu d'applications, par exemple l'identification de photographie de passeport. Au début des années 90, plusieurs techniques ont été établies avec le progrès dans le codage de vidéo et la nécessité de l'identification de visage. Ces dernières années, différentes approches ont été développées pour résoudre le problème de détection de visages dans différents environnements et conditions.

Dans cette thèse, nous nous intéressons au problème de la détection et suivi du visage dans une séquence d'images. Détecter le visage et le suivre dans une séquence d'images est à la base de nombreuses applications faisant intervenir les interactions homme-machine. La détection du visage est néanmoins une tâche difficile à cause de la variabilité de la taille, de l'apparence et de l'orientation que peut avoir un visage. De plus, les expressions faciales, les occultations et les conditions d'illumination affectent également l'apparence du visage.

(18)

18 Tel que : le module de détection où nous avons utilisé les Filtres de Haar like, les LBP (Motifs binaires locaux), les WLD (Descripteur locale de Weber), les réseaux de neurones, entraînés par Adaboost et SVM (Machine à Vecteur de Support). L’information couleur de peau est utilisée pour minimiser l’espace de recherche dans l’image, ce qui permet au détecteur de scanner uniquement les régions susceptibles d’être des régions de peau. Cela a permis de réduire le temps de calcul et aussi dans certains cas les fausses détections. Pour le module de suivi nous avons utilisé la méthode Camshift comme méthode de suivi.

Une étude comparative a été menée sur les filtres de Haar like, les LBP et les WLD, avec les SVM et Adaboost sur des images couleur et niveaux de gris, les paramètres de comparaison entre les approches sont les performances et le temps d’exécution. Pour les images niveau de gris les approches balaient toute l’image en cherchant des visages tandis que pour les images couleur on utilise l’information couleur de peau pour minimiser le champ de recherche des visages. La meilleure méthode peut être utilisée pour le suivi du visage dans une séquence d'images.

Notre travail est réparti comme suit :

Dans le premier chapitre, nous présentons un état de l’art de l'historique et des développements courants des techniques de détection de visages. Dans le but d’effectuer une détection efficace des visages dans une séquence vidéo. Nous exposons brièvement le principe théorique des différentes méthodes utilisées récemment.

Dans le deuxième chapitre on a abordé les techniques de la détection de peau humaine. Dans le but d’utiliser l’information couleur de peau pour minimiser l’espace de recherche dans l’image. Cela a permis de réduire le temps de calcul et aussi dans certains cas les fausses détections.

Le troisième chapitre est consacré aux nouvelles caractéristiques utilisées récemment pour la détection de visage (les filtres de Haar like, les LBP, les WLD, etc.).

Dans le quatrième chapitre, nous présentons la conception et l’implémentation de notre système.

Finalement, nous exposons dans le cinquième chapitre les résultats obtenus et nous étudions les performances de notre système en termes de taux de détection et de temps de calcul.

(19)

Chapitre 1

(20)

Chapitre 1 Détection de visage

20

1.1. Introduction

L'objectif de la détection de visage est de déterminer la présence ou non d'un ou plusieurs visages humains dans une image quelconque, et de retourner les coordonnés de chaque visage s’il existe. Bien que cela semble comme une tâche triviale pour l'être humain, mais c'est une tâche très difficile pour les ordinateurs. La difficulté associée à la détection de visage par la machine peut être attribuée à de nombreuses facteurs : variations d'échelle, l'emplacement, l’orientation, l’expression du visage, les conditions d'éclairage, les occlusions, etc. La détection de visage joue un rôle primordial, il s'agit de la première étape dans une large gamme d'applications telles que l'identification, la surveillance, le suivi du visage, etc.

1.2. Système de détection

Nous vivons actuellement dans l’ère de la technologie et nous essayons d’attribuer les facultés et les capacités humaines aux machines. L’avance scientifique est telle que l’intelligence artificielle est utilisée pour gérer d’une manière optimale des systèmes et équipements complexes afin de les aider à prendre des décisions appropriées. Pour parvenir à un tel résultat on doit passer par la détection des objets et des visages humains dans leur milieu naturel et réel.

Le but de notre recherche est d’automatiser le système de détection de visage sur des machines. Tout processus automatique de détection de visages doit prendre en compte plusieurs facteurs qui contribuent à la complexité de sa tâche, car le visage est une entité dynamique qui change constamment sous l’influence de plusieurs facteurs.

(21)

21

Figure 1.1 : Système de détection de visages.

1.3. Problèmes de la détection de visage

La détection automatique de visage basée sur l’ordinateur fait face à beaucoup de difficultés. Malgré plusieurs solutions proposées, une solution complète et efficace pour ces problèmes est encore recherchée.

Les problèmes qui sont associés à la détection de visage peuvent être attribués aux facteurs suivants :

la complexité de l’image : La détection peut être sur des images très complexes avec plusieurs personnes dans la même image, des visages cachés ou à moitié cachés par des objets avec éventuellement des arrière-plans complexes ce qui augmente la difficulté de la détection. Figure N° I.2 (1)

Les conditions d'éclairage et d’illumination : Dans toute action de détection, la lumière est un facteur important et c’est le problème le plus délicat à résoudre. Il s’est

Acquisition d’image Recherche des candidats visages Extraction des caractéristiques Modèle de visage Détection de visage

(22)

Chapitre 1 Détection de visage

22

avéré qu’on ne peut réaliser un système fiable sans prendre ce facteur en considération, d’où la nécessité de faire des prétraitements de l’image comme la normalisation et l’égalisation d’histogramme afin de minimiser les effets d’éclairage et d’illumination. Figure N° I.2 (2)

La pose : Les images d’un visage changent en raison de la position relative caméra-visage (frontal, rotation 45 degrés, profil), et certaines caractéristiques faciales telles qu’un œil où le nez peut devenir partiellement ou complètement occlus. Figure N° I.2 (3)

Présence ou absence des composants structuraux : Les caractéristiques faciales telles que la barbe, la moustache, et des lunettes peuvent ou ne peuvent pas être présentes et il y a beaucoup de variabilités parmi ces composants comprenant la forme, la couleur, et la taille. De plus, si celles-ci apparaissent, elles peuvent cacher autres caractéristiques faciales de base. Figure N° I.2 (4)

Occlusion : Un visage qui peut apparaitre à moitié dans une image ou parfois masqué partiellement par un objet nous oblige à définir des conditions d’acceptation du visage par le système. Par exemple, on peut supposer que le visage doit apparaître entièrement pour qu’il soit admis. Figure N° I.2 (5)

Expression faciale : L'expression faciale peut modifier d’une manière significative la géométrie d'un visage et donc influencer la décision d’un système de détection de visages. Figure N° I.2 (6)

Dans le contexte de la vidéo, il faut en plus assurer un temps de calcul compatible au temps réel (vitesse de traitement, la complexité algorithmique).

(23)

23

(4) (5) (6)

Figure 1.2 : Certaines difficultés de détection.

Un bon système de détection de visage doit fournir des solutions valables pour surmonter les problèmes exposés ci-dessus. Plusieurs méthodes de détection de visage ont été proposées. Dans la partie suivante, nous allons détailler les techniques existantes pour détecter des visages dans une image.

1.4. Méthodes de détection

Les premiers efforts de détection de visage remontent au début des années 1970, où les techniques heuristiques et anthropométriques ont été utilisées [1]. Ces techniques sont en grande partie rigides en raison de divers hypothèses, comme : fond uni, visage frontal, un exemple type la photo du passeport. Pour ces systèmes, toute modification des conditions de l’image signifiait un réglage fin sinon reconcevoir tout le system. En raison de ces problèmes, la recherche a stagné jusqu'en 1990 [2], lorsque la reconnaissance de visage et les systèmes de codage vidéo commencent à devenir une réalité. Les chercheurs ont présentés des mécanismes de segmentation robustes, notamment ceux qui utilisent le mouvement, la couleur, et les informations généralisées. L'utilisation des statistiques et des réseaux de neurones a également permis de détecter le visage dans des scènes encombrées et des différentes distances de l'appareil photo. Avant 2000 des centaines de méthodes de détection de visage font leur apparitions, qui ont été bien étudiés dans [3] et [4]. Par exemple, Yang et al. [3] regroupées les différentes méthodes en quatre catégories :

1.4.1. Approches basées sur les connaissances :

Pour ces approches, les règles sont dérivées à partir des connaissances des experts : comment un visage typique est formé et quels sont les facteurs qui constituent celui-ci ?

Il est facile de proposer des règles simples pour décrire les caractéristiques d’un visage et leur rapport spatial. Par exemple, un visage apparaît souvent dans une image avec deux yeux

(24)

Chapitre 1 Détection de visage

24

qui sont symétriques entre eux, un nez et une bouche. Les rapports entre les caractéristiques peuvent être représentés par leurs distances et positions relatives. Mais, il est assez difficile de construire une règle juste qui contient seulement une classe de visages.

Une méthode type dans cette approche est la méthode introduite par Yang et Huang dans [3]. Ils ont employé une méthode hiérarchique (par une simple moyenne et un sous échantillonnage) pour détecter les visages. Leur système se compose de trois niveaux.

 Au niveau le plus élevé, tous les candidats possibles de visage sont trouvés en balayant une fenêtre sur l’image d’entrée et en appliquant un ensemble de règles à chaque endroit. Les règles à ce niveau sont des descriptions générales sur l’apparition du visage.

Les règles codées qui sont utilisées pour localiser des candidats de visage dans la plus basse résolution sont :

 1re règle : la partie centrale du visage (les parties foncées dans figure1.3) a quatre

cellules avec une intensité fondamentalement uniforme.

 2me règle : pièce ronde supérieure d’un visage (les parties gris claires dans figure1.3)

a une intensité uniforme fondamentalement.

 3me règle : est-ce que la différence entre les valeurs grises moyennes de la partie

centrale et la partie ronde supérieure est significative ?

L’image au niveau de la plus basse résolution est examinée pour détecter des candidats de visages et ceux-ci doivent être encore examinés à des résolutions plus fines.

 Au niveau 2, l’égalisation locale d’histogramme est appliquée sur les candidats de visage qui ont passé le niveau inférieur, suivi de la détection de contours.

 Au niveau 3, les régions des candidats sont alors examinées avec un autre ensemble de règles qui répondent aux organes faciales tels que les yeux et la bouche. Les règles à des niveaux plus bas se fondent sur les détails des composants facials.

(25)

25

Dans [5], Kotropoulous et Pitas ont proposé une autre méthode basée sur un certain nombre de règles. Le point particulier ici est qu’ils appliquent une méthode de projection pour déterminer des candidats de visages.

Soit I(x, y) la valeur d’intensité du pixel (x, y) de l’image. Le profil horizontal et le profil vertical sont définis comme :

HI(x) = ∑𝑛 𝐼(𝑥, 𝑦)

𝑦=1 (1.1)

VI(x) = ∑𝑚 𝐼(𝑥, 𝑦)

𝑥=1 (1.2)

où m et n représentent respectivement la largeur et la hauteur de l’image.

Le profil horizontal d’une image d’entrée est obtenu d’abord, et puis on peut dire que les deux minimums locaux, déterminés en détectant les changements brusques, correspondent aux côtés gauche et droite de la tête. De même, le profil vertical est obtenu et les minimums locaux sont déterminés pour les endroits des lèvres de bouche, du bout de nez et des yeux. Ces caractéristiques détectées constituent un candidat de visage. La figure.1.4.a montré un exemple où les frontières du visage correspondent au minimum local et où les changements brusques d’intensité se produisent. Ensuite, les règles de détection de sourcils/yeux, des narines/nez, et la bouche sont employées pour valider ces candidats.

Généralement, les techniques de cette approche sont convenables pour résoudre le problème de la localisation de visage dans les images qui ont un fond uniforme. La figure.1.4.b montre un contre-exemple où le résultat est mauvais : on ne peut pas repérer le visage en appliquant cette méthode à cause du fond non uniforme de l’image.

Un inconvénient de cette approche est la difficulté rencontrée en traduisant des connaissances humaines en des règles bien définies. Si les règles prennent en considération trop les détails, elles peuvent ne pas détecter quelques visages qui ne vérifient pas toutes les règles. Si les règles sont trop générales, elles peuvent générer beaucoup de fautes positives.

D’autre part, il est difficile de rendre cette approche capable de détecter des visages dans différentes positions puisqu’il peut introduire des règles qui sont justes pour tous les cas possibles. De plus, l’algorithme au sujet des visages fonctionne bien seulement en détectant des visages frontaux dans des scènes contenant un fond simple.

(26)

Chapitre 1 Détection de visage

26

Figure 1.4 - Méthode basée sur la projection : a)L'image dans laquelle un candidat de visage

est déterminé. b) L’image avec laquelle cette méthode est échouée. Kotropoulous et Pitas[5].

1.4.2. Approches basées sur des caractéristiques invariables :

Ces algorithmes visent à trouver les caractéristiques structurelles qui existent même lorsque la pose, l’angle de vue, ou la condition d’éclairage changent, et utiliser ces caractéristiques invariables pour localiser les postions des visages. Les caractéristiques souvent utilisées sont : forme, texture, couleur de peau, contour…

Il existe principalement trois familles d’approches basées sur les caractéristiques invariables. Les premières utilisent la propriété de la peau humaine pour capter des régions contenant des visages. La deuxième famille vise à détecter les composantes faciales et la troisième combine une multitude de caractéristiques de nature différentes. Dans ce qui suit nous allons présenter ces trois familles.

1.4.2.1.Couleur de peau

Dans beaucoup d’applications de la détection de visage, la couleur chair a été employée comme une caractéristique efficace pour réduire l’espace de recherche qui contient des candidats de visage. Bien que des personnes différentes aient une couleur de peau différente, plusieurs études ont montré que la différence principale se trouve en grande partie entre leurs intensités plutôt que leurs chrominances [6][7]. Plusieurs espaces de couleur ont été utilisées pour détecter des pixels. L’efficacité de la détection de ces pixels dépend vigoureusement du choix de l’espace de couleur. La segmentation des régions de couleur chair devient plus efficace seulement si le composant de chrominance est employé dans l’analyse. Par conséquent, on doit tout d’abord éliminer la variation du composant de luminance.

La recherche a prouvé que la couleur de peau est groupée dans une petite région de l’espace de chrominance. Un des espaces de couleur utilisé souvent est l’espace YCrCb. L’équation de transformation du RGB à l’espace de YCrCb est montrée ci-dessous :

(27)

27

Y = 0.299R + 0.587G + 0.114B

Cr = -0.169R – 0.332G + 0.500B (1.3) Cb = 0.500R – 0.419G – 0.081B

La distribution de la couleur de la peau humaine est montrée dans la figure 1.5 :

Figure 1.5 - La distribution des composants Cr et Cb de couleur de peau humaine

dans l’espace Y CrCb.

Cette figure montre que la distribution de la couleur de peau est limitée dans une petite zone du plan de chrominance. Donc, on peut utiliser cette propriété pour détecter les pixels colorés par la couleur de peau. Expérimentalement, l’espace Y CrCb de couleur est la plus efficace pour détecter ces pixels qui ont la couleur de peau. En outre, il y a des autres espaces qui sont utilisées aussi (chapitre2 (2.4.3)). Dans [8], D.Saxe et R.Foulds utilise l'espace HSV. L'idée principale de leur algorithme est une méthode itérative d'identification de peau qui emploie l'intersection d'histogramme. Une pièce des pixels de couleur de peau initiale, appelée la graine de commande, est choisie par l'utilisateur et est employée pour lancer l'algorithme itératif. Pour détecter des régions de couleur de peau, leur méthode balaye sur l'image, une pièce à la fois, et présente l'histogramme de commande et l'histogramme courant de l'image pour la comparaison. D'autres espaces utilisées sont YIQ, YES, CIE, ...

L’information de couleur est un outil très efficace pour identifier des régions faciales et des traits faciaux spécifiques à condition que le modèle de couleur de peau soit correctement adapté pour différents environnements d’éclairage. Cependant, ces modèles ne sont pas efficaces dans le cas où le spectre de la source lumineuse change de manière significative. En d’autres termes, l’aspect de couleur est souvent instable aux changements du fond.

Seule la propriété couleur de peau n’est pas suffisante pour détecter ou localiser des visages. On peut savoir, si un pixel est un pixel de couleur de peau humain, mais on ne peut pas savoir si ce pixel appartient à un visage. Donc, un système de détection de visage basé sur l’extraction des pixels de peau humaine doit avoir autres phases dans lesquelles l’information de teint est

(28)

Chapitre 1 Détection de visage

28

utilisée comme phase de prétraitement. Cependant, cette phase joue un rôle très important, puisqu’elle réduit la région de test.

Dans [9], K. Sandeep et A.N. Rajagopalan ont proposé un système de détection de visage qui contient 3 phases de traitement. C'est un système typique basé sur l'information de couleur de peau humain.

- Phase 1 est la classification des pixels de couleur de peau humaine (prétraitement). - Phase 2 est analyse de connexité de ces points.

- Phase 3 utilise l’information de bord à la frontière du visage pour éviter les erreurs que la phase 1 génère.

Dans la phase 2, les pixels de couleur peau humain dans l'image sont regroupés avec un voisinage de 8-connecté. Si un pixel de couleur de peau a un autre pixel de couleur de peau dans un quelconque de ses 8 endroits voisins, alors les deux pixels appartiennent à la même région. À ce stade, on a des différentes régions et on doit classifier chacune de ces régions comme un visage humain ou non. Ceci est fait en trouvant le centre de surface, la hauteur et la largeur de la région aussi bien que le pourcentage de la zone de peau dans le rectangle défini par les paramètres convenables. Le centre de surface est calculé en faisant du moyen tous les pixels dans cette région.

Figure 1.6 - la détection de la couleur de peau.

1.4.2.2. Les caractéristiques faciales

Leung et al [10] ont développé une méthode probabiliste pour localiser un visage dans une scène encombrée qui se base sur la détection des caractéristiques locales et la comparaison de graphe des correspondances aléatoires (Random Graph Matching). Leur motivation est de formuler le problème de localisation de visage comme problème de recherche dont le but est de trouver la disposition de certaines caractéristiques faciales susceptibles de correspondre à un modèle de visage. Cinq caractéristiques (deux yeux, deux narines/ jonction de nez et lèvre) sont employés pour décrire un visage typique. Pour n’importe quelle paire de caractéristiques

(29)

29

faciales du même type par exemple, paire de l’œil gauche et l’œil droit, la distance relative est calculée. Pour un ensemble d’images, les distances sont modélisées par une distribution gaussienne. Les caractéristiques faciales sont définies par la moyenne des réponses des filtres dérivés à multi-orientation et multi-échelle (Figure 1.7.a). La distribution spatiale des caractéristiques est apprise à partir d’une distribution gaussienne des distances mutuelles entre les éléments faciaux.

La méthode consiste à balayer une image avec le filtre gaussien afin de localiser les traits du candidat selon leurs ressemblances. Ensuite, vérifier la correspondance entre le (Random Graph Matching ) et le candidat pour localiser le visage (Figure. 1.7.b).

Figure 1.7 - Méthode de Leung. (a) les filtres dérivés à multi-échelle et multiorientation.

(b) exemples des dispositions correcte et incorrecte de " Random Graph Matching ".

Puisque les caractéristiques faciales ne peuvent pas apparaître dans des dispositions quelconques, les endroits prévus des autres caractéristiques sont estimés en utilisant un modèle statistique des distances mutuelles.

1.4.2.3.Multi-caractéristiques

Ils existent de nombreuses méthodes qui combinent plusieurs caractéristiques faciales pour localiser ou détecter des visages. La plupart d’entre elles utilisent les caractéristiques globales telles que la couleur, la taille et la forme de visage. Elles vérifient ensuite ces candidats en utilisant les caractéristiques locales tels que les sourcils, le nez et les lèvres.

Sobottka et Pitas dans [11] ont proposé une méthode de localisation de visage utilisant la forme et la couleur : d’abord, une segmentation de couleur dans l’espace HSV est effectuée pour localiser des régions de couleur de peau humaine. Ces régions sont déterminées en appliquant l’algorithme de croissance de région à une résolution brute de l’image segmentée.

(30)

Chapitre 1 Détection de visage

30

Puis, chaque région est choisie comme candidat de visage si sa forme est elliptique. L’avantage ici est que l’information de région est plus robuste contre le bruit et les changements de l’illumination. Enfin, les candidats de visage sont vérifiés en recherchant les caractéristiques faciales telles que les yeux et la bouche extraites en se basant sur l’observation qu’ils sont plus foncés que le reste d’un visage (Figure.1.8).

Figure 1.8 - Localisation de visage : a)image originale b) segmentation de couleur

c) groupement des composants connexes d) détermination des régions elliptiques.

La symétrie de modèle de visage a été aussi appliquée pour la localisation de visage. Dans [12], Sarbert et Tekalp ont proposé un algorithme qui exploite l’information de couleur, de forme et l’emplacement des caractéristiques faciales tel que les yeux, le nez et la bouche en utilisant une fonction de coût symétrique. Leur algorithme est scindé sur trois étapes :

1. Classification des régions de couleur de peau humaine : ils utilisent pour cela les canaux chromatiques dans l’espace de couleur YES.

2. Classification des formes : dans cette étape, ils utilisent les vecteurs propres et les valeurs propres calculés à partir d’une matrice spatiale de covariance pour vérifier la présence d’une ellipse à la région de peau extraite. La distance de Hausdorff est utilisée en tant

(31)

31

que moyen de comparaison, rapportant une mesure de ressemblance entre la forme de la région et le modèle d’ellipse.

3. Localisation des caractéristiques faciales du visage : Les centres des yeux sont localisés en utilisant des fonctions de coût. Ces facteurs sont utilisés pour tirer profit des symétries inhérentes liées entre le visage et les endroits des yeux. Ensuite, le bout du nez et le centre de la bouche sont repérés en utilisant la distance entre les deux centres des yeux.

1.4.3. Approches basées sur la mise en correspondance :

L’idée principale de ces approches est de créer des modèles standards capables de décrire un visage ou une partie de visage. Puis, la corrélation entre l’image d’entrée et les modèles est calculée. Grâce à celle-ci, on repère des visages dans l’image.

Dans ce cas, on construit des modèles de visage qui représentent la classe de visages. Le problème de la détection de visage est ramené à un problème de mise en correspondance des formes : on vérifie à chaque endroit de l’image si une fenêtre est un candidat de visage en comparant la différence entre celle-ci et les modèles de visage. Malgré le fait que les visages ont la même structure, ils peuvent être en différentes tailles et positions, ...etc. Donc, la construction des modèles de visage est très importante. D’autre part, les conditions d’illumination affectent la distribution de couleur de l’image et donc elles introduisent un bruit au contour. Ceux-ci constituent les défis de notre problème.

En général, la mise en correspondance est basée sur des fonctions de corrélations croisées de dimensions deux entre une fenêtre de l’image et le modèle. Des modèles de visage normalisés sont soit prédéfinis manuellement par un spécialiste, soit paramétrés automatiquement par des fonctions. Sur une image en entrée, les valeurs de corrélation avec des modèles de visages sont calculées indépendamment pour le contour de visage,les yeux, le nez et la bouche. Des candidats de visage sont déterminés grâce à ces valeurs.

Dans la technique de mise en correspondance, il y a deux facteurs cruciaux : la façon de construction des modèles et l’algorithme de correspondance.

1.4.3.1.Les modèles de visages

Les modèles de visage sont obtenus manuellement .En effet, les spécialistes extraient des visages manuellement, puis un modèle est défini comme une moyenne de tous ces visages. De plus, quelques spécialistes pivotent un peu les visages extraits avant de faire la moyenne pour obtenir un modèle plus efficace.

(32)

Chapitre 1 Détection de visage

32

Figure 1.9 - a) Modèle de visage avec l’égalisation de l’histogramme b) Modèle de

visage après avoir écarté le fond.

D’autre part, pour améliorer la qualité du modèle, quelques opérations de prétraitements telles que l’égalisation de l’histogramme sont appliquées. On passe par la suite à la suppression des zones du fond qui influent aussi la qualité du modèle de visage. La figure 1.9 illustre cette étape.

Dans [13] Luhong Liang et al. Proposent une méthode qui utilise non seulement le modèle de visage mais aussi le modèle des yeux. La raison est qu’ils pensent que les yeux jouent un rôle très important dans la forme du visage. Donc, ils proposent d’utiliser deux types de modèles : tout d’abord, la mise en correspondance est appliquée avec les modèles des yeux, puis on passe à la mesure de similarité entre les modèles de visage et les candidats de visage qui passent la première vérification.

Les modèles de visage peuvent aussi être créés automatiquement par des algorithmes d’apprentissages artificiels.

Figure 1.10 - Génération des modèles de visages.

La figure 1.10 illustre comment on génère des modèles de visage selon la méthode de Luhong et al. [13].

(33)

33

Dans [14], Miao et al. proposent des modèles de visage qui sont produits à partir de six composants de visage : 2 sourcils, 2 yeux, le nez et la bouche. En effet, ces modèles sont construits en se plaçant sur les centres géométriques de ces composants. Ils sont appelés des modèles des centres géométriques.

1.4.3.2.L’algorithme de correspondance

L’idée cruciale de l’approche de mise en correspondance est la comparaison de la différence entre une fenêtre de l’image et un modèle de visage. Ce qui se traduit sur le plan pratique par le calcul de la fonction de corrélation entre cette fenêtre et le modèle.

1.4.4. Approches basées sur l’apparence globale :

Le principe de ces méthodes est de considérer le problème de la détection de visage comme un problème de classification : Ici, il s’agit de classer un modèle capturé dans l’un des deux classes : classe de visages et classe de non-visages. Les techniques utilisent l’analyse statistique et l’apprentissage automatique pour construire des machines capables de séparer les visages des non-visages. Les réseaux de neurones, les machines à vecteurs de support (SVM), les classifier bayésiens, les modèles de Markov cachés (HMM) sont parmi les techniques d’apprentissage automatique les plus souvent utilisées.

Bien que certaines méthodes récentes, basées sur des caractéristiques invariantes aient amélioré la capacité face à l’incertitude, la plupart des méthodes sont encore limitées pour détecter les visages frontaux. Il y a toujours un besoin de techniques qui peuvent s’exécuter dans les scénarios les plus hostiles tels que la détection de multiples visages devant un fond complexe.

Cette condition a motivé un nouveau secteur de recherches dans lequel la détection de visage est traitée comme un problème de reconnaissance de forme. L’idée de base dans le domaine de l’identification des modèles pour détecter des visages est d’utiliser une procédure de formation qui classifie les modèles en deux classes : classe de visages et classe de non-visages. En effet, dans cette approche, on applique des techniques d’apprentissage pour déterminer la fonction qui décrit la distribution des visages à partir de l’ensemble des exemples (ces exemples peuvent ne pas être des visages).

Au contraire des méthodes de mise en correspondance où les modèles sont prédéfinies par des spécialistes, les modèles dans ce cas sont construits par apprentissage à partir des exemples. En général, ces méthodes se basent sur des techniques telles que l’analyse statistique et l’apprentissage automatique pour trouver les caractéristiques appropriées des images de visage et des images de non-visage.

(34)

Chapitre 1 Détection de visage

34

La plupart de ces méthodes appliquent une technique qui utilise une fenêtre de balayage pour détecter des candidats de visage. Les fenêtres sont déplacées dans toutes les positions de l’image en entrée pour déterminer des endroits possibles de visage. La taille de fenêtre est changée pour qu’on puisse trouver des visages à différentes tailles.

Ou bien, on peut appliquer la technique de traitement hiérarchique où les images sont produites à partir de l’image originale en faisant un sous-échantillonnage. Mais elles se différent de point de vue implémentation : la taille de la fenêtre de balayage, le facteur de sous- échantillonnage, et le nombre d’itérations changent selon la méthode proposée et le besoin de système informatique.

En outre, plusieurs méthodes probabilistes ont été proposées : une image ou un vecteur de caractéristiques dérivé de l’image est observée comme une variable aléatoire X, cette variable aléatoire est caractérisée pour des visages ou des non-visages par les fonctions de densité de probabilité P (x/visage) et P (x/nonvisage). Une classification Bayésienne peut être employée pour classifier un endroit d’image. Malheureusement, une implémentation directe d’un tel algorithme est infaisable en raison de la dimension de X.

Une autre approche est de trouver une fonction discriminante (surface de décision, l’hyperplan de séparation, seuil de décision, ...) qui distingue entre la classe de visages et la classe de non-visages.

1.4.4.1.Réseau de neurones

La technique du réseau de neurones a été appliquée avec succès dans beaucoup de problèmes de reconnaissance de forme, tels que la reconnaissance optique des caractères, l’identification d’objet, et la conduite autonome de robot. Puisque la détection de visage peut être traitée comme un problème d’identification de modèle à deux classes. Diverses architectures de réseau de neurones ont été proposées. L’avantage de l’emploi des réseaux de neurones pour la détection de visage est la faisabilité de formation d’un système pour estimer la densité conditionnelle de classe de visages.

L’idée de cette approche est que tout d’abord on utilise l’ensemble des images de visage et l’ensemble des images de non-visages pour former le réseau de neurones. Puis, une fenêtre dont la taille peut être changée balaye toute l’image en entrée. Cette fenêtre introduite au réseau sera classifiée en deux classes : classe de visages et classe de non-visages.

La performance du réseau dépend directement du nombre de modèles à former et la différence entre ces schémas. Si ce nombre est plus grand et la différence est plus grande, la capacité de classification du réseau de neurones est plus haute. D’autre part, le temps de

(35)

35

formation est aussi considéré comme un agent qui influe la performance du système. Donc, l’architecture du réseau doit être intensivement accordée (nombre de couches, nombre de nœuds, taux d’étude, etc...) pour obtenir la performance optimale.

Dans [15], Rowley, S. Baluja, et Kanade proposent un système de détection de visage qui est basé sur la classification par réseau de neurones.

Leur système est composé de deux étapes : localiser des visages en utilisant un réseau de neurones et vérifier les résultats obtenus.

Figure 1.11 - L'algorithme de base pour la détection de visage. H. A. Rowley, S.

Baluja, et T. Kanade.

1.4.4.2.Des méthodes basées sur la distribution

Sung et al. dans [16] ont développé un système de détection de visage en utilisant un modèle de distribution. Ce système décrit comment la distribution des modèles de visages peut être apprise à partir des exemples positifs (visage) et négatifs (non-visage) de visage.

Tout d’abord, chaque exemple de visage et de non-visage est normalisé à une taille de 19*19 considéré comme un vecteur de 361 dimensions. Puis, ces modèles sont groupés dans 6 sous-classes de visage et 6 sous-sous-classes de non-visage en utilisant l’algorithme K-means. Chaque sous-classe est représentée par une fonction gaussienne multidimensionnelle avec une image centroîde moyenne et une matrice de variance.

Après avoir construit les sous-classes, le système calcule la distance entre le modèle d’entrée et ces sous-classes. Il y a 2 types de distances : La première distance est la distance normalisée de " Mahalanobis " qui caractérise la distance entre le modèle d’entré et le centre de chaque

(36)

Chapitre 1 Détection de visage

36

sous-classe. La deuxième distance est la distance Euclidienne entre le modèle et sa projection sur le sous-espace. Cette distance caractérise la différence des modèles qui ne sont pas capturés par la première distance.

Donc, pour chaque fenêtre de l’image d’entrée, il y a 12 distances qui sont calculées entre celle-ci et les 12 sous-classes. Ces 12 distances constituent le vecteur d’attribut de la fenêtre. Pour détecter les visages, on classifie la fenêtre d’entrée en 2 classes : classe de visage et classe de non-visage.

Figure 1.12 - Distribution des exemplaire de visages et non-visages.Sung et Poggio.

1.4.4.3. Machine à Vecteur de Support (SVM)

SVM est une technique qui est largement appliquée dans les systèmes de détection de visage. La théorie d’apprentissage statistique a été présentée par Vapnik [17]. Un algorithme d’apprentissage est un algorithme qui détermine automatiquement la meilleure fonction qui décrit la relation entre l’entrée et la sortie d’une machine en se basant sur un nombre limité d’exemples. Cette technique permet de trouver une surface qui sépare au mieux les classes de données en maximisant la marge entre ces classes. A la différence des approches d’apprentissage se basant sur la minimisation du risque empirique, risque mesuré sur les données d’apprentissage tel que l’erreur quadratique moyenne, cette approche est basée sur le

(37)

37

principe de minimisation du risque structuré. Il s’agit de minimiser le majorant de l’erreur réelle. Ceci offre une capacité inhérente de généralisation de la machine trouvée [18].

Une fonction de classification basée sur les SVM est une droite linéaire où un hyperplan de séparation est choisi pour réduire au minimum l’erreur prévue de classification des modèles testés. Cet hyperplan optimal est défini à partir d’un petit sous-ensemble de vecteurs de formation, appelé les vecteurs de support.

Une base d’exemples où d’échantillons S de taille m est alors un ensemble de m observations indépendantes et identiquement distribuées :

S = (x1, y1); (x2, y2); :::; (xm, ym)

où xi représente l’échantillon i et sa valeur yi∈ {-1, 1} est donnée par un spécialiste et supposé

sure.

On cherche à déterminer, parmi un nombre infini de fonctions de classification linéaires celles qui séparent mieux les données tout en minimisant l’erreur de généralisation. Si les deux classes sont linéairement séparables, nous devons déterminer un hyperplan qui les sépare dans l’espace. Cependant, si les classes ne sont pas clairement séparables, alors notre objectif serait de réduire au minimum la plus petite erreur de généralisation. Intuitivement, un bon choix est l’hyperplan qui laisse la marge maximum entre les deux classes (marge étant définie comme la somme des distances de l’hyperplan des points les plus étroits des deux classes), et réduit au minimum les erreurs de la fausse classification (figure 1.13).

Les vecteurs de support sont des points de données qui se trouvent à la frontière entre les deux classes. Ces vecteurs de support, les seuls qui sont appropriés à la solution du problème, et tous les autres points de données peuvent être supprimés de l’ensemble de données sans affecter la solution.

Figure 1.13 - Les hyperplans entre 2 classes avec la petite marge et la grande marge.

Les SVM ont été rapidement adoptés pour leur capacité à travailler avec des données de grandes dimensions, le faible nombre d'hyper paramètres, le fait qu'ils soient bien fondés

(38)

Chapitre 1 Détection de visage

38

théoriquement, et leurs bons résultats en pratique. La performance des machines à vecteurs de support est de même ordre, ou même supérieure, à celle d'un réseau de neurones ou d'un modèle de mixture gaussienne [19].Grâce à la capacité de classification, la technique basée sur SVM est souvent utilisée pour résoudre des problèmes dans le domaine de reconnaissance de forme et particulièrement la détection de visage qui peut être ramené un problème de classification.

Haizhou, Lihang Ying et Guangyou Xu [20] proposent un système de détection de visages qui se compose de 2 étages de SVM :

o 1er étage : une SVM linéaire filtre les candidats de visage de toutes les fenêtres

observées de l'image d'entrée.

o 2ème étage : une SVM non linéaire prend la décision finale si un candidat de visage est

vraiment un visage ou non.

La fenêtre observée est normalisée à la taille 20x20, les candidats de visage sont détectés en balayant cette fenêtre sur tous les endroits de l'image. Pour que le système puisse découvrir des visages à différente taille.

Figure 1.14 - Structure de système de détection de visage basé sur SVM Haizhou, Lihang

Ying et Guangyou Xu.

Osuna, R. Freund, et F. Girosiont [14] développent une méthode efficiente pour former une SVM pour résoudre des grands problèmes et l'appliquent pour le problème de détection de visage. Pour enseigner le système, ils construisent une base de données qui contient des visages et non-visages. Chaque pattern a la taille 19x19. Ils sont appliqués des opérations de prétraitement tels que : l'égalisation de l'histogramme, masque,... avant de former SVM. Les résultats expérimentaux montrent que cette méthode est mieux que celle de Sung et Poggio

Figure

Figure 1.4 - Méthode basée sur la projection : a)L'image dans laquelle un candidat de visage
Figure 1.7 - Méthode de Leung. (a) les filtres dérivés à multi-échelle et multiorientation
Figure 1.11 - L'algorithme de base pour la détection de visage. H. A. Rowley, S.
Figure 1.12 - Distribution des exemplaire de visages et non-visages. Sung et Poggio.
+7

Références

Documents relatifs

Par ailleurs, la synthèse (résumé) d’événements dans les flux des messages courts est différente de la synthèse (résumé) de documents, et ce pour les raisons suivantes : (i)

L’analyse psychométrique de la TAMSAD originale retrouvait une association entre le score et le niveau d’études : les étudiants en première, troisième et quatrième année

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Par ailleurs, la synthèse (résumé) d’événements dans les flux des messages courts est différente de la synthèse (résumé) de documents, et ce pour les raisons suivantes : (i)

Ce coût est principalement lié à la génération d’une surface NURBS pour le rendu de chaque flamme, mais tend malgré tout vers un taux de 1063 images/s sans effets, et 144

Dans cette s´equence compos´ee de 600 images, l’en- vironnement est fortement textur´e. Les images initiale, interm´ediaire et finale sont donn´ees pour chacune des m´ethodes dans

La troisième application est le filtrage d'un signal EEG contenant un bruit additif. Les coefficients des filtres ont été obtenus par le logiciel MONARCH [39]. Le signal EEG bruité

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des