• Aucun résultat trouvé

Améliorations de la méthode de Viola et Jones

3. Extraction des Caractéristiques du visage

3.2.7. Améliorations de la méthode de Viola et Jones

Depuis sa publication en 2001, diverses améliorations ont été apportées à la méthode de Viola et Jones. La première d'entre elles concerne les caractéristiques de Haar

3.2.7.1.Amélioration des caractéristiques de Haar

Lienhart et al [99]. ont proposé en plus de la représentation intégrale une représentation intégrale inclinée ou chaque pixel a pour valeur la somme des valeurs des pixels compris dans la zone rectangulaire inclinée de 45° dont le point extrême droit est le pixel considéré. Aux modèles initiaux de Viola et Jones sont donc ajoutes leurs équivalents inclines de 45°. Le set obtenu ainsi et utilise par Lienhart et al est présenté à la Figure N° 3.10. Lienhart et al ont obtenu ainsi des améliorations de l'ordre d'un demi-pourcent d'erreur.

79

Figure 3.10 : Set de caractéristiques de Haar obtenu par Lienhart et al. en utilisant les

concepts d'image intégrale et d'image intégrale inclinée.

Viola et Jones étendent en 2003 leur système à la détection de piétons dans des vidéos, en incluant une information de mouvement en plus de l'information d'apparence.

La seconde amélioration concerne l'algorithme de boosting. Plusieurs travaux ont montré la supériorité de Real AdaBoost sur le simple algorithme AdaBoost. Il présente l'avantage de produire un indice de confiance en plus de la classification.

3.2.7.2. Améliorations de l’ensemble d’apprentissage 3.2.7.2.1. L’avancée de Chen et al

Les performances du classifieur final peuvent être améliorées en préparant le set d'entrainement. Les travaux récents effectuent par Chen et al. [21] proposent une méthode basée sur un algorithme génétique pour étendre le set de visages. L'utilisation de leur approche est selon leurs dires la plus prometteuse dans le domaine de l'optimisation du Training set.

En reconnaissance faciale, le "one sample problem" où un seul échantillon est disponible par personne à reconnaitre, des travaux s'intéressent à la génération de nouveaux échantillons positifs à partir d'un seul visage.

3.2.7.2.2. L’avancée de Wu et al.

La version développée par Wu et al. en 2008 [98] est prisent dans un article récent comme référence en termes de vitesse et de performance [100]. Leurs travaux se consacrent à la fois à la vitesse de traitement, la vitesse d'apprentissage et aux performances en termes de taux de détection. L'algorithme de Viola & Jones effectue la sélection de caractéristiques et l'apprentissage en une seule étape lors de l'intervention d'AdaBoost dans l'algorithme. Wu et al. Proposent de traiter ses deux phases séparément et avancent que cela permet de mieux gérer les difficultés liées à l'asymétrie du problème de localisation faciale. Ils énumèrent leurs contributions au nombre de trois. Premièrement une analyse approfondie du problème qui

Chapitre 3 Extraction des Caractéristiques du visage

80

révèle trois causes d'asymétrie du problème et les difficultés qu'elles engendrent. Deuxièmement une méthode de sélection de caractéristiques est proposée, la FFS pour "forward feature selection", cette dernière accélérant 50 à 100 fois l'apprentissage d'AdaBoost. Et troisièmement un algorithme d'apprentissage nommé "Linear Asymetric Classier" (LAC) est présenté. Il est montre que ce dernier améliore les performances du classifieur.

3.2.7.2.3. L’avancée de Xiaohua et al.

Comme vu plus haut, lors de l'entrainement de la cascade, un nouvel ensemble de non visages est généré par bootstrapping à la fin de la construction de chaque étage. Xiaohua et al. [100] ont remarqué qu'au fur et à mesure que la cascade grandissait, les non-visages collectes sont de plus en plus similaires aux visages et que le taux d'erreur des nœuds les plus profonds sur un ensemble de validation composé uniquement d'échantillons négatifs tendait vers 0.5. Cela signifie qu'il devient ardu de trouver des caractéristiques encore capables de distinguer les non-visages des visages. Ils observent aussi que le nombre de caractéristiques nécessaires pour atteindre les objectifs locaux en termes de taux de détection et de faux positifs augmente selon une pente de plus en plus raide pour les nœuds profonds. Ceci confirme la difficulté de trouver des bonnes caractéristiques. Notons que les échantillons positifs utilises sont des carrés couvrant la zone yeux-nez-bouche.

Xiaohua et al proposent qu'au de la d'une certaine profondeur soient considérées les parties entourant la zone yeux-nez-bouche en se basant sur le fonctionnement du système visuel humain [101]. Ils avancent que les informations de ces zones peuvent être bénéfiquement utilisées lorsque la zone centrale est épuisée. Ainsi une hiérarchie est mise en place où 3 dimensions standards d'échantillons positifs sont utilisées successivement pour entrainer la cascade. Ceci est présenté à la Figure N° 3.11.

Figure 3.11 : 3 types d'échantillons positifs utilises par Xiaohua pour améliorer les

81

De plus, ils proposent une extension du set de caractéristiques de Haar compose de ondelettes de Gabor simplifiées. Ces ondelettes sont des fonctions inspirées du profil des champs réceptifs de l'œil des mammifères [102]. Elles sont simplifiées car elles sont calculées à partir des représentions intégrales et intégrales inclinées de manière à ne pas compromettre l'aspect temps réel de l'algorithme de Viola et Jones. Ceci est illustre à la Figure 3.12.

Figure 3.12 : En haut : quelques ondelettes de Gabor. Une fréquence à plusieurs

orientations est présentée. En bas : échantillon des ondelettes de Gabor simplifiées utilisées comme caractéristiques pour le classifieur en cascade.

Les expériences menées par l'équipe montrent des améliorations en termes de vitesse et de taux de détection par rapport à la version de Wu et al.

D'autres types de caractéristiques ont également été utilisés en remplacement des caractéristiques de Haar : les motifs binaires locaux, les histogrammes de gradients orientés ou la covariance de région.

Documents relatifs