• Aucun résultat trouvé

4.8 Résultats

5.1.3 Proposition d’un système multi-vues

La solution présentée à la section précédente permet de détecter des visages tournés d’un certain angleθy. Lorsqu’on souhaite détecter des visages tournés selon un angle compris dans

(a) (b) (c) (d)

FIGURE5.7 – Déduction d’une sous-fenêtre avec deux coins visibles. Quatre cas possibles sont

présentés en (a), (b), (c) et (d). Dans chaque cas, la sous-fenêtre en rouge est celle obtenue après rotation tandis que la sous-fenêtre verte est celle déduite et utilisée dans le classifieur

détecteurs est spécialisé dans la détection de visages selon un angle donné θy. En réalité, on

suppose généralement que chacun est capable de détecter des visages dans l’intervalle [θy

15, θy + 15]. Si on souhaite détecter des visages tournés d’un angle θy ∈ [ 45, +45], trois

détecteurs sont alors nécessaires : un détecteur de visages de faceH0, un détecteur de visages tournés de +30◦H+30et un détecteur de visages tournés de 30H 30. Les détecteursH 30et

H+30sont obtenus en modifiant la position des sous-fenêtres du détecteur H0. Pour combiner les trois détecteurs, le principe proposé par [23], illustré sur la figure 5.8, est appliqué. Pour accélérer le traitement, un estimateur de pose est utilisé. L’estimation de la pose consiste à appliquer les trois premiers niveaux de chaque détecteur et à continuer avec le détecteur qui accepte l’exemplex avec le plus fort score de classification. La fonction d’estimation de pose est ainsi définie par :

pose(x) = argmax θy∈{ 30,0,30}  Hθy 3 (x)  (5.6)

5.2

Détection de visages occultés

Comme la détection de visages tournés, la détection de visages occultés nécessite des so- lutions spécifiques car un détecteur de visage de face sera facilement mis en échec sur des images de visages occultés. En effet, les descripteurs calculés sur les zones de visage occulté vont contribuer au rejet du visage par le classifieur. Pour les mêmes raisons que les visages tournés, l’enrichissement de la base d’apprentissage avec des visages occultés ne représente pas une solution intéressante.

5.2.1

État de l’art

Le problème des visages occultés a fait l’objet de nombreux travaux dans le cas de la recon- naissance faciale [5, 24, 41, 26, 78]. Dans le cas de la détection de visages, les travaux effectués

FIGURE 5.8 – Principe du système multi-vues retenu. L’exemple à classifierx passe d’abord par les trois premiers niveaux des trois détecteursH−30,H0 etH+30. La pose estimée dex est obtenue en considérant le détecteur acceptantx avec le plus fort score de classification. Puis, x continue le processus de classification avec le détecteur retenu pour estimer la pose

sont beaucoup moins nombreux. En 2004, Hotta [21] a utilisé un SVM pour détecter des visages occultés. La particularité de son appoche réside dans l’utilisation de noyaux locaux où chacun est associé à une partie restreinte du visage.

La même année, Lin et al. [38] ont construit un détecteur de visages occultés qui s’inspire de l’approche basée vue. En effet, plusieurs classifieurs cascadés sont appris, chacun d’entre eux étant spécialisé pour gérer un type d’occultation (huit types d’occultation sont définis). En plus de ces classifieurs spécialisés, une cascade principale est apprise. Enfin, les différentes cascades sont combinées à l’aide du principe de cascading with evidence qui permet d’aiguiller un exemple entre la cascade principale et une des cascade gérant les occultations.

Le système de Lin et Liu [37] présenté à la section 5.1.1 a également été appliqué à la dé- tection de visages occultés. Leur algorithme d’apprentissage multi-classes est utilisé sur huit classes de visages correspondant à huit types d’occultations différentes. Ils obtiennent des per- formances comparables à leur précédent système présenté en [38].

Chen et al. [6] ont adapté le détecteur de Viola et Jones [74] pour obtenir un détecteur de visages robuste aux occultations. Pour cela, ils divisent la fenêtre de test en plusieurs parties et classifient chaque partie. L’inconvénient de leur approche est la structure en cascade qui est perdue, ce qui limite leur solution à des applications non temps-réel.

La solution de Chen et al. [6] s’inspire des approches basées parties dans lesquelles l’objet à détecter est représenté par différentes parties pertinentes. Un détecteur est appris pour chaque partie et les scores de classification associés à chaque partie sont finalement fusionnés pour produire la décision finale. Dans le domaine du visage, on peut citer les travaux de Heisele et al. [19] qui représentent le visage par 14 parties. À chaque partie est associé un SVM linéaire et un dernier SVM linéaire permet de fusionner les différents scores de classification. Même si leur solution présente de bonnes performances dans le cas de visages occultés, elle présente

également deux inconvénients spécifiques aux approches basées parties 1) la taille minimale des visages détectée est supérieure à celle des approches globales (58× 58 dans leur cas contre 24× 24 pour notre détecteur) et 2) le temps d’exécution est trop important pour viser des applications temps-réel.

Des travaux dans le domaine de la détection de piétons ont également été menés comme celui de Wu et Nevatia [79]. Ce dernier s’appuie sur la décomposition d’un piéton en plusieurs parties permettant une robustesse aux occultations. Celui de Wang et al. [76] combine des histo- grammes de gradients et des LBP pour obtenir un détecteur de piétons robuste aux occultations.