• Aucun résultat trouvé

3.2 Détection de personnes

3.2.1 Détection par la couleur

La détection par la couleur est devenu une méthode rapide de détection des visages. Il a en eet été montré que l'utilisation de la couleur de la peau pour détecter la présence d'un visage est un critère able, la peau ayant une couleur caractéristique pouvant aisé- ment être distinguée des autres couleurs. De plus, l'attribut couleur est plus robuste que l'attribut contour étant données les variations géométriques d'un visage ou d'une main. La

construction d'un détecteur de couleur doit répondre à trois problèmes. Il est tout d'abord nécessaire de choisir un espace de couleur, puis la représentation à utiliser pour modéliser la couleur, et enn la manière d'exploiter le résultat produit par le détecteur. L'utilisation de cet attribut induit bien entendu certaines contraintes que nous détaillerons.

3.2.1.1 Espaces de couleur

De nombreux espaces de couleur ont été conçus par les recherches en colorimétrie, synthèse d'image et transmission du signal vidéo.

RGB. L'espace de couleur RGB fut à l'origine conçu pour la formation des images dans les tubes cathodiques (cathode-ray tube CRT), qui supposait de pouvoir décomposer la couleur en trois rayons (rouge, vert et bleu). C'est un des espaces le plus utilisé dans le traitement et le stockage des images numériques. Par contre la haute corrélation entre les trois canaux, la non-uniformité perceptuelle, le mélange des données de chrominance et de luminance font de ce système un choix peu heureux pour l'analyse d'images d'après leurs couleurs.

RGB normalisé. Dans le but de diminuer la corrélation des canaux avec la luminance, il est possible de les normaliser.

Perceptuels. Les systèmes perceptuels distinguent trois informations : la teinte, la satu- ration et la luminance, noté HSV (Hue Saturation Value). Ils fournissent des informations numériques sur les propriétés de la couleur et la décrivent de manière plus intuitive (que les systèmes RGB par exemple). La teinte dénit la composante chromatique dominante de la région analysée, la saturation donne la proportion de cette composante de la région par rapport à sa luminosité. L'intensité, la valeur ou la luminance dénissent la luminosité de la région. Leur capacité à distinguer la chrominance de la luminance en ont fait des espaces de couleur populaires dans les travaux de segmentation par la couleur.

Perceptuels uniformes. Un espace perceptuel uniforme est un espace où une petite perturbation d'un composant est perceptible de manière égale sur l'ensemble des valeurs du composant.

3.2.1.2 Modélisation de la couleur de la peau

Le but nal d'un détecteur de couleur de peau est de construire une règle de déci- sion pour faire la diérence entre les pixels de couleur peau et les autres. On introduit habituellement une métrique pour mesurer la distance (au sens général) entre la couleur d'un pixel et la couleur de la peau. La métrique utilisée est dénie par la méthode de modélisation de la couleur de la peau.

(a) Modélisation explicite. Une première méthode pour construire un classieur de pixel de peau est de dénir explicitement les limites du groupe de pixels dans un espace de couleur, par exemple [Kovac 03] :

3.2. Détection de personnes (R,G,B) est classé comme un pixel de couleur peau si :

R > 95 et G > 40 et B > 20 et max{R, G, B} − min{R, G, B} > 15 et |R − G| > 15 et R > G et R > B

(b) Modélisation non-paramétrique. L'idée principale dans la réalisation non-paramétrique est d'estimer la distribution de couleur à partir de données d'apprentissage sans en dé-

river explicitement un modèle. Le résultat de ces méthodes est souvent appelé carte de probabilité de couleur [Brand 00] [Gomez 02] où une probabilité est associée à chaque point d'un espace de couleur.

Table de correspondance. Plusieurs algorithmes de détection et de suivi du visage [Chen 95] [Sigal 00] utilisent des histogrammes pour segmenter les pixels de couleur peau. L'espace de couleur (habituellement l'information de chrominance seule est utilisée) est quantié dans les cases de l'histogramme, chacune correspondant à un certain ensemble de composants de couleur. Ces cases forment un histogrammes 2D ou 3D selon la table de mise en correspondance. Chaque case contient le nombre d'occurences d'une couleur dans les images de l'ensemble d'apprentissage. Après l'apprentissage, l'histogramme est normalisé, convertissant les valeurs de l'histogramme en distribution de probabilité discrète.

Pskin(c) =

skin|c| N orm

où skin|c| est la valeur de la case de l'histogramme correspondant à la couleur c, et

N ormle coecient de normalisation, soit la somme de toutes les cases de l'histogramme

[Jones 02a] soit la valeur maximum [Zarit 99]. Les valeurs normalisées de la table de correspondance constituent la probabilité que la couleur correspondante soit de la couleur de la peau.

Classieur Bayésien La valeur de Pskin(c), calculée dans l'équation ci-dessus, est une

probabilité conditionnelle P (c|skin), la vraisemblance d'observer la couleur c sachant

skin. Une mesure plus appropriée pour la détection de la peau serait P (skin|c), la vraisem-

blance d'observer de la peau étant donnée une couleur c. Pour calculer cette probabilité, la règle de Bayes est utilisée :

P (skin|c) = P (c|skin)P (skin)

P (c|skin)P (skin) + P (c|¬skin)P (¬skin)

P (c|skin) et P (c|¬skin) sont calculées directement à partir des histogrammes peau et

non-peau. Les probabilités a priori P (skin) et P (¬skin) peuvent également être calculées à partir de tous les échantillons de peau et non-peau contenus dans l'ensemble d'appren- tissage.

(c) Modélisation paramétrique Les modélisations non paramétriques utilisant des histogrammes nécessitent beaucoup d'espace et leur pouvoir discriminant dépend directe- ment de la représentativité de l'ensemble d'apprentissage. La nécessité de pouvoir disposer de représentations plus compactes avec des possibilités de généralisation et d'interpola- tion des données d'apprentissage a motivé le développement de modèles paramétriques de couleur de peau.

Une seule gaussienne La couleur de la peau peut être modélisée par une fonction de distribution de probabilité gaussienne, dénie ainsi :

p(c|skin) = 1 2πd2|Σs| 1 2 e−12(c−µs) TΣ−1 s (c−µs)

Avec c un vecteur de couleur de dimension d et µs, Σs les paramètres de la distribution

(respectivement vecteur moyen et matrice de covariance). La probabilité p(c|skin) peut être utilisée directement comme mesure de ressemblance entre la couleur c et la couleur de la peau. La distance de Mahalanobis peut également être utilisée entre la couleur c et le vecteur moyen µs connaissant Σs.

λs = (c − µs)TΣ−s1(c − µs)

Mélange de Gaussiennes Un modèle plus sophistiqué, capable de décrire des distri- butions de couleur complexes, est le modèle de mélange de lois gaussiennes. Ce modèle généralise le précédent (une seule gaussienne). Dans le cas de mélange la fonction de distribution de probabilité est la suivante :

p(c|skin) = Σki=1πi.pi(c|skin)

La valeur d'un pixel au cours du temps n'est plus modélisée par une seule distribution mais par un mélange de k lois gaussiennes. Chacune de ces distributions est pondérée

par un poids πi représentant les paramètres du mélange et obéissant à la contrainte de

normalisation Σk

i=1πi = 1. L'apprentissage du modèle est en général eectué à l'aide de

la méthode itérative bien connue appelée Expectation Minimisation (EM) qui suppose le nombre k de lois connu à l'avance. Les détails de l'entraînement de mélange de gaus- sienne, en utilisant la méthode EM, peuvent être trouvés, par exemple dans [Yang 98] [Terrillon 00]. La classication avec un mélange de lois gaussiennes est eectuée en com- parant la valeur p(c|skin) avec un seuil.

Lors de l'utilisation de ce modèle, le choix du nombre k de composants est crucial. Le modèle doit, d'une part raisonnablement expliquer les données d'entraînement, d'autre part éviter le sur-apprentissage de ces données. Le nombre de composants utilisés par les diérents chercheurs varie de 2 [Yang 98] à 16 [Jones 02b]. Un test bootstrap pour jus- tier l'hypothèse k = 2 est proposé par [Yang 98]. Dans [Terrillon 00] k = 8 a été choisi comme un bon compromis entre la précision de l'estimation de la vraie distribution et la charge calculatoire du seuillage. [McKenna 98] et [Oliver 97] ont également utilisé des mélanges de gaussiennes pour modéliser des objets multicolores.