Méthode RWLDA/QR - Conception de nouveaux algorithmes pour la reconnaissance des visages

Avant de décrire la nouvelle méthode, nous allons décrire le formalisme mathé- matique qui nous aidera par la suite à le présenter. Le problème à résoudre peut-être formulé comme suit : Soit un ensemble de N images de visages {xi}N_i=1, chaque image

est définie comme un vecteur de longueur d = w × h, i.e. xi ∈ <d, avec w × h est

la taille de l’image et <d _{désigne un espace réel de dimension d . Il est également}

supposé que chaque image appartient à l’une des c classes {Xi}c_i=1. Xi ∈ <d×ni est la

matrice contenant les données de la classe i, où ni est la taille de la i−`emeclasse avec

n =Pc

i=1ni.

L’objectif est de trouver une transformation W = [w1, . . . , w`] ∈ <d×`, basée sur

l’optimisation d’un critère de séparabilité, qui produit un mappage yiafin d’augmenter

la séparation entre les différentes images :

W : xi ∈ <d → yi = Wtxi ∈ <`(` < d)

Comme on l’a vu précédemment, LDA classique permet de trouver cette transformation W, qui maximise la dispersion inter-classe S`

b et réduire au minimum la dispersion intra-

classe S`

w dans un espace de faible dimension :

S_b` = WtSbW et Sw` = W t_S

où, Sb = c X i=1 pi(mi− m)(mi − m)t= HbHbt. (4.2) Sw = c X i=1 pi ni X j=1 (xij − mi)(xij − mi)t= HwHwt. (4.3) Hb = [ √ p1(m1− m), . . . , √ pc(mc− m)] . (4.4) Hw = [ √ p1(X1 − m1e1), . . . , √ pc(Xc− mcec)] . (4.5)

ei = (1, . . . , 1) ∈ <1×ni, mi désigne la moyenne de la classe i, pi = n_Ni la probabilité a

priori et m la moyenne totale ; xij est l’échantillon (image) j de la classe i. La transfor-

mation W est donc la solution du critère suivant :

J (w) = |W t_S bW | |Wt_S wW | . (4.6)

Par ailleurs, le critère de LDA classique (4.6) n’est pas optimal en ce qui concerne la minimisation du taux d’erreur de classification dans le nouvel espace à dimension réduite. Il tend à préserver les distances entre les classes bien séparées dans l’espace d’entrée au détriment des classes qui sont proches les unes des autres conduisant ainsi à un chevauchement significatif entre elles.

En conséquence, la capacité de classement en sera affectée et donc le résultat final de reconnaissance sera inexact. Pour surmonter ce problème, Loog et al. [104] ont in- troduit une fonction de pondération dans le critère de discrimination, où une matrice de dispersion intra-classe pondérée ˆSb est définie de manière à remplacer la matrice de

dispersion intra-classe classique Sb.

ˆ Sb = c−1 X i=1 c X j=i+1 w(dij)pipj(mi− mj)(mi− mj)t. (4.7)

Cette fonction de pondération w(dij)dépend de la distance de Mahalanobis entre les

classes i et j [104] : dij = q (mi− mj)tSw−1(mi− mj) (4.8) w(dij) = 1 2d2 ij erf ( dij 2√2) (4.9)

Cependant, il est difficile de calculer cette fonction de pondération en raison de la singularité de Sw.

Par ailleurs, Lolitkar et al. [105] ont proposé une autre façon de calculer cette fonction de pondération. Nous nous inspirons de cette idée pour intégrer cette fonction de pon- dération dans l’estimation de la matrice de dispersion inter-classes Sb. Cette fonction

monotone est décroissante en fonction de la distance Euclidienne entre les moyennes de la classe i et de la classe j tel que :

w(dij) = d−2hij et dij = kmi− mjk , h ∈ N. (4.10)

Dans le même état d’esprit, récemment, Tang et al. [149] a mis en place un coefficient de pondération appelé "relevance weight" pour estimer la matrice de dispersion intra- classe Sw. Ainsi, une matrice de dispersion intra-classe pondérée ˆSw a été définie de

manière à remplacer la matrice de dispersion intra-classe classique : ˆ Sw = c−1 X i=1 piri ni X j=1 (xij − mi)(xij− mi)t. (4.11)

Où ri (0 < ri ≤ 1, ∀i) sont les coefficients de pondération-"relevance weights"- définis

par : ri = X j6=i 1 w(dij) . (4.12)

Finalement, en utilisant les matrices pondérées ˆSb et ˆSw, le critère de discrimination

classique dans (4.6) devient un critère d’optimisation modifié ˆJ dans RWLDA :

ˆ J (w) = W t_S_ˆ bW W t_Sˆ wW . (4.13)

La solution de ce problème d’optimisation est l’ensemble des vecteurs propres de ˆSw −1

ˆ Sb.

Cependant, il est facile de vérifier que, quand le problème SSS aura lieu, les deux matrices Sw et ˆSw seront singulières et ainsi l’algorithme RWLDA ne peut être utilisé

dans ces conditions.

Pour illustrer la défaillance de l’algorithme RWLDA, c’est-à-dire montrer que la matrice de dispersion proposée par Tang est aussi singulière, nous donnons ci-après une démonstration de l’équivalence entre l’espace nul de Sw et celui de ˆSw.

Notons l’espace nul de Sw par Sw(0) et l’espace nul de ˆSw par ˆSw(0). Tout d’abord,

nous réécrivons Sw et ˆSw comme suit :

Sw = X i pi X j ψjψjt (4.14) et ˆ Sw = X i piri X j ψjψtj (4.15) où ψj = (xij − mi) (4.16)

Maintenant, supposons que v ∈ Sw(0)et v 6= 0, alors Swv = 0et par suite vtSwv = 0.

Ainsi cette relation devient vt P

i pi P j ψjψjt ! v = 0. Ce qui donne P i pi P j (ψ_jtv)2 = 0. D’où ψt

jv = 0pour tous les j. Par conséquent, ˆSwv =P i

piriP j

ψj(ψjtv) = 0. Ceci montre

que si v ∈ Sw(0) alors v ∈ ˆSw(0). De manière similaire, si v ∈ ˆSw(0) alors v ∈ Sw(0).

Finalement, nous obtenons l’équivalence entre v ∈ Sw(0) et v ∈ ˆSw(0). En conclusion,

lorsque le problème SSS survient, les deux matrices Sw et ˆSw sont singulières et donc

RWLDA ne peut être utilisé directement.

Pour surmonter le problème de la singularité, nous avons proposé un nouvel algorithme appelé RWLDA/QR [21], qui utilise la décomposition QR et ainsi trouver la solution au critère d’optimisation (4.13).

L’algorithme RWLDA/QR peut-être divisé en deux étapes. La première consiste à maximiser la séparation entre les différentes classes en optimisant le critère suivant :

W = arg max

Wt_{W =I}

trace(WtSˆbW ) (4.17)

La solution de (4.17) peut être obtenue à travers la décomposition QR comme suit : Tout d’abord, définissons les matrices de dispersion pondérées :

ˆ Sb = ˆHbHˆbt et Sˆw = ˆHwHˆwt. (4.18) Où, ˆ Hb =η12(m1− m2), . . . , η(c−1)c(mc−1− mc) , (4.19) et Hˆw = [β1(X1− m1e1), . . . , βc(Xc− mcec)] . (4.20)

Avec ηij =ppipjw(dij), βi = √ piri, ri = P j6=i 1 w(dij).

Puis, appliquons la décomposition QR tel que ˆHb = QR, où Q ∈ <d×r une matrice

ayant des colonnes orthonormales, R ∈ <r×r _{une matrice triangulaire supérieure et}

r = rang( ˆHb). Alors, la matrice W = QG, pour n’importe quelle matrice orthogonale

G ∈ <r×r, est une solution de (4.17).

La seconde étape de la méthode RWLDA/QR consistera à chercher la matrice G et ceci en minimisant la dispersion intra-classe. Ainsi, le problème original qui consiste à chercher la transformation optimale W , sera équivalent à trouver G telle que :

G = arg min

trace((GtS˜bG)−1(GtS˜wG)), (4.21)

avec ˜Sb = QtSˆbQ, S˜w = QtSˆwQ (4.22)

Enfin, le résumé de la méthode proposée est présenté dans l’algorithme 4.1.

Algorithme 4.1: RWLDA/QR

Entrées: La matrice de données X, h.

Sorties: La matrice de projection W .

Calculer la moyenne de chaque classe i, mi et la moyenne de toutes les classes m.

1 Construire ˆHb, ˆHwà partir de (4.19) et (4.20). 2 Appliquer la décomposition QR à ˆHb: ˆHb = QR. 3 Calculer ˜Sb = QtSˆbQet ˜Sw = QtSˆwQ. 4

Calculer les r-vecteurs propres gide ( ˜Sb)−1S˜wavec les valeurs propres croissantes,

où r = rang( ˆHb). La matrice de projection est W = QG avec G = [g1, . . . , gr].

Résultats expérimentaux

Pour tester notre algorithme et le comparer à d’autres méthodes, les bases de don- nées de visages ORL et Yale ont été utilisées.

Expériences avec la base de données ORL

La base de données ORL comprend des images de c = 40 personnes différentes, en utilisant 10 images de chaque personne, pour un total de 400 images (figure 4.1). Tout d’abord, nous réduisons la taille des images à 56 ∗ 46 pixels en les sous échantillonnant par un facteur de 2.

Pour le protocole de test nous prenons au hasard k images à partir de chaque classe pour former la base de données d’apprentissage, avec k ∈ {2, . . . , 9}. On laisse le reste

FIGURE4.1 – Exemples d’images de la base de données ORL

avec la distance Euclidienne pour la classification. Cet essai est réalisé dix fois. Pour chaque exécution nous prenons le taux de reconnaissance, la déviation standard et le temps d’exécution de l’algorithme. Enfin, nous prenons la moyenne des taux pour avoir les résultats définitifs à des fins de comparaison avec les autres méthodes de reconnaissance. En particulier, la méthode Fisherface et la méthode LDA/QR.

Pour la méthode Fisherface, nous utilisons d’abord l’ACP pour projeter les données vers un sous-espace de dimensions (n − c), puis appliquer LDA afin de réduire la dimension à c − 1.

En outre, pour choisir la valeur du paramètre h de la fonction de pondération, nous avons calculé le taux de reconnaissance en faisant varier h dans la fourchette 1 à 7. La figure 4.2 montre les résultats obtenus au cours de la variation d’h, on remarque que la valeur h = 4 donne le meilleur taux de reconnaissance. La figure 4.3 représente l’évolution du taux de reconnaissance en fonction de k tout en fixant le paramètre h à 4.

À partir de ces résultats, nous constatons que la méthode proposée RWLDA/QR réalise dans la majorité des cas un taux de reconnaissance supérieur à celui des autres méthodes.

Afin de voir l’effet de l’utilisation d’une technique d’extraction de caractéristiques sur les taux de reconnaissance, nous avons utilisé les ondelettes pour extraire les ca- ractéristiques de l’image au lieu d’utiliser directement les pixels en niveau de gris [22]. Ainsi, les colonnes de la matrice de données seront générées à partir de l’imagette LL

FIGURE4.2 – Le taux de reconnaissance de RWLDA/QR en fonction de h

FIGURE4.3 – Comparaison des taux de reconnaissance des trois algorithmes : Fisherface,

LDA/QR et RWLDA/QR pour la base ORL

( composante basse fréquence) résultante de la décomposition en ondelettes 2D-DWT sur les images originales de la base de données. Il est à noter que pour cette expérience nous avons utilisé les images de taille 112 × 92 sans sous-échantillonnage.

TABLE4.1 – Les taux de reconnaissance (%) utilisant la transformée en ondelettes Haar- 2D de niveau 1 k DWT+LDA/QR DWT+RWLDA/QR 2 81,43 83,62 3 90,60 92,00 4 93,20 95,20 5 96,37 96,25 6 96,30 97,75 7 97,50 98,91 8 98,08 99,00 9 99,00 99,75

Le tableau 4.1 montre le résultat de la comparaison des algorithmes avec la décom- position en ondelettes de Haar à un niveau. Alors que, le tableau 4.2 liste les résultats avec des ondelettes de Haar à deux niveaux. Nous constatons qu’il existe une faible TABLE4.2 – Les taux de reconnaissance (%) utilisant la transformée en ondelettes Haar-

2D de niveau 2 k DWT+LDA/QR DWT+RWLDA/QR 2 66,56 71,65 3 79,82 82,25 4 86,12 89,12 5 90,40 92,80 6 94,18 95,87 7 95,66 97,16 8 97,00 97,37 9 98,00 98,50

augmentation du taux de reconnaissance pour LDA/QR, mais pas un grand change- ment pour RWLDA/QR avec l’utilisation d’un seul niveau de décomposition en ondelettes de Haar. Par contre, on remarque que dans le tableau 4.2, lorsqu’on utilise une décomposition en ondelettes de niveau 2, les performances des algorithmes LDA/QR et RWLDA/QR se sont dégradées avec une supériorité de RWLDA/QR sur LDA/QR.

Pour voir l’effet du choix du type d’ondelettes à utiliser, nous avons comparé aussi, les taux de reconnaissance pour LDA/QR avec différentes ondelettes à savoir : Haar, Daubechises 2 (Db2), Db4, Symlet 2 (sym2), sym4, coiflet (coif2) et coif4. La figure 4.4 montre qu’il n y a pas une grande différence entre les taux de reconnaissance, avec la supériorité de Db2, sym2 et coif2 sur Db4, sym4 et coif4.

Expériences avec la base de données Yale

La base de données Yale comprend des images de c = 15 personnes différentes, en utilisant 11 images de chaque personne, pour un total de 165 images. Les images

FIGURE4.4 – Taux de reconnaissance pour différentes ondelettes

contiennent des variations avec les expressions du visage aux configurations suivantes : lumière centrée, avec des lunettes, heureux, lumière à gauche, sans lunettes, normal, lumière à droite, triste, somnolent, surpris, et clin d’oeil. Pour des raisons de simplicité des calculs, nous avons sous-échantillonné les images d’origines pour avoir des images de tailles 50 × 50 pixels (figure 4.5).

FIGURE4.6 – Taux de reconnaissance pour la base Yale

Le protocole de test est le même que pour la base ORL. La figure 4.6, trace les courbes des taux de reconnaissance concernant les méthodes : Fisherface, LDA/QR, RWLDA/QR, DWT+LDA/QR et DWT+RWLDA/QR. Ces résultats montrent que le taux de reconnaissance de la méthode RWLDA/QR est légèrement supérieur à celui de LDA/QR mais reste inférieur au taux de reconnaissance de la méthode Fisherface. Nous pouvons expliquer ces résultats par la variation d’éclairage sur la base de données Yale.

Pour faire face à ce problème, nous avons travaillé avec les ondelettes comme technique d’extraction de caractéristiques, qui offre une représentation faciale robuste vis- à-vis des changements d’éclairage. Ainsi, comme on peut le voir sur la figure 4.6, l’utilisation des ondelettes permet d’améliorer de manière significative les performances des algorithmes surtout pour notre méthode DWT+RWLDA/QR qui fournit le taux le plus grand.

En conclusion, nous avons proposé un algorithme de reconnaissance des visages qui a surpassé un certain nombre d’algorithmes classiques tels que Fisherface ou LDA/QR. De par sa nature, notre algorithme est linéaire, mais vue les non-linéarités qui sur- viennent en pratique dans les images, nous avons amélioré cet algorithme en le rendant non linéaire par l’introduction des fonctions noyaux.

Dans le document Conception de nouveaux algorithmes pour la reconnaissance des visages (Page 75-85)