• Aucun résultat trouvé

Algorithme 4.4LDA pour les grandes dimensions-FLDA

Entr´ees: X,p,k and µ

Sorties: Wf

1: Calculer la matrice Gde taille (d×k) en utilisant l’algorithme 4.1, 4.2 ou 4.3,

2: Projeter Xsur Gpour obtenirXe =XG,

3: Calculer Se

w

etSe

b

`a partir de Xe,

4: Trouver Wf, la matrice de taille(k×k)−contenant les vecteurs propres de(Swe )

1

Sbe si

e

Sw est inversible, ou de (Swe +µI

k

)

1

Se

b

sinon,

5: Retourner Wf.

une analyse de l’approche propos´ee dans le cadre g´en´eral de l’algorithme 4.4. En effet, le

calcul de la matrice qui contient les donn´ees r´eduitesXe,n´ecessiteO(dN(p+k))op´erations.

Il faut compterO(k

2

N)etO(k

2

K)pour calculerS˜

w

etS˜

b

respectivement. La d´ecomposition

d’une matrice dense de taillek×kprendO(k

3

)[35,129]. Ainsi, la complexit´e du temps de

calcul est de l’ordre deO(dN(p+k) +k

2

(N+K) +k

3

)op´erations. Le nombre d’´echantillons

(N) est g´en´eralement beaucoup plus grand par rapport au nombre de classes (K) et compar´e

`

a la dimensionk. Ainsi, la complexit´e du temps de l’approche propos´ee peut ˆetre ´ecrite par

O(dN(p +k) + N k

2

), qui est lin´eaire en fonction de la taille d’´echantillons, lin´eaire en

fonction de la dimension choisiep et polynomiale sur k, qui est la dimension des variables

r´eduites. Un cas particulier est lorsque nous d´efinissons k=p, la complexit´e en temps est

O(N dp+N p

2

) op´erations de calcul. Cette valeur est polynomiale lorsque pvarie. On peut

remarquer que, l’´etape la plus coˆuteuse est domin´ee par le termeO(N dp) qui correspond `a

la complexit´e du temps de calcul de la phase de r´eduction de dimension. Si la matrice de

donn´eesX est clairsem´ee, soit avec environ centr´ees non nulles par colonne, la complexit´e

de cette op´eration est de l’ordre deO(N cp)op´erations. Dans les algorithmes 4.1 `a 4.3, nous

devons stocker la matriceZ et la matrice de donn´ees finale transform´eeX˜. Par cons´equent,

le coˆut de la m´emoire n´ecessaire est de l’ordre deO(N(p+k)).

4.4 Pr´esentation des donn´ees

Pour ´evaluer l’efficacit´e des algorithmes propos´es, nous avons consid´er´e trois bases de

donn´ees types image et trois bases de donn´ees issues de documents/texte qui sont toutes des

donn´ees r´eelles largement utilis´ees dans la litt´erature pour ´evaluer de nombreuses m´ethodes

de classification. La statistique de l’ensemble de ces donn´ees est principalement d´ecrite dans

le tableau 4.1 ainsi que les param`etres choisis pour chaque base de donn´ees pour l’´evaluation

des diff´erentes approches. Toutes les bases de donn´ees peuvent ˆetre t´el´echarg´ees sur l’adresse

http://www.cad.zju.edu.cn/home/dengcai/Data/TextData.html.

4.4.1 Donn´ees images

— COIL20 Cette base de donn´ees contient 1440 ´echantillons d’images prises sur 20

Section 4.4 – Pr´esentation des donn´ees

Table 4.1 – Statistique des donn´ees et valeurs des param`etres

Statistique des donn´ees Param`etres

data sets samples (N) dim (d) # of classes (K) p k

MNIST 70, 000 784 10 70 40

COIL20 1,440 1, 024 20 70 50

ORL 400 4, 096 40 60 40

Reuters21578 8, 293 18, 933 65 200 120

20NewsGroups 18, 846 26, 214 20 350 150

TDT2 9, 394 36, 771 30 200 100

montre les photos de chacun des20 objets.

— ORLCette base de donn´ees contient 40 diff´erents individus dont 10´echantillons du

visage pour chaque individu. La taille de chaque image est de (64×64) pixels. La figure

4.3(a) montre un exemple illustrant l’aspect des visages de deux individus rang´es sur

diff´erents angles de pose.

— MNISTCette base de donn´ees contient un ensemble de70000´echantillons de donn´ees

de chiffres manuscrits ou digits (0-9). Chaque digit est de taille28×28pixels. La figure

4.3(c) donne un exemple d’´echantillons illustratif.

4.4.2 Donn´ees textes

— 20NewsGroups C’est une base de donn´ees qui comporte 18846 ´echantillons de

do-cuments provenant de20diff´erentes cat´egories. Chaque document contient 26214

dif-f´erents mots.

— Reuters21578Ces donn´ees ont ´et´e initialement collect´ees et ´etiquet´ees parCarnegie

Group, Inc. et Reuters, Ltd.Le corpus contient 8293 documents dans 65 diff´erentes

cat´egories avec 18933termes distincts.

— TDT2 (Nist Topic Detection and Tracking corpus) Cette base de donn´ees contient

environ9394documents dans30 diff´erentes cat´egories avec36771 diff´erents termes.

4.4.3 Normalisation des donn´ees

Il existe diverses fonctions d’´evaluation communes pour le pr´e-traitement des donn´ees,

telles que la fr´equence des documents, l’information mutuelle, le gain d’information,

l’entro-pie crois´ee attendue, le poids, etc. Dans notre cas, nous avons utilis´e la normalisation des

donn´ees images et textes sur la base de la fonction d’´evaluation de la normeL

2

et document

sur la base de fr´equence des termes. Chaque vecteur de donn´eeXj est normalis´e pour avoir

une normeL

2

´egale `a 1. Le vecteur normalis´e est donn´e par

Xj,n = Xj

Section 4.4 – Pr´esentation des donn´ees

(a) Images faciales ORL

(b) Images des objets Coil20

(c) Images des chiffres MNIST

Figure 4.3 –Echantillons d’exemples illustratifs´

Pour d´eterminer quels mots dans un corpus de documents pourraient ˆetre plus favorables

`

a utiliser dans une base donn´ee, nous avons utilis´e la normalisation TFIDF (ou terme

fr´equence inverse document fr´equence), pour les donn´ees textuelles [130]. Comme le terme

l’indique, TF-IDF calcule des valeurs pour chaque mot dans un document par une proportion

inverse de la fr´equence du mot dans un document particulier au pourcentage de documents

dans lesquels apparaˆıt le mot. Les mots avec des nombres TF-IDF ´elev´es impliquent une

relation forte avec le document dans lequel ils apparaissent. La technique TFIDF permet un