Algorithme 4.4LDA pour les grandes dimensions-FLDA
Entr´ees: X,p,k and µ
Sorties: Wf
1: Calculer la matrice Gde taille (d×k) en utilisant l’algorithme 4.1, 4.2 ou 4.3,
2: Projeter Xsur Gpour obtenirXe =XG,
3: Calculer Se
wetSe
b`a partir de Xe,
4: Trouver Wf, la matrice de taille(k×k)−contenant les vecteurs propres de(Swe )
−1Sbe si
e
Sw est inversible, ou de (Swe +µI
k)
−1Se
bsinon,
5: Retourner Wf.
une analyse de l’approche propos´ee dans le cadre g´en´eral de l’algorithme 4.4. En effet, le
calcul de la matrice qui contient les donn´ees r´eduitesXe,n´ecessiteO(dN(p+k))op´erations.
Il faut compterO(k
2N)etO(k
2K)pour calculerS˜
wetS˜
brespectivement. La d´ecomposition
d’une matrice dense de taillek×kprendO(k
3)[35,129]. Ainsi, la complexit´e du temps de
calcul est de l’ordre deO(dN(p+k) +k
2(N+K) +k
3)op´erations. Le nombre d’´echantillons
(N) est g´en´eralement beaucoup plus grand par rapport au nombre de classes (K) et compar´e
`
a la dimensionk. Ainsi, la complexit´e du temps de l’approche propos´ee peut ˆetre ´ecrite par
O(dN(p +k) + N k
2), qui est lin´eaire en fonction de la taille d’´echantillons, lin´eaire en
fonction de la dimension choisiep et polynomiale sur k, qui est la dimension des variables
r´eduites. Un cas particulier est lorsque nous d´efinissons k=p, la complexit´e en temps est
O(N dp+N p
2) op´erations de calcul. Cette valeur est polynomiale lorsque pvarie. On peut
remarquer que, l’´etape la plus coˆuteuse est domin´ee par le termeO(N dp) qui correspond `a
la complexit´e du temps de calcul de la phase de r´eduction de dimension. Si la matrice de
donn´eesX est clairsem´ee, soit avec environ centr´ees non nulles par colonne, la complexit´e
de cette op´eration est de l’ordre deO(N cp)op´erations. Dans les algorithmes 4.1 `a 4.3, nous
devons stocker la matriceZ et la matrice de donn´ees finale transform´eeX˜. Par cons´equent,
le coˆut de la m´emoire n´ecessaire est de l’ordre deO(N(p+k)).
4.4 Pr´esentation des donn´ees
Pour ´evaluer l’efficacit´e des algorithmes propos´es, nous avons consid´er´e trois bases de
donn´ees types image et trois bases de donn´ees issues de documents/texte qui sont toutes des
donn´ees r´eelles largement utilis´ees dans la litt´erature pour ´evaluer de nombreuses m´ethodes
de classification. La statistique de l’ensemble de ces donn´ees est principalement d´ecrite dans
le tableau 4.1 ainsi que les param`etres choisis pour chaque base de donn´ees pour l’´evaluation
des diff´erentes approches. Toutes les bases de donn´ees peuvent ˆetre t´el´echarg´ees sur l’adresse
http://www.cad.zju.edu.cn/home/dengcai/Data/TextData.html.
4.4.1 Donn´ees images
— COIL20 Cette base de donn´ees contient 1440 ´echantillons d’images prises sur 20
Section 4.4 – Pr´esentation des donn´ees
Table 4.1 – Statistique des donn´ees et valeurs des param`etres
Statistique des donn´ees Param`etres
data sets samples (N) dim (d) # of classes (K) p k
MNIST 70, 000 784 10 70 40
COIL20 1,440 1, 024 20 70 50
ORL 400 4, 096 40 60 40
Reuters21578 8, 293 18, 933 65 200 120
20NewsGroups 18, 846 26, 214 20 350 150
TDT2 9, 394 36, 771 30 200 100
montre les photos de chacun des20 objets.
— ORLCette base de donn´ees contient 40 diff´erents individus dont 10´echantillons du
visage pour chaque individu. La taille de chaque image est de (64×64) pixels. La figure
4.3(a) montre un exemple illustrant l’aspect des visages de deux individus rang´es sur
diff´erents angles de pose.
— MNISTCette base de donn´ees contient un ensemble de70000´echantillons de donn´ees
de chiffres manuscrits ou digits (0-9). Chaque digit est de taille28×28pixels. La figure
4.3(c) donne un exemple d’´echantillons illustratif.
4.4.2 Donn´ees textes
— 20NewsGroups C’est une base de donn´ees qui comporte 18846 ´echantillons de
do-cuments provenant de20diff´erentes cat´egories. Chaque document contient 26214
dif-f´erents mots.
— Reuters21578Ces donn´ees ont ´et´e initialement collect´ees et ´etiquet´ees parCarnegie
Group, Inc. et Reuters, Ltd.Le corpus contient 8293 documents dans 65 diff´erentes
cat´egories avec 18933termes distincts.
— TDT2 (Nist Topic Detection and Tracking corpus) Cette base de donn´ees contient
environ9394documents dans30 diff´erentes cat´egories avec36771 diff´erents termes.
4.4.3 Normalisation des donn´ees
Il existe diverses fonctions d’´evaluation communes pour le pr´e-traitement des donn´ees,
telles que la fr´equence des documents, l’information mutuelle, le gain d’information,
l’entro-pie crois´ee attendue, le poids, etc. Dans notre cas, nous avons utilis´e la normalisation des
donn´ees images et textes sur la base de la fonction d’´evaluation de la normeL
2et document
sur la base de fr´equence des termes. Chaque vecteur de donn´eeXj est normalis´e pour avoir
une normeL
2´egale `a 1. Le vecteur normalis´e est donn´e par
Xj,n = Xj
Section 4.4 – Pr´esentation des donn´ees
(a) Images faciales ORL
(b) Images des objets Coil20
(c) Images des chiffres MNIST
Figure 4.3 –Echantillons d’exemples illustratifs´
Pour d´eterminer quels mots dans un corpus de documents pourraient ˆetre plus favorables
`
a utiliser dans une base donn´ee, nous avons utilis´e la normalisation TFIDF (ou terme
fr´equence inverse document fr´equence), pour les donn´ees textuelles [130]. Comme le terme
l’indique, TF-IDF calcule des valeurs pour chaque mot dans un document par une proportion
inverse de la fr´equence du mot dans un document particulier au pourcentage de documents
dans lesquels apparaˆıt le mot. Les mots avec des nombres TF-IDF ´elev´es impliquent une
relation forte avec le document dans lequel ils apparaissent. La technique TFIDF permet un
Dans le document
Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé
(Page 79-82)