• Aucun résultat trouvé

7.3 Etudes comparatives

7.3.1 Mod`eles gaussien, GMM et LDA

7.3.1.3 Mod`eles de m´elange

Comme d´ecrit dans la section 3.4.2.3, le m´elange de gaussiennes utilise une combi- naison convexe d’un ensemble de distributions gaussiennes pour mod´eliser les observa- tions. L’´equation 3.23 exprime la vraisemblance d’un ensemble de donn´ees, mod´elis´e par un m´elange de K gaussiennes. De mani`ere compl`ete, elle se d´efinit comme suit pour un ensemble X de M donn´ees D-dimensionnelles, `a partir des ´equations 3.23 et 3.24 :

p(X | Θ) = M Y d=1 K X k=1 αk  1 (2π)D/2 k|1/2 exp  −1 2(xd− µk)Σ −1 k (xd− µk) 0  (7.11)

o `u le param`etre global du m´elange Θ = {αk, µk, Σk, k = 1, . . . , K}.

Le mod`ele LDA, quant `a lui, mod´elise les documents d’une collection par un m´elange fini sur un ensemble de topics latents (zk), eux-mˆemes ´etant mod´elis´es par un m´elange

sur un ensemble de mots (wn). Soit D, une collection de M documents wd, d = 1 . . . M,

la vraisemblance du corpus g´en´er´e par un tel mod`ele est donn´ee par :

p(D | α, β) = M Y d=1 Z p(θd| α) Nd Y n=1 X zdn p(zdn| θd) p(wdn | zdn, β) ! dθd (7.12)

obtenue en combinant les ´equations 5.4 et 5.3.

La vraisemblance du corpus peut s’exprimer sous cette forme grˆace `a l’hypoth`ese de “sacs-de-mots” qui stipule que l’ordre des mots dans un document peut ˆetre n´eglig´e (hypoth`ese d’´echangeabilit´e des mots dans un document [Aldous, 1985]), de mˆeme que l’ordre des documents dans un corpus. En outre, le th´eor`eme de De Finetti (1930) ´etablit que toute collection de variables al´eatoires ´echangeables a une repr´esentation sous la forme d’un m´elange de distributions. Pr´ecisons, par ailleurs, que l’hypoth`ese d’´echangea- bilit´e n’est pas ´equivalente `a l’hypoth`ese i.i.d (ind´ependants et identiquement distribu´es), en raison du param`etre latent de la distribution de probabilit´e [Blei et al., 2003b]. En ef- fet, si X1, X2, . . . Xn, . . . sont des variables al´eatoires ind´ependantes et identiquement

distribu´ees, alors elles sont ´echangeables. En revanche, si ces variables al´eatoires sont ´echangeables, alors elles sont ind´ependantes et identiquement distribu´ees, conditionnel- lement au param`etre latent.

L’analyse de ce qui pr´ec`ede indique que le LDA est un mod`ele de m´elange bay´esien tout comme le m´elange de gaussiennes. Cependant, outre le fait que les distributions composantes sont multinomiales dans le LDA alors qu’elles sont gaussiennes dans le GMM, ces deux mod`eles sont diff´erents sur bien d’autres aspects.

Mod`ele hi´erarchique L’une des principales diff´erences entre ces deux mod`eles r´eside au niveau des proportions de m´elange. L’´equation 3.23 montre que les proportions de

7.3. ETUDES COMPARATIVES 149

m´elange dans le cas du GMM sont les mˆemes pour toutes les donn´ees de l’ensemble (αk

fix´e, ∀n), ce qui n’est pas toujours valide dans le processus de mod´elisation des donn´ees. Le mod`ele LDA, quant `a lui, permet d’avoir des poids de m´elange sp´ecifiques `a chaque ´el´ement de la collection, lui permettant ainsi de mieux s’ajuster aux donn´ees d’appren- tissage que le m´elange de gaussiennes.

En effet, contrairement au mod`ele GMM non hi´erarchique, le LDA est un mod`ele hi´erarchique `a trois niveaux, le niveau interm´ediaire ´etant repr´esent´e par les topics la- tents obtenus de mani`ere non supervis´ee. Ces variables cach´ees capturent l’information contenue dans les mots, `a un niveau “s´emantique” un peu plus ´elev´e. En fait, les to- pics latents doivent correspondre `a des cat´egories d’objets dans les images. Ainsi, les images qui poss`edent plusieurs objets sont repr´esent´ees par une densit´e m´elang´ee de to- pics, donnant les proportions de chaque objet dans l’image. De plus, ces proportions des topics, sp´ecifiques `a chaque donn´ee, sont g´en´er´ees `a partir d’une distribution Dirichlet (conjugu´ee de la distribution multinomiale) commune de param`etre α, de telle sorte que les poids des topics pour les diff´erents ´el´ements d’une mˆeme collection aient un lien, au lieu d’ˆetre choisis ind´ependamment. Cette propri´et´e permet au mod`ele LDA d’attribuer une probabilit´e `a des donn´ees qui n’appartiennent pas `a l’ensemble d’apprentissage, fai- sant ainsi du LDA, un mod`ele g´en´eratif complet.

Estimation des param`etres Pour le m´elange de gaussiennes, K − 1 + K(D + D(D+1)2 ) param`etres n´ecessitent d’ˆetre estim´es, K ´etant le nombre de composantes du m´elange et D, la dimension de l’espace. L’estimation des param`etres se fait par l’algorithme Expecta- tion Maximization (EM) bas´e sur le maximum de vraisemblance, et a une complexit´e en O(KM D2) pour les M exemples d’apprentissage. En ce qui concerne le mod`ele LDA, le nombre de param`etres `a estimer est K + KV , o `u K est le nombre de topics et V la taille du vocabulaire. L’estimation des param`etres se fait ´egalement par l’algorithme EM, avec la difficult´e que l’´etape E ne peut ˆetre calcul´ee directement et doit ˆetre ap- proxim´ee. En effet, l’inf´erence exacte n’est en g´en´eral pas traitable dans le mod`ele LDA. La solution consiste alors `a utiliser des algorithmes d’approximation assez complexes et co ˆuteux tels que l’inf´erence variationnelle pour l’estimation des param`etres α et β. La proc´edure d’inf´erence variationnelle a une complexit´e en O(KM V ) pour l’ensemble des M documents de la collection, Dans nos exp´erimentations, la taille du vocabulaire est g´en´eralement beaucoup plus grande que la dimension de l’espace, donc l’estima- tion des param`etres du mod`ele LDA sera en g´en´eral plus co ˆuteuse. Pour la classe mer par exemple, `a nombre d’exemples fix´e, le temps de calcul pour l’estimation des pa- ram`etres est de 4.05 × 10−3 secondes pour le mod`ele GMM, contre 0.27 secondes pour le mod`ele LDA, soit environs 65 fois plus. Cependant, pour avoir des performances com- parables `a celles du LDA, le mod`ele GMM n´ecessite d’avoir beaucoup plus d’exemples pour l’apprentissage. Sous les conditions dans lesquelles nous avons effectu´e nos tests, l’apprentissage de la classe mer avec le mod`ele LDA a n´ecessit´e 12 fois plus de temps que l’apprentissage avec le mod`ele GMM.

Taille de l’ensemble d’apprentissage Pour le m´elange de gaussiennes, l’apprentissage est op´er´e sur des pixels, tandis que pour le mod`ele LDA, il n´ecessite des images comme exemples. Les donn´ees pour les diff´erents mod`eles n’´etant pas du mˆeme type, comparer les tailles des ensembles d’apprentissage paraˆıt insens´e. Cependant, une image contenant plusieurs pixels (dans nos exp´erimentations sur les images Quickbird de Marseille, une

TAB. 7.7 – Nombre de param`etres `a estimer et complexit´e algorithmique des mod`eles LDA et GMM.

mod`ele GMM mod`ele LDA Nombre de param`etres `a estimer K − 1 + K(D +D(D+1)2 ) K + KV

Complexit´e algorithmique O(KM D2) O(KM V )

image d’apprentissage pour le LDA contient 64 mots exemples pour le GMM), il sera toujours n´ecessaire de disposer d’une plus large surface d’images pour la mod´elisation LDA. Toutefois, sans tenir compte des natures diff´erentes des donn´ees, le mod`ele LDA ne n´ecessite pas autant d’exemples pour l’apprentissage que le m´elange de gaussiennes. En effet, Les r´esultats donn´es par le LDA (tableau 7.2) ont ´et´e obtenus avec un ensemble d’apprentissage de 40 images pour chaque classe. Et les performances sont globalement, d´ej`a meilleures que celles du mod`ele GMM dont l’apprentissage a ´et´e fait sur 2560 exem- ples (tableau 7.5), alors, `a plus forte raison si l’apprentissage du GMM avait ´et´e fait avec 40 pixels par classe.

7.3.1.4 S´election de mod`eles

Tenant compte des observations pr´ec´edentes, la proc´edure d’annotation peut ˆetre op- timis´ee en introduisant en amont, une ´etape de s´election du meilleur mod`ele pour chaque classe. Chacun des mod`eles est ainsi appris pour chaque classe, puis les performances des diff´erents apprentissages sont ´evalu´ees par une proc´edure de validation crois´ee, telle que d´ecrite dans la section 3.6.1. La moyenne et l’´ecart-type de l’erreur des tests sont utilis´es pour d´ecider du meilleur mod`ele pour chaque classe. En supposant que les moyenne et ´ecart-type de l’erreur de test sont les param`etres d’une distribution gaussienne, nous uti- lisons la divergence de Kullback-Leibler pour mesurer la dissimilarit´e entre les diff´erents mod`eles pour une mˆeme classe. Soient µ1, σ1, µ2 et σ2, les moyennes et ´ecarts-types des

erreurs de test de deux mod`eles M1 et M2 respectivement, la divergence de Kullback-

Leibler dans ce cas [Schowengerdt, 1997] s’exprime par : KL = 1 2 (σ1− σ2)(σ −1 1 − σ −1 2 ) + 1 2 (µ1− µ2) 2−1 1 + σ −1 2 )  (7.13) Lorsque la divergence est inf´erieure `a un certain seuil, on choisit le mod`ele le plus simple, sinon, le mod`ele s´electionn´e est celui qui minimise la moyenne de l’erreur.

Cependant, la nature diff´erente des donn´ees en entr´ee des diff´erents mod`eles (pixels pour les mod`eles gaussien et GMM, et documents pour le LDA) rend difficile l’exploita- tion de cette ´etape de s´election de mod`eles. Il serait donc int´eressant d’effectuer en outre un parall`ele avec un algorithme pouvant s’appliquer sur les documents et utilisant la repr´esentation en mots visuels des images.