• Aucun résultat trouvé

6.3 Résultats

3.3.1 Divergence de Kullback-Leibler

La divergence de KL, connue aussi sous le nom de l’entropie relative, est très utilisée dans le domaine de statistique pour mesurer la similarité entre deux distributions de probabilité [59]. Elle est aussi très utilisée dans les domaines de reconnaissance de formes (images, sons) et l’apprentissage statistiques, pour, par exemple, mesurer la similarité entre deux modèles acoustiques [90], deux modèles d’images [45], ou pour réaliser un clustering des modèles [80,102,46].

Dans le cas des variables continues, elle est définie par :

D(f ||g) = Z

f (x)logf (x)

g(x)dx (3.11)

oùf (x) et g(x) sont deux fonctions de densités de probabilité.

Après avoir défini la divergence de KL, nous allons décrire dans la section suivante comment elle est appliquée pour mesurer la similarité entre deux mélanges gaussiens, et quelles sont les techniques proposées pour réaliser cet objectif.

3.3.1.1 Approximation de Kullback-Leibler entre deux mélanges gaussiens

Tout d’abord, supposons l’existence de deux mélanges gaussiensf et g qui prennent les formes sui- vantes : f (x) = K X i=1 πfiN (x, µi, Σi) g(x) = K0 X j=1 πgjN (x, µj, Σj) (3.12)

La divergence entre deux composantes gaussiennes existe analytiquement en forme déterminée :

KL(fi||gj) = 12[log |Σgj| |Σfi|+ T r|Σ −1 gj Σfi| −d + (µfi− µgj) tΣ−1 gj (µfi− µgj)] (3.13)

où d est la dimension de l’espace des données et T r désigne la trace de la matrice. Les ensembles {µfi, Σfi} et {µgj, Σgj} désignent respectivement les moyennes et les covariances des composantes

gaussiennesfietgj.

Pour calculer la divergence entre deux mélanges gaussiens, il n’existe pas de solution en forme détermi- née. Pour cela, plusieurs techniques sont proposées pour calculer des approximations de KL [59]. Elles

peuvent être divisées en deux catégories : des méthodes basées sur l’échantillonnage de points et d’autres sur les paramètres de modèles.

Méthodes basées sur l’échantillonnage : ce type de méthodes calcule la divergence de KL en se basant sur des échantillons des points. Ces points sont générés directement à partir des mélangesf (mé- thode de Monte Carlo) ou calculés à partir des matrices de covariances des composantes gaussiennes de f (méthode de unscented transformation). Les points générés sont ensuite utilisés pour calculer la di- vergence de KL à partir de l’équation (3.11). Les méthodes basées sur les points produisent des résultats nettement meilleurs que ceux obtenus par les méthodes basées sur les paramètres [59], en particulier si le nombre de points est élevé. Cependant, elles ont des complexités de calculs beaucoup plus élevées, puisque l’équation (3.11) implique d’itérer sur toutes les données. Deux méthodes de ce type sont pro- posées : la méthode de Monte Carlo et et la méthode de unscented transformation [45,59].

Méthode de Monte Carlo: c’est la méthode la plus connue [59]. Elle réalise les meilleurs résultats parmi toutes les méthodes. Elle consiste à générer un échantillon den points de modèle f et elle calcule la divergence de KL comme suit :

DM C = 1 n n X p=1 log(f (xp)/g(xp)) (3.14)

Méthode de unscented transformation : cette méthode à la base consiste à calculer les statistiques (espérance, covariance) d’une variable aléatoire qui suit une transformation non linéaire [70]. La diver- gence KL peut s’écrire commeD(f ||g) =P

iπfiEf[h] où h = log(f /g) est une fonction non linéaire.

Le but ici est d’estimerEf[h] l’espérance de h en fonction de points sigma. Ces points (un échantillon de

taille faible) sont obtenus à partir des valeurs propres et des vecteurs propres de matrices de covariances des composantes gaussiennes de f [45,59]. Cette méthode donne des résultats légèrement moins bons qu’avec la méthode de Monte Carlo. Elle nécessite un temps d’exécution élevé dû au calcul des valeurs et vecteurs propres.

Méthodes basées sur les paramètres des modèles : ces méthodes calculent des approximations de KLdirectement à partir des paramètres des modèles, sans accès aux données. En comparaison avec les méthodes basées sur l’échantillonnage de points, elles donnent le meilleur compromis entre la qualité de résultats et le coût de calculs. En effet, le nombre de paramètres est beaucoup plus faible que celui des données, ce qui entraîne une complexité de calcul beaucoup plus réduite. Dans ce chapitre, nous nous intéressons plutôt à ce genre de méthodes, dans lesquelles plusieurs techniques peuvent être distinguées [59] :

Méthodes basées sur des composantes représentatives :elles consistent à remplacer chaque mélange gaussien par une seule composante gaussienne représentative, et de calculer la divergence entre deux mélanges gaussiens comme étant le KL entre les gaussiennes obtenues. Les deux composantes représen- tatives peuvent être les moyennes des deux mélanges ou la paire la plus proche dans les deux mélanges. Ces méthodes sont simples à calculer, mais elles produisent de mauvais résultats en comparaison avec les autres méthodes existantes. Cela s’explique par le fait qu’un mélange est remplacé seulement par une seule composante, ce qui entraîne une perte d’information importante.

42 CHAPITRE 3 — Agrégation robuste des modèles de mélange

Méthodes basées sur le produit de mélanges : la divergence KL peut être exprimée comme la dif- férence entre la fonction de vraisemblance de f et celle de g. Elle s’écrit comme suit : D(f ||g) = Lf(f ) − Lf(g). Cette méthode cherche à trouver des bornes supérieures pour ces fonctions, et elle cal-

cule l’approximation de KL en fonction du produit de composantes gaussiennes def et g. Étant donné que cette méthode calcule les bornes supérieures des fonctions de vraisemblance def et g plutôt que des approximations exactes, elle produit aussi des mauvais résultats.

Méthode de match bound :la méthode de match bound [45] définie d’abord une fonction de corres- pondance (affectation binaire) entre les composantes def et g (voir la figure (3.6)). Puis, elle utilise les résultats fournis par cette fonction pour calculer l’approximation de KL. La méthode de match bound est choisie dans ce chapitre pour calculer la divergence entre deux mélanges gaussiens. L’utilisation de cette méthode est motivée par la qualité de ses résultats mais aussi par sa complexité de calcul réduite (utilisation d’un nombre très limité de paramètres).

Méthode variationnelle :cette méthode calcule aussi l’approximation de KL comme la différence entre la fonction de vraisemblance de f et celle de g, mais en utilisant les paramètres variationnelles. Ces paramètres sont introduits dans les fonctions de vraisemblance, et ils sont définis comme suit : (φb, ψa) > 0,Pbφb = 1,Paψa = 1. Ils sont obtenus par la maximisation de fonctions de vraisem-

blance. D’après les travaux de [59], cette méthode donne de meilleurs résultats que celles basées sur les paramètres.

Pour résumer, les méthodes match bound et variationnelle sont les meilleures parmi les méthodes paramétriques. La méthode de match bound fournit des résultats proches de ceux de la méthode varia- tionnelle (surtout si le nombre de composantes def et g est différent), et elle est meilleure que les autres méthodes basées sur les paramètres. Elle est préférée ici à la méthode variationnelle, à cause de sa fonc- tion de correspondance qui nous sera utile dans la méthode de réduction de mélange de distribution de Studentproposée, en particulier dans la phase mise à jour des paramètres (voir la section (3.5)).