• Aucun résultat trouvé

Chapitre 2 Approche générative pour l’apprentissage statistique supervisé

2.3 Exemples de classifieurs génératifs

2.3.2 Mélanges de distributions gaussiennes pour la discrimination

LDA est une méthode de référence en classification supervisée. Dans les cas où ses performances sont mé-diocres, il est nécessaire de disposer d’une méthode complémentaire permettant des frontières de décision non linéaires. Les atouts principaux d’une telle méthode doivent être la souplesse, la simplicité et la parcimonie. Les méthodes purement discriminatives du type SVM semblent répondre à ces besoins, mais nous souhaitons montrer qu’une méthode générative peut aussi avoir ces qualités. A travers le choix du nombre de composants dans les mélanges, la complexité de la frontière de discrimination peut varier considérablement. Elle peut être linéaire ou quadratique, lorsqu’un seul composant par groupe est sélectionné. Dans les cas plus complexes, les mélanges de distributions permettent de séparer des groupes non connexes et aux contours irréguliers.

Nous proposons ici de modéliser les distributions des classes par des mélanges de distributions gaussiennes. Cela permet de définir de manière simple une méthode de classification adaptée à des distributions très différentes.

Ce type de modèle génératif sera ensuite utilisé à plusieurs reprises dans les différents chapitres de cette thèse. Les modèles de mélange sont des modèles très appréciés pour modéliser des distributions de forme a priori inconnue [115, 34]. Il a déjà été remarqué qu’utiliser pour chaque classe un mélange de distributions gaussiennes avec des matrices de covariances égales est une extension directe de l’analyse discriminante [ 70]. Un modèle équivalent mais permettant l’affectation partielle des composants aux classes a aussi été proposé, pour des résultats équivalents [155]. C’est d’ailleurs le modèle de prédilection en classification non supervisée utilisé en fouille de données[25]. Des comparaisons de performance en classification pour différents types de paramètrisation de la matrice de covariance (pleine, diagonale, PPCA9, spherical) montrent que le choix de modèle n’est pas facile et dépend vraiment de l’approche considérée [ 121].

Nous insistons sur le caractère universel des distributions de mélanges, puisque toute distribution intégrable peut être approximée par un mélange fini de gaussiennes [ 34]. Mais cette qualité d’« approximateur universel » des mélanges n’est pas seulement asymptotique, et de nombreuses distributions peuvent êtres représentées par un nombre relativement limité de composants. Il est par exemple très difficile de différentier une distribution Gamma et le mélange de trois distributions gaussiennes convenablement choisies [ 115]. Dans un cadre discriminatif, nous pouvons aller plus loin dans la parcimonie puisque le but recherché n’est pas l’adéquation aux données mais plutôt à la frontière de discrimination. En effet, le problème de classification ne s’intéresse qu’au taux d’erreur et des groupes à la structure complexe mais très séparés peuvent, par application du principe de parcimonie10, être modélisés par un seul composant.

Classification par boules gaussiennes

Nous considérons un problème de classification à K classes dont les données sont x = {x, y} où x =

(x1,· · · , xn) est un ensemble de vecteurs dansRdety = (y1,· · · , yn) correspond aux labels des classes.

Lorsque le nombre de composants dans une classe donnée k vaut Rk, k = 1,· · · , K, le modèle de densité de

9Le modèle Probabilistic Principal Component Analysis (PPCA) consiste à paramétrer la matrice de variance sous la forme Σ =σ2Id+ PR

r=1λrvrvTr R est le nombre de composantes principales (ayant vocation à être petit). Ce modèle est pariculièrement adapté aux données

de grande dimension ayant de fortes corrélations [154].

10Le philosophe Ockham est souvent cité dans ce cas : « Pluralitas non est ponenda sine neccesitate », ce qui peut se traduire par « Les choses ne devraient pas se multiplier si ce n’est pas nécessaire ».

2.3. Exemples de classifieurs génératifs

cette la kèmeclasse s’écrit :

fk(x; θk) =

Rk



r=1

πrφ(x; µr, σr2Id) (2.26)

où πr, µrand σrsont respectivement le poids, la moyenne et l’écart-type du rèmecomposant et φ(x; µ, Σ) désigne

la densité d’une distribution gaussienne multivariée de moyenne µ et de matrice de covariance Σ. On note θk

l’ensemble des paramètres de la classe k. Contraindre la matrice de variance à être proportionnelle à la matrice identité permet d’avoir un modèle à la fois stable (la matrice de variance n’est dégénérée que lorsque σr→ 0) et parcimonieux, i.e. avec un nombre limité de de paramètres par composant. Ainsi, un composant du mélange aura νr = d + 1 paramètres, à comparer aux 2d paramètres dans le cas de covariances diagonales et d + d(d + 1)/2 paramètres pour des covariances libres. Grâce à cette relative simplicité des composants, leur nombre peut

varier significativement entre les classes. Les modèles de mélange gardent une certaine souplesse d’ajustement aux données car les paramètres de variance σr2ne sont pas contraints à être égaux au sein d’une même classe.

L’estimateur du maximum de vraisemblance génératif des paramètres peut être obtenu en maximisant les vrai-semblances partielles des classes séparément. L’algorithme EM est utilisé, puisque l’affectation des données aux composants au sein d’un classe est inconnue. Les affectations initiales sont obtenues par l’algorithme des k-means. La Figure 2.1 donne une illustration de la frontière obtenue avec cette méthode de classification générative. Ces données simulées sont issues de Hastie et al (2001)[71]. Elles consistent en 200 points en dimension 2 séparés en deux classes équiprobables11. Sur la figure, les classes sont identifiées grâce à des symboles différents. La distribution estimée par l’algorithme EM est représentée par des cercles correspondant à l’isocontour contenant 80% de la masse des composants.

Sélection du nombre de composants des mélanges

Cette méthode d’Analyse Discriminante par Mélange (MDA) basée sur des matrices de variance sphériques peut donner de bons résultats en classification car elle est à la fois souple et parcimonieuse. Cependant, le choix du nombre de composants{Rk}k=1,··· ,K des mélanges est un problème difficile. En effet, si nous considérons que nous voulons tester tous les modèles avec au plus M composants par classe, le nombre de modèles à tester s’élève à MK, ce qui est exponentiel en fonction du nombre de classes. Le fait que les paramètres sont estimés

indépendemment dans chaque classe permet de réduire le temps d’apprentissage, puisque M K estimations de mé-langes par l’algorithme EM seront nécessaires. Cette simplification n’est pas toujours possible en discrimination. Par exemple, dans le cas de MDA telle qu’elle a été définie par Hastie et Tibshirani [ 70], le fait que les matrices de variance de tous les clusters sont égales ne permet pas de d’estimer les densités des classes de manière indé-pendante. Un autre problème apparaît lorsqu’il faut déterminer lequel des ces MK modèles est le plus adapté à la discrimination. La validation croisée necessite νM K estimations de paramètres, et νMKcalculs de taux d’erreur, où ν est le nombre de divisions de l’échantillon d’apprentissage. Des critères tels que BIC [ 147] semblent plus adaptés, mais sont sous-optimaux dans un cadre de classification supervisée (voir chapitre 4). La table 2.1 donne une illustration du choix obtenu par validation croisée pour R1 ≤ 7 et R2 ≤ 6. On remarque dans ce cas que le modèle MDA avec des distributions sphériques est meilleur que LDA pour le modèle contenant 4 composants dans chaque classe et est capable de trouver une frontière de classification très proche de la frontière optimale de Bayes. (voir [71], p. 22). R1 1 2 3 4 5 6 7 1 0.297 0.284 0.255 0.247 0.244 0.249 0.256 2 0.273 0.262 0.235 0.226 0.226 0.233 0.241 R2 3 0.268 0.254 0.230 0.223 0.224 0.228 0.234 4 0.256 0.244 0.225 0.219 0.220 0.223 0.229 5 0.252 0.243 0.228 0.219 0.219 0.221 0.224 6 0.250 0.243 0.229 0.221 0.221 0.221 0.223

TAB. 2.1 – Taux moyen d’erreur en test sur les données simulées estimé par half-sampling sur 500 jeux d’appren-tissage/tests aléatoires. Le taux d’erreur de test pour LDA est de 0.283. Le taux d’erreur optimal pour MDA avec des distributions gaussiennes sphériques apparaît en gras.

D’un point de vue quantité de calculs, le critère BIC est attractif. En effet, on peut constater que BIC=



kBICk, BICk étant le critère BIC calculé pour la classe k. Ainsi, comme pour l’étape d’estimation, il est pos-sible de calculer le vecteur R = (Rk, k = 1, . . . , K) optimal en M K opérations aux lieux de MKévaluations par

Documents relatifs