• Aucun résultat trouvé

4.4 Estimations multivari´ ees

4.4.1 M´ elange de populations gaussiennes

Introduction

Il arrive fr´equemment que l’on ait besoin de mettre en ´evidence et de s´eparer diff´erentes populations dans un ´echantillon.

En particulier, dans le cadre d’un travail en cin´ematique stellaire (cf. chapitre 7), nous avons ´et´e amen´e `a utiliser des m´ethodes statistiques permettant de s´eparer des populations d’´etoiles, de mani`ere param´etrique ou non. Nous nous int´eresserons dans ce paragraphe `a une m´ethode param´etrique, la s´eparation de populations gaussiennes.

Jusqu’`a pr´esent, la s´eparation de composants gaussiens avait ´et´e trait´ee [Soubiran, 1988], mais sans tenir compte des erreurs de mesure des donn´ees cin´ematiques, et nous nous sommes donc int´eress´e `a l’implication des erreurs de mesures sur la s´eparation des populations. Bien ´evidemment, les algorithmes mis au point pourront s’appliquer `a des domaines beaucoup plus vastes.

Pour situer le probl`eme, pr´ecisons que l’on constate, de fa¸con multidimensionnelle, la pr´esence de plusieurs modes dans la distribution des variables ´etudi´ees, les vitesses d’´etoiles relatives au soleil en l’occurence. Il y a donc un m´elange de lois, que l’on suppose chacune gaussienne, de moyenne et de dispersion diff´erentes, repr´esentant des groupes d’´etoiles au comportement cin´ematique diff´erent. Tout le probl`eme statistique consiste `a rechercher le nombre de composants du m´elange, estimer les param`etres des composantes (proportions, moyennes, variances), et savoir affecter une observation au composant auquel elle appartient. On s’int´eresse donc ici `a une m´ethode compl`etement param´etrique, mais dont le nombre de param`etres n’est pas d´eraisonnable.

Pour nuancer l’affirmation pr´ec´edente, pr´ecisons que le probl`eme d’estimation n’est pas si simple : pour m composants en dimension k, le nombre de param`etres `a estimer est

m(k+1)(k+2)2 − 1 puisque pour la moyenne de chaque composant, il y en a k, pour chaque

matrice de variance-covariance, k(k+1)2 , et m − 1 proportions de chaque composantes. Par exemple, pour les vitesses spatiales, avec 3 composants gaussiens, cela fait 29 param`etres `

a d´eterminer. Inutile de dire que pour un petit ´echantillon, il est difficile de parvenir `a une bonne solution.

Bien que l’on puisse utiliser la m´ethode des moments (´egaler les moments th´eoriques et empiriques) pour r´esoudre ce probl`eme, la m´ethode la plus utilis´ee, et la plus effi- ciente, est le maximum de vraisemblance, et en particulier l’algorithme EM (Estimation- Maximisation), [Redner & Walker, 1984] dont on d´ecrit bri`evement le principe dans l’article page 86. Cette m´ethode n´ecessite malheureusement la connaissance a priori du

Pour r´epondre `a ces limitations, Celeux et Diebolt (1986) ont d´evelopp´e l’algorithme stochastique SEM (SEMMUL dans le cas multidimensionnel), qui pr´esente la mˆeme struc- ture que l’algorithme EM, mais avec une ´etape d’apprentissage probabiliste. `A part pour de tr`es petits ´echantillons – pour lesquels les perturbations al´eatoires perturbent r´eellement la solution (!) – SEM n’a pas les probl`emes de lenteur de convergence de EM, estime correctement le nombre de composants (il suffit simplement de lui donner un ma- jorant de ce nombre), n’a pas tendance `a rester pr`es d’un ((col)) de la vraisemblance, et surtout ne n´ecessite pas de conditions initiales.

Variante de l’algorithme stochastique SEM, SAEM [Celeux & Diebolt, 1989] est un al- gorithme de type recuit simul´e (la solution est contrainte au fur et `a mesure des it´erations) qui converge presque sˆurement vers un maximum local de la vraisemblance, et qui est plus adapt´e aux petits ´echantillons.

L’approche bay´esienne classique de ce probl`eme d’estimation est peu utile puisque toutes les partitions possibles de l’´echantillon doivent ˆetre prises en compte, conduisant `a des temps de calcul extrˆemement prohibitifs. Il existe n´eanmoins une alternative, l’´echan- tillonnage bay´esien [Robert, 1992], qui permet, si le nombre de composants de l’´echantillon est connu, d’obtenir les estimations bay´esiennes des param`etres [Diebolt & Robert, 1990], [Robert & Soubiran, 1991].

Notre probl`eme ´etait donc le suivant : nous devions tenter de s´eparer des populations grˆace aux composantes de la vitesse spatiale, mais celles-ci souffrent d’une erreur de mesure plus ou moins importante, cette erreur d´ependant de la pr´ecision sur les mouvements propres, la vitesse radiale, et surtout sur la distance. Cette erreur variant beaucoup d’une ´

etoile `a l’autre, il est pr´evisible que la d´etermination des composants gaussiens que l’on recherche va en souffrir.

G.Celeux et J.Diebolt (1989a, 1989b) ont d´evelopp´e, `a partir de l’algorithme SEM, une m´ethode tenant compte de ces erreurs, que nous avons impl´ement´ee et test´ee, `a la fois pour EM, pour SEM, et pour SEMMUL. Avant l’utilisation de cette m´ethode sur des donn´ees r´eelles, le paragraphe suivant montre, `a l’aide de deux exemples, la fa¸con dont se comportent les algorithmes.

Simulations

Nous nous limiterons, pour ces simulations, `a deux dimensions, ce qui simplifie large- ment la visualisation des r´esultats. Nous g´en´erons deux populations de points (en propor- tion 50%/50%), et testons la reconnaissance, par les diff´erents logiciels cit´es plus haut, des param`etres des deux populations. `A dire vrai, pour les logiciels en question, les tests ci-dessous s’apparentent plus `a une torture qu’`a une mise en valeur ; en effet, l’´echantillon simul´e ne contient que 100 points et les populations se recouvrent partiellement ; `a voir les figures 4.11 et 4.12, les deux populations semblent peut-ˆetre s´epar´ees, mais les distri- butions marginales montrent deux modes fort peu ´eloign´es, et ce qui semble ´evident avec l’œil et la connaisance du contenu de l’´echantillon ne l’est pas forc´ement pour une recon- naissance automatique. De plus, il faut noter que l’on teste en mˆeme temps les qualit´es du g´en´erateur al´eatoire.

Pour les deux tests montr´es ici, on a donc simul´e un ´echantillon compos´e de deux populations de 50 points et dont les valeurs sont du mˆeme ordre de grandeur que des vitesses spatiales ; les erreurs standards de mesure sont en moyenne 7 et les moyennes des

deux populations sont respectivement -20 et 20 ; l’´ecart-type de chaque population est 10 dans le premier test et 15 dans le second.

Rappelons que les diff´erents logiciels test´es ne sont pas sur le mˆeme pied d’´egalit´e : par rapport `a EM, SEM doit d´ecouvrir le nombre de composants (1,2 ou 3) ; dans le cas multidimensionnel, il y a deux fois plus de points, mais encore plus de param`etres `

a deviner ; quant aux versions avec gestion des erreurs de mesure, elles doivent en plus simuler des donn´ees manquantes (l’erreur de mesure en chaque point, dont on ne connaˆıt que l’´ecart-type).

Alors que EM converge toujours vers une mˆeme solution si on l’initialise aux mˆemes valeurs, les programmes SEM et SEMMUL, qui ont une ´etape stochastique, ne fournissent pas forc´ement les mˆemes solutions d’une ex´ecution `a l’autre. On a donc effectu´e plusieurs ex´ecutions et indiqu´e un r´esultat moyen sur les tableaux ci-dessous. Ces r´esultats sont donc naturellement `a prendre `a titre indicatif, le chiffre significatif apr`es le point d´ecimal ´

etant peut-etre superflu5.

Pour le premier test, les param`etres trouv´es par les diff´erents programmes pour la premi`ere variable sont sur le tableau 4.2. Pour les programmes multidimensionnels (SEM- MUL et SEMMUL avec gestion des erreurs), on n’a indiqu´e que la solution trouv´ee pour la premi`ere variable, et non les matrices des moyennes et les matrices des variances- covariances.

On peut noter tr`es nettement que la gestion des erreurs et les versions multidimen- sionnelles permettent de mieux s´eparer les deux composants, la solution la plus proche de la vraie solution (50,-20,10 ; 50,20,10) ´etant obtenue avec la version SEMMUL avec gestion des erreurs. C’est un r´esultat encourageant.

Les r´esultats du deuxi`eme test, l`a o`u les deux populations commencent `a se recouvrir, sont indiqu´es sur le tableau 4.3. Les r´esultats sont ici plus m´ediocres : il n’y a pas de solution pour SEM, qui ne trouve souvent qu’un composant, et les programmes avec gestion des erreurs trouvent une premi`ere population syst´ematiquement trop petite. Ceci n’est `a vrai dire pas tr`es ´etonnant `a la vision de la figure 4.12.

On pourrait tester de fa¸con plus exhaustive les logiciels, en calculant les r´esultats moyens sur quelques centaines de simulations, en faisant varier la taille de l’´echantillon, le nombre de composants, leur degr´e de recouvrement, la taille moyenne et la variation des erreurs de mesure, et nous n’avons montr´e qu’un aper¸cu du comportement des logiciels test´es. Dans un premier temps, cela indique tout de mˆeme leur capacit´e `a ˆetre proche des vraies solutions dans des conditions de tests un peu draconiennes.

Une autre question rest´ee en suspens est la stabilit´e des r´esultats pour les algorithmes SEM et SEMMUL. Un ´element de r´eponse se trouve au paragraphe suivant.

Stabilit´e des algorithmes

Restait donc `a v´erifier `a la fois la stabilit´e des r´esultats obtenus par SEMMUL, et leur coh´erence avec les r´esultats d’autres m´ethodes statistiques (analyse factorielle, classifica- tion). Cette stabilit´e a ´et´e ´etudi´ee `a l’aide de donn´ees observ´ees, et non simul´ees.

L’article ci-joint [Bougeard & Arenou, 1989] concerne la s´eparation en deux groupes d’un ´echantillon d’´etoiles de type A2V du voisinage solaire, `a l’aide des composantes

5.((Dans toute statistique, l’inexactitude du nombre est compens´ee par la pr´ecision des d´ecimales.)) G. Elgozy

Tab. 4.2: S´eparation de populations gaussiennes.

Param`etres obtenus par diff´erents programmes de s´eparation de composants gaussiens avec 2 populations N (−20, 102) et N (20, 102). Programme 1`ere population 2`eme population %1 m1 s1 %2 m2 s2 EM 55 -16.8 14.7 45 22.3 10.7 EM+erreur 53 -17.2 12.5 47 21.6 9.3 SEM 55 -16.9 14.9 45 22.6 10.9 SEM+erreur 50 -18.5 12.1 50 20.7 10.3 SEMMUL 50 -19.0 13.3 50 21.2 11.7 SEMMUL+erreur 50 -19.0 12.1 50 20.8 10.3

Tab. 4.3: S´eparation de populations gaussiennes.

Param`etres obtenus par diff´erents programmes de s´eparation de composants gaussiens avec 2 populations N (−20, 152) et N (20, 152).

Programme 1`ere population 2`eme population

%1 m1 s1 %2 m2 s2 EM 44 -25.3 12.5 56 18.0 18.1 EM+erreur 41 -26.4 9.8 59 16.6 17.6 SEM SEM+erreur 47 -24.4 11.6 52 19.8 16.1 SEMMUL 49 -23.9 13.5 51 20.7 16.8 SEMMUL+erreur 43 -25.8 5.7 57 18.4 14.4

(U, V, W ) de la vitesse spatiale. La finalit´e de cette s´eparation est expliqu´ee en d´etail dans le chapitre 7.

Apr`es avoir test´e la stabilit´e des solutions trouv´ees lors de plusieurs ex´ecutions ind´e- pendantes du programme SEMMUL, on compare les r´esultats obtenus avec ceux d’une analyse en composante principale, d’une classification ascendante hi´erarchique (algorithme des n plus proches voisins), et d’une analyse discriminante lin´eaire.

Concernant toujours la comparaison des r´esultats de SEMMUL avec les r´esultats de m´ethodes de classification non param´etriques, on montre dans une autre publica- tion [Arenou, 1990], par classification `a l’aide d’agr´egation autour de centres mobiles [Lebeaux, 1986], que 97% des ´etoiles se retrouvent dans les classes trouv´ees par SEM-