M´ elange de populations gaussiennes - Estimations multivari´ ees

4.4 Estimations multivari´ ees

4.4.1 M´ elange de populations gaussiennes

Introduction

Il arrive fréquemment que l’on ait besoin de mettre en évidence et de séparer différentes populations dans un échantillon.

En particulier, dans le cadre d’un travail en cinématique stellaire (cf. chapitre 7), nous avons été amené à utiliser des méthodes statistiques permettant de séparer des populations d’étoiles, de manière paramétrique ou non. Nous nous intéresserons dans ce paragraphe à une méthode paramétrique, la séparation de populations gaussiennes.

Jusqu’à présent, la séparation de composants gaussiens avait été traitée [Soubiran, 1988], mais sans tenir compte des erreurs de mesure des données cinématiques, et nous nous sommes donc intéressé à l’implication des erreurs de mesures sur la séparation des populations. Bien évidemment, les algorithmes mis au point pourront s’appliquer à des domaines beaucoup plus vastes.

Pour situer le problème, précisons que l’on constate, de fa¸con multidimensionnelle, la présence de plusieurs modes dans la distribution des variables étudiées, les vitesses d’étoiles relatives au soleil en l’occurence. Il y a donc un mélange de lois, que l’on suppose chacune gaussienne, de moyenne et de dispersion différentes, représentant des groupes d’étoiles au comportement cinématique différent. Tout le problème statistique consiste à rechercher le nombre de composants du mélange, estimer les paramètres des composantes (proportions, moyennes, variances), et savoir affecter une observation au composant auquel elle appartient. On s’intéresse donc ici à une méthode complètement paramétrique, mais dont le nombre de paramètres n’est pas déraisonnable.

Pour nuancer l’affirmation précédente, précisons que le problème d’estimation n’est pas si simple : pour m composants en dimension k, le nombre de paramètres à estimer est

m(k+1)(k+2)₂ − 1 puisque pour la moyenne de chaque composant, il y en a k, pour chaque

matrice de variance-covariance, k(k+1)₂ , et m − 1 proportions de chaque composantes. Par exemple, pour les vitesses spatiales, avec 3 composants gaussiens, cela fait 29 param`etres `

a déterminer. Inutile de dire que pour un petit échantillon, il est difficile de parvenir à une bonne solution.

Bien que l’on puisse utiliser la méthode des moments (égaler les moments théoriques et empiriques) pour résoudre ce problème, la méthode la plus utilisée, et la plus effi- ciente, est le maximum de vraisemblance, et en particulier l’algorithme EM (Estimation- Maximisation), [Redner & Walker, 1984] dont on décrit brièvement le principe dans l’article page 86. Cette méthode nécessite malheureusement la connaissance a priori du

Pour répondre à ces limitations, Celeux et Diebolt (1986) ont développé l’algorithme stochastique SEM (SEMMUL dans le cas multidimensionnel), qui présente la même struc- ture que l’algorithme EM, mais avec une étape d’apprentissage probabiliste. À part pour de très petits échantillons – pour lesquels les perturbations aléatoires perturbent réellement la solution (!) – SEM n’a pas les problèmes de lenteur de convergence de EM, estime correctement le nombre de composants (il suffit simplement de lui donner un ma- jorant de ce nombre), n’a pas tendance à rester près d’un ((col)) de la vraisemblance, et surtout ne nécessite pas de conditions initiales.

Variante de l’algorithme stochastique SEM, SAEM [Celeux & Diebolt, 1989] est un algorithme de type recuit simulé (la solution est contrainte au fur et à mesure des itérations) qui converge presque sûrement vers un maximum local de la vraisemblance, et qui est plus adapté aux petits échantillons.

L’approche bayésienne classique de ce problème d’estimation est peu utile puisque toutes les partitions possibles de l’échantillon doivent être prises en compte, conduisant à des temps de calcul extrêmement prohibitifs. Il existe néanmoins une alternative, l’échan- tillonnage bayésien [Robert, 1992], qui permet, si le nombre de composants de l’échantillon est connu, d’obtenir les estimations bayésiennes des paramètres [Diebolt & Robert, 1990], [Robert & Soubiran, 1991].

Notre problème était donc le suivant : nous devions tenter de séparer des populations grâce aux composantes de la vitesse spatiale, mais celles-ci souffrent d’une erreur de mesure plus ou moins importante, cette erreur dépendant de la précision sur les mouvements propres, la vitesse radiale, et surtout sur la distance. Cette erreur variant beaucoup d’une ´

etoile à l’autre, il est prévisible que la détermination des composants gaussiens que l’on recherche va en souffrir.

G.Celeux et J.Diebolt (1989a, 1989b) ont développé, à partir de l’algorithme SEM, une méthode tenant compte de ces erreurs, que nous avons implémentée et testée, à la fois pour EM, pour SEM, et pour SEMMUL. Avant l’utilisation de cette méthode sur des données réelles, le paragraphe suivant montre, à l’aide de deux exemples, la fa¸con dont se comportent les algorithmes.

Simulations

Nous nous limiterons, pour ces simulations, à deux dimensions, ce qui simplifie large- ment la visualisation des résultats. Nous générons deux populations de points (en propor- tion 50%/50%), et testons la reconnaissance, par les différents logiciels cités plus haut, des paramètres des deux populations. À dire vrai, pour les logiciels en question, les tests ci-dessous s’apparentent plus à une torture qu’à une mise en valeur ; en effet, l’échantillon simulé ne contient que 100 points et les populations se recouvrent partiellement ; à voir les figures 4.11 et 4.12, les deux populations semblent peut-être séparées, mais les distri- butions marginales montrent deux modes fort peu éloignés, et ce qui semble évident avec l’œil et la connaisance du contenu de l’échantillon ne l’est pas forcément pour une reconnaissance automatique. De plus, il faut noter que l’on teste en même temps les qualités du générateur aléatoire.

Pour les deux tests montrés ici, on a donc simulé un échantillon composé de deux populations de 50 points et dont les valeurs sont du même ordre de grandeur que des vitesses spatiales ; les erreurs standards de mesure sont en moyenne 7 et les moyennes des

deux populations sont respectivement -20 et 20 ; l’´ecart-type de chaque population est 10 dans le premier test et 15 dans le second.

Rappelons que les différents logiciels testés ne sont pas sur le même pied d’égalité : par rapport à EM, SEM doit découvrir le nombre de composants (1,2 ou 3) ; dans le cas multidimensionnel, il y a deux fois plus de points, mais encore plus de paramètres `

a deviner ; quant aux versions avec gestion des erreurs de mesure, elles doivent en plus simuler des donn´ees manquantes (l’erreur de mesure en chaque point, dont on ne connaˆıt que l’´ecart-type).

Alors que EM converge toujours vers une même solution si on l’initialise aux mêmes valeurs, les programmes SEM et SEMMUL, qui ont une étape stochastique, ne fournissent pas forcément les mêmes solutions d’une exécution à l’autre. On a donc effectué plusieurs exécutions et indiqué un résultat moyen sur les tableaux ci-dessous. Ces résultats sont donc naturellement à prendre à titre indicatif, le chiffre significatif après le point décimal ´

etant peut-etre superflu5_.

Pour le premier test, les paramètres trouvés par les différents programmes pour la première variable sont sur le tableau 4.2. Pour les programmes multidimensionnels (SEM- MUL et SEMMUL avec gestion des erreurs), on n’a indiqué que la solution trouvée pour la première variable, et non les matrices des moyennes et les matrices des variances- covariances.

On peut noter très nettement que la gestion des erreurs et les versions multidimen- sionnelles permettent de mieux séparer les deux composants, la solution la plus proche de la vraie solution (50,-20,10 ; 50,20,10) étant obtenue avec la version SEMMUL avec gestion des erreurs. C’est un résultat encourageant.

Les résultats du deuxième test, là où les deux populations commencent à se recouvrir, sont indiqués sur le tableau 4.3. Les résultats sont ici plus médiocres : il n’y a pas de solution pour SEM, qui ne trouve souvent qu’un composant, et les programmes avec gestion des erreurs trouvent une première population systématiquement trop petite. Ceci n’est à vrai dire pas très étonnant à la vision de la figure 4.12.

On pourrait tester de fa¸con plus exhaustive les logiciels, en calculant les résultats moyens sur quelques centaines de simulations, en faisant varier la taille de l’échantillon, le nombre de composants, leur degré de recouvrement, la taille moyenne et la variation des erreurs de mesure, et nous n’avons montré qu’un aper¸cu du comportement des logiciels testés. Dans un premier temps, cela indique tout de même leur capacité à être proche des vraies solutions dans des conditions de tests un peu draconiennes.

Une autre question restée en suspens est la stabilité des résultats pour les algorithmes SEM et SEMMUL. Un élement de réponse se trouve au paragraphe suivant.

Stabilit´e des algorithmes

Restait donc à vérifier à la fois la stabilité des résultats obtenus par SEMMUL, et leur cohérence avec les résultats d’autres méthodes statistiques (analyse factorielle, classification). Cette stabilité a été étudiée à l’aide de données observées, et non simulées.

L’article ci-joint [Bougeard & Arenou, 1989] concerne la séparation en deux groupes d’un échantillon d’étoiles de type A2V du voisinage solaire, à l’aide des composantes

5.((Dans toute statistique, l’inexactitude du nombre est compensée par la précision des décimales.)) G. Elgozy

Tab. 4.2: S´eparation de populations gaussiennes.

Paramètres obtenus par différents programmes de séparation de composants gaussiens avec 2 populations N (−20, 102) et N (20, 102). Programme 1ère population 2ème population %1 m1 s1 %2 m2 s2 EM 55 -16.8 14.7 45 22.3 10.7 EM+erreur 53 -17.2 12.5 47 21.6 9.3 SEM 55 -16.9 14.9 45 22.6 10.9 SEM+erreur 50 -18.5 12.1 50 20.7 10.3 SEMMUL 50 -19.0 13.3 50 21.2 11.7 SEMMUL+erreur 50 -19.0 12.1 50 20.8 10.3

Tab. 4.3: S´eparation de populations gaussiennes.

Paramètres obtenus par différents programmes de séparation de composants gaussiens avec 2 populations N (−20, 152) et N (20, 152).

Programme 1`ere _population ₂`eme _population

%1 m1 s1 %2 m2 s2 EM 44 -25.3 12.5 56 18.0 18.1 EM+erreur 41 -26.4 9.8 59 16.6 17.6 SEM SEM+erreur 47 -24.4 11.6 52 19.8 16.1 SEMMUL 49 -23.9 13.5 51 20.7 16.8 SEMMUL+erreur 43 -25.8 5.7 57 18.4 14.4

(U, V, W ) de la vitesse spatiale. La finalité de cette séparation est expliquée en détail dans le chapitre 7.

Après avoir testé la stabilité des solutions trouvées lors de plusieurs exécutions indé- pendantes du programme SEMMUL, on compare les résultats obtenus avec ceux d’une analyse en composante principale, d’une classification ascendante hiérarchique (algorithme des n plus proches voisins), et d’une analyse discriminante linéaire.

Concernant toujours la comparaison des résultats de SEMMUL avec les résultats de méthodes de classification non paramétriques, on montre dans une autre publica- tion [Arenou, 1990], par classification à l’aide d’agrégation autour de centres mobiles [Lebeaux, 1986], que 97% des étoiles se retrouvent dans les classes trouvées par SEM-

Dans le document Contribution à la validation statistique des données d'Hipparcos‎ : catalogue d'entrée et données préliminaires (Page 89-99)