• Aucun résultat trouvé

Compatibilit´e mod`ele-observation : les tests d’hypoth`eses

7.2 Outils statistiques d’analyse des donn´ees

7.2.1 Compatibilit´e mod`ele-observation : les tests d’hypoth`eses

Le premier outil statistique que nous avons mis en place pour l’´etude d’une observation grand champ d’amas SZ est le test d’hypoth`ese. Nous avons d´evelopp´e dans un premier temps un test de Kolmogorov-Smirnov. Mais son utilisation en pratique s’est r´evel´ee trop coˆuteuse en temps de calcul et nous avons ensuite mis en place un test d’hypoth`ese bas´e sur l’estimateur de vraisemblance ´etendue LE (nomm´e dans la suite simplement vraisemblance, L pour Likelihood ). Le principe est le mˆeme pour les deux tests. La diff´erence provient uniquement de la mani`ere dont on mesure “l’´ecart” entre la distribution des observations et la distribution th´eorique pr´edite par le mod`ele cosmologique. Cet outil statistique est compl´ementaire de l’outil de calcul des param`etres cosmologiques.

7.2.1.1 Interˆet

Pour chacun des mod`eles cosmologiques ~P que l’on veut tester on fait l’hypoth`ese suivante : “l’observation consid´er´ee est une g´en´eration al´eatoire du mod`ele ~P ”. Les tests d’hypoth`eses permettent de calculer la probabilit´e que cette hypoth`ese soit vraie. Plusieurs arguments ont guid´e notre choix vers cet outil statistique : tout d’abord le fait que les prochaines exp´eriences Olimpo ou APEX auront, dans un premier temps, des donn´ees de “test” (vol test pour Olimpo et premiers mois de prise de donn´ee pour APEX) comptant moins d’une centaine d’amas, ensuite le fait que les mod`eles de la physique interne des amas soient peu contraints. Les tests d’hypoth`eses permettent de trouver une classe de mod`eles compatibles avec les donn´ees. On peut imaginer placer des contraintes sur les param`etres cosmologiques sans faire ce travail pr´ealable, et aboutir `a des contraintes raisonnables alors que les mod`eles test´es ne sont pas statistiquement compatibles avec les donn´ees. En pratique l’analyse statistique des donn´ees se compose des trois ´etapes suivantes : 1) on conduit un ensemble de test d’hypoth`eses sur une large gamme de mod`eles, 2) on s´electionne ceux qui sont statistiquement compatibles avec nos donn´ees, 3) on cherche le mod`ele le plus en accord avec les donn´ees et on calcule les contraintes sur les param`etres test´es (i.e. les erreurs sur l’estimation du meilleur mod`ele).

Par exemple, un test d’hypoth`ese permet de d´ecider si un mod`ele cosmologique ~

P qui serait en accord avec d’autres observations ind´ependantes (CMB, supernovae, amas en X, etc.) est incompatible avec nos donn´ees. On est en mesure de dire si l’hypoth`ese “mon observation est une g´en´eration al´eatoire de ce mod`ele ~P ” est vraie ou fausse, et avec quelle probabilit´e.

7.2.1.2 L’estimateur de vraisemblance

L’estimateur de vraisemblance est d´efini d’une mani`ere g´en´erale par : L =

N

Y

i=1

f (xi; θ) (7.1) o`u les variables xi sont les N mesures et f la p.d.f th´eorique du mod`ele test´e fonction du param`etre θ.

Dans notre cas nous devons tenir compte des contaminations (les sources que le suivi optique indique comme n’´etant pas des amas), des amas dont on a mesur´e le redshift (on est alors sˆur que ce sont des amas) et des sources dont on ignore si ce sont des amas ou des contaminations (pas de mesure en redshift). L’estimateur de vraisemblance L que nous utilisons pour comparer une observation exp et un mod`ele cosmologique ~P s’´ecrit alors de la mani`ere suivante :

L( ~P |exp) = dNdPdet(Nexpdet; ~P )

Namas exp Y i=1 dP dzobsdYobs (ziamas, Yiamas; ~P ) Ndetection expY i=1 dP dYobs (Yidetection; ~P ) (7.2) Le premier terme du produit permet d’estimer l’information contenue dans le nombre total de d´etections. Le nombre de sources d´etect´ees est une information en soi, ind´ependante des mesures individuelles de flux ou redshift. La p.d.f est donn´ee par le mod`ele statistique et Ndet

expest le nombre total de sources brillantes d´etect´ees dans le champ. Le premier produit permet de mesurer l’information contenue dans les amas d´etect´es (dont on est sˆur que ce sont des amas grˆace au suivi optique) ´etant donn´es leurs redshift zamas

i et flux Yamas

i . Le dernier produit mesure l’information contenue dans le flux Ydetection

i des d´etections dont on ne sait pas si elles sont des contamina-tions ou des amas. La p.d.f correspondante est calcul´ee `a partir de la distribution en flux des amas `a laquelle on a ajout´e la distribution en flux des contaminations. Les d´etections dont on est sˆur que ce sont des contaminations n’apportent aucune information sur la cosmologie. Elles sont exclues du calcul de la vraisemblance.

En pratique on travaille avec les quantit´es − ln L. Les m´ethodes de “maximum de vraisemblance” deviennent alors des m´ethodes de “minimum d’in-vraisemblance”.

Le mod`ele statistique joue ici un rˆole primordial dans le calcul des param`etres cosmologiques `a travers la connaissance des diff´erentes p.d.f observ´ees-simul´ees. Dans le paragraphe 7.4 ses limites en tant qu’outil “d’estimation” des param`etres cosmo-logiques ont ´et´e d´emontr´ees.

7.2.1.3 Test d’hypoth`ese en pratique

Les ´etapes pour effectuer un test d’hypoth`ese sur un mod`ele cosmologique vis-`a-vis d’une observation sont en pratique les suivantes :

1. on dispose d’une observation,

2. on se place dans le cadre d’un mod`ele cosmologique ~P que l’on d´esire tester, 3. on calcule la distribution th´eorique des amas dans le cadre de ce mod`ele, 4. le mod`ele statistique, construit au pr´ealable, nous donne les distributions

ef-fectivement observ´ees des amas et des contaminations (typiquement : leur nombre, la dispersion sur ce nombre, les distributions en fonction des obser-vables),

5. on g´en`ere par simulation de Monte-Carlo un ensemble d’observations simul´ees compatibles avec ce mod`ele ~P ,

6. chacune `a une vraisemblance vis-`a-vis du mod`ele test´e Li = L( ~P |expi). On construit la distribution de ces vraisemblances,

7.2 Outils statistiques d’analyse des donn´ees 171 7. `a partir de cette p.d.f de vraisemblance (7.2.2 gauche) on peut construire la

courbe de probabilit´e de compatibilit´e (7.2.2 droite),

8. la vraisemblance de l’observation que l’on analyse vis-`a-vis du mod`ele test´e correspond alors `a une probabilit´e dans cette courbe : c’est la probabilit´e de compatibilit´e recherch´ee.

La construction de la courbe de probabilit´e se fait en calculant, dans un premier temps la valeur de la vraisemblance de r´ef´erence L0 : le pic de la distribution. Celle-ci ´etant bien ajust´ee par une gaussienne, on consid`ere comme r´ef´erence la moyenne de la distribution. La probabilit´e de compatibilit´e de l’observation est donn´ee par le rapport du nombre de g´en´erations ayant un ´ecart de vraisemblance sup´erieur `a l’observation exp sur le nombre total de g´en´eration N :

P robexp= N (∆Li > ∆Lexp)

N (7.3)

La figure 7.2.2 illustre les trois derni`eres ´etapes.

Fig.7.2.2 – (gauche) Distribution des vraisemblances pour N g´en´erations al´eatoires d’observations `a partir du mod`ele cosmologique `a tester. (droite) Courbe de proba-bilit´e d´eduite de la p.d.f. Les traits verticaux bleus donnent la valeur de la vraisem-blance de l’observation. La courbe rouge indique l’ajustement gaussien effectu´e sur les donn´ees du Monte-Carlo repr´esent´ees par l’histogramme noir. Le trait vertical discontinu indique la valeur de L0.

7.2.1.4 Rejeter Press & Schechter

Les tests d’hypoth`eses peuvent permettre, par exemple, de calculer la probabilit´e de compatibilit´e entre une observation, simul´ee dans notre cas avec la fonction de

masse de Sheth et Tormen (et pour le mod`ele cosmologique de concordance), et un mod`ele cosmologique dans lequel la distribution des amas est calcul´ee grˆace `a la fonction de masse de Press et Schechter.

On fait l’hypoth`ese suivante : “l’observation est une g´en´eration al´eatoire d’une distribution d’amas calcul´ee grˆace `a la fonction de masse de Press & Schechter”. On calcul, en utilisant la m´ethode pr´ec´edente, la courbe de probabilit´e en fonction des diff´erences de vraisemblance, pour ce mod`ele physique de formation d’amas. Elle est donn´ee dans la figure 7.2.3. La probabilit´e de compatibilit´e pour l’observation consid´er´ee est inf´erieure `a 1 ×10−5. Avec les donn´ees du vol scientifique d’Olimpo on devrait ˆetre en mesure de tester les diff´erentes fonction de masse (Sheth & Tormen, Press & Schechter, Jenkins & al.) en utilisant les param`etres cosmologiques estim´es par d’autres exp´eriences.

Fig.7.2.3 – En trait continu la courbe de probabilit´e pour le mod`ele de concordance avec utilisation de la fonction de masse de Press & Schechter. En trait discontinu la valeur de la vraisemblance de l’observation consid´er´ee (calcul´ee avec la fonction de masse de Sheth & Tormen). L’observation a une probabilit´e d’ˆetre une g´en´eration al´eatoire du mod`ele cosmologique consid´er´ee inf´erieure `a 1 × 10−5. Elle est donc incompatible `a 5 σ avec le mod`ele th´eorique.