• Aucun résultat trouvé

Production d'un catalogue d'objets associés

B.4 Simulation numérique

Pour tester le formalisme, on utilise dans un premier temps des chiers simulés. On crée deux catalogues identiques (objets uniformément répartis), puis on ajoute dans chaque catalogue un nombre arbitraire d'objets supplémentaires (diérents dans les deux). La distribution des objets dans les deux catalogues suit une loi de Poisson 2D.

On ajoute ensuite, dans l'un des deux catalogues, une erreur gaussienne sur les positions.

Dans l'exemple suivant, nous avons créé deux catalogues contenant respective-mentN

1

=10000etN 2

=14000 objets, dontN =8000objets identiques, distribués uniformément sur une surface S = 1:693

2. La densité d'objets dans le deuxième catalogue est donc 8270

2 ?1

.

Le bruit gaussien introduit sur chaque objet du premier catalogue, correspond à

 =510 ?4.

On recherche ensuite, pour chaque objet du premier catalogue, le ppv dans le deuxième. L'histogramme de la distribution ainsi obtenue est reporté sur la gure B.2 (intervalles de largeur 10

?4 ).

On a également superposé sur la gure la distribution totale N(d;N 1

;;;N)

théorique et les 3 composantes ( , ,').

On voit que les distributions théoriques suivent très dèlement la répartition issue des catalogues simulés.

La vraisemblance (formule B.22) correspondant à cette situation simulée est re-portée sur la gure B.3.

Simulation numérique 181 1 10 100 1000 0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 Comptages d (deg) Catalogues simulés Total Objets sans partenaire Objets ayant perdu leur partenaire Objets bien associés

Fig.B.2:Distribution de la distance aux plus proches voisins pour des catalogues simulés. On a superposé les distributions théoriquesD (d),'(d), (d), (d).

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 2.0 4.0 6.0 8.0 Vraisemblance L(d) d (arcsec)

Fig. B.3: Vraisemblance de l'identication croisée en fonction de la distance d au ppv, pour un catalogue simulé.

182 Identication croisée

On voit que dans ce cas, avec une erreur imposée sur les positions de 1.8 ( = 510

?4), tous les objets pour lesquels on trouve le ppv à moins de 4 ont plus de 95% de chances d'être bien associées. Par contre, il y aura moins de 2% de chance qu'une association soit correcte si la distance au ppv est supérieure à 8.

B.5 Données réelles

Nous avons testé notre formalisme sur des données réelles, en étudiant l'identi-cation croisée sur une petite portion des catalogues DENIS et USNO A1.0.

Prenons, par exemple, la zone suivante :

8:75  < <8:95  ; ?35  <<?32 

La surface correspondante fait S=0:5 2

On prend d'un côté les données DENIS du strip 4818 (traité au LDAC) comprises dans cette zone. On obtient une première liste de N

1

=4230 objets.

D'un autre côté, on extrait du catalogue USNO A1.0 toutes les sources dans la même zone : N

2

=1809 objets.

On cherche directement, à partir des positions seules, le ppv de chaque objet DENIS dans la liste d'objets USNO A1.0.

La gure B.4 donne la distribution observée pour la distance aux ppv. On a superposé les courbes théoriques correspondant aux valeurs N = 1020 et  =1:4 10

?4 qui donnent un bon ajustement des données.

On a un excellent accord entre les distributions calculées et observées. Ceci conrme que l'erreur sur les positions entre les sources DENIS et les sources USNO est de l'ordre de 0.5 (valeur de  pour le meilleur ajustement). Mais surtout, cela nous permet d'estimer de façon able le nombre d'objets détectés à la fois dans DENIS et dans l'USNO : N =1020. Cette valeur est à comparer avec les nombres d'objets dans les deux listes de départ : 4230 (DENIS), et 1809 (USNO).

La vraisemblance correspondant à cette comparaison, déduite des valeurs esti-mées pour N et , est reportée sur la gure B.5. On voit que pour une séparation de plus de 2 des deux sources, la probabilité de faire une bonne identication est quasiment nulle, avec le seul critère de proximité considéré ici.

On a également reporté sur la gure B.5, en fonction du seuil d adopté comme coupure sur la distance au ppv pour la production d'un catalogue de sortie, le nombre total d'objets retenus pour l'identication croisée N

s (équation B.23, ici normalisée à N), et le nombre d'erreurs commises N

e (équation B.24, également normalisée).

B.6 Vers une approche plus générale

 Nous avons fait l'hypothèse que les positions étaient sans erreur dans le pre-mier catalogue, et que seules les positions dans le second souraient d'une

Vers une approche plus générale 183 incertitude gaussienne. La situation se généralise en fait simplement au cas où il y a des erreurs sur les positions dans les deux catalogues : le  devient simplement la combinaison des incertitudes dans les deux catalogues (situation triviale dans le cas gaussien).

 Nous avons ici limité la recherche au plus proche voisin des sources d'un cata-logue dans l'autre. Mais à aucun moment nous n'avons imposé l'unicité de l'ap-pariement. Une même source du deuxième catalogue peut être le plus proche voisin de plusieurs sources du premier catalogue. Si l'on veut que chaque source ne puisse être associée qu'une seule fois, il faut adopter une démarche itérative, en rejetant progressivement les associations si on en trouve de meilleures pour les mêmes objets (Egret et al., 1992).

 De façon implicite, nous avons supposé que la recherche du plus proche voisin se fait dans un cercle. Si on utilise une boîte carrée, par exemple, la forme des lois sera tronquée aux grandes distances (comme on peut le voir sur la Fig. 1 de Guillout et al. (1999)).

 Sur les diagrammes de validation de l'astrométrie dont il est question dans la section 3.3.1, c'est une recherche de tous les voisins dans un rayon donné qui est eectuée. La distribution de la distance au n

e plus proche voisin est donnée, dans le cas d'un ux de Poisson 2D, par la relation :

f D n (d)=2d (d 2 ) n?1 (n?1)! e ? d 2 : (B.26)

La somme des distributions des distances à tous les plus proches voisins vaut :

1 X n=1 f Dn (d) = 2de ? d 2 1 X n=1 (d 2 ) n?1 (n?1)! (B.27) = 2d (B.28)

La densité surfacique dans les diagrammes comme ceux de la gure 3.2 est donc constante pour la composante Poissonienne (on divise par 2d la distribution linéaire).

Sur un diagramme comme celui de la gure 3.3-a, on voit cependant clairement qu'il y a une zone où la densité du bruit de fond est plus faible. On peut l'ex-pliquer car la distribution des sources dans un plan ( ,) n'est pas strictement identique à un ux de Poisson 2D : lors du processus d'extraction des sources, il y a un rayon autour de la position de chaque source dans lequel on ne peut pas détecter un autre objet. Ceci explique la sous-densité relative du bruit de fond à proximité immédiate des objets situés au même endroit dans les deux catalogues.

Ceci prouve que l'approximation de la distribution des objets sans partenaire par un ux de Poisson 2D est exagérée dans le formalisme que nous avons développé ici. Toutefois, les résultats restent satisfaisants, comme on l'a vu dans l'application entre DENIS et l'USNO.

1 10 100 1000 0.3 0.5 1.0 2.0 4.0 6.0 10.0 15.0 20.0 30.0 50.0 Comptages d (arcsec)

4230 objets DENIS et 1809 objets USNO Courbe obtenue pour N=1020 et sigma=1.4e-4 Objets bien associés Objets ayant perdu leur partenaire 3210 objets sans partenaire

Fig. B.4: Distribution de la distance aux ppv dans le cas de l'identication croisée de sources DENIS et USNO (échelle log-log). La ligne irrégulière en trait plein correspond à l'histogramme observé (avec un pas variable, logarithmique) des valeurs de d. On a superposé les diérentes lois présentées au paragraphe B.3.3. Dans la partie droite de la courbe (grandes valeurs de d), c'est la fonction '(d) qui domine, c'est à dire les objets DENIS n'ayant pas de partenaire, et associés aléatoirement avec des objets USNO (loi de type Poisson). A gauche, on a les vraies associations (fonction (d)), avec des ppv à petite distance. La probabilité qu'un objet ait perdu son partenaire est ici trop faible et n'apparaît pas ( (d)0). On voit que la distribution globale théoriqueD (d) (en tirets), pour les paramètres N = 1020 et  = 0:5 est en très bon accord avec la distribution observée.

0 0.2 0.4 0.6 0.8 1 0.0 1.0 2.0 3.0 d (arcsec) Vraisemblance Ns/N Ne/N

Fig. B.5: Vraisemblance de l'identication croisée des catalogues DENIS et USNO (trait plein). Le nombre total de sources retenuesN

s

=N et le nombre d'erreurs commisesN e

=N

sont également représentés en fonction du seuil de sélection d. N

s devient supérieur à N

avant que la vraisemblance ne chute sensiblement à cause des fausses associations accumu-lées.

Publications