Un exemple simple de codage - Manipulation de grands volumes de données

Compression et indexation

2.1 Manipulation de grands volumes de données

2.1.3 Un exemple simple de codage

Supposons que nous devions appliquer notre méthode de codage binaire aux données du tableau 2.1.

Ascension droite Déclinaison mag mag f 1 f 2 134.186270 -57.559999 13.686 0.27 100 0 134.023046 -57.560433 7.420 0.06 99 1 134.262433 -57.560419 13.906 0.31 21 1 134.006997 -57.560934 13.331 0.22 100 0 134.143560 -57.560994 12.443 0.14 45 1 134.093502 -57.561394 14.150 0.36 100 0 134.266528 -57.560572 32.000 9.00 0 1 134.352799 -57.561070 32.000 9.00 0 0 134.048300 -57.562101 13.736 0.28 80 0 134.423419 -57.562048 32.000 9.00 0 1 134.211157 -57.560932 13.249 0.21 87 1 134.155622 -57.561257 10.104 0.10 100 0 134.083204 -57.562583 13.375 0.22 100 0

Tab. 2.1:Exemple simple de données à coder.

Il faut d'abord trouver le format optimal pour le codage, c'est à dire les valeurs des B

i, pour nos 6 paramètres.

Prenons l'ascension droite. Les valeurs extrêmes sont 134.006997 et 134.423419, et la précision de 6 décimales. En adoptant, dans l'équation 2.1, !

=134:006997

et " RA

= 10

?6, on peut convertir toutes les ascensions droites en entiers compris entre 0 et 416 422. D'après l'équation 2.2, il faut donc au minimum B

=19 bits pour coder les valeurs de l'ascension droite.

Pour f

1, qui est un entier compris entre 0 et 100, on obtient simplement avec

! f 1 =0et " f 1 =1,B f 1 =7 bits.

En appliquant le même genre de traitement à tous les paramètres de l'exemple, on peut en déduire le codage décrit dans le tableau 2.2.

Avec ces règles de codage, on peut convertir chaque valeur p

i;j du catalogue de départ en un entier n

i;j codé en binaire sur B

i bits. Pour chaque enregistrement j, la concaténation des valeurs binaires (comme sur la Fig. 2.1) forme une chaîne de caractères. Dans notre exemple, l'ensemble des B

i tient sur 64 bits, ce qui fait une chaîne de 8 octets, à comparer à la longueur des chaînes de caractères pour écrire complètement en ASCII les valeurs numériques (environ 40 octets par enregistre-ment).

Codage des données DENIS 35 Paramètre ! i " i B i Ascension droite 134.006997 10 ?6 19 Déclinaison -57.562583 10 ?6 12 mag 0 10 ?3 15 mag 0 10 ?2 10 f 1 0 1 7 f 2 0 1 1 Total 64

Tab. 2.2:Exemple de codage binaire pour les données du tableau 2.1.

Valeurs à stocker pour le décodage

On voit que pour retrouver les valeurs de départ à partir des valeurs entières codées en binaire, il faut inverser l'équation 2.1.

Il faut donc stocker les ! i et "

i (dans un en-tête, par exemple) pour pouvoir eectuer le décodage par la suite.

2.2 Codage des données DENIS

L'unité de base des observations DENIS est le strip, une bande de 30de long et 12' de large (voir section 1.2). Les deux centres de traitement de données (LDAC et PDAC) produisent, strip par strip, des catalogues de sources ponctuelles à partir des images.

Nous avons adopté pour le codage une architecture adaptée au traitement des données au fur et à mesure de leur disponibilité, en créant un chier de données binaire par strip. On ne gère donc pas, dans un premier temps, les associations de sources se trouvant dans une zone de recouvrement entre deux strips adjacents. Ces sources seront présentes en plusieurs exemplaires (un dans chaque strip) dans la base.

2.2.1 Catalogues LDAC et PDAC

Les catalogues issus des traitements au LDAC et au PDAC ne sont pas identiques, que ce soit pour la façon de les produire ou pour leur format.

LDAC

Le LDAC utilise le logiciel SExtractor (Bertin & Arnouts, 1996) pour eectuer l'extraction des sources ponctuelles. La chaîne de traitement des données a évolué au cours de ma thèse, et le nombre de paramètres pour chaque source a augmenté. Les premières versions des catalogues de strips contenaient les paramètres suivants : la position équatoriale (,), l'incertitude sur la position et un identicateur;

36 Compression et indexation pour chacune des trois bandes photométriques :

deux magnitudes calculées par photométrie d'ouverture (en mesurant le ux dans des cercles centrés sur la source, de rayons 7 et 15), et les erreurs associées;

les paramètres d'une ellipse circonscrite à la source; un indicateur de stellarité (donné par SExtractor); divers agsconcernant l'extraction.

En mai 1998, une magnitude de type Kron (Kron, 1980) a été ajoutée dans chaque bande, ainsi qu'une indication sur la présence d'autres objets dans le voisi-nage immédiat de chaque source, et le numéro de l'image d'où est extraite la source. Pour les données réduites en 2000, un quatrième système photométrique a été in-troduit, utilisant un ajustement de la PSF, et les contreparties optiques (magnitudes

B et R de l'USNO A2.0) sont également données, si elles existent.

On a nalement 71 paramètres par source, dans la dernière version du traitement LDAC (Fig. 2.2).

Il faut noter que les zones de recouvrement entre deux images successives dans un même strip sont traitées au LDAC, de façon à ce qu'il n'apparaisse dans le catalogue nal qu'une seule source. Les deux extractions d'un même objet dans les deux images sont fusionnées en un seul enregistrement dans le catalogue de strip résultant (en prenant la moyenne des magnitudes, et une moyenne pondérée des coordonnées).

PDAC

L'extraction de sources au PDAC utilise les algorithmes développés par Alard & Lupton (1998). Pour chaque source, les magnitudes sont calculées pour chaque bande dans 7 systèmes photométriques, dont l'un utilise un ajustement polynomial de la PSF (Alard, 2000).

On a pour chaque source 72 paramètres, qui dièrent en partie de ceux du LDAC, parmi lesquels :

la position équatoriale (,), le numéro d'image et de strip, et le jour julien; pour chacune des trois bandes photométriques :

les 7 magnitudes et les erreurs associées;

des indicateurs de la qualité de l'extraction et de la corrélation à la PSF; les positions en pixel dans l'image;

un ag (pour indiquer si l'objet est saturé, s'il s'agit probablement d'un artéfact...).

les magnitudes B etR, l'époque et la distance à la contrepartie optique (ca-talogue USNO A2.0).

Dans la base de données du PDAC, les zones de recouvrement entre deux images successives dans un même strip ne sont pas traitées. Si on a deux détections d'un

Codage des données DENIS 37 même objet présent sur deux images adjacentes, il y aura deux enregistrements distincts dans la base de données. La question de la combinaison des détections multiples pour la production d'un catalogue sera abordée au chapitre 3, avec la validation des données.

Dans le document Gestion de grands catalogues et application de releves infrarouges a l'etude de la structure galactique (Page 47-50)