• Aucun résultat trouvé

Qualité des données

Sommaire

6.1 Introduction . . . 103

6.2 Qualité des objets électromagnétiques . . . 105

6.2.1 Objectif . . . 105

6.2.2 Stratégie . . . 106

6.3 Quelques exemples de pathologies . . . 107

6.3.1 Procédure en 2010 . . . 107

6.3.2 Evolution de la prise de données de 2011 . . . 107

6.3.3 Impact du calorimètre hadronique dans les données de 2012 . . . 111

6.4 Traitement particulier des photons . . . 113

6.4.1 Objectif . . . 113

6.4.2 LArCleaning . . . 113

6.4.3 Sélection des échantillons . . . 114

6.4.4 Procédure de nettoyage . . . 120

6.5 Conclusion . . . 123

6.1 Introduction

Les données récoltées par ATLAS sont régulièrement contrôlées au cours de la prise et du

traitement des données. La procédure consiste en un premier contrôle effectué pendant la prise

de données puis un second après leur enregistrement.

Le premier contrôle (online monitoring) est effectué par les opérateurs (detector shifters) en

temps réel sur une petite fraction des données dans la salle de contrôle de l’expérience. Au cours

de cette étape, les opérateurs se concentrent principalement sur les problèmes compromettant le

détecteur sans aucune chance que les données récoltées ne puissent être exploitées. Il s’agit par

exemple d’un important décalage en temps du détecteur par rapport à l’horloge du LHC. Durant

la prise de données, résoudre les problèmes de bruit dans les calorimètres est une tâche difficile.

C’est pourquoi, tant que le taux de déclenchement du détecteur reste raisonnable, trouver les

sources de bruits dans les calorimètres n’est pas une priorité au cours de cette étape. Dans

le cas contraire, la tour calorimétrique (c.f. section 4.2.6) affectée est désactivée ou le taux de

déclenchement est limité manuellement (prescale).

Le second contrôle (offline monitoring) est effectué sur les données enregistrées. Les données

d’ATLAS sont organisées en différents flots (stream). Chaque flot correspond à des données

collectées avec une série de critères de déclenchements. Ces flots se répartissent en deux grandes

catégories : les flots d’étalonnage du détecteur (calibration streams) et les flots de données pour

les analyses de physique (physics streams). Les flots d’étalonnage fournissent des informations

détaillées sur les conditions de la prise de données (luminosité, empilement, bruit électronique,

position des vertex,. . .). Comme ces informations sont nécessaires au traitement des données

provenant des flots de physique, les données enregistrées sur les flots d’étalonnage sont traitées

rapidement (express processing) après le démarrage d’une période de prise de données (run).

Les données enregistrées sur les flots de physique sont traitées 48 h après la fin de la période de

prise de données. Cette période de 48 h, appeléecalibration loop, est mise à profit par le groupe

en charge de la qualité des données (data quality group) pour vérifier le statut des différents

détecteurs et mettre à jour la base de données qui reflète ce statut.

De manière à déterminer la qualité des données enregistrées dans les calorimètres à argon

liquide, on utilise les flots d’étalonnage suivants :

— le flotExpress streamcomprend une partie importante des données (10-15 % du total).

Ces données sont caractéristiques des chaînes de déclenchement les plus utilisées pour

les analyses de physique ;

— le flotCosmicCalo streamcontient des événements collectés dans les emplacements vides

des trains du LHC (empty bunch groups) où aucune collision n’est attendue. Ce flot est

utilisé pour contrôler le bruit du détecteur ainsi que le bruit de fond induit par les muons

cosmiques et par le faisceau du LHC ;

— le flotLArCells streamcontient des données de collisions où seule une partie des données

enregistrées dans les calorimètres à argon liquide est traitée. Ainsi la taille des

événe-ments enregistrés est fortement réduite. Ceci permet de diminuer les seuils du système de

déclenchement et donc d’augmenter significativement le pouvoir statistique des

échan-tillons récoltés. Ces échanéchan-tillons permettent d’effectuer des études précises comme par

exemple l’extraction de la forme du signal dans chaque cellule du calorimètre à argon

liquide ;

— le flotLarCellsEmpty streamutilise le même principe que le flotLArCells streammais est

dédié à l’étude desempty bunch groups. Le but de ce flot est de contrôler les conditions

de bruit avec des seuils de déclenchement très faibles.

Les flots d’étalonnage contenant des événements de collision (Express stream et LArCells

stream) sont utilisés pour identifier les problèmes de corruption des données, d’alignement en

temps des détecteurs et les bouffées de bruits cohérents (noise burst). Les flots CosmicCalo

stream et LArCellsEmpty stream, contenant des événements enregistrés en l’absence de

colli-sions, sont utilisés pour identifier les problèmes isolés dans une ou quelques cellules du

calori-mètre. L’établissement de la qualité des données et la mise à jour de la base de données requise

pour réparer les éventuels problèmes doivent être effectués dans les 48 h suivant la fin de la

période de prise de données.

A chaque étape du traitement des données, chaque problème affectant la qualité des données

est reporté dans une base de données. La façon la plus simple et flexible de tenir compte de

la perte de données consiste à établir un statut d’anomalie (defect) à une fenêtre temporelle

fixe (Lumiblock) de prise de données [140]. Pour les calorimètres à argon liquide, environ 150

anomalies ont été établies durant les prises de données effectuées en 2011 et 2012. Une anomalie

peut se voir attribuer le statut de «intolérable» ce qui implique une rejet systématique des

données enregistrées dans leLumiBlockou un statut de «tolérable» qui signifie que les données

sont de bonne qualité : l’anomalie fournit simplement une information sur le statut du détecteur

au moment où les données ont été enregistrées.

La liste des défauts est utilisée pour produire une liste de LumiBlocks déclarés bons pour

l’analyse physique. Cette infrastructure est très efficace et permet de décrire et de correctement

prendre en compte les pertes de données. De plus, elle est très flexible puiqu’une nouvelle liste de

bonsLumiBlockspeut être produite instantanément après avoir implémenté un nouveau défaut.

Cependant, cette infrastructure permet uniquement de décider si unLumiBlockest conservé

ou non. Elle ne peut pas gérer efficacement les problèmes du détecteur qui ont une durée

inférieure à la durée typique d’unLumiBlock(i.e. environ une minute). Pour réduire la perte de

données liée à ce type de problèmes, une méthode complémentaire est utilisée. Un mot, nommé

status word, contenant des informations sur le statut du détecteur est enregistré pour chaque

événement. Puisque ce mot est enregistré dans les données des flots de physique pour chaque

événement en lisant la base de données des défauts, sa définition (la liste des défauts qui le

compose) doit être établie avant que ces données soient traitées, c’est à dire durant les 48 h de

délai de la calibration loop. Cette méthode est donc moins flexible que l’approche des défauts

mais elle permet de rejeter une plus petite quantité de données.

6.2 Qualité des objets électromagnétiques

6.2.1 Objectif

En suivant la même approche que le status word, un mot a également été calculé pour

chaque cluster électromagnétique reconstruit dans les calorimètres à argon liquide. Ce mot,

nommé Object Quality, permet de stocker une série d’informations sur le statut des cellules

qui composent le cluster. Il permet de retirer des études physiques les clusters affectés par

un problème très localisé dans le temps ou dans l’espace, tel qu’une cellule morte. Le mot

Object Qualitypermet aussi de gérer de façon précise des problèmes sur une longue période qui

n’affectent qu’une petite partie du calorimètre, tels le mauvais fonctionnement d’un câble haute

tension ou de cartes d’acquisition frontales.

L’information stockée pour chaque clusterest un résumé des informations disponibles dans

la base de données pour chaque cellule. On considère alors le cluster comme étant composé

de deux parties distinctes : le cœur et les bords. Le cœur est constitué des cellules centrales

(∆η×∆φ = 3×3) du cluster situées dans le second sampling. Les bords sont consitués de

l’ensemble des cellules duclusterqui ne sont pas dans le cœur. Enfin, on s’intéressera également

aux cellules dupresamplerainsi qu’aux cellules du calorimètre hadronique utilisées pour calculer

les variables de fuite hadronique. L’information stockée couvre différentes pathologies :

— problèmes concernant les câbles de haute tension :

durant la prise de données, il arrive parfois qu’un câble de haute tension ne fonctionne

pas ou bien qu’il ne soit pas à sa valeur nominale. Si une cellule composant le cluster

d’un électron ou d’un photon est alimentée par ce câble, son énergie risque d’être mal

déterminée. Cette information est donc reportée dans le motObject Qualityséparement

pour lepresampler, le cœur et les bords du cluster;

— problèmes concernant les cartes d’électronique frontale :

durant la prise de données, il peut arriver qu’une carte d’électronique frontale ne

fonc-tionne plus. L’énergie déposée dans une cellule qui dépend de cette carte ne pourra pas

être calculée. Si leclustercontient une telle cellule, le calcul de son énergie et des variables

caractéristiques de la gerbe en seront affectés. Cette information est stockée dans le mot

Object Quality séparement pour le presampler, le cœur et les bords du cluster. De plus

pour les bords ducluster, l’information est stockée séparement pour chaquesampling;

— problèmes affectant des cellules isolées :

parmi les 182468 cellules du calorimètre à argon liquide, certaines sont définitivement

inutilisables, d’autres sont sporadiquement bruyantes et inutilisables pendant une courte

période. Parmi toutes les cellules problématiques, certaines possèdent un signal trop

dé-gradé pour être lu. Dans ce cas, la cellule n’est pas considérée (masquée) et son énergie

est remplacée par la moyenne des énergies de ses voisines. La présence d’une cellule

mas-quée ou affectée par un problème mineur dans leclusterest reportée dans le motObject

Quality. Comme pour les cartes d’électroniques frontales, l’information est enregistrée

pour lepresampler, pour le cœur et parsampling pour les bords ducluster;

— cellules très bruyantes non masquées :

il arrive quelquefois qu’une cellule très bruyante ne soit pas masquée à cause d’une

erreur dans la construction de la base de données. Ces cellules isolées peuvent conduire à

la construction d’un clusterqui sera ensuite un candidat photon. Pour identifier ce type

de pathologie, une variable spécifique, nomméeLArCleaning est calculée. Son utilisation

est détaillée dans la section 6.4.

— Problèmes dans les cellules du calorimètre hadronique :

la présence d’un problème dans le calorimètre hadronique, tel une brutale chute de la

tension dans un câble de haute tension, peut affecter le calcul de la fuite hadronique

associée à un cluster. Cette variable est cruciale pour l’identification des électrons et des

photons. Une valeur erronée pourrait entrainer une baisse des performances de réjection

des jets de particules. Cette information est calculée séparément pour le premiersampling

du calorimètre hadronique et pour les deux suivants.

6.2.2 Stratégie

Pour chacun des problèmes mentionnés dans la section précédente, une stratégie a été

dé-veloppée permettant de décider si un clusteraffecté doit être conservé.

— problèmes concernant les câbles de haute tension :

si les deux câbles de haute tension alimentant une des cellules du cœur ou des bords

du cluster ne fonctionnent pas, le cluster n’est pas conservé. En revanche, si la tension

électrique des câbles de haute tension ne correspond pas à sa valeur nominale, le gain

est adapté de manière à ce que le calcul de l’énergie soit corrigé et l’énergie du cluster

correctement évaluée. Cette situation arrive régulièrement après une chute brutale de la

haute tension. Si les données récoltées pendant la chute ne sont pas utilisables, grâce à la

procédure d’adaptation du gain les données récoltées pendant la remontée de la tension

à sa valeur nominale peuvent être exploitées ;

— problèmes avec les cartes d’électronique frontales :

si une cellule du cœur duclusterou des bords appartenant aux sampling1 etsampling2

se situe dans une région où la carte d’électronique frontale ne fonctionne pas, le cluster

n’est pas utilisé. Dans le cas où seul le sampling 3 est affecté, l’impact sur la mesure

de l’énergie et des variables de la forme de la gerbe est faible. Pour réduire la perte

d’acceptance, il a été décidé de ne pas enlever les clusters où seul le sampling 3 est

affecté ;

— problèmes affectant des cellules isolées :

lorsque le cœur d’un cluster contient une cellule masquée, ce cluster n’est pas utilisé

pour les analyses de physique. En effet, lorsqu’une cellule est masquée, son énergie est

calculée comme la moyenne des énergies des cellules voisines. Le dépôt d’énergie dans

un cluster est en géneral très localisé, la majorité de l’énergie est récoltée sur quelques

cellules dans le cœur du cluster. L’impossibilité de calculer directement l’énergie d’une

de ces cellules dégrade considérablement la mesure de l’énergie du cluster. En revanche,

si la cellule masquée se situe dans les bords ducluster, l’impact sur la mesure de l’énergie

est mineur.

Pour les photons, un critère supplémentaire est appliqué : si une cellule masquée est

présente dans une des huits cellules centrale du premier sampling du cluster alors le

candidat photon n’est pas conservé. Ce critère est nécessaire car le sampling 1 joue un

rôle déterminant dans la réjection des jets de particules dominés par une composante

neutre tel qu’unπ0;

— cellules très bruyantes non masquées :

une procédure spécifiquement adaptée à ce problème a été développée. Elle sera détaillée

dans la section 6.4.

6.3 Quelques exemples de pathologies

6.3.1 Procédure en 2010

Le mot Object Qualitya été implémenté en 2010 dansathena, le programme de traitement

des données d’ATLAS, durant la première prise de données en collisions proton-proton. En

parallèle, quelques cartes (map) du détecteur, prenant en compte les principales pathologies

(câbles haute tensions, cartes d’électroniques), ont été produites. Ces cartes indiquent la position

des cellules affectées dans le plan (η,φ) du calorimètre électromagnétique. Nous avons validé le

comportement du mot Object Quality par rapport à ces cartes. Les différences entre les deux

approches étaient très faibles, de l’ordre de 1 %. Cependant le motObject Qualitypossède deux

avantages importants par rapport aux cartes :

1. Le calcul du mot Object Quality prend en compte toutes les cellules du calorimètre à

argon liquide alors que les cartes, produites en dehors de l’infrastructure ATHENA, ne

peuvent pas rendre compte d’une telle granularité.

2. Au cours de la prise de données, les problèmes rapportés sont automatiquement pris en

compte dans le motObject Quality. La production de quelques cartes n’est qu’une

esti-mation grossière des problèmes. Par exemple, les cellules temporairement indisponibles

ne peuvent pas être prises en compte dans les cartes.

Toutefois, étant donné la faible différence entre les deux approches, il a été décidé d’utiliser ces

cartes pour les données de 2010. Par contre le mot Object Quality est devenu l’approche par

défaut pour les données de 2011 et 2012.

La prise de données de 2010 a été marquée par la perte de quelques cartes d’électronique

frontale, principalement due à des liens optiques défectueux. Ces cartes défectueuses ainsi que

d’autres problèmes plus mineurs ont entrainé une perte d’acceptance d’environ 6 % d’électrons.

La perte d’acceptance a également été prise en compte dans les échantillons de simulations

utilisés pour les analyses. Cependant, la présence des régions défectueuses a été simulée après

que les échantillons aient été traités par les algorithmes de reconstruction. En conséquence, on

note des différences dans le comportement de ces algorithmes entre les données et les échantillons

de simulation : le barycentre desclustersaffectés avait tendance à être déplacé dans les données

mais ne l’était pas dans les simulations. Cet effet a induit une incertitude de l’ordre de 0.5 %

sur l’évaluation de la perte d’acceptance par objet électromagnétique.

6.3.2 Evolution de la prise de données de 2011

Sur la figure 6.1, une carte en coordonnées (η,φ) illustre les principales pathologies affectant

le calorimètre électromagnétique. Durant la période de prise de données choisie, (en 2011, run

189822,LumiBlocks 385–822) un secteur avec les deux câbles de haute tension non utilisables,

quelques cartes d’électronique frontale défectueuses et quelques cellules masquées ont affecté

le calorimètre. La présence d’un secteur avec les deux câbles de haute tension non utilisables

est un phénomène très rare, cette période de prise de données est la seule pendant laquelle la

situation est arrivée.

Figure6.1 – Carte (η,φ) du calorimètre électromagnétique illustrant les pathologies principales

affectant les électrons et les photons. La carte représente le statut du calorimètre pour la période

de prise de données (run) 189822 enregistrée en 2011 entre les LumiBlock385 et 822.

Au cours de la prise de données, la situation du calorimètre évolue. Cette évolution peut

être suivie en calculant pour chaque période de prise de données, la fraction d’électrons ou de

photons qui est enlevée des analyses. La figure 6.2 illustre cette évolution pour des électrons

issus de la désintégration d’un bosonZ dans les données récoltées en 2011 ainsi que dans deux

campagnes de simulation (MC11a et MC11b). Cette figure montre que la simulation a été faite

en considérant quatre grandes périodes. Chacune correspond à une configuration spécifique

de la base de données des défauts du calorimètre. Pour trois des quatre périodes, la fraction

d’électrons enlevés des analyses des données est assez faible (0.3 %). Dans la seconde période,

entre lerun180614 et lerun185352, six cartes d’électronique frontale ont cessé de fonctionner en

raison d’une alimentation électrique défectueuse. Ce problème résulte en une perte d’acceptance

dans le calorimètre d’environ 1 % durant cette période. Comme on peut le voir sur la figure 6.2,

le comportement du critère de qualité est bien reproduit dans la simulation MC11b sur toute la

période de la prise de données de 2011. Les deux dernières périodes de la simulation MC11a ont

été simulées avec une version de la base de données qui n’était pas représentative des données

(des cartes d’électronique frontale défectueuses ont été ajoutées), il en résulte une différence de

0.5 % entre les données et la simulation MC11a (c.f. figure 6.2).

RunNumber

178 180 182 184 186 188 190 192

3

10

×

Ef

fi

c

ie

n

c

y

l

o

s

s

(

%

)

0

0.5

1

1.5

2

2.5

Data

mc11a

mc11b

RunNumber

178 180 182 184 186 188 190 192

3

10

×

(Data-MC)%

-1.5

-1

-0.5

0

0.5

1

1.5

mc11a

fit mc11a

mc11b

fit mc11b

Figure 6.2 – Fraction d’électrons enlevés en tenant compte des critères de qualité en fonction

de la période de prise de données (run). Le calcul est effectué pour des événementsZe+e

enregistrés en 2011 et pour les simulations MC11a et MC11b. Le graphique du bas représente

la différence entre les données et la simulation en %.

La figure 6.3 illustre l’impact des critères de qualité sur les photons reconstruits. Comme

pour le cas des électrons, on note un bon accord entre les données et la simulation MC11b.

On note également que dans les périodes un, trois et quatre, la fraction de photons enlevés

des analyses est de l’ordre de 0.8 % alors que cette fraction est de 0.3 % pour les électrons.

Cette différence est liée au critère supplémentaire qui s’applique aux photons sur le sampling

1 du calorimètre. Toutefois, malgré cette perte plus importante liée aux cellules masquées, la

fraction de photons enlevés dans la seconde période est d’environ 1.4 % ce qui est similaire aux

électrons. Ceci s’explique par la taille des clustersdes photons non convertis qui est plus petite

que celle des électrons. Ainsi la probabilité qu’un clustersoit dans une région affectée par une

carte d’électronique frontale défectueuse est inférieure pour un photon non converti que pour

un électron.

RunNumber

178 180 182 184 186 188 190 192

3

10

×

Ef

fi

c

ie

n

c

y

l

o

s

s

(

%

)

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Data

mc11a

mc11b

RunNumber

178 180 182 184 186 188 190 192

3

10

×

(Data-MC)%

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

mc11a

fit mc11a

mc11b

fit mc11b

Figure 6.3 – Fraction de photons enlevés en tenant compte des critères de qualité en fonction

de la période de prise de données (run). Le calcul est effectué pour des événements avec au moins

un photon reconstruit enregistrés en 2011 et des simulations MC11a et MC11b d’événements

Documents relatifs