Qualité des données
Sommaire
6.1 Introduction . . . 103
6.2 Qualité des objets électromagnétiques . . . 105
6.2.1 Objectif . . . 105
6.2.2 Stratégie . . . 106
6.3 Quelques exemples de pathologies . . . 107
6.3.1 Procédure en 2010 . . . 107
6.3.2 Evolution de la prise de données de 2011 . . . 107
6.3.3 Impact du calorimètre hadronique dans les données de 2012 . . . 111
6.4 Traitement particulier des photons . . . 113
6.4.1 Objectif . . . 113
6.4.2 LArCleaning . . . 113
6.4.3 Sélection des échantillons . . . 114
6.4.4 Procédure de nettoyage . . . 120
6.5 Conclusion . . . 123
6.1 Introduction
Les données récoltées par ATLAS sont régulièrement contrôlées au cours de la prise et du
traitement des données. La procédure consiste en un premier contrôle effectué pendant la prise
de données puis un second après leur enregistrement.
Le premier contrôle (online monitoring) est effectué par les opérateurs (detector shifters) en
temps réel sur une petite fraction des données dans la salle de contrôle de l’expérience. Au cours
de cette étape, les opérateurs se concentrent principalement sur les problèmes compromettant le
détecteur sans aucune chance que les données récoltées ne puissent être exploitées. Il s’agit par
exemple d’un important décalage en temps du détecteur par rapport à l’horloge du LHC. Durant
la prise de données, résoudre les problèmes de bruit dans les calorimètres est une tâche difficile.
C’est pourquoi, tant que le taux de déclenchement du détecteur reste raisonnable, trouver les
sources de bruits dans les calorimètres n’est pas une priorité au cours de cette étape. Dans
le cas contraire, la tour calorimétrique (c.f. section 4.2.6) affectée est désactivée ou le taux de
déclenchement est limité manuellement (prescale).
Le second contrôle (offline monitoring) est effectué sur les données enregistrées. Les données
d’ATLAS sont organisées en différents flots (stream). Chaque flot correspond à des données
collectées avec une série de critères de déclenchements. Ces flots se répartissent en deux grandes
catégories : les flots d’étalonnage du détecteur (calibration streams) et les flots de données pour
les analyses de physique (physics streams). Les flots d’étalonnage fournissent des informations
détaillées sur les conditions de la prise de données (luminosité, empilement, bruit électronique,
position des vertex,. . .). Comme ces informations sont nécessaires au traitement des données
provenant des flots de physique, les données enregistrées sur les flots d’étalonnage sont traitées
rapidement (express processing) après le démarrage d’une période de prise de données (run).
Les données enregistrées sur les flots de physique sont traitées 48 h après la fin de la période de
prise de données. Cette période de 48 h, appeléecalibration loop, est mise à profit par le groupe
en charge de la qualité des données (data quality group) pour vérifier le statut des différents
détecteurs et mettre à jour la base de données qui reflète ce statut.
De manière à déterminer la qualité des données enregistrées dans les calorimètres à argon
liquide, on utilise les flots d’étalonnage suivants :
— le flotExpress streamcomprend une partie importante des données (≈10-15 % du total).
Ces données sont caractéristiques des chaînes de déclenchement les plus utilisées pour
les analyses de physique ;
— le flotCosmicCalo streamcontient des événements collectés dans les emplacements vides
des trains du LHC (empty bunch groups) où aucune collision n’est attendue. Ce flot est
utilisé pour contrôler le bruit du détecteur ainsi que le bruit de fond induit par les muons
cosmiques et par le faisceau du LHC ;
— le flotLArCells streamcontient des données de collisions où seule une partie des données
enregistrées dans les calorimètres à argon liquide est traitée. Ainsi la taille des
événe-ments enregistrés est fortement réduite. Ceci permet de diminuer les seuils du système de
déclenchement et donc d’augmenter significativement le pouvoir statistique des
échan-tillons récoltés. Ces échanéchan-tillons permettent d’effectuer des études précises comme par
exemple l’extraction de la forme du signal dans chaque cellule du calorimètre à argon
liquide ;
— le flotLarCellsEmpty streamutilise le même principe que le flotLArCells streammais est
dédié à l’étude desempty bunch groups. Le but de ce flot est de contrôler les conditions
de bruit avec des seuils de déclenchement très faibles.
Les flots d’étalonnage contenant des événements de collision (Express stream et LArCells
stream) sont utilisés pour identifier les problèmes de corruption des données, d’alignement en
temps des détecteurs et les bouffées de bruits cohérents (noise burst). Les flots CosmicCalo
stream et LArCellsEmpty stream, contenant des événements enregistrés en l’absence de
colli-sions, sont utilisés pour identifier les problèmes isolés dans une ou quelques cellules du
calori-mètre. L’établissement de la qualité des données et la mise à jour de la base de données requise
pour réparer les éventuels problèmes doivent être effectués dans les 48 h suivant la fin de la
période de prise de données.
A chaque étape du traitement des données, chaque problème affectant la qualité des données
est reporté dans une base de données. La façon la plus simple et flexible de tenir compte de
la perte de données consiste à établir un statut d’anomalie (defect) à une fenêtre temporelle
fixe (Lumiblock) de prise de données [140]. Pour les calorimètres à argon liquide, environ 150
anomalies ont été établies durant les prises de données effectuées en 2011 et 2012. Une anomalie
peut se voir attribuer le statut de «intolérable» ce qui implique une rejet systématique des
données enregistrées dans leLumiBlockou un statut de «tolérable» qui signifie que les données
sont de bonne qualité : l’anomalie fournit simplement une information sur le statut du détecteur
au moment où les données ont été enregistrées.
La liste des défauts est utilisée pour produire une liste de LumiBlocks déclarés bons pour
l’analyse physique. Cette infrastructure est très efficace et permet de décrire et de correctement
prendre en compte les pertes de données. De plus, elle est très flexible puiqu’une nouvelle liste de
bonsLumiBlockspeut être produite instantanément après avoir implémenté un nouveau défaut.
Cependant, cette infrastructure permet uniquement de décider si unLumiBlockest conservé
ou non. Elle ne peut pas gérer efficacement les problèmes du détecteur qui ont une durée
inférieure à la durée typique d’unLumiBlock(i.e. environ une minute). Pour réduire la perte de
données liée à ce type de problèmes, une méthode complémentaire est utilisée. Un mot, nommé
status word, contenant des informations sur le statut du détecteur est enregistré pour chaque
événement. Puisque ce mot est enregistré dans les données des flots de physique pour chaque
événement en lisant la base de données des défauts, sa définition (la liste des défauts qui le
compose) doit être établie avant que ces données soient traitées, c’est à dire durant les 48 h de
délai de la calibration loop. Cette méthode est donc moins flexible que l’approche des défauts
mais elle permet de rejeter une plus petite quantité de données.
6.2 Qualité des objets électromagnétiques
6.2.1 Objectif
En suivant la même approche que le status word, un mot a également été calculé pour
chaque cluster électromagnétique reconstruit dans les calorimètres à argon liquide. Ce mot,
nommé Object Quality, permet de stocker une série d’informations sur le statut des cellules
qui composent le cluster. Il permet de retirer des études physiques les clusters affectés par
un problème très localisé dans le temps ou dans l’espace, tel qu’une cellule morte. Le mot
Object Qualitypermet aussi de gérer de façon précise des problèmes sur une longue période qui
n’affectent qu’une petite partie du calorimètre, tels le mauvais fonctionnement d’un câble haute
tension ou de cartes d’acquisition frontales.
L’information stockée pour chaque clusterest un résumé des informations disponibles dans
la base de données pour chaque cellule. On considère alors le cluster comme étant composé
de deux parties distinctes : le cœur et les bords. Le cœur est constitué des cellules centrales
(∆η×∆φ = 3×3) du cluster situées dans le second sampling. Les bords sont consitués de
l’ensemble des cellules duclusterqui ne sont pas dans le cœur. Enfin, on s’intéressera également
aux cellules dupresamplerainsi qu’aux cellules du calorimètre hadronique utilisées pour calculer
les variables de fuite hadronique. L’information stockée couvre différentes pathologies :
— problèmes concernant les câbles de haute tension :
durant la prise de données, il arrive parfois qu’un câble de haute tension ne fonctionne
pas ou bien qu’il ne soit pas à sa valeur nominale. Si une cellule composant le cluster
d’un électron ou d’un photon est alimentée par ce câble, son énergie risque d’être mal
déterminée. Cette information est donc reportée dans le motObject Qualityséparement
pour lepresampler, le cœur et les bords du cluster;
— problèmes concernant les cartes d’électronique frontale :
durant la prise de données, il peut arriver qu’une carte d’électronique frontale ne
fonc-tionne plus. L’énergie déposée dans une cellule qui dépend de cette carte ne pourra pas
être calculée. Si leclustercontient une telle cellule, le calcul de son énergie et des variables
caractéristiques de la gerbe en seront affectés. Cette information est stockée dans le mot
Object Quality séparement pour le presampler, le cœur et les bords du cluster. De plus
pour les bords ducluster, l’information est stockée séparement pour chaquesampling;
— problèmes affectant des cellules isolées :
parmi les 182468 cellules du calorimètre à argon liquide, certaines sont définitivement
inutilisables, d’autres sont sporadiquement bruyantes et inutilisables pendant une courte
période. Parmi toutes les cellules problématiques, certaines possèdent un signal trop
dé-gradé pour être lu. Dans ce cas, la cellule n’est pas considérée (masquée) et son énergie
est remplacée par la moyenne des énergies de ses voisines. La présence d’une cellule
mas-quée ou affectée par un problème mineur dans leclusterest reportée dans le motObject
Quality. Comme pour les cartes d’électroniques frontales, l’information est enregistrée
pour lepresampler, pour le cœur et parsampling pour les bords ducluster;
— cellules très bruyantes non masquées :
il arrive quelquefois qu’une cellule très bruyante ne soit pas masquée à cause d’une
erreur dans la construction de la base de données. Ces cellules isolées peuvent conduire à
la construction d’un clusterqui sera ensuite un candidat photon. Pour identifier ce type
de pathologie, une variable spécifique, nomméeLArCleaning est calculée. Son utilisation
est détaillée dans la section 6.4.
— Problèmes dans les cellules du calorimètre hadronique :
la présence d’un problème dans le calorimètre hadronique, tel une brutale chute de la
tension dans un câble de haute tension, peut affecter le calcul de la fuite hadronique
associée à un cluster. Cette variable est cruciale pour l’identification des électrons et des
photons. Une valeur erronée pourrait entrainer une baisse des performances de réjection
des jets de particules. Cette information est calculée séparément pour le premiersampling
du calorimètre hadronique et pour les deux suivants.
6.2.2 Stratégie
Pour chacun des problèmes mentionnés dans la section précédente, une stratégie a été
dé-veloppée permettant de décider si un clusteraffecté doit être conservé.
— problèmes concernant les câbles de haute tension :
si les deux câbles de haute tension alimentant une des cellules du cœur ou des bords
du cluster ne fonctionnent pas, le cluster n’est pas conservé. En revanche, si la tension
électrique des câbles de haute tension ne correspond pas à sa valeur nominale, le gain
est adapté de manière à ce que le calcul de l’énergie soit corrigé et l’énergie du cluster
correctement évaluée. Cette situation arrive régulièrement après une chute brutale de la
haute tension. Si les données récoltées pendant la chute ne sont pas utilisables, grâce à la
procédure d’adaptation du gain les données récoltées pendant la remontée de la tension
à sa valeur nominale peuvent être exploitées ;
— problèmes avec les cartes d’électronique frontales :
si une cellule du cœur duclusterou des bords appartenant aux sampling1 etsampling2
se situe dans une région où la carte d’électronique frontale ne fonctionne pas, le cluster
n’est pas utilisé. Dans le cas où seul le sampling 3 est affecté, l’impact sur la mesure
de l’énergie et des variables de la forme de la gerbe est faible. Pour réduire la perte
d’acceptance, il a été décidé de ne pas enlever les clusters où seul le sampling 3 est
affecté ;
— problèmes affectant des cellules isolées :
lorsque le cœur d’un cluster contient une cellule masquée, ce cluster n’est pas utilisé
pour les analyses de physique. En effet, lorsqu’une cellule est masquée, son énergie est
calculée comme la moyenne des énergies des cellules voisines. Le dépôt d’énergie dans
un cluster est en géneral très localisé, la majorité de l’énergie est récoltée sur quelques
cellules dans le cœur du cluster. L’impossibilité de calculer directement l’énergie d’une
de ces cellules dégrade considérablement la mesure de l’énergie du cluster. En revanche,
si la cellule masquée se situe dans les bords ducluster, l’impact sur la mesure de l’énergie
est mineur.
Pour les photons, un critère supplémentaire est appliqué : si une cellule masquée est
présente dans une des huits cellules centrale du premier sampling du cluster alors le
candidat photon n’est pas conservé. Ce critère est nécessaire car le sampling 1 joue un
rôle déterminant dans la réjection des jets de particules dominés par une composante
neutre tel qu’unπ0;
— cellules très bruyantes non masquées :
une procédure spécifiquement adaptée à ce problème a été développée. Elle sera détaillée
dans la section 6.4.
6.3 Quelques exemples de pathologies
6.3.1 Procédure en 2010
Le mot Object Qualitya été implémenté en 2010 dansathena, le programme de traitement
des données d’ATLAS, durant la première prise de données en collisions proton-proton. En
parallèle, quelques cartes (map) du détecteur, prenant en compte les principales pathologies
(câbles haute tensions, cartes d’électroniques), ont été produites. Ces cartes indiquent la position
des cellules affectées dans le plan (η,φ) du calorimètre électromagnétique. Nous avons validé le
comportement du mot Object Quality par rapport à ces cartes. Les différences entre les deux
approches étaient très faibles, de l’ordre de 1 %. Cependant le motObject Qualitypossède deux
avantages importants par rapport aux cartes :
1. Le calcul du mot Object Quality prend en compte toutes les cellules du calorimètre à
argon liquide alors que les cartes, produites en dehors de l’infrastructure ATHENA, ne
peuvent pas rendre compte d’une telle granularité.
2. Au cours de la prise de données, les problèmes rapportés sont automatiquement pris en
compte dans le motObject Quality. La production de quelques cartes n’est qu’une
esti-mation grossière des problèmes. Par exemple, les cellules temporairement indisponibles
ne peuvent pas être prises en compte dans les cartes.
Toutefois, étant donné la faible différence entre les deux approches, il a été décidé d’utiliser ces
cartes pour les données de 2010. Par contre le mot Object Quality est devenu l’approche par
défaut pour les données de 2011 et 2012.
La prise de données de 2010 a été marquée par la perte de quelques cartes d’électronique
frontale, principalement due à des liens optiques défectueux. Ces cartes défectueuses ainsi que
d’autres problèmes plus mineurs ont entrainé une perte d’acceptance d’environ 6 % d’électrons.
La perte d’acceptance a également été prise en compte dans les échantillons de simulations
utilisés pour les analyses. Cependant, la présence des régions défectueuses a été simulée après
que les échantillons aient été traités par les algorithmes de reconstruction. En conséquence, on
note des différences dans le comportement de ces algorithmes entre les données et les échantillons
de simulation : le barycentre desclustersaffectés avait tendance à être déplacé dans les données
mais ne l’était pas dans les simulations. Cet effet a induit une incertitude de l’ordre de 0.5 %
sur l’évaluation de la perte d’acceptance par objet électromagnétique.
6.3.2 Evolution de la prise de données de 2011
Sur la figure 6.1, une carte en coordonnées (η,φ) illustre les principales pathologies affectant
le calorimètre électromagnétique. Durant la période de prise de données choisie, (en 2011, run
189822,LumiBlocks 385–822) un secteur avec les deux câbles de haute tension non utilisables,
quelques cartes d’électronique frontale défectueuses et quelques cellules masquées ont affecté
le calorimètre. La présence d’un secteur avec les deux câbles de haute tension non utilisables
est un phénomène très rare, cette période de prise de données est la seule pendant laquelle la
situation est arrivée.
Figure6.1 – Carte (η,φ) du calorimètre électromagnétique illustrant les pathologies principales
affectant les électrons et les photons. La carte représente le statut du calorimètre pour la période
de prise de données (run) 189822 enregistrée en 2011 entre les LumiBlock385 et 822.
Au cours de la prise de données, la situation du calorimètre évolue. Cette évolution peut
être suivie en calculant pour chaque période de prise de données, la fraction d’électrons ou de
photons qui est enlevée des analyses. La figure 6.2 illustre cette évolution pour des électrons
issus de la désintégration d’un bosonZ dans les données récoltées en 2011 ainsi que dans deux
campagnes de simulation (MC11a et MC11b). Cette figure montre que la simulation a été faite
en considérant quatre grandes périodes. Chacune correspond à une configuration spécifique
de la base de données des défauts du calorimètre. Pour trois des quatre périodes, la fraction
d’électrons enlevés des analyses des données est assez faible (≈0.3 %). Dans la seconde période,
entre lerun180614 et lerun185352, six cartes d’électronique frontale ont cessé de fonctionner en
raison d’une alimentation électrique défectueuse. Ce problème résulte en une perte d’acceptance
dans le calorimètre d’environ 1 % durant cette période. Comme on peut le voir sur la figure 6.2,
le comportement du critère de qualité est bien reproduit dans la simulation MC11b sur toute la
période de la prise de données de 2011. Les deux dernières périodes de la simulation MC11a ont
été simulées avec une version de la base de données qui n’était pas représentative des données
(des cartes d’électronique frontale défectueuses ont été ajoutées), il en résulte une différence de
0.5 % entre les données et la simulation MC11a (c.f. figure 6.2).
RunNumber
178 180 182 184 186 188 190 192
3
10
×
Ef
fi
c
ie
n
c
y
l
o
s
s
(
%
)
0
0.5
1
1.5
2
2.5
Data
mc11a
mc11b
RunNumber
178 180 182 184 186 188 190 192
3
10
×
(Data-MC)%
-1.5
-1
-0.5
0
0.5
1
1.5
mc11a
fit mc11a
mc11b
fit mc11b
Figure 6.2 – Fraction d’électrons enlevés en tenant compte des critères de qualité en fonction
de la période de prise de données (run). Le calcul est effectué pour des événementsZ →e+e−
enregistrés en 2011 et pour les simulations MC11a et MC11b. Le graphique du bas représente
la différence entre les données et la simulation en %.
La figure 6.3 illustre l’impact des critères de qualité sur les photons reconstruits. Comme
pour le cas des électrons, on note un bon accord entre les données et la simulation MC11b.
On note également que dans les périodes un, trois et quatre, la fraction de photons enlevés
des analyses est de l’ordre de 0.8 % alors que cette fraction est de 0.3 % pour les électrons.
Cette différence est liée au critère supplémentaire qui s’applique aux photons sur le sampling
1 du calorimètre. Toutefois, malgré cette perte plus importante liée aux cellules masquées, la
fraction de photons enlevés dans la seconde période est d’environ 1.4 % ce qui est similaire aux
électrons. Ceci s’explique par la taille des clustersdes photons non convertis qui est plus petite
que celle des électrons. Ainsi la probabilité qu’un clustersoit dans une région affectée par une
carte d’électronique frontale défectueuse est inférieure pour un photon non converti que pour
un électron.
RunNumber
178 180 182 184 186 188 190 192
3
10
×
Ef
fi
c
ie
n
c
y
l
o
s
s
(
%
)
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Data
mc11a
mc11b
RunNumber
178 180 182 184 186 188 190 192
3
10
×
(Data-MC)%
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
mc11a
fit mc11a
mc11b
fit mc11b
Figure 6.3 – Fraction de photons enlevés en tenant compte des critères de qualité en fonction
de la période de prise de données (run). Le calcul est effectué pour des événements avec au moins
un photon reconstruit enregistrés en 2011 et des simulations MC11a et MC11b d’événements
Dans le document
Recherche de nouveaux phénomènes dans les événements diphoton avec le détecteur ATLAS
(Page 110-135)