Algorithmes de haut niveau - Algorithmes d’identification des jets issus de l’hadronisation d’u

Identification des jets issus de l’hadronisation

5.3 Algorithmes d’identification des jets issus de l’hadronisation d’un quark b

5.3.2 Algorithmes de haut niveau

Les variables construites par les algorithmes de bas niveau, IPxD, SV1 et JetFitter, sont ensuite combinées au sein d’arbres de décision boostés (BDT). Deux autres variables, l’impulsion transverse et le pseudo-rapidité des jets, sont ajoutées à la liste des variables exploitées par le BDT. L’ajout des variables cinématiques permet

d’exploiter les corrélations avec les autres variables. La liste complète est donnée dans le tableau5.1. Ces arbres

de décision sont implémentés dans l’algorithme de haut niveau, MV2, à partir de l’environnement TMVA [142]

(Toolkit for Multivariate Analysis) intégré à ROOT, qui est une librairie contenant de nombreuses techniques d’analyse multivariée.

Les arbres de décision boostés (BDT)

Les arbres de décision appartiennent à la famille des algorithmes à apprentissage supervisé permettant de construire une fonction de classement pour prédire le groupe d’appartenance d’un individu à partir d’un ensemble de descripteurs (variables discriminantes). Dans notre cas, l’arbre de décision nous indiquerait pour

chaque événement si les variables exploitées (tableau5.1) identifient un jet comme un jet de b (signal, S) ou

non (bruit de fond, B). Le principe d’un arbre de décision est montré sur la figure5.8(a). La construction d’un

discriminant à partir d’un arbre de décision nécessite une phase d’apprentissage sur une population statistique

devant représenter au mieux la réalité. La figure5.8(b)est un exemple d’un tel discriminant.

Un arbre de décision boosté (BDT) fait intervenir le concept de gradient boosting. Le boosting est une méthode qui permet d’améliorer la fonction de classement que nous appellerons f (x), avec x un ensemble des variables discriminantes. L’idée générale consiste à calculer une série d’arbres de décision, où pour chaque itération

5.3 Algorithmes d’identification des jets issus de l’hadronisation d’un quark b

Table 5.1 – Les variables discriminantes d’entrée des algorithmes de haut niveau. Elles sont fournies par les

algorithmes de bas niveau sauf deux d’entre elles : p_T et η.

Source Variable description

Cinématique ^pT impulsion transverse du jet

η pseudo-rapidité du jet

IPxD ^ln(P^b^/P^u

) LLR pour séparer les b-jets des jets légers

ln(P_b/P_c) LLR pour séparer les b-jets des c-jets

ln(P_c/P_u) LLR pour séparer les c-jets des jets légers

SV1

m(SV) masse invariante des traces du vertex secondaire

f_E(SV) fraction d’énergie du vertex secondaire

NTrkAtVtx(SV) nombre de traces associées au vertex secondaire

N2TrkVtx(SV) nombre de paires de traces associées au vertex secondaire

L_xy(SV) distance dans le plan transverse entre les vertex primaire et secondaire

L_xyz(SV) distance entre les vertex primaire et secondaire

S_xyz(SV) signification de la longueur de désintégration en trois dimensions

∆R( ®pjet, ®pvtx⁾(SV) distance angulaire entre l’axe du jet et la direction du vertex secondaire par rapport au vertex primaire

m(JF) masse invariante des traces des vertex secondaires

f_E(JF) fraction d’énergie des vertex secondaires

NTrkAtVtx(JF) nombre de traces associées aux vertex secondaires

N2TrkVtx(JF) nombre de paires de traces associées aux vertex secondaires

S_xyz(JF) signification de la longueur de désintégration en trois dimensions

∆R( ®pjet, ®pvtx⁾(JF) distance angulaire entre l’axe du jet et la direction du vertex secondaire par rapport au vertex primaire

N1-trk-vertices(JF) distance dans le plan transverse entre les vertex primaire et secondaire N_≥2-trk-vertices(JF) distance entre les vertex primaire et secondaire

fonction de perte L(y, f (x)) où y est définie telle que

f_i = fi−1⁻γb_i, b_i(x)=^{∂L(y, f (x))}

∂ f (x)

f (x)=fi−1^(x)

(5.3)

où γ est le taux d’apprentissage (γ > 0) et b_iest le gradient de la fonction de perte.

Le BDT doit d’abord subir un entraînement sur un lot d’événements simulés appelé échantillon d’entraînement. La distinction entre signal et bruit de fond lui est donc fourni explicitement. La première étape du BDT initialise la fonction de classement à une valeur nulle , puis calcule f (x) à chaque itération. Le nombre d’itération est

limité par le nombre maximal d’arbres de décision défini. Un arbre de décision, à la i^èmeitération, fragmente

l’espace des variables qui lui sont fourni en un ensemble de régions, obtenues à partir d’une suite de sélection de type x > c, où x et c représentent une variable discriminante et son seuil de sélection. La première sélection sépare l’échantillon d’entraînement en deux, représentés sous forme de nœuds de l’arbre de décision. Ces derniers sont à leur tour séparés en deux, et ainsi de suite. L’expansion de l’arbre est limitée en définissant soit une profondeur maximale soit la taille minimale d’un nœud (si lenœud contient un nombre d’événements inférieur à une fraction), appelée MNS (Minimum Node Size), du nombre d’événements de l’entraînement. L’étape suivante consiste à appliquer ce BDT à un second lot d’événements simulés pour la validation de cet entraînement. La complexité d’un BDT réside dans le choix de ses nombreux paramètres de configuration (nombre d’arbres, profondeur, MNS, etc) en vue d’obtenir le meilleur pouvoir de discrimination entre le signal et le bruit de fond, tout en limitant les effets de surentraînement (overtraining). Le surentraînement survient

(a) (b)

Figure 5.8 – (a) Illustration d’un arbre de décision : à chaque nœud de l’arbre, l’algorithme recherche la variable, et la valeur de coupure associée, qui assure la meilleure séparation entre signal et bruit de fond. L’algorithme se poursuit alors sur les 2 nouvelles populations jusqu’à atteindre un critère d’arrêt à spécifier, en rapport avec la pureté des populations à l’arrêt de l’algorithme, appelées les feuilles de l’arbre. (b) Un exemple d’un

discriminant déterminé à partir d’un arbre de décision [142].

lorsque le BDT perd ses capacités de généralisation à d’autres échantillons. L’effet de surentraînement se manifeste par un désaccord entre le BDT de l’entraînement et celui de la validation.

L’algorithme MV2

Au début du Run2, la collaboration ATLAS a opté pour un BDT comme algorithme de haut niveau combinant les algorithmes IP2D, IP3D, SV1 et JetFitter : l’algorithme MV2. MV2 est le successeur de l’algorithme MV1

utilisé au Run1 [143], qui combinait les variables construites par les algorithmes de bas niveau IP3D, SV1 et

JetFitter. MV1 était basé sur une approche de réseau neuronal plutôt que sur un BDT.

Le BDT MV2 [139] est entraîné sur des jets dans les événements t¯t, les jets de b (1 million) étant considérés

comme signal, les jets de c (0.5 million) et légers (1 million) étant considérés comme bruit de fond. Les

propriétés cinématiques (p_T et η) des jets étant incluses dans les variables d’entrée du BDT, les jets de b

sont pondérés de telle manière que les spectres en p_T et η pour les jets de b correspondent à ceux du bruit

de font. Cette pondération évite à MV2 d’interpréter toute différence entre les spectres cinématiques des jets de b et du bruit de fond comme facteur discriminant. La composition du bruit de fond, fractions de jets

de c et de jets légers, est aussi prise en compte [139]. Trois variantes de MV2 ont été testées au début du

Run2 [139], MV2c00, MV2c10 et MV2c20, où le suffix "cxx" indiquent la fraction de jets de c dans le bruit de

fond. Par exemple pour MV2c10 (MV2c20), l’échantillon de bruit de fond serait composé de 10% (20%) de jets de c. Après l’optimisation du MV2c10, la fraction des jets de c est passée à 7% (au lieu de 10%). Pour l’entraînement MV2c10, le nombre d’arbre d’arbres est fixé à 1000, la profondeur maximale à 30 et le MNS

à 0.05 (5%). La figure5.9(a)montre le discriminant MV2c10 et la figure5.9(b)décrit la performance des

algorithmes développés pour l’analyse des données 2015-2016 pour différentes fractions de c-jets, comparée à la performance du MV2c10 de 2015. Il est important de noter que la différence entre les performances des algorithmes de 2015 et ceux de 2015-2016 ne vient uniquement pas de la composition du bruit de fond, mais

5.3 Algorithmes d’identification des jets issus de l’hadronisation d’un quark b

aussi des améliorations apportées aux algorithmes de bas niveau [139,144]. Le tableau5.2contient les critères

de sélection utilisés dans les analyses dont la recherche d’un nouveau boson W0.

MV2c10 BDT Output 1 − −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 Arbitrary units 3 − 10 2 − 10 1 − 10 1 10

ATLAS Simulation Preliminary t = 13 TeV, t s b jets

Dans le document Recherche d'un nouveau boson massif W' se désintégrant en un quark top et un quark b avec le détecteur ATLAS au LHC (Page 83-86)