• Aucun résultat trouvé

5.2 Analyse multivariée

5.2.1 Méthode d’analyse : le BDT

La méthode utilisée dans cette étude pour séparer les électrons bien identifiés (signal) et mal identifiés (bruit de fond) est «l’apprentissage par arbres de décision de manière stimulé», référée dans ce qui suit par BDT (de l’anglais Boosted decision trees). Dans cette méthode, on utilise une succession de noeuds de décision binaire (gauche/droite) qui vont catégoriser les événements comme étant de signal ou de bruit de fond. On débute le processus avec le noeud fondamental où on utilise une

unique variable discriminante pour déterminer si l’événement est de type bruit de fond ou signal. Dans le premier cas, on l’envoie à gauche et dans le second, à droite. Puis on reproduit le test avec une autre variable pour chacun des nouveaux noeuds et on répète la division jusqu’à ce qu’un certain noeud contienne un nombre mini- mum d’événements ou une pureté maximale (ou minimale) d’événements de signal. À chaque noeud, le choix de la variable est déterminé en prenant celle qui propose la meilleure séparation entre signal et bruit de fond, considérant l’espace de phase où se trouve ce noeud. Ce choix implique que certaines variables pourront être utilisées plusieurs fois de suite alors que d’autres peuvent ne pas être utilisées du tout. À la fin de l’arbre de décision, on se retrouve avec des «paniers» ou «feuilles», contenant un certain nombre d’événements, tous associés à un endroit spécifique de l’espace de phase. On classifie ensuite les événements contenus dans ces feuilles comme de type bruit de fond ou signal en se basant sur la majorité des événements qu’il contient. À titre d’exemple, le schéma d’un arbre de décision est illustré sur la fig. 5.3.

Dans celui-ci, la variable xi est d’abord utilisée pour séparer les événements au niveau du noeud fondamental. Ceux-ci sont considérés comme du bruit de fond si xi > c1 ou comme du signal si xi < c1 (c1 représentant le critère 1). Puis, pour chaque noeud subséquent, on utilise la variable la plus discriminante pour séparer encore une fois les événements. À gauche, on utilise la variable xj et le critère c2, alors qu’à droite on utilise une variable xjet le critère c33. Puis, pour 3 des 4 noeuds obtenus, on atteint soit un nombre minimal d’événements, une pureté maximale ou une pureté minimale d’événements de signal (dépendant des variables utilisés). Le 4e noeud, suite à un autre test basé cette fois sur la variable xk et le critère c4, est ensuite classifié de la même façon. Dans cet exemple, on aura donc que tous les événements respectant l’ensemble de critère suivant :{(xi < c1) ∪ (xj > c3) ∪ (xk > c4)}, caractérisant une région spécifique de l’espace de phase, seront classifiés comme des événements de

3Les deux variables x

j ne sont pas nécessairement la même et sont seulement identifiés de la même manière pour illustrer ici le fait qu’on se trouve au même niveau de noeuds.

bruit de fond et ainsi de suite pour les autres feuilles.

Fig. 5.3 – Schéma d’un arbre de décision [70] utilisé comme méthode d’analyse multivariée pour séparé les contributions de signal et de bruit de fond, respectivement associées aux électrons dont la charge est bien et mal identifiée. À chaque noeud de décision, on utilise la variable la plus discriminantes pour séparer les événements jusqu’à ce qu’un critère d’arrêt soit atteint. Voir le texte pour plus de détails.

Finalement, dans la méthode du BDT, l’apprentissage est «stimulé» (traduction du qualificatif Boosted ), permettant d’étendre le concept d’arbre de décision unique à plusieurs arbres, formant ainsi une «forêt». Pour ce faire, suite au calcul du premier arbre de décision, on associe un plus grand poids aux événements de signal ayant atterri dans une feuille classifiée comme bruit de fond (et vice-versa). Cela mène à un échantillon formé d’événements re-pondérés sur lequel on développe ensuite un second arbre de décision. Cette étape est répétée de 100 à 500 fois afin de créer une forêt contenant l’ensemble des arbres de décision. Le résultat final correspond alors à une moyenne pondérée du résultat obtenu avec chaque arbre de décision.

5.3

Résultats

L’analyse multivariée comporte deux phases principales : l’entraînement du BDT et l’application. La première, décrite à la section précédente, permet d’obtenir une séparation entre électrons de type bruit de fond et de type signal et comprend aussi une étape permettant de tester l’efficacité de l’entraînement du BDT. La deuxième phase fournit une manière simple d’appliquer les résultats de la première phase à différents échantillons. Dans le cas de cette étude, le BDT est entraîné sur 11.6M d’événements Z → ee et le but ultime est de pouvoir appliquer les résultats de cet entraînement sur les données provenant des collisions protons-protons afin de rejeter directement les électrons dont la charge est mal identifiée. Puis, on applique un critère pour éviter de compter 2 fois le même événement réduisant le nombre total d’électrons à 15.4M. Celui-ci diminue ensuite à 13.27M après l’application des critères d’identification (PID=TightLL2015) pour les deux électrons. De ce nombre, environ 60k ont leur charge mal identifiée et 13.21M possèdent la bonne charge électrique. Dans cette section, on présentera d’abord l’allure typique de la réponse obtenue par le BDT de même que les résultats du test de «sur-estimation» effectué automatiquement par l’algorithme d’apprentissage, puis on montrera les résultats de l’entraînement du BDT pour 15 variables et on terminera en discutant de l’influence du nombre de variables sur les résultats de l’entraînement.