• Aucun résultat trouvé

3.6 M´ethodes de r´ejection statistiques

3.6.1 Th´eor`emes fondamentaux en statistique

Nous n’avons pas utilis´e la pr´ec´edente m´ethode exactement mais avons utilis´e plusieurs th´eor`emes de statistique afin de d´eriver des coupures plus fortes. Par ailleurs, nous avons essay´e de trouver des combinaisons de variables qui nous permettaient de fixer une valeur de coupure de telle fa¸con qu’une variation de cette coupure de quelques pourcents n’avait en fin de compte pas d’effet sur la qualit´e de la r´ejection.

Deux th´eor`emes statistiques fondamentaux, bien connus des math´ematiciens et des financiers, sont pr´esent´es dans cette partie. Ces th´eor`emes seront utilis´es pour d´efinir les param`etres sta- tistiques sur lesquels est ´etablie l’approche statistique des nouvelles m´ethodes de s´election des ´ev´enements avec bruits de fonds de d´etecteur d´evelopp´ees ici dans le contexte d’ATLAS. Nous nous concentrerons d’abord sur les aspects purement math´ematiques de ces th´eor`emes.

Th´eor`eme de la limite centrale

Le premier th´eor`eme est le tr`es connu th´eor`eme de la limite centrale. Ce th´eor`eme ´etablit que : – Soient X1, X2. . .Xn, une liste de variables al´eatoires identiquement et ind´ependamment dis-

tribu´ees selon la loi D de carr´e int´egrable ayant une moyenne µ et un ´ecart-type σ. On peut alors calculer la valeur moyenne et la d´eviation standard de ce lot de valeurs :

µ =n 1 n n X i=1 Xi σn= v u u t 1 n n X i=1 (Xi− µn)2 (3.6.6)

– Le th´eor`eme de la valeur centrale nous permet alors de conclure que la fonction

3.6. M ´ETHODES DE R ´EJECTION STATISTIQUES 3.6 sera distribu´ee selon une distribution gaussienne de moyenne 0 et de d´eviation standard 1 lorsque le nombre valeurs dans l’´echantillon deviendra grand :

lim

n→∞(P (Zn< z) = F (z) ∼ exp −z 2)

Ce th´eor`eme est central en statistique et celui-ci donne `a la fonction de Gauss une importance majeure dans la description des processus physiques. D`es lors que l’on r´ealise des sommes ou des moyennes de variables al´eatoires ind´ependamment et identiquement distribu´ees, la distribution r´esultante sera une gaussienne ayant les propri´et´es pr´ec´edemment annonc´ees.

Th´eor`eme des valeurs extrˆemes

Le deuxi`eme th´eor`eme fondamental en statistique est le th´eor`eme des valeurs extrˆemes aussi connu sous le nom du th´eor`eme de Fisher-Tippett-Gnedenko (pour une introduction, voir [70]).

Le th´eor`eme de la limite centrale est un th´eor`eme qui s’applique aux moyennes d’une distribu- tion. Le th´eor`eme de Fisher-Tippett-Gnedenko est en revanche un th´eor`eme qui permet d’´etudier la r´epartition des maximums et il est donc int´eressant de se pencher sur ce th´eor`eme puisque nous nous int´eressons justement aux ´ev`enements pr´esentant des cellules avec des d´epˆots d’´energie extrˆemes.

Reprenons les variables al´eatoires Xi que nous utilisions dans la pr´ec´edente discussion.

Soit maintenant Mn = max{X1, X2, . . . , Xn} le maximum des Xi. Si il existe une paire de

nombres (an, bn) tel que an > 0 et que

lim n→∞P  Mn− bn an ≤ x  = F (x) (3.6.8)

o`u F est une fonction de distribution non d´eg´en´er´ee, alors cette fonction appartient aux familles de Gumbel, Fr´echet ou Weibull. Nous reviendrons en d´etail sur ces familles de fonctions dans la suite de notre discussion.

Dans le cas qui nous concerne, nous voyons que si nous d´efinissons que lim

n→∞an= µ et limn→∞bn= σ (3.6.9)

la probabilit´e que

M − µ

σ ≤ x (3.6.10)

est bien d´efinie et il est raisonnable de consid´erer que cette probabilit´e a une d´ependance analytique en x.

Grˆace `a ce th´eor`eme nous avons donc la possibilit´e de d´efinir la probabilit´e qu’une cellule ait une ´energie sup´erieure `a une valeur de coupure. Il est en effet possible d’utiliser ce th´eor`eme pour d´ecider quelles sont les valeurs minimales de ses caract´eristiques qu’une cellule doit poss´eder afin d’ˆetre consid´er´ee comme d´eviante et de d´efinir la probabilit´e d’´echec associ´ee `a cette cellule.

C’est aussi ´equivalent `a fixer la p-value associ´ee `a un test d’hypoth`ese et donc de d´ecider si notre cellule passe le test d’hypoth`ese, dans notre cas est-ce une bonne cellule ou non.

Il n’y a pas vraiment de crit`ere bien d´efini pour d´ecider si une cellule est d´eviante ou non. Bien sur il est possible d’avoir des indices comme la forme du signal d’ionisation, des ´energies sup´erieures `a l’´energie dans le centre de masse des collisions, ou une ´energie en permanence nulle. La majorit´e du temps en revanche ce crit`ere est plutˆot subjectif.

3.6 3.6. M ´ETHODES DE R ´EJECTION STATISTIQUES

Le th´eor`eme des valeurs extrˆemes, en nous donnant un crit`ere formel pour d´efinir la probabilit´e d’´echec permet de s’affranchir de ce cˆot´e subjectif des coupures.

Avant de d´ecider de la valeur de nos coupures, revenons aux diff´erentes familles de distributions extrˆemes.

La fonction 3.6.11 est la distribution cumulative de la fonction de distribution la plus g´en´erale que l’on peut obtenir et de laquelle chacune des fonctions de distribution pr´esent´ees peut ˆetre obtenue : F (x) = exp −  1 + ξ x − µ σ −1ξ ! (3.6.11) Il est possible de calculer la densit´e de probabilit´e associ´ee en calculant la d´eriv´ee de cette fonction : f (x) = 1 σ  1 + ξ x − µ σ −1ξ −1 exp −  1 + ξ x − µ σ −1ξ ! (3.6.12) De cette fonction g´en´erale, il est possible de d´efinir les trois diff´erentes familles en fonction de la valeur du param`etre ξ.

Dans le cas o`u ξ tendrait vers 0, il faut consid´erer le cas limite et utiliser le fait que lim n→∞  1 +x n n = exp(x) (3.6.13)

Dans ce cas pr´ecis, nous obtenons alors la famille de Gumbel : F (x) = exp



− exp x − µσ 

(3.6.14) Maintenant consid´erons le cas o`u ξ est positif.

Dans ce cas nous observons que la racine ξ-ieme est au d´enominateur. Dans le cas o`u ξx−µσ = −1 nous avons donc une divergence et l’exponentielle tend finalement vers 0. Cette divergence a lieu pour x = µ −σξ

Cette valeur de x s´epare donc deux r´egimes. Pour les valeurs inf´erieures `a cette valeur de x, la probabilit´e est nulle. Dans ce cas contraire, cette probabilit´e prend la forme donn´ee par la fonction 3.6.11.

Nous utilisons une d´efinition un peu diff´erente qui peut-ˆetre vu comme le cas limite o`u ξx−µσ ≫ 1 ou comme une red´efinition des diff´erents termes pr´esents dans la formule. Par ailleurs dans ce cas la probabilit´e est nulle si x < µ′= ξµ − σ :

F (x) = 

0 si x ≤ µ

exp(−(x−µσ )−α) si x > µ

(3.6.15) Le dernier cas est le cas o`u ξ est n´egatif. Dans ce cas la racine ξ-ieme est au num´erateur. Par ailleurs le terme au sein de l’int´egrale prend la forme

1 − αx − µσ (3.6.16) o`u α = −ξ > 0 On observe alors que cette fonction est n´egative si

x > σ

3.6. M ´ETHODES DE R ´EJECTION STATISTIQUES 3.6 Dans ce cas la fonction de distribution devient divergente et la notion de probabilit´e n’est plus d´efinie. La probabilit´e vaut alors 1.

Nous pouvons ´etendre cette discussion du cas o`u le terme1 + ξ x−µ σ

−1ξ dans l’exponentielle

3.6.11 serait n´egatif aux autres fonctions de distributions. Dans ce cas pr´ecis, le terme `a l’int´erieure de l’exponentielle devient positif et l’exponentielle n’est donc plus born´ee.

Comme dans le cas pr´ec´edent, nous utilisons une forme plus pratique qui d´ecrit la famille de Weibull : F (x) = ( exp− x−µσ α si x < µ 1 si x ≥ µ (3.6.18)

Ces trois familles de distributions ne s’appliquent pas seulement au maximum. Il est possible de les utiliser pour le deuxi`eme maximum, le troisi`eme. . .et ainsi de d´eriver une bande de valeurs qui nous permettra de d´efinir la probabilit´e qu’une cellule valable ait au moins l’´energie du n-ieme maximum que l’on veut consid´erer.

Un autre aspect de ce th´eor`eme concerne maintenant le calcul de la probabilit´e d’avoir un ´ev`enement o`u l’objet consid´er´e, ici la cellule aurait des propri´et´es avec des valeurs qui exc´ederaient les valeurs maximales d´ej`a mesur´ees.

Le probl`eme que l’on veut r´esoudre est exactement un probl`eme de valeurs extrˆemes et nous voulons d´efinir la probabilit´e d’observer une cellule dont l’´energie sera sup´erieure `a une valeur de coupure. Le choix de cette probabilit´e nous permettra d’obtenir la coupure d´esir´ee. Une fois la coupure fix´ee nous pouvons donc obtenir pour une cellule donn´ee l’”´etat” de cet particule. Une cellule sera consid´er´ee mauvaise si elle poss`ede une ´energie ou toute autre quantit´e sup´erieure `a cette coupure. La probabilit´e mesur´ee peut bien sˆur ˆetre l´eg`erement diff´erente de celle obtenue `a partir du th´eor`eme des valeurs extr`emes mais en moyenne nous devons retrouver celle d´efinie par ce th´eor`eme.

Le probl`eme r´eside bien sur dans la fixation du param`etre ξ puisque cette probabilit´e d´ependra fortement de ce param`etre. Il est donc possible d’´etudier comment ces probabilit´es ´evoluent avec ξ pour ainsi avoir un r´esultat qui ne d´ependra que de ξ. L’id´eal serait donc de trouver une r´egion o`u cette probabilit´e ´evolue peu avec ξ. Une autre solution serait de d´efinir une bande en ξ et de se placer au centre de cette bande pour d´efinir le biais de notre m´ethode.

Une question se pose d´esormais. Quelle famille pouvons-nous utiliser afin de d´efinir la probabilit´e dans le cas qui nous int´eresse en ce moment ?

Le choix de la famille que l’on peut utiliser ne se fait pas au hasard. En effet, chaque famille a des propri´et´es propres qui d´ependent du type de distribution ayant amen´e ces valeurs extrˆemes.

Dans toute la suite de notre ´etude nous consid´ererons des variables telles que celles que la variable Z que nous avons construite dans la partie pr´ec´edente. Nous utiliserons par la suite la variable

Z′= Xi− µi σi

(3.6.19) o`u Xi repr´esente la valeur au temps t pour la cellule i de la variable consid´er´ee (facteur de qualit´e,

´energie. . .) µi repr´esente la valeur moyenne de X sur un intervalle de temps ∆t pour la cellule i et

σi repr´esente l’´ecart type sur l’intervalle de temps ∆t de X pour la cellule i.

Il est possible de rejeter directement, dans le cas de l’´energie, l’hypoth`ese d’une distribution de Fr´echet. Il n’y a pas de limite inf´erieure et Xi peut ˆetre inf´erieure `a µ dans le cas o`u µ est la

moyenne de l’´energie d´epos´ee ou si nous utilisons des variables comme l’impulsion selon l’axe x (px). Dans ce cas en effet la coupure peut ˆetre fix´ee `a une valeur inf´erieure `a µ.