Universit´ e de Nice L1MASS, ann´ ee 2015-2016
D´ epartement de Math´ ematiques Statistique
Cours 04
Quantiles d’une loi normale empirique, th´ eorique, simul´ e
1 Quantiles, d´ eciles k/10, fractiles k/d
Nous avons vu la d´ efinition des quartiles Q
1, Q
2, et Q
3d’un ´ echantillon ; c’est un cas particulier de quantile q d’une proportion p = k/d (ou d-fractile) : on cherche un nombre q tel qu’une proportion p des individus de l’´ echantillon v´ erifient x
i≤ q. Lorsque p = 10%, 20%, . . ., 90%, les quantiles q
1, q
2, . . ., q
9correspondants s’appellent des d´ eciles. Ceci n’est g´ en´ eralement possible qu’approximativement (par exemple si la taille de l’´ echantillon n’est pas un multiple de d). En pratique, pour p = k/d on choisira
1q
k=sort(x)[n*k/d] , ou mieux : q
k=sort(x)[ceiling(n*k/d)]
2 Quantiles d’une loi normale
D´ esignons par F
µ,σla fonction de r´ epartition d’une loi normale N (µ, σ) (ou gaussienne). En d’autres termes F
µ,σ= ∫
x−∞√1 2π
e
− t2
2σ2
dt ; c’est par d´ efinition la probabilit´ e d’ˆ etre inf´ erieure ` a x d’une grandeur al´ eatoire qui suit une loi N (µ, σ). Ici il est facile de d´ efinir le quantile de p
k= k/d de la loi N (µ, σ) : c’est le nombre
2q
ktel que F
µ,σ(q
k) = p
k(= k/d). Il existe bien et est unique pourvu que 0 < p
k< 1, puisque F
µ,σest continue, strictement croissante, et de valeurs F
µ,σ(] −∞ , + ∞ [) =]0, 1[. Sa valeur est donn´ ee, par R, par la fonction qnorm(p,mu,sigma), si p= p
k, mu= µ, et sigma= σ. En d’autres termes, c’est le nombre q
ktel que la probabilit´ e d’ˆ etre inf´ erieure ` a ce nombre est ´ egale ` a p
k. Nous voyons donc ici qu’on a juste remplac´ e “proportion” par “probabilit´ e” en passant d’empirique
3` a th´ eorique. En th´ eorie des probabilit´ es, c’est la Loi des Grands Nombres qui motive cette relation entre “proportion” et “probabilit´ e”.
3 Valeurs exceptionnelles d’un ´ echantillon th´ eorique
Consid´ erons la loi gaussienne N (µ, σ) associ´ ee ` a un ´ echantillon x. La boite ` a moustaches th´ eorique est alors donn´ ee par Q
1=Q1=qnorm(0.25,mu,sigma)= 17.50790, Q
2=Q2=qnorm(0.50,mu,sigma)=
18.80238, Q
3=Q3=qnorm(0.75,mu,sigma)= 20.09687, et la longueur maximale des moustaches est L =1.5*(Q3-Q1)= 3.883452.
Si mu= µ = 0 et si sigma= σ = 1, l’interquartile vaut Q
3− Q
1= 1.34898 et la longueur maximale des moustaches vaut 1.5(Q
1− Q
3) = 2.023469. Les valeur exceptionnelles de x sont donc celles qui sont inf´ erieures ` a q
min= Q
1− L = − 2.697959 ou sup´ erieures ` a q
max= Q
3+ L = 2.697959. La probabilit´ e p
mind’ˆ etre inf´ erieur ` a q
minest alors de 0.003488302, et la probabilit´ e p
maxd’ˆ etre sup´ erieur ` a q
maxest alors de 0.003488302
4 Comparaison des quantiles empiriques et th´ eorique
Nous avons d´ ej` a vu qu’en statistique un ´ echantillon x pr´ esentant un histogramme en cloche sugg` ere un mod` ele gaussien N (µ, σ), avec µ =mean(x) et σ =sd(x), qu’on peut “tester” visuellement, en superposant
`
a l’histogramme (en densit´ e ou proportions e
k/n, par freq=F)) la courbe du graphe de la fonction de densit´ e de N (µ, σ). Une meilleure fa¸con de tester si un mod` ele gaussien pour x est pertinent est de comparer les fractiles q
kde p
k= k/d de l’´ echantillon et les fractiles th´ eoriques F
µ,σ−1(p
k), pour k = 1, . . . , d − 1. Pour l’´ echantillon x=survey.cc$WrHnd, nous trouvons µ =mean(x)= 18.80238 et σ =sd(x)=
1.919205. Nous obtenons, pour d = 4, les quartiles empiriques et th´ eoriques suivants :
empirique 17.5 18.5 20.0
th´ eorique 17.50790 18.80238 20.09687
1. Raccepte des num´eros non entiers : il utilise alors la partie enti`ere du nombre pass´e comme num´ero.
2. ou encoreqk=Fµ,σ−1(pk), o`uFµ,σ−1 fonction r´eciproquedeFµ,σ, qui est d´efinie pour toutp∈]0,1[.
3. empirique : qui (ne) s’appuie (que) sur l’exp´erience ; nous utilisons ici le mot “empirique” pour d´esigner ce qui est relatif `a un ´echantillon issue de la mesure d’un caract`ere pour une famille d’individus, comme ceux fournis par la biblioth`eque (en anglais : library)MASSdeR.
1
Pour d = 10, nous obtenons les d´ eciles empiriques et th´ eoriques suivants :
empirique 16.5 17.5 17.6 18.0 18.5 18.9 19.5 20.5 21.5
th´ eorique 16.34282 17.18714 17.79595 18.31616 18.80238 19.28861 19.80881 20.41762 21.26194
5 QQ-plot : comparaison de quantiles
La commande QQ-plot permet de comparer les quantiles d’un ´ echantillon avec ceux d’une loi normale (aussi appel´ ee gaussienne), ou les quantiles de deux caract` ere distincts. Voici le r´ esultat pour l’´ echantillon NWHnd de survey, compar´ e ` a une lois gaussienne centr´ ee r´ eduite, et ` a l’´ echantillon WrHnd.
−2 −1 0 1 2
1416182022
Q−Q Plot gaussien
Quantiles théoriques gaussiens
Quantiles de l’échantillon
14 16 18 20 22
1416182022
Writing Hand
Non−Writing Hand
Rappelons qu’on avait les boˆıtes ` a moustaches suivantes pour WrHnd (` a gauche) et NWHnd (` a droite).
Les paliers observ´ es sur le QQ-plot de NWHnd contre une loi gaussienne semblent dˆ us au fait que les d´ ecimales 0 et 5 semblent avoir ´ et´ e favoris´ ees dans les mesures relev´ ees pour ce caract` ere, comme le r´ ev` ele l’histogramme des parties d´ ecimales de NWHnd (` a droite, ci-dessous).
1 2
1416182022
Histogram of y − floor(y)
y − floor(y)
Frequency
0.0 0.2 0.4 0.6 0.8
01020304050