• Aucun résultat trouvé

Fonction de r´ epartition et densit´ e sur l’exemple de la loi gaussienne

N/A
N/A
Protected

Academic year: 2022

Partager "Fonction de r´ epartition et densit´ e sur l’exemple de la loi gaussienne"

Copied!
2
0
0

Texte intégral

(1)

Universit´ e de Nice L1MASS, ann´ ee 2015-2016

D´ epartement de Math´ ematiques Statistique

Cours 02

Fonction de r´ epartition et densit´ e sur l’exemple de la loi gaussienne

1 Densit´ e

Histogram of x

x

Density

14 16 18 20 22 24

0.000.050.100.150.20

Histogram of y

y

Density

12 14 16 18 20 22 24

0.000.050.100.150.20

Histogram of z

z

Density

15 20 25

0.000.050.100.150.20

La notion d’histogramme d’un ´ echantillon donne une repr´ esentation graphique des valeurs d’un caract` ere qui d´ epend des bornes choisies pour les classes. Des choix diff´ erents donnent des histogramme bien diff´ erents, comme cela peut se v´ erifier dans les dessins ci-dessus o` u l’on a simplement choisi de subdiviser en deux les classes entre les deux histogrammes superpos´ es sur un mˆ eme dessin. Un point commun aux deux histogrammes est la forme “en cloche” (avec d’in´ evitables “cr´ eneaux”). Dans d’autres situations, on pourrait obtenir d’autres formes, mais nous allons aborder ici un mod` ele continu (ou “lisse”) pour cette forme en cloche, dit mod` ele gaussien. La pertinence d’un type de mod` ele est une question importante en statistique et d´ ebouche naturellement sur celle de test que nous ´ etudierons plus tard. Notons qu’en principe l’inconv´ enient des cr´ eneaux diminue avec la taille de l’´ echantillon : c’est ce que nous avons illustr´ e entre le dessin du milieu et celui de droite : ils correspondent ` a deux ´ echantillons produits de mani` ere similaire (par “simulation”), sauf que le dessin de droite correspond ` a un ´ echantillon dix fois plus gros que celui du dessin du milieu (et celui de gauche qui est le mˆ eme que celui vu au cours pr´ ec` edent). A noter que nous avons opt´ e pour une repr´ esentation o` u la hauteur des barres est la fraction e n

k

de l’effectif total n. Ainsi la somme des aires des barres est ´ egale ` a 1. On dira que l’histogramme est normalis´ e. On cherche alors la ressemblance de l’histogramme avec une fonction de densit´ e x 7→ f(x), c’est-` a-dire une fonction positive et d’int´ egrale ∫ +

−∞ f (x)dx = 1, donc d´ elimitant, elle aussi, une r´ egion d’aire ´ egale ` a 1.

Si x d´ esigne l’´ echantillon consid´ er´ e, la figure de gauche a ´ et´ e obtenue au moyen du code suivant : hist(x,freq=F)

xmin<- floor(min(x))-1;xmax<- ceiling(max(x)) pas=0.5

bornes=seq(xmin,xmax,pas);bornes

hist(x,breaks=bornes,add=TRUE,col="blue",freq=F) # notez les r^ oles de "add" et "col"

mu=mean(x);mu # notez qu’on peut remplacer <- par = sigma=sd(x);sigma # sd vient de "standard deviation"

magaussienne=function(x) { return(dnorm(x,mu,sigma)) } # voir ci-dessous pour dnorm plot(magaussienne,xmin,xmax,col="red",add=TRUE) # trac´ e du graphe de la fonction

2 Densit´ e gaussienne

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

xx

dnorm(xx, mu1, sigma2)

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

xx

dnorm(xx, mu2, sigma2)

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

xx

dnorm(xx, mu3, sigma2)

−3 −2 −1 0 1 2 3

0.00.20.40.60.8

xx

dnorm(xx, mu2, sigma1)

−3 −2 −1 0 1 2 3

0.00.20.40.60.8

xx

dnorm(xx, mu2, sigma2)

−3 −2 −1 0 1 2 3

0.00.20.40.60.8

xx

dnorm(xx, mu2, sigma3)

On appelle densit´ e gaussienne (ou simplement gaussienne) de param` etre µ et σ > 0 la fonction t 7→

f µ,σ (t) = 1

σ

e

(t−µ)22

. Son graphe est sym´ etrique autour de la valeur µ puisque f µ,σ (µ+t) = f µ,σ t).

Si µ = 0 on dit que la gaussienne est centr´ ee. Si σ = 1 on dit que la gaussienne est eduite. Notons que

1

(2)

plus σ est petit, plus la cloche est ´ etroite ; mais comme l’aire qu’elle limite est toujours ´ egale ` a 1, plus σ est petit, plus la valeur maximale f µ,σ (µ) est grande.

Notons F µ,σ (x) = ∫ x

−∞ f µ,σ (t)dt la primitive de f µ,σ telle que lim x →−∞ F µ,σ (x) = 0 ; alors lim x + F µ,σ (x) = 1 car f µ,σ est une densit´ e. Cette fonction s’appelle la fonction de r´ epartition de la loi gaussienne. Elle mod´ elise l’histogramme cumulatif (croissant) d’une distribution en cloche.

Histogram of x (cumulative)

x (cumulative)

Frequency

14 16 18 20 22 24

0.00.6

−3 −2 −1 0 1 2 3

0.00.20.40.60.81.0

xx

pnorm(xx, mu1, sigma2)

−3 −2 −1 0 1 2 3

0.00.20.40.60.81.0

xx

pnorm(xx, mu2, sigma2)

−3 −2 −1 0 1 2 3

0.00.20.40.60.81.0

xx

pnorm(xx, mu3, sigma2)

−3 −2 −1 0 1 2 3

0.00.20.40.60.81.0

xx

pnorm(xx, mu2, sigma1)

−3 −2 −1 0 1 2 3

0.00.20.40.60.81.0

xx

pnorm(xx, mu2, sigma2)

−3 −2 −1 0 1 2 3

0.20.40.60.8

xx

pnorm(xx, mu2, sigma3)

La loi gaussienne est ´ egalement appel´ ee loi normale ; c’est pourquoi les fonctions de R li´ ees ` a la gaus- sienne ont un nom comportant la racine norm. Ainsi la densit´ e gaussienne est appel´ ee dnorm ; pour mu= µ et sigma= σ, f µ,σ (x) =dnorm(x,mu,sigma) o` u le “d” rappelle qu’il s’agit de la densit´ e. De mˆ eme F µ,σ (x) =pnorm(x,mu,sigma) o` u le “p” rappelle qu’il s’agit de la probabilit´ e d’ˆ etre inf´ erieur ` a x.

L’histogramme cumulatif ci-dessus a ´ et´ e obtenu au moyen du code suivant hist(x,freq=F)->h #histogramme des valeurs de x

h$counts <- cumsum(h$counts)/length(x) # remplace freq.s par cumulative freq.s h$xname <- "x (cumulative)"

plot( h ) # l’histogramme est ` a pr´ esent cumulatif maGaussienne=function(x) { return(pnorm(x,mu,sigma)) } plot(maGaussienne,xmin,xmax,col="red",add=TRUE)

3 Choix de µ et de σ

On peut montrer que µ = ∫ +

−∞ tf µ,σ (t)dt et que σ 2 = ∫ +

−∞ (t µ) 2 f µ,σ (t)dt. Si l’on interpr` ete l’int´ egrale comme une version lisse d’une somme et f µ,σ (t)dt comme l’aire d’une barre d’histogramme d’une classe ´ etroite (de largeur dt) autour de la valeur t on voit qu’il est naturel de choisir µ comme

´

etant la moyenne ˆ µ des valeurs x i du caract` ere x. De mˆ eme il convient de choisir σ 2 comme la moyenne des (x i µ) 2 et donc σ comme la racine ˆ σ de la moyenne des (x i µ) 2 . Les nombres ˆ µ et ˆ σ s’appellent la moyenne et l’´ ecart-type de l’´ echantillon x. Ils sont calcul´ es par les commande mean(x) (moyenne, en anglais) et sd(x) (standard deviation, ´ ecart-type en anglais). Nous reviendrons sur la notion g´ en´ erale de moyenne et d’´ ecart-type.

4 Retour ` a la mod´ elisation des rendements observ´ es

Sur le diagramme ci-dessous nous avons reproduit l’histogramme en densit´ es des valeurs observ´ ees du rendement R t = (S t S t δt )/S t δt sur les prix S t observ´ es sur le march´ e du latex de Hat Yai. Il a ´ et´ e obtenu au moyen de l’instruction

hist(y,breaks=bornes,col="blue",freq=F) avec bornes=seq(-0.18,+0.20,0.01).

Nous avons superpos´ e le graphe de la gaussienne ajust´ ee aux donn´ ees en adoptant la moyenne mean(y) et l’´ ecart-type sd(y) de l’´ echantillon y de rendements en guise de µ et σ pour la gaussienne. Ceci a ´ et´ e obtenu par plot(magaussienne,min(y),max(y),col="red",add=TRUE) avec

magaussienne=function(x)return(dnorm(x,mu,sigma)) . Cette image indique (au moins) deux d´ efauts pour un mod` ele “purement” gaussien : la classe d’effectif maximal s’´ ecarte largement du mod` ele gaussien adopt´ e. L’examen des donn´ ees montre que ceci est du au nombre excessif de jours o` u les prix restent inchang´ es par rapport ` a ceux de la veille. Un autre d´ efaut, moins visible ` a premi` ere vue, est la pr´ esence excessive de rendements ´ elev´ es en valeur absolue. ces deux constats peuvent sugg´ erer de recher- cher un mod` ele plus ´ elabor´ e, en recherchant les causes possibles pour ces deux observations statiques.

Histogram of y

y

Density

−0.1 0.0 0.1 0.2

05101520253035

2

Références

Documents relatifs

En d´eduire le tableau des variations de F, et tracez

TES 1 Interrogation 9A 4 avril 2015 R´ epondre aux questions sur

La masse d’un pain fabriqu´ e par la machine peut ˆ etre mod´ elis´ ee par une variable al´ eatoire X suivant la loi normale d’esp´ erance µ = 400 et d’´ ecart-type σ =

[r]

X est la variable al´eatoire continue sur [0; 4] dont la loi a pour densit´e de probabilit´e la fonction f.. D´efinir la fonction f de densit´e de probabilit´e de la

[r]

X est la variable continue sur [2; 3] dont la loi a pour densit´e de probabilit´e la fonction f... D´eterminer la probabilit´e de chacun des ´ev´enements

Nous pouvons consid´ erer que la note finale sur 20 obtenue au Baccalaur´ eat est, pour chaque ´ el` eve, une variable al´ eatoire Y, suivant une loi Normale. Quel est le