,
c’est-`a-dire par Π b+1
2−np
√npq
−Π a−1
2−np
√npq
(cf. Feller W., On the normal approximation to the binomial distribution,Ann. Math. Statist., vol. 16, p. 319–329, 1945).
5. Dans les programmes du secondaire, on trouve parfois ce th´eor`eme sous le nom de th´eor`eme de la limite centr´ee. Mais aucun probabiliste s´erieux n’utilise cette d´enomination que l’on n’utilisera donc pas.
Exercice 4.27 (D’apr`es le polycopi´e de cours de P. Priouret.). Un joueur pense qu’un d´e (`a six faces) est pip´e. Il le lance 720 fois, et obtient le six 150 fois. Quelle conclusion le joueur peut-il en tirer ?
Solution4.27. Supposons que le d´e ne soit pas pip´e. NotonsAkl’´ev´enement “le joueur obtient un six auk-i`eme lancer”, et posonsXk=IAk. La variableS =
720
P
k=1
Xksuit alors la loi binomiale de param`etres n= 720 etp= 16 puisque le d´e n’est pas pip´e.
On a E[S] = np = 7206 = 120 et Var[S] = np(1−p) = 720.56.6 = 100. ´Evaluons la probabilit´e de l’´ev´enement (qui s’est produit) : “on a obtenu au moins 150 fois le six”, i.e. P[S ≥ 150] en effectuant une correction de continuit´e. Puisqu’une variable de loi binomiale ne prend que des valeurs enti`eres :
P[S ≥150] =P[S≥149,5] =P
"
S−E[S]
pVar[S] ≥ 149,5−120 10
#
=P
"
S−E[S]
pVar[S] ≥2,95
#
'1−Π(2,95)'0,0016, d’apr`es le th´eor`eme central limite.
Ainsi, si le d´e n’est pas pip´e, il s’est produit un ´ev´enement de probabilit´e tr`es faible. Il y a donc de tr`es grandes chances pour que le d´e soit pip´e (mais on ne peut en ˆetre certain !)
4.8 Encore des d´ efinitions
D´efinition. SoitXune variable al´eatoire r´eelle de fonction de r´epartitionF. On appellevaleur m´ediane, toute valeur atelle que P(X ≥a)≥ 12 etP(X≤a)≥ 12.
Remarque.
1. Dans le cas o`uF est continue (par exemple siX est une variable al´eatoire `a densit´e),a est une valeur m´ediane si et seulement si F(a) = 12.
2. Lorsque X est une variable al´eatoire discr`ete, il existe une autre d´efinition de m´ediane, utilis´ee dans l’enseignement secondaire, sur laquelle nous reviendrons au Chapitre 5.
Exercice 4.28. Soit X une variable al´eatoire de carr´e int´egrable. Soient φ et ψ les fonctions d´efinies sur Rpar :∀t∈R, φ(t) =E[(X−t)2] et ψ(t) =E[|X−t|].
1. Montrer que la fonctionφadmet un minimum. En quel point ce minimum est-il atteint ? 2. Montrer queψ est minimale en toute valeur m´ediane de X.
3. Application. Sur une route, sont dispos´esn magasins, aux abscisses x1, ...,xn. Chaque jour, on doit se rendre dans chacun des magasins ; apr`es avoir visit´e un magasin, on revient au point de d´epart. De quel point de la route doit-on partir pour effectuer le plus court d´eplacement ? On suppose :x1 < x2 < ... < xn. On pourra commencer par ´etudier les casn= 1,n= 2 puis n= 3, avant de traiter le cas g´en´eral.
Solution 4.28.
1. Soit t∈R. D’apr`es les propri´et´es de la variance, on obtient : φ(t) =E[(X−t)2] = Var(X−t) + (E[X−t])2
= Var(X) + (E[X]−t)2.
Il s’ensuit que φadmet un minimum pourt=E[X] et que ce minimum vaut Var[X].
2. Soitm une valeur m´ediane pourX, c’est-`a-dire un nombre r´eelm tel queP[X≥m]≥ 12 etP[X≤m]≥ 12. Soit t∈R.
Premier cas : t≥m.
ψ(t)−ψ(m) =E[(X−t)I{X>t}−(X−t)I{X≤t}]−E[(X−m)I{X>m}−(X−m)I{X≤m}]
=E[X(I{X>t}−I{X≤t}−I{X>m}+I{X≤m})] +t(P[X ≤t]−P[X > t]) +m(P[X > m]−P[X ≤m])
=E[−2XI{m<X≤t}] +t(2P[X ≤t]−1)−m(2P[X ≤m]−1)
=E[−2XI{m<X≤t}] +t(2P[m < X ≤t] + 2P[X ≤m]−1)−m(2P[X≤m]−1)
= 2E[(t−X)I{m<X≤t}] + (t−m) (2P[X ≤m]−1).
Or, par d´efinition d’une valeur m´ediane,P[X ≤m]≥ 12. De plus, la variable al´eatoire (t−
X)Im<X≤test positive (le v´erifier sur chaqueω), donc d’esp´erance positive. Il s’ensuit : ψ(t)−ψ(m)≥0.
Deuxi`eme cas :t≤m. On a de mˆeme :
ψ(t)−ψ(m) =E[(X−t)I{X≥t}−(X−t)I{X<t}]−E[(X−m)I{X≥m}−(X−m)I{X<m}]
=E[X(I{X≥t}−I{X<t}−I{X≥m}+I{X<m})] +t(P[X < t]−P[X ≥t]) +m(P[X ≥m]−P[X < m])
=E[2XI{t≤X<m}] +t(1−2P[X ≥t]) +m(2P[X≥m]−1)
=E[2XI{t≤X<m}] +t(1−2P[t≤X < m]−2P[X≥m]) +m(2P[X ≥m]−1)
= 2E[(X−t)I{t≤X<m}] + (m−t) (2P[X ≥m]−1)≥0.
Remarque. Pour cette question, il suffit de supposer que X est int´egrable, l’hypoth`ese de l’existence d’un moment d’ordre deux ne servant que dans la premi`ere question. Par ailleurs, lorsque X admet une densit´e p, la d´emonstration peut se traduire plus simple-ment en ´ecrivant :
ψ(t) = Z t
−∞
(t−x)p(x)dx+ Z +∞
t
(x−t)p(x)dx et en ´etudiant les variations de ψ.
3. Il s’agit ici de la version statistique de la question 2. dans le cas particulier o`u X est une variable al´eatoire uniform´ement distribu´ee sur {x1, x2, ..., xn}. L’adaptation de la d´emonstration est laiss´ee au lecteur. Une question analogue est trait´ee dans le Probl`eme 2, Partie A du CAPES 2013, premi`ere composition.
D´efinition. Soit X une variable al´eatoire r´eelle de fonction de r´epartition F. On d´efinit la fonctionfractile ou encore quantile associ´ee `a X par :
∀u∈]0,1[, Q(u) = inf{x∈R;F(x)≥u}.
Chapitre 5
Statistique descriptive
5.1 Pr´ eambule ` a la Statistique
“La Statistique”: m´ethode scientifique qui consiste `a observer et `a ´etudier une/plusieurs parti-cularit´e(s) commune(s) chez un groupe de personnes ou de choses.
“La statistique” est `a diff´erencier d’“une statistique”, qui est un nombre calcul´e `a propos d’une population.
5.1.1 Un peu de vocabulaire
◦ Population : collection d’objets `a ´etudier ayant des propri´et´es communes. Terme h´erit´e des premi`eres applications de la statistique qui concernait la d´emographie.
Exemple : ensemble de parcelles sur lesquelles on mesure un rendement, un groupe d’insectes...
◦ Individu :´el´ement de la population ´etudi´ee.
Exemple : une des parcelles, un des insectes...
◦ Variable ou caract`ere : propri´et´e commune aux individus de la population, que l’on souhaite
´
etudier. Elle peut ˆetre
- qualitative : couleur de p´etales,
- quantitative :(num´erique). Par exemple la taille, le poids, le volume. On distingue encore les variables
- continues: toutes les valeurs d’un intervalle de R sont acceptables. Par exemple : le p´erim`etre d’une coquille de moule.
- discr`etes : seul un nombre discret de valeurs sont possibles. Par exemple : le nombre d’esp`eces recens´ees sur une parcelle.
Les valeurs observ´ees pour les variables s’appellent lesdonn´ees.
◦ Echantillon´ : partie ´etudi´ee de la population.
5.1.2 Collecte de donn´ees
La collecte de donn´ees (obtention de l’´echantillon) est une ´etape cl´e, et d´elicate. Nous ne traitons pas ici des m´ethodes possibles, mais attirons l’attention sur le fait suivant.
Hypoth`ese sous-jacente en statistique : l’´echantillon d’individus ´etudi´e est choisi ”au hasard”
parmi tous les individus qui auraient pu ˆetre choisis.
⇒ Tout mettre en œuvre pour que cela soit v´erifi´e.
5.1.3 Deux directions en statistique 1. Statistique descriptive
Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statistiques, les donn´ees disponibles quand elles sont nombreuses. Questions typiques :
(a) Repr´esentation graphique : diagramme en bˆatons, diagramme circulaire, voir exercice 5.1.
(b) Param`etres de position, de dispersion, de relation : voir paragraphe 5.2.
(c) R´egression lin´eaire : voir paragraphe 5.4.
(d) Questions li´ees `a des grands jeux de donn´ees : hors programme.
2. Statistique inf´erentielle
Les donn´ees ne sont pas consid´er´ees comme une information compl`ete, mais une infor-mation partielle d’une population infinie. Il est alors naturel de supposer que les donn´ees sont des r´ealisations de variables al´eatoires, qui ont une certaine loi de probabilit´e.
N´ecessite des outils math´ematiques plus pointus de th´eorie des probabilit´es.
Questions typiques :
(a) Estimation de param`etres.
(b) Intervalles de confiance.
(c) Tests d’hypoth`ese.
(d) Mod´elisation : exemple (r´egression lin´eaire).
5.1.4 Statistique univari´ee / multivari´ee
Lorsque l’on observe une seule variable pour les individus de la population, on parle destatistique univari´ee, et destatistique multivari´ee lorsqu’on en observe au moins deux. Pour chacune des cat´egories, on retrouve les deux directions ci-dessus.
Exemple. Univari´e. Population : iris. Variable : longueur des p´etales.
Multivari´e. Population : iris. Variable 1 : longueur des p´etales. Variable 2 : largeur des p´etales.