• Aucun résultat trouvé

Encore des d´ efinitions

Dans le document Probabilit´es et statistique pour le CAPES (Page 96-100)

,

c’est-`a-dire par Π b+1

2−np

npq

−Π a−1

2−np

npq

(cf. Feller W., On the normal approximation to the binomial distribution,Ann. Math. Statist., vol. 16, p. 319–329, 1945).

5. Dans les programmes du secondaire, on trouve parfois ce th´eor`eme sous le nom de th´eor`eme de la limite centr´ee. Mais aucun probabiliste s´erieux n’utilise cette d´enomination que l’on n’utilisera donc pas.

Exercice 4.27 (D’apr`es le polycopi´e de cours de P. Priouret.). Un joueur pense qu’un d´e (`a six faces) est pip´e. Il le lance 720 fois, et obtient le six 150 fois. Quelle conclusion le joueur peut-il en tirer ?

Solution4.27. Supposons que le d´e ne soit pas pip´e. NotonsAkl’´ev´enement “le joueur obtient un six auk-i`eme lancer”, et posonsXk=IAk. La variableS =

720

P

k=1

Xksuit alors la loi binomiale de param`etres n= 720 etp= 16 puisque le d´e n’est pas pip´e.

On a E[S] = np = 7206 = 120 et Var[S] = np(1−p) = 720.56.6 = 100. ´Evaluons la probabilit´e de l’´ev´enement (qui s’est produit) : “on a obtenu au moins 150 fois le six”, i.e. P[S ≥ 150] en effectuant une correction de continuit´e. Puisqu’une variable de loi binomiale ne prend que des valeurs enti`eres :

P[S ≥150] =P[S≥149,5] =P

"

S−E[S]

pVar[S] ≥ 149,5−120 10

#

=P

"

S−E[S]

pVar[S] ≥2,95

#

'1−Π(2,95)'0,0016, d’apr`es le th´eor`eme central limite.

Ainsi, si le d´e n’est pas pip´e, il s’est produit un ´ev´enement de probabilit´e tr`es faible. Il y a donc de tr`es grandes chances pour que le d´e soit pip´e (mais on ne peut en ˆetre certain !)

4.8 Encore des d´ efinitions

D´efinition. SoitXune variable al´eatoire r´eelle de fonction de r´epartitionF. On appellevaleur m´ediane, toute valeur atelle que P(X ≥a)≥ 12 etP(X≤a)≥ 12.

Remarque.

1. Dans le cas o`uF est continue (par exemple siX est une variable al´eatoire `a densit´e),a est une valeur m´ediane si et seulement si F(a) = 12.

2. Lorsque X est une variable al´eatoire discr`ete, il existe une autre d´efinition de m´ediane, utilis´ee dans l’enseignement secondaire, sur laquelle nous reviendrons au Chapitre 5.

Exercice 4.28. Soit X une variable al´eatoire de carr´e int´egrable. Soient φ et ψ les fonctions d´efinies sur Rpar :∀t∈R, φ(t) =E[(X−t)2] et ψ(t) =E[|X−t|].

1. Montrer que la fonctionφadmet un minimum. En quel point ce minimum est-il atteint ? 2. Montrer queψ est minimale en toute valeur m´ediane de X.

3. Application. Sur une route, sont dispos´esn magasins, aux abscisses x1, ...,xn. Chaque jour, on doit se rendre dans chacun des magasins ; apr`es avoir visit´e un magasin, on revient au point de d´epart. De quel point de la route doit-on partir pour effectuer le plus court d´eplacement ? On suppose :x1 < x2 < ... < xn. On pourra commencer par ´etudier les casn= 1,n= 2 puis n= 3, avant de traiter le cas g´en´eral.

Solution 4.28.

1. Soit t∈R. D’apr`es les propri´et´es de la variance, on obtient : φ(t) =E[(X−t)2] = Var(X−t) + (E[X−t])2

= Var(X) + (E[X]−t)2.

Il s’ensuit que φadmet un minimum pourt=E[X] et que ce minimum vaut Var[X].

2. Soitm une valeur m´ediane pourX, c’est-`a-dire un nombre r´eelm tel queP[X≥m]≥ 12 etP[X≤m]≥ 12. Soit t∈R.

Premier cas : t≥m.

ψ(t)ψ(m) =E[(Xt)I{X>t}(Xt)I{X≤t}]E[(Xm)I{X>m}(Xm)I{X≤m}]

=E[X(I{X>t}I{X≤t}I{X>m}+I{X≤m})] +t(P[X t]P[X > t]) +m(P[X > m]P[X m])

=E[−2XI{m<X≤t}] +t(2P[X t]1)m(2P[X m]1)

=E[−2XI{m<X≤t}] +t(2P[m < X t] + 2P[X m]1)m(2P[Xm]1)

= 2E[(tX)I{m<X≤t}] + (tm) (2P[X m]1).

Or, par d´efinition d’une valeur m´ediane,P[X ≤m]≥ 12. De plus, la variable al´eatoire (t−

X)Im<X≤test positive (le v´erifier sur chaqueω), donc d’esp´erance positive. Il s’ensuit : ψ(t)−ψ(m)≥0.

Deuxi`eme cas :t≤m. On a de mˆeme :

ψ(t)ψ(m) =E[(Xt)I{X≥t}(Xt)I{X<t}]E[(Xm)I{X≥m}(Xm)I{X<m}]

=E[X(I{X≥t}I{X<t}I{X≥m}+I{X<m})] +t(P[X < t]P[X t]) +m(P[X m]P[X < m])

=E[2XI{t≤X<m}] +t(12P[X t]) +m(2P[Xm]1)

=E[2XI{t≤X<m}] +t(12P[tX < m]2P[Xm]) +m(2P[X m]1)

= 2E[(Xt)I{t≤X<m}] + (mt) (2P[X m]1)0.

Remarque. Pour cette question, il suffit de supposer que X est int´egrable, l’hypoth`ese de l’existence d’un moment d’ordre deux ne servant que dans la premi`ere question. Par ailleurs, lorsque X admet une densit´e p, la d´emonstration peut se traduire plus simple-ment en ´ecrivant :

ψ(t) = Z t

−∞

(t−x)p(x)dx+ Z +∞

t

(x−t)p(x)dx et en ´etudiant les variations de ψ.

3. Il s’agit ici de la version statistique de la question 2. dans le cas particulier o`u X est une variable al´eatoire uniform´ement distribu´ee sur {x1, x2, ..., xn}. L’adaptation de la d´emonstration est laiss´ee au lecteur. Une question analogue est trait´ee dans le Probl`eme 2, Partie A du CAPES 2013, premi`ere composition.

D´efinition. Soit X une variable al´eatoire r´eelle de fonction de r´epartition F. On d´efinit la fonctionfractile ou encore quantile associ´ee `a X par :

∀u∈]0,1[, Q(u) = inf{x∈R;F(x)≥u}.

Chapitre 5

Statistique descriptive

5.1 Pr´ eambule ` a la Statistique

“La Statistique”: m´ethode scientifique qui consiste `a observer et `a ´etudier une/plusieurs parti-cularit´e(s) commune(s) chez un groupe de personnes ou de choses.

“La statistique” est `a diff´erencier d’“une statistique”, qui est un nombre calcul´e `a propos d’une population.

5.1.1 Un peu de vocabulaire

◦ Population : collection d’objets `a ´etudier ayant des propri´et´es communes. Terme h´erit´e des premi`eres applications de la statistique qui concernait la d´emographie.

Exemple : ensemble de parcelles sur lesquelles on mesure un rendement, un groupe d’insectes...

◦ Individu :´el´ement de la population ´etudi´ee.

Exemple : une des parcelles, un des insectes...

◦ Variable ou caract`ere : propri´et´e commune aux individus de la population, que l’on souhaite

´

etudier. Elle peut ˆetre

- qualitative : couleur de p´etales,

- quantitative :(num´erique). Par exemple la taille, le poids, le volume. On distingue encore les variables

- continues: toutes les valeurs d’un intervalle de R sont acceptables. Par exemple : le p´erim`etre d’une coquille de moule.

- discr`etes : seul un nombre discret de valeurs sont possibles. Par exemple : le nombre d’esp`eces recens´ees sur une parcelle.

Les valeurs observ´ees pour les variables s’appellent lesdonn´ees.

◦ Echantillon´ : partie ´etudi´ee de la population.

5.1.2 Collecte de donn´ees

La collecte de donn´ees (obtention de l’´echantillon) est une ´etape cl´e, et d´elicate. Nous ne traitons pas ici des m´ethodes possibles, mais attirons l’attention sur le fait suivant.

Hypoth`ese sous-jacente en statistique : l’´echantillon d’individus ´etudi´e est choisi ”au hasard”

parmi tous les individus qui auraient pu ˆetre choisis.

⇒ Tout mettre en œuvre pour que cela soit v´erifi´e.

5.1.3 Deux directions en statistique 1. Statistique descriptive

Elle a pour but de d´ecrire, c’est-`a-dire de r´esumer ou repr´esenter, par des statistiques, les donn´ees disponibles quand elles sont nombreuses. Questions typiques :

(a) Repr´esentation graphique : diagramme en bˆatons, diagramme circulaire, voir exercice 5.1.

(b) Param`etres de position, de dispersion, de relation : voir paragraphe 5.2.

(c) R´egression lin´eaire : voir paragraphe 5.4.

(d) Questions li´ees `a des grands jeux de donn´ees : hors programme.

2. Statistique inf´erentielle

Les donn´ees ne sont pas consid´er´ees comme une information compl`ete, mais une infor-mation partielle d’une population infinie. Il est alors naturel de supposer que les donn´ees sont des r´ealisations de variables al´eatoires, qui ont une certaine loi de probabilit´e.

N´ecessite des outils math´ematiques plus pointus de th´eorie des probabilit´es.

Questions typiques :

(a) Estimation de param`etres.

(b) Intervalles de confiance.

(c) Tests d’hypoth`ese.

(d) Mod´elisation : exemple (r´egression lin´eaire).

5.1.4 Statistique univari´ee / multivari´ee

Lorsque l’on observe une seule variable pour les individus de la population, on parle destatistique univari´ee, et destatistique multivari´ee lorsqu’on en observe au moins deux. Pour chacune des cat´egories, on retrouve les deux directions ci-dessus.

Exemple. Univari´e. Population : iris. Variable : longueur des p´etales.

Multivari´e. Population : iris. Variable 1 : longueur des p´etales. Variable 2 : largeur des p´etales.

Dans le document Probabilit´es et statistique pour le CAPES (Page 96-100)