• Aucun résultat trouvé

Statistiques inf´erentielle Sources, et pour en savoir plus :

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques inf´erentielle Sources, et pour en savoir plus :"

Copied!
6
0
0

Texte intégral

(1)

Pierre Veuillez

Statistiques inf´erentielle

Sources, et pour en savoir plus : http://www.math-info.univ-paris5.fr/smel

1 Probl´ ematique :

Exemple

une urne contient des boules rouges et blanches dont on ne connaˆıt pas la composition.

En 100 tirages on a obtenu 30 Rouges et 70 Blanches.

A combien peut-on estimer la proportion de boules rouges dans l’urne ?

Formalisation X une variable al´eatoire li´ee `a une exp´erience al´eatoire dont on ne connaˆıt que partielle- ment la loi. (Ici, loi de Bernouilli valant 1 si l’on a R et 0 sinon)

Typiquement on connaˆıt le type de la loi L mais pas son param`etre θ.On sait seulement que ce param`etre prend ses valeurs dans un ensemble Θ⊂R. (ici, le param`etre pqui est la proportion de boules Rouges) La valeur x prise parX dans une exp´erience est appel´eer´ealisation de X.

On cherche, via des r´ealisations de X `a estimer (trouver une valeur approch´ee) la valeur du param`etre θ de la loi deX -estimation ponctuelle- ou un intervalle dans lequel il a une certaine probabilit´e de se trouver -estimation par intervalle de confiance-.

On pourra aussi faire ce travail pour d’autres grandeurs (esp´erance, variance ...) li´ees `aX Par exemple

Pour un lancer de pi`ece truqu´ee, dans une suite de lancers Pile/Face on a obtenu 2 Pile 8 Face, on peut estimer que la probabilit´e de Pile est la fr´equence empirique 2/10

Fr´equence empirique

La fr´equence empirique des succ`es est le nombre de succ`es sur le nombre d’exp´eriences.

On peut la d´efinir `a partir de variables de BernouilliXi valant 1 pour succ`es et aui`eme lancer et 0 sinon.

F =

Pn i=1Xi

10 est la fr´equence empirique des succ`es lors des 10 premi`eres exp´eriences.

Mod´elisation

Pour mod´eliser la r´ep´etition de l’exp´erience, on se donne une liste (X1, . . . , Xn) de variables al´eatoires ind´ependanteset de mˆeme loi que X appel´e n-´echantillon de variables al´eatoires.

Une liste de valeurs (x1, . . . , xn) prises par cesnvariables est appel´e n-´echantillon de donn´ees.

2 Estimation ponctuelle

Un estimateurest une variable al´eatoireTn fonction du dun-´echantillon de variables Tn=f(X1, . . . , Xn) ou plus exactement une suite de telles variables(Tn)n∈

N

La valeur f(x1, . . . , xn) souvent not´ee ˆθ prise par l’estimateur sur un n-´echantillon de donn´ees est appel´e estimation deθ.(ou d’autre grandeur)

2.1 Qualit´es Biais

Le biais de Tn comme estimateur de θest b=E(Tn−θ) =E(Tn)−θ.C’est l’´ecart moyen entre la valeur prise par Tn et la valeur `a estimerθ.

Quand le biais est nul, on dit l’estimateur sans biais;il donne alors en moyenne la bonne valeur. Mais rien ne l’empˆeche de s’en ´eloigner car les ´ecarts par exc`es et par d´efaut peuvent se compenser.

(2)

Exemple

Pour un lancer de pi`ece : X= 1 si Pile et = 0 si Face.X suit une loi de Bernouilli de param`etre p= P (Pile) Et on se donne un n-´echantillon de variables de mˆeme loi que X : (X1. . . Xn)

Soit Tn =X1,on a E(Tn) =E(X1) =p l’estimateur est sans biais mais les valeurs prises par Tn (0 ou 1) ne s’approcheront jamais de la valeur `a estimerp.

Risque quadratique.

Le risque quadratique de Tn comme estimateur de θest E

(Tn−θ)2

Ici, les ´ecarts en plus et en moins se cumulent. (le carr´e est positif)

De plus, l’´ecart de Tn avec θ ´etant ´elev´e au carr´e, les grand ´ecarts p`eseront encore d’avantage que dans E(|Tn−θ|) par exemple.

C’est lui que l’on utilisera pour comparer deux estimateur. Plus le risque quadratique est petit, meilleur sera l’estimateur.

Th´eor`eme

Le risque quadratique est : E

(Tn−θ)2

=V (Tn) +b2 avec ble biais de Tn comme estimateur deθ.

Donc pour am´eliorer un estimateur,on peut diminuer sont biais, ou sa variance.

Exemple

Dans la suite de lancers Pile/Face ,

• Soit Tn =X1,a pour risque quadratique V (Tn) +b2 =pq : quelque soit la taille de l’´echantillon, le risque quadratique restera le mˆeme.

• Soit Tn0 =

Pn i=1Xi

n la fr´equence empirique.

Alors son biais est b=E Pn

i=1Xi

n

−p= 1nn p−p= 0 doncT0 est sans biais ´egalement.

Pour calculer son risque quadratique, on cherche la variance de Tn0 : V Tn0

= 1

n2V X Xi

= 1

n2n p q= p q n

• Donc le risque quadratique de Tn0 estnfois plus petit que celui deTn.De plus, il diminue avec la taille de l’´echantillon. Plus l’´echantillon est important, plus petit sera le risque quadratique.

2.2 Estimation de l’esp´erance

Pour une variableX ayant une esp´erance met (X1˙, . . . , Xn) unn-´echantillon de variables, l’esp´erance deX peut ˆetre estim´ee par lamoyenne empirique : Xn=

Pn i=1Xi

n

Exercice :

1. Montrer queXn est un estimateur sans biais de m.

2. On suppose de plus que X a une variance

Montrer qu’alors le risque quadratique deXn tend vers 0 quandntend vers +∞

Exemple

Pour estimer le param`etre d’une loi binomiale, d’une loi de Poisson ou d’une loi Normale N(m, ν) : le param`etre est la moyenne.

On peut donc estimer ce param`etre par la moyenne empirique avec un risque quadratique qui tend vers 0 quand ntend vers l’infini.

(3)

2.3 R`egles de calculs E(Pn

i=1Xi) =Pn

i=1E(Xi) et E(αX) =αE(X) siα est une constante.

E(X Y) =E(X)E(Y) siX etY sont ind´ependantes.

V (Pn

i=1Xi) =Pn

i=1V (Xi) si les (Xi) ssont ind´ependantes.

V (αX+β) =α2V (X) siα etβ sont une constante

3 Intervalle de confiance.

3.1 D´efinition

Soit X une variable al´eatoire de loi L(θ) et (X1. . . Xn) unn-´echantillon de variables.

Soient Un etVn fonctions de cet ´echantillon

[Un, Vn] est un intervalle de confiance de θ de au niveau de confiance 1−α (ou de niveau de risque α ) si P (Un≤θ≤Vn)≥1−α

Tr`es souvent, on prendra un intervalle centr´e autour d’un estimateur de θ 3.2 In´egalit´e de Bienaym´e-Tchebichev

P (|X−m| ≥ε)≤ Vε(X)2 donc P (|X−m|< ε)≥1−Vε(X2 ) et P (X−ε≤m≤X+ε)≥1−Vε(X)2 3.3 Convergence : th´eor`eme de la limite centr´ee.

Si (X1. . . Xn) est un n-´echantillon de variables ind´ependantes ind´ependants et de mˆeme loi que X ayant une esp´erance et une variance alors la loi de la moyenne empirique centr´ee r´eduite, ou de la somme centr´ee r´eduite converge en loi versN (0,1) (peut ˆetre approch´ee par cette loi)

Ce qui se ram`ene `a dire que la loi de Xn peut ˆetre approch´ee parN m,νn

(cf exercice)

Ou qu’une loi B(n, p) peut ˆetre approch´ee par N (n p, n p q) (condition : n ≥ 30 et n p ≥ 15 et n p q ≥ 5 dans la litt´erature)

Exercice

D´eterminer une valeur approch´ee de la loi de la moyenne empirique : E Xn

=E(X), V Xn

= 1nV (X) donc Xn,→

N E(X),1nV (X) 3.4 Loi Normale

• N.B. SiX ,→ N (0,1) alors P (−t≤X≤t) = Φ (t)−Φ (−t) = 2Φ (t)−1

• SiX ,→ N(m, ν) alors P (X−t≤m≤X+t) = P −tσX−mσσt

= 2Φ σt

−1 Donc P (X−t≤m≤X+t)≥1−α⇐⇒2Φ σt

−1≥1−α⇐⇒Φ σt

≥1−α/2

• Cas particulier : approximation de Biomiales centr´ee r´eduite : cf 4.4 Exemple :

pour α = 0,05 (risque de 5%) on trouve Φ (1,96) = 0,975 = 1−0,05/2 donc pour σt = 1,96 on a le risque voulu et P (X−1,96σ ≤m≤X+ 1,96σ)≥0,95 ... utilisable si on a la valeur de l’´ecart type (sinon, pratiquement, on en prend une estimation).

(4)

4 Exercices

4.1 Variance

Soit X ayant une esp´erance m et une variance v, sa variance empirique est Wn = 1nP

Xi2−Xn 2 avec Xn la moyenne empirique de X et 1nP

Xi2 la moyenne empirique de X2. 1. Soit Y ayant une esp´erance et une variance. CalculerE Y2

en fonctionE(Y) etV (Y) 2. Calculer E Xn

etV Xn

et en d´eduireE

Xn 2

3. Montrer enfin queE(Wn) =n−1n V (X) et en d´eduire un estimateur sans biais de la variance.

4.2 Question confidentielle.

Certains sujets abord´es dans les enquˆetes d’opinion sont parfois assez intimes, et on court le risque que les personnes interrog´ees se refusent `a r´epondre franchement `a l’enquˆeteur, faussant ainsi le r´esultat.

On peut alors avoir recours `a une astuce consistant `a inverser al´eatoirement les r´eponses .

Consid´erons une question confidentielle pour laquelle on veut estimer la probabilit´epde r´eponses positives.

L’enquˆeteur demande `a chaque personne interrog´ee de lancer un d´e.

• Si le d´e tombe sur 6 , la personne doit donner sa r´eponse sans mentir,

• sinon elle doit donner l’opinion contraire `a la sienne.

Si l’enquˆeteur ignore le r´esultat du d´e, il ne pourra pas savoir si la r´eponse est franche ou non, et on peut esp´erer que la personne sond´ee acceptera de jouer le jeu.

G´en´eralisons l´eg`erement la situation en tirant pour chaque personne une variable de Bernoulli de param`etre α. (α= 16 dans l’exemple introductif)

• Si le r´esultat de cette variable est 1, la r´eponse est franche,

• sinon, elle est invers´ee.

Soit nle nombre de personnes interrog´ees.

L’enquˆeteur ne recueille que la fr´equence empiriqueFndes “oui”.

1. Montrer que la probabilit´e de “oui” `a l’issue de la proc´edure estq =α p+ (1−α) (1−p)

2. Montrer que Fn, la fr´equence observ´ee par l’enquˆeteur, est un estimateur sans biais de q et de risque quadratique tendant vers 0 quand ntend vers +∞

3. Pour α6= 1/2 exprimerp en en fonction de q.

4. En d´eduire queTn= Fn2α−1−1+α est un estimateur sans biais de pdont le risque quadratique tend vers 0 quand ntend vers +∞.

5. Pournfix´e, quelle valeur attribuer `aαpour que le risque quadratique soit minimum ? Est-ce acceptable

?

Pour quelle valeur deα ce risque est-il maximum ? Quel sera le risque quadratique avec le d´e (α= 1/6)

(5)

4.3 Loi uniforme

Soit X de loi U[0, a] et (X1, . . . Xn) une n-´echantillon de variables. Estimation de a: X a une esp´erance de a/2.SoitXn la moyenne empirique.

1. Soit Tn= 2Xn. Montrer queTnest sans biais et d´eterminer son risque quadratique 2. Soit Tn0 = max (X1, . . . , Xn)

D´eterminer la fonction de r´epartition deX puis celle de Tn0 En d´eduire sa densit´e puis son biais et son risque quadratique.

3. Soit Tn00= n+1n Tn0 d´eterminer son biais et son risque quadratique.

4. Quel est le meilleur estimateur de apour de grandes valeurs de n?

4.4 Intervalle de confiance pour le param`etre d’une variable de Bernoulli.

Lors d’un sondage sur 100 personnes interrog´ee, 60 pensent voter pourA

On mod´elise le choix par un ´echantillon (X1, . . . , X100) de variable ind´ependantes de mˆeme loi de Bernouilli de param`etrep.

On cherche `a d´eterminer un intervalle de confiance pourp au niveau de confiance 99% (1% de risque) 1. D´eterminer l’esp´erance et la variance de la fr´equence empirique F = 1001 P100

i=1Xi ? 2. On note F la fr´equence empirique centr´ee r´eduite.

Par quelle loi peut on approcher celle de F? On suppose d´esormais que F suit N(0,1) 3. D´eterminerttel que P (−t≤F ≤t)≥0,99 et en d´eduire que P

F−t

p(1−p)

10 ≤p≤F+t

p(1−p) 10

≥ 0,99

4. Montrer que pour toutp∈[0,1], p(1−p)≤ 14 et en d´eduire que [F−t/20 ;F+t/20] est un intervalle de confiance de p au niveau de confiance 99%

4.5 Intervalle de confiance par Bienaym´e-Tchebichev Soita∈

0; 2√ 3

, X ,→ U[0,a]et (X1. . . Xn) unn-´echantillon de variables de mˆeme loi queXet ind´ependantes.

On cherche un intervalle de confiance de a2 au niveau de confiance 99% (niveau de risque 1%).

On note Xn la moyenne empirique

1. Rappeler la moyenne m de X et montrer queV (X) = a122. En d´eduire la moyenne et l’esp´erance de Xn.

2. En d´eduire que P

Xna2

>0,1

100n 3. D´eterminer enfinn pour que

Xn−0,1 ;Xn+ 0,1

soit un intervalle de confiance de a2 au niveau de confiance 99%

4. Ecrire un programme PASCAL qui

• choisit un nombre aau hasard dans 0; 2√

3

• effectue 10000 tirages dans [0, a]

• calcule et affiche la moyenne des r´esultats obtenus.

Le programme a affich´e 0,534.

• Pensez vous que a2 = 0,534 ?

• Pensez vous que a2 >0,7 ?

(6)

• Pensez vous que a2 ∈[0,43 ; 0,64] ?

5. dans la sutie,n= 10000.Par quelle loi peut-on approcher celle deXn (centr´ee r´eduite) ? 6. D´eterminer t pour que P

−t≤

12

a 100 Xna2

< t

≥ 0,99 et en d´eduire un autre intervalle de confiance de a2 au niveauα

4.6 Comptage par capture et recapture

On cherche `a ´evaluer le nombreN de poissons dans un ´etang.

Pour cela, on pr´el`eve dans l’´etang mpoissons que l’on bague avant les remettre dans l’´etang.

On propose deux m´ethodes diff´erentes d’estimation de N.

M´ethode 1

Soit n∈N,n≥m.

On pr´el`eve des poissons dans l’´etang, au hasard et avec remise.

On note Xn la variable al´eatoire ´egale au nombre de poissons qu’il a ´et´e n´ecessaire de pˆecher pour obtenir n poissons marqu´es.

Pour touti∈[2, n], on poseDi=Xi−Xi−1. On poseD1=X1 et on suppose que lesDi sont des variables ind´ependantes.

1. a) Pour touti∈[2, n],quelle est la signification de Di ?

b) D´eterminer, pouri∈[2, n], la loi deDi, son esp´erance et sa variance.

En d´eduire l’esp´erance et la variance deXn.

c) On pose An= mnXn. Montrer queAn est un estimateur sans biais deN et d´eterminer son risque quadratique.

2. a) Pour n assez grand, par quelle loi peut-on approcher la loi de la variable al´eatoire Xn (centr´ee r´eduite) ?

b) On a marqu´e 200 poissons puis effectu´e 450 pr´el`evements pour obtenir 50 poissons marqu´es.

On poseσ =σ(An). On a pu prouver par ailleurs que σ ≤100.

D´eterminer en fonction deσ, un intervalle de confiance pourN au seuil 0.9 (On donne Φ(1,64)'0,95).

M´ethode 2

On pr´el`eve successivement et avec remise npoissons. SoitYn le nombre de poissons marqu´es parmi eux.

1. Montrer que nm1 Ynest un estimateur sans biais de N1. 2. Pour quelle raison ´evidente ne peut-on pas prendre nmY

n comme estimateur de N ? On pose alors Bn= m(n+1)Y

n+1

a) Calculer l’esp´erance de Bn (on montrera que k+11 nk

= n+11 n+1k+1 b) Est-il un estimateur sans biais deN ?

Références