• Aucun résultat trouvé

1 Intervalle de confiance.

N/A
N/A
Protected

Academic year: 2022

Partager "1 Intervalle de confiance."

Copied!
10
0
0

Texte intégral

(1)

Corrig´e Statistiques inf´erentielle par par Pierre Veuillez

1 Intervalle de confiance.

Exercice

D´eterminer une valeur approch´ee de la loi de la moyenne empirique : E Xn

=E(X), V Xn

= 1nV (X) donc Xn ,→

N E(X),n1V (X)

2 Exercices

2.1 Variance

Soit X ayant une esp´erancem et une variancev, sa variance empirique estWn= 1nP

Xi2−Xn 2

avec Xn la moyenne empirique de X et 1nP

Xi2 la moyenne empirique de X2.

1. Soit Y ayant une esp´erance et une variance. Calculer E(Y2) en fonctionE(Y) et V (Y) 2. Calculer E Xn

et V Xn

et en d´eduire E Xn2

3. Montrer enfin que E(Wn) = n−1n V (X) et en d´eduire un estimateur sans biais de la variance.

Solution

1. V (Y) =E(Y2)−E(X)2 donc E(Y2) =V (Y) +E(Y)2 2. E Xn

=m et V Xn

= 1nv donc E Xn2

= n1v+ m2 3. E(Wn) = n1 P

E(Xi2) = 1nn(v +m2)− n1v+ m2

= 1− 1n

v = n−1n v D’o`u E n−1n Wn

= v et n−1n Wn variance empirique sans biais est un estimateur sans biais de la variance.

2.2 Question confidentielle.

Certains sujets abord´es dans les enquˆetes d’opinion sont parfois assez intimes, et on court le risque que les personnes interrog´ees se refusent `a r´epondre franchement `a l’enquˆeteur, faussant ainsi le r´esultat.

On peut alors avoir recours `a une astuce consistant `a inverser al´eatoirement les r´eponses .

Consid´erons une question confidentielle pour laquelle on veut estimer la probabilit´e p de r´eponses positives.

L’enquˆeteur demande `a chaque personne interrog´ee de lancer un d´e.

• Si le d´e tombe sur , la personne doit donner sa r´eponse sans mentir,

• sinon elle doit donner l’opinion contraire `a la sienne.

Si l’enquˆeteur ignore le r´esultat du d´e, il ne pourra pas savoir si la r´eponse est franche ou non, et on peut esp´erer que la personne sond´ee acceptera de jouer le jeu.

G´en´eralisons l´eg`erement la situation en tirant pour chaque personne une variable de Bernoulli de param`etre α.

(2)

• Si le r´esultat de cette variable est 1, la r´eponse est franche,

• sinon, elle est invers´ee.

Soit n le nombre de personnes interrog´ees.

L’enquˆeteur ne recueille que la fr´equence empirique Fn des “oui”.

1. Montrer que la probabilit´e de “oui” `a l’issue de la proc´edure est q=α p+ (1−α) (1−p) 2. Montrer que Fn, la fr´equence observ´ee par l’enquˆeteur, est un estimateur sans biais de q et de

risque quadratique tendant vers 0 quand n tend vers +∞

3. Pour α6= 1/2 exprimer p en en fonction de q.

4. En d´eduire que Tn = Fn2α−1−1+α est un estimateur sans biais dep dont le risque quadratique tend vers 0 quand n tend vers +∞.

5. Pour n fix´e, quelle valeur attribuer `a α pour que le risque quadratique soit minimum ? Est-ce acceptable ?

Pour quelle valeur deα ce risque est-il maximum ? Quel sera le risque quadratique avec le d´e (α= 1/6)

2.3 Loi uniforme

Soit X de loi U[0, a] et (X1, . . . Xn) unen-´echantillon de variables. Etimation de a: X a une esp´erance de a/2. Soit Xn la moyenne empirique.

1. Soit Tn = 2Xn. Montrer que Tn est sans biais et d´eterminer son risque quadratique 2. Soit Tn0 = max (X1, . . . , Xn)

D´eterminer la fonction de r´epartition deX puis celle de Tn0 En d´eduire sa densit´e puis son biais et son risque quadratique.

3. Soit Tn00= n+1n Tn0 d´eterminer son biais et son risque quadratique.

4. Quel est le meilleur estimateur de a pour de grandes valeurs de n ? solution:

1. Xn = n1 Pn

i=1Xi doncE Xn

= n1 Pn

i=1E(Xi) = a2 d’o`uE(Tn) = 2a2 =a et Tn est sans biais.

V Xn

= n12

Pn

i=1V (Xi) car les (Xi) sont ind´ependantes.

E(Xi2) =Ra 0

1

at2dt = a1[t3/3]a0 = a32 donc V (Xi) = a32a42 = a122 d’o`uV Xn

= 12nn a22. La variance de Tn= 2Xn est alors V (Tn) = 4V Xn

= 3na2 et donc son risque quadratique est

a2

3n + 02 = 3na2

2. La fonction de r´epartitionF de Xest : F(x) = Rx

−∞f(t) dt=

0 si x <0 Rx

0 1

adt= xa si x∈[0, a]

1 six > a (Tn0 ≤t) = (max (X1, . . . , Xn)≤t) = Tn

i=1(Xi ≤t) et en notant F la fonction de r´epartition deX, et Gcelle de Tn0 on a alors

(3)

G(t) =F (t)n.

F est continue sur Ret C1 sauf en 0 et a donc G´egalement etTn0 est `a densit´e de densit´e : g(t) =G0(t) =n f(t)Fn−1(t) =

0 si x /∈[0, a]

n a

x a

n−1

si x∈[0, a]

L’esp´erance (qui existe) de Tn0 est alorsRa

0 t g(t)dt=Ra 0

n

antndt = n

n+1 1

antn+1a

0 = n+1n a DoncTn0 a pour biais n+1n −1

a=−na (biais´e mais son biais tend vers 0 quand n→+∞ ) L’esp´erance (qui existe) de Tn02 est Ra

0 t2g(t)dt=Ra 0

n

antn+1dt = n

n+2 1

antn+2a

0 = n+2n a2 Donc la variance de Tn0 est

V (Tn0) = E Tn02

−E(Tn0)2 = n

n+ 2a2− n

n+ 1 2

a2 = n

(n+ 1)2(n+ 2)a2 et son risque quadratique estr0 =V (Tn0) +b2 = n

(n+1)2(n+2)a2+n12a2 =

n

(n+1)2(n+2) + n12

a2

2 n2a2

3. Alors Tn00 = n+1n Tn0 a pour esp´erance n+1n E(Tn0) =a donc Tn00 est sans biais.

Sa variance estV (Tn00) = n+1n 2

V (Tn0) = n(n+2)1 a2 et a pour risque quadratiquer00= n(n+2)1 a2

1

n2a2 ce qui est (pourn grand) deux fois mieux queTn0.

4. Donc pour de grandes valeurs de n, Tn00 est le meilleur estimateur dea.

2.4 Intervalle de confiance pour le param` etre d’une variable de Bernouilli.

Lors d’un sondage sur 100 personnes interrog´ee, 60 pensent voter pour A

On mod´elise le choix par un ´echantillon (X1, . . . , X100) de variable ind´ependantes de mˆeme loi de Bernouilli de param`etre p.

On cherche `a d´eterminer un intervalle de confiance pourpau niveau de confiance 99% (1% de risque) 1. D´eterminer l’esp´erance et la variance de la fr´equence empirique F = 1001 P100

i=1Xi ? 2. On note F la fr´equence empirique centr´ee r´eduite.

Par quelle loi peut on approcher celle de F? On suppose d´esormais que F suit N(0,1) 3. D´eterminerttel que P (−t ≤F ≤t)≥0,99 et en d´eduire que P

F −t

p(1−p)

10 ≤p≤F +t

p(1−p) 10

≥ 0,99

4. Montrer que pour tout p ∈[0,1], p(1−p)≤ 14 et en d´eduire que [F −t/20 ; F +t/20] est un intervalle de confiance de p au niveau de confiance 99%

(4)

Solution

1. On a E(F100) =E 1001 P100 i=1Xi

= 1001 P100

i=0E(Xi) = 1001 100p=p DoncFn est un estimateur sans biais de p

2. Somme de variables ind´ependantes de mˆeme loiB(1, p) :V (Xi) = p(1−p)6= 0 etE(Xi) =p Donc avec F = 1001 P100

i=1Xi, F peut ˆetre approch´ee par une loi Normale centr´ee r´eduite.

V (F) = 10012

P100

i=1V (Xi) car les (Xi)i sont ind´ependantes. Donc V (F) = 1001 p(1−p) et F = qF−p

p(1−p) 100

= √ 10

p(1−p)(F −p) la fr´equence empirique centr´ee r´eduite suit approximativement une loiN (0,1)

3. Comme −t ≤t : P (−t ≤F ≤t) = Φ (t)−Φ (−t) = Φ (t)−(1−Φ (t)) = 2Φ (t)−1

On r´esout : 2Φ (t)−1 = 0,99⇐⇒ Φ (t)≥ 0,995 et on lit sur la table de la lo Normale pour t= 2,58

N.B. premi`ere transformation `a connaˆıtre :

(−t ≤F ≤t) = −t≤ 10

pp(1−p)(F −p)≤t

!

= −t

pp(1−p)

10 ≤F −p≤t

pp(1−p) 10

!

= F −t

pp(1−p)

10 ≤p≤F +t

pp(1−p) 10

!

Donc P

Fn−t

p(1−p)

10 ≤p≤Fn+t

p(1−p) 10

≥0,99 4. On ´etudie les variations de f(p) = p(1−p).

f est d´erivable sur R etf0(p) = 1−p−p= 1−2p

p 0 1/2 1

f0(p) = 1−2p + 0 − affine f(p) % 1/4 &

et p(1−p)≤ 14 On a alors p

p(1−p)≤ 12 donc

N.B. seconde transformation `a connaˆıtre :

Fn−t

p(1−p)

10 ≤p≤Fn+t

p(1−p) 10

⊂ Fn−t201 ≤p≤Fn+t201

et P (Fn−t/20≤p≤Fn+t/20)≥ P

Fn−t

p(1−p)

20 ≤p≤Fn+t

p(1−p) 20

≥0,99

Donc [Fn−t/20 ; Fn+t/20] est un intervalle de confiance de p au niveau de confiance 99%

soit avec l’´echantillon de donn´ees : ˆp= 0,6

t/20'0,13,l’intervalle de confiance au niveau 99% est [0,47 ; 0,73] ... ce qui ne renseigne pas beaucoup sur les chances de remporter l’´election..

Avec un ´echantillon de taille 10000, on trouvera l’intervalle [Fn−t/200, Fn+t/200] soit une largeur d’intervalle proche de 5% pour un niveau de confiance de 99%.

(5)

Avec un niveau de confiance de 95%, on a t= 1,96 et pourn = 1000 on a t

p(1−p)

1000 ≤0,0302, c’est la classique des sondages : pour un ´echantillon de 1000 personne, le r´esultat est donn´e avec un intervalle de confiance de 3% (ce que ne disent pas les sondeurs, c’est que cela n’est sˆur qu’`a 95% : il y a 5% de chance que la valeur r´eelle soit hors de cet intervalle de

2.5 Intervalle de confiance par Bienaym´ e-Tchebichev

Soit a ∈ 0; 2√

3

, X ,→ U[0,a] et (X1. . . Xn) un n-echantillon de variables de mˆeme loi que X et ind´ependantes.

On cherche un intervalle de confiance de a2 au niveau de confiance 99% (niveau de risque 1%).

On note Xn la moyenne empirique

1. Rappeler la moyennemdeXet montrer queV (X) = a122. En d´eduire la moyenne et l’esp´erance deXn.

2. En d´eduire que P

Xna2

>0,1

100n 3. D´eterminer enfin n pour que

Xn−0,1 ;Xn+ 0,1

soit un intervalle de confiance de a2 au niveau de confiance 99%

4. Ecrire un programme PASCAL qui

• choisit un nombrea au hasard dans 0; 2√

3

• effectue 10000 tirages dans [0, a]

• calcule et affiche la moyenne des r´esultats obtenus.

Le programme a affich´e 0,534.

• Pensez vous que a2 = 0,534 ?

• Pensez vous que a2 >0,7 ?

• Pensez vous que a2 ∈[0,43 ; 0,64] ?

5. Par quelle loi peut-on approcher celle de X1000 ? 6. D´eterminer tpour que P

−t ≤

12

a 100 Xna2

< t

≥0,99 et en d´eduire un autre intervalle de confiance de a2 au niveau α

Solution Soit a ∈

0; 2√ 3

, X ,→ U[0,a] et (X1. . . Xn) un n´echantillon de variables de mˆeme loi que X et ind´ependantes.

On cherche un intervalle de confiance de a2 au niveau de confiance 99% (niveau de risque 1%).

On note Xn la moyenne empirique 1. On a E(X) = a2

Et comme la densit´e de X est nulle hors de [0, a] et vaut 1a sur [0, a] on a E(X2) =Ra 0

t2 adt = ht3

3a

ia 0

= a32 et doncX a une variance qui est V (X) = a32a22

= a122 DoncE Xn

=E 1nPn i=1Xi

= 1nPn

i=1E(Xi) = nnE(X) = a2

(6)

EtV Xn

=E 1nPn i=1Xi

= n12

Pn

i=1V (Xi) car les Xi sont ind´ependants· · ·= n12nV (X) =

a2 12n

Rappeler la moyennemdeXet montrer queV (X) = a122. En d´eduire la moyenne et l’esp´erance deXn.

2. D’apr`es l’in´egalit´e de Bienaym´e-Tchebichev on a alors P

Xna2

>0,1

V(Xn)

0,12 = 10012na2 et comme 0≤ a≤2√

3 alors a2 ≤12 et donc P

Xna2

>0,1

100n et P

Xna2

≤0,1

≥ 1−100n

3. Comme l’´ev´enement

Xna2

≤0,1

s’´ecrit −0,1≤Xna2 ≤0,1

ou encore : Xn−0,1≤ a2 ≤Xn+ 0,1

Donc pourn = 10000 on a P Xn−0,1≤ a2 ≤Xn+ 0,1

≥1−0,01 et

Xn−0,1 ; Xn+ 0,1 est un intervalle de confiance de a2 au niveau de confiance 99%

4. Ecrire un programme PASCAL qui Program estim;

var a,x,s:real;k:integer;

begin

randomize;a:=random(2*(3));s:=0;{initialisation}

for k:=1 to 10000 do begin

x:=random(a);

s:=s+x;

end;

writeln(’la moyenne est :’,s/10000);

end.

Le programme a affich´e 0,534.

• Chaque valeur a une probabilit´e nulle d’avoir ´et´e choisie ! donc a2 6= 0,534 ?

• La probabilit´e que a2 soit dans l’intervalle [0,534−0,1 ; 0,534 + 0,1] est sup´erieure `a 99%.

Donc la probabilit´e qu’il soit>0,7 est de moins de 1%.Je ne pense donc pas quea/2>0,7

• La probabilit´e de a2 ∈ [0,43 ; 0,64] est sup´erieure `a 99%. Je pense donc que oui. (et j’ai moins de 1% de chances de me tromper ...)

5. La loi Pn

i=1Xi somme de variables ind´ependantes de mˆeme loi qui a pour esp´erance na2, et pour variance na122.

DOnc centre´ee r´eduite, elle peut ˆetre approch´ee par une loi N (0,1) et Xn = √Xn−a/2

a2/12n par N(0,1)

6. Et pour n= 10000 : P

−t ≤

12

a 100 Xna2

< t

'Φ (t)−Φ (−t) = 2Φ (t)−1 On r´esout 2Φ (t)−1≥0,99⇐⇒Φ (t)≥0,995 ce qui est v´erifi´e pour t= 2,58≤2,6 On a

−t ≤

12

a 100 Xna2

< t

=

Xn−t a

100

12a2 < Xn+t a

100 12

avec a

100

121001

(7)

donc

Xn−0,026 ; Xn+ 0,026

est un intervalle de confiance de a2 au niveau de confiance 99%

(soit une pr´ecision quatre fois meilleure qu’avec la formule de Bienaym´e-Tchebichev)

(8)

2.6 Comptage par capture et recapture

On cherche `a ´evaluer le nombre N de poissons dans un ´etang.

Pour cela, on pr´el`eve dans l’´etang m poissons que l’on bague avant les remettre dans l’´etang.

On propose deux m´ethodes diff´erentes d’estimation de N.

M´ethode 1

Soit n ∈N,n ≥m.

On pr´el`eve des poissons dans l’´etang, au hasard et avec remise.

On note Xn la variable al´eatoire ´egale au nombre de poissons qu’il a ´et´e n´ecessaire de pˆecher pour obtenirn poissons marqu´es.

Pour tout i∈ [2, n], on pose Di = Xi −Xi−1. On pose D1 = X1 et on suppose que les Di sont des variables ind´ependantes.

1. a) Pour tout i∈[2, n], quelle est la signification de Di ?

b) D´eterminer, pouri∈[2, n], la loi de Di, son esp´erance et sa variance.

En d´eduire l’esp´erance et la variance de Xn.

c) On poseAn = mnXn. Montrer queAnest un estimateur sans biais de N et d´eterminer son risque quadratique.

2. a) Pournassez grand, par quelle loi peut-on approcher la loi de la variable al´eatoireXn= Xnn (on utilisera le th´eor`eme de la limite centr´ee)?

b) On a marqu´e 200 poissons puis effectu´e 450 pr´el`evements pour obtenir 50 poissons marqu´es.

On poseσ =σ(An). On a pu prouver par ailleurs queσ ≤100.

D´eterminer en fonction de σ, un intervalle de confiance pour N au seuil 0.9 (On donne Φ(1,64)'0,95).

M´ethode 2

On pr´el`eve successivement et avec remise n poissons. Soit Yn le nombre de poissons marqu´es parmi eux.

1. Montrer que nm1 Yn est un estimateur sans biais de N1. 2. Pour quelle raison ´evidente ne peut-on pas prendre nmY

n comme estimateur de N ? On pose alors Bn = m(n+1)Y

n+1

a) Calculer l’esp´erance de Bn.

b) Est-il un estimateur sans biais de N ? Solution

M´ethode 1

1. a) Di est la diff´erence du nombre de p`eche n´ecessaire pour obteniri−1 etipoissons marqu´es.

C’est le nombre de p`eche pour obtenir un poisson marqu´e de plus.

(9)

b) DoncDiest lenombre dep`eches pour obtenir un poisson marqu´e de plus dans unesuite de p`eche (on peut supposer que la p`eche se continue ind´efiniment)ind´ependantes (avec remise, en supposant que les poissons sont bˆetes et ne se souviennent pas qu’il ne faut pas mordre `a l’hame¸con) ayant toutes une probabilit´e mN de donner un poisson marqu´e.

DoncDi ,→ G mN

et E(Di) = Nm etV (Di) = 1− mN

m N

2 = N(N −m) m2

Comme D1 +D2 +· · ·+Dn = Xn on a alors E(Xn) = nNm et comme les (Di)i sont ind´ependants, V (Xn) =nN(N−m)m2

c) On pose An= mnXn.

On a alorsE(An) = mnE(Xn) = N donc An est un estimateur sans biais deN.

Sa variance estV (An) =V mnXn

= mn22V (Xn) = N(N−m)n Donc son risque quadratique est : biais2+V (An) = N(Nn−m)

2. a) Pour n assez grand,Xn ´etant une somme de variables ind´ependantes et de mˆeme loi,Xn peut ˆetre approch´ee par une loi normale centr´ee r´eduite.

b) An suit alors ´egalement une loi normale de param`etres E(An) = N et etV (An) =σ2 et Anσ−N suit une loi normale centr´ee r´eduite.

Donc P −t ≤ Anσ−N ≤t

= Φ (t)−Φ (−t) = Φ (t)−[1−Φ (t)] = 2Φ (t)−1 Et

P

−t ≤ An−N σ ≤t

≥0,9 ⇐⇒ 2Φ (t)−1≥0,9

⇐⇒ Φ (t)≥0,95'Φ(1,64)

⇐⇒ t≥1,64 car Φ est croissante sur R

Commeσ≤100 alors

−t≤ An−N σ ≤t

= (An−tσ ≤N ≤An+tσ)⊂(An−t100≤N ≤An+t100) Et avec t= 1,64 : P (An−t100 ≤N ≤An+t100)≥P −t≤ Anσ−N ≤t

≥0,9

Donc [An−164, An+ 164] est un intervalle de confiance deN au niveau de confiance 0,9 Avec ici : m= 200; n = 50 etX50= 450

DoncA50 = 20050X50= 1800 (Estimation ponctuelle de N)

et on est sˆur `a 90% que le nombre de poissons dans l’´etang est compris dans l’intervalle [1636, 1964]

M´ethode 2

On pr´el`eve successivement et avec remise n poissons. Soit Yn le nombre de poissons marqu´es parmi eux.

1. Le nombre Yn de poissons marqu´es suit une loi binomial de param`etres n,mN . Donc son esp´erance est E(Yn) =nmN etE nm1 Yn

= N1 Donc nm1 Yn est un estimateur sans biais de N1.

On a V (Yn) = nmN 1− mN

= nm(N−m)N2 donc V nm1 Yn

= nm1 2

V (Yn) = (N−m)n m N2

Donc le risque quadratique de nm1 Yn comme estimateur de N1 est (N−m)n m N2

(10)

2. Comme Yn peut ˆetre nul avec une probabilit´e non nulle, nmY

n aurait une probabilit´e non nulle de ne pas ˆetre d´efini.

On pose alors Bn = m(n+1)Y

n+1

a) On utilise le th´eor`eme de transfert : les valeurs de Yn sont [[0, n]]

E(Bn) =

n

X

k=0

m(n+ 1)

k+ 1 P (Yn=k)

=

n

X

k=0

m(n+ 1) k+ 1

n k

pkqn−k

il faut d´evelopper le coefficient du binˆome pour simplifier l’expression.

en notantp= mN et q= 1−mN

E(Bn) =

n

X

k=0

m(n+ 1) k+ 1

n!

k! (n−k)!pkqn−k

=

n

X

k=0

m (n+ 1)!

(k+ 1)! (n−k)!pkqn−k On y reconnaˆıt n+1k+1

et on r´eindexe h = k + 1pour faire r´eapparaitre la formule du binˆome... pour la puissance n+ 1

E(Bn) =

n

X

k=0

m

n+ 1 k+ 1

pkqn−k

=

n+1

X

k=1

m

n+ 1 h

ph−1qn+1−h

= m

p

n+1

X

k=0

n+ 1 h

phqn+1−h−qn+1

!

= m

p (p+q)n+1−qn+1

= m

p 1−qn+1

= N 1−qn+1

b) DoncB est biais´e, mais quandntend vers +∞(quand on augmente le nombre de repˆeche) le biais tend vers 0 : il est asymptotiquement sans biais.

Références

Documents relatifs

Donner un intervalle de fluctuation au seuil de 95% de la fr´ equence de personnes satisfaits de la qualit´ e des produits commercialis´ es par son entreprise2. Parmi les

[r]

L’intérêt de l’écart-type comme paramètre de dispersion réside dans le fait que l’on a toujours au moins des observations comprises entre la moyenne m et plus ou moins k

Remarque : Le problème qui se pose ici est de nature très différente de celui qui se pose pour l'intervalle de confiance d'une moyenne lorsque l'écart type de la population n'est

paramètre θ à l’aide d’un estimateur sans biais de θ Soit X une v.a.r... Ainsi, une marge d’erreur faible produit un niveau de risque élevé et un niveau de

Dans la suite, on considère l’exemple suivant : une urne contient des boules vertes et des boules rouges dont on ignore le nombre et la proportion.. On effectue un tirage dans

Il s'agit d'une suite de 100 intervalles de confiance au niveau de confiance 0,95, dont chacun a été calculé sur un échantillon de taille 1000 simulé à partir de ce que fut le score

Pour cela, elle souhaite obtenir, à partir d’un échantillon aléatoire, une estimation de la proportion de clients satisfaits au niveau 0,95 avec un intervalle de confiance