• Aucun résultat trouvé

(1)L’´et´e 2010 Cours 12 — le 22 juin 12.1

N/A
N/A
Protected

Academic year: 2022

Partager "(1)L’´et´e 2010 Cours 12 — le 22 juin 12.1"

Copied!
6
0
0

Texte intégral

(1)

L’´et´e 2010 Cours 12 — le 22 juin

12.1. Un rappel bref. L’intervalle de pari encadre la moyenne d’´echantillon : µ− aσ

√n ≤X¯ ≤µ+ aσ

√n.

Ici µ= E(X1)est la moyenne de la population,σ est l’´ecart-type de la population, eta est une valeur extrˆeme, ou bien le quantile sup´erieure corr´espondant `a α/2 de la loi normale N(0,1). La probabilit´e queX¯ appartienne `a l’intervalle de pari est ´egale1−α:

P

µ− aσ

√n ≤X¯ ≤µ+ aσ

√n

= 1−α.

(La condition :n ≥30.)

On appelleαle risque, et1−αle niveau de confiance. La valeur

√aσ n est dite l’incertitude (absolue), ou bien la pr´ecision.

L’intervalle de confiance encadre µplutˆot que X, et de plus la valeur g´en´eralement in-¯ connu deσest remplac´ee par la valeursde l’´ecart-type d’´echantillon :

(12.1) X¯ − as

√n ≤µ≤X¯ + as

√n.

Sin ≥30est suffisamment grande, on d´eduit la mˆeme conclusion : au niveau de confiance 1−α, la double in´egalit´e (12.1) a lieu :

P

X¯ − aσ

√n ≤µ≤X¯+ aσ

√n

= 1−α.

On note

sM = s

√n l’´ecart-type de la moyenne d’´echantillon.

1

(2)

12.2. L’invervalle de confiance pour une proportion. SoitX une variable al´eatoire, pas forc´ement num´erique. SoitAune classe quelconque des valeurs deX. Nous voulons estimer la probabilit´e

π =P[X ∈A],

`a partir d’un ´echantillon des valeurs deX, tir´ees au hasard : {x1, x2, . . . , xn}.

NotonsnAle nombre des indicesi= 1,2, . . . , ntels quexi ∈A. On note par p= nA

n

la fr´equence relative de A, ou bien la proportion observ´ee de l’´ev`enement X ∈ A. Quelle est la relation entrepetπ? Peut-on utiliserpcomme un estimateur statistique deπ? Si oui, quel est l’intervalle de confiance pourπau niveau de confiance donn´e ?

On r´eduit le probl`eme facilement au probl`eme de l’intervalle de confiance pour la moyenne.

D´efinissons une variable al´eatoireY =IY (le fonction indicatrice deA) comme suit : Y =

(1, siX ∈A, 0, siX /∈A.

Il est claire que

Y¯ = nA

n =p.

Pour l’´echantillon corr´espondant y1, y2, . . . , yn des valeurs binaires de Y, o`u yi = 1si et seulement sixi ∈A, on obtient, en utilisant le fait que12 = 1et02 = 0:

s2(y) = Pn

i=1(yi−y)¯ 2 n−1

= Pn

i=1yi2−2¯yPn

i=1yi+ny¯2 n−1

= Pn

i=1yi2−n¯y2 n−1

= Pn

i=1yi−ny¯2 n−1

= nAnn2A

n−1

= nA(n−nA) n(n−1) .

(3)

D’ici, on d´eduit pour l’´ecart-type de la proportion d’´echantillon x1, x2, . . . , xn (= l’´ecart- type de la moyenne d’´echantillony1, . . . , yn) :

sM = s

√n =

snA(n−nA) n2(n−1) =

pp(1−p)

√n−1 .

Le r´esultat (12.1) s’applique et nous donne l’intervalle de confriance pour la moyenne deY, c.`a.d. pour la proportion deX:

¯

y−asM ≤E(Y)≤y¯+asM, ou, en d’autres mots,

(12.2) p−a

pp(1−p)

√n−1 ≤π ≤p+a

pp(1−p)

√n−1 . On en conclut : la probabilit´e de l’´ev`enement

"

|p−π| ≤a

pp(1−p)

√n−1

#

et ´egale `a1−α.

La condition sur n est l´eg`erement diff´erente que dans le cas g´en´erale d’une moyenne d’´echantillon : on utilise la loi normale si

n≥max 5

p, 5 1−p

.

Sinon, la loi de Studenttn1avecn−1degr´es de libert´e doit ˆetre utilis´ee afin de d´eterminer le quantilea.

Exercice 12.1. Dans l’´etude de survie sur n = 100malades dont20sont d´eced´es, quel est l’intervalle de confiance pour l’estimation de la survie au95%?

Ici on a p = 80/100 = 0.8 (car il s’agit de la survie, pas du d´ec`es), α = 5% = 0.05 (puisque le niveau de confiance 1−α = 0.95), d’o`u on d´eduit a ≈ 1.96(le quantile de la loi normale qui correspond `a α/2 = 0.025, carn = 100 > 5/0.2 = 25), et l’intervalle de confiance est donn´e par la formule (12.2) :

0.2±1.96·

r0.2·0.8

99 ≈[0.72,0.88].

Au niveau de confiance95%, la probabilit´e de survie se trouve entre72%et88%.

Exercice 12.2. De mˆeme, pourn= 20malades dont4sont d´eced´es.

La proportion observ´ee p = 16/20 = 0.8est la mˆeme que dans le probl`eme pr´ecedant.

Pourtant, maintenant on a

n= 20 < 5

1−p = 5

0.2 = 25,

(4)

donc le quantileadoit ˆetre recherch´e avec l’aide de la loi de Studenttn1 avecn−1 = 19 degr´es de libert´e, plutˆot que la loi normaleN(0,1). On utilise R commander pour retrouver a = 2.093..., et l’intervalle de confiance devient

0.8±2.093·

r0.2·0.8

19 ≈[0.61,0.992].

L’intervalle de confiance pour la survie est ´egal `a[61%,100%]. Tout ce qu’on peut dire avec le risque de se troumper au5%, c’est que le pourcentage de la survie est plus grand ou ´egal

`a61%.

La taille d’´echantillon est trop petite pour faire des conclusions plus pr´ecises.

12.3. Comment d´eterminer l’effectif d’´echantillon. Car X¯ est un estimateur non biais´e de la moyenneµ(en d’autres mots,X¯ converge en probabilit´e versµ), on connait que, sin est suffisamment grand, on peut atteindre une pr´ecision donn´ee d’avance.

Quel exactement est l’effectif d’´echantillonnn´ecessaire pour connaˆıtre une moyenne avec une pr´ecision et au niveau de confiance donn´es ?

Soient α > 0 et i > 0 fix´es d’avance. On veut que l’incertitude absolue, c.`a.d., l’´ecart entre la moyenne de la population et la moyenne observ´ee, ne d´epasse pas i, au niveau de confiance1−α. On obtient la double l’in´egalit´e

|X¯ −µ| ≤ aσ

√n ≤i,

d’o`u

(12.3) n ≥ a2σ2

i2 .

L’application pratique suppose qu’on connaisseσ2 =var(X1), la variance th´eorique de la distribution, ou bien au moins une limite sup´erieure pourσ2. Il y a trois possibilit´es.

(1) Si la variable X prends ces valeurs dans un intervalle connu [c, d], alors on peut en conclure que σ2 prends ces valeurs dans l’intervalle (d−c)2. On obtient donc l’estimationn≥a2(d−c)2/i2.

(2) Parfois on d´eduit une estimation deσ2 de l’hypoth`ese.

(3) Finalement, on peut remplacerσ2 avec la variance d’´echantillon,s2, trouv´ee pour un petit ´echantillon pendant une ´etude pr´eliminaire (´etude pivote).

L’approche derni`ere nous am`ene `a l’estimation

(12.4) n≥ a2s2

i2 .

Pourtant, s2 n’est qu’une estimation approximative de σ2, l’´echantillon de l’´etude pivote

´etant petit, donc c’est une bonne id´ee, de chercher l’intervalle de confiance pourσ2.

(5)

12.4. L’intervalle de confiance pour la variance. La variance th´eorique de la distribu- tion (de la population), σ2, est une constante. Par contre, la variance d’´echatillon s2 est une variable al´eatoire, car sa valeur d´epend de l’exp´erience al´eatoire telle que le choix d’´echantillon. Elle fluctue autour deσ2.

Comme d’habitude, on mod´elise un ´echantillonx1, x2, . . . , xnavec une suiteX1, X2, . . . , Xn

des variables al´eatoires ind´ependants qui sont distribu´ees selon la mˆeme loi. L’´echantillon x1, x2, . . . , xnest une estimation ponctuelle de la familleX1, X2, . . . , Xn: pour un ´ev`enement

´el´ementaires∈Sdans l’ensemble fondamental, on a

x1 =X1(s), x2 =X2(s), . . . , xn =Xn(s).

En bref, un ´ev`enement ´el´ementaire s’est produit, et on obtient un ´echantillonx1, x2, . . . , xn...

Th´eor`eme 12.3. Supposons queX1(doncX2, X3, . . . , Xn) suivent la loi normale, etn ≥30.

Notonsσ =σ(X1). Alors la variable al´eatoires2, la variance d’´echantillonX1, X2, . . . , Xn

est distribu´ee selon la loi normale N

σ2,2σ4 n

.

On en d´eduit :

2−s2| ≤a r2σ4

n =aσ2

√2

√n, d’o`u

s2−aσ2

√2

√n ≤σ2 ≤s2+aσ2

√2

√n. L’in´egalit´e `a la gauche nous donne :

s2−aσ2

√2

√n ≤σ2, d’o`u

s2 ≤aσ2

√2

√n +σ2,

s2 ≤σ2 1 +a

√2

√n

! , et enfin

s2

1 +an2 ≤σ2.

De fac¸on semblable, `a partir de l’in´egalit´e `a droite, on obtient σ2 ≤ s2

1−an2.

(6)

Voici l’intervalle de confiance pour la variance th´eoriqueσ2 :

(12.5) s2

1 +an2 ≤σ2 ≤ s2 1−an2.

Soulignons que cette intervalle est seulement valable si X1 suit la loi normale et la taille d’´echantillonn≥30.

Donc, en estimant la taille d’´echantillon n´ecessaire pour obtenir la pr´ecision donn´ee iau niveau de confiance1−α, il est plus prudent de remplacerσ2avec la borne sup´erieure s2

a2

n1, de moins si nous avons la raison `a croire queX1 suit la loi normale :

(12.6) n≥ a2s2

i2

1−an2 .

Exercice 12.4. On veut estimer la valeur moyenneµdu taux s´erique d’une certaine substance chez les patients atteints d’une maladieM. Une enquˆete pivote sur un petit ´echantillon de30 patients a estim´ex¯= 21.7ets2 = 4.1. Quelle doit ˆetre la taillend’´echantillon `a constituer pour connaˆıtre la valeur moyenne `a0.1pr`es, au niveau de confiance95%?

Le contenu des substances chimiques dans le sang suit approximativement un loi normale, et de plusn= 30est suffisamment grand, donc on peut utiliser (12.6), pour en d´eduire :

n≥ 1.962·4.1 0.12

1−1.96302 ≈3189.

Références

Documents relatifs

On appelle premier quartile d’une s´erie la plus petite valeur Q 1 de la s´erie pour laquelle au moins un quart (25%) des donn´ees sont inf´erieures ou ´egales `a Q 1.. On

Les points attribués dans cette partie étaient pourtant nombreux, les capacités à traiter correctement les documents proposés étant amenées dans le futur à

La moyenne est très supérieure à la médiane, car la plupart des communes sont faiblement peuplées, mais les villes comme Strasbourg, Mulhouse, Colmar et Haguenau contiennent près de

Tracer une échelle des temps sur laquelle vous préciserez, pour chaque position : le temps, l’altitude et votre vitesse à cet

Que dire de la moyenne des valeurs extrêmes d'une série statistique par rapport à la moyenne de celle-ci3. Le tableau suivant concerne la ville de ZéroCity où les températures

Pour chacune des deux villes, donne les températures extrêmes et calcule la moyenne de ces valeurs?. Calcule la moyenne annuelle des températures pour chacune de ces

Quel est le nombre moyen de bonnes réponses données par les candidats de 24 ans et

Calcule la moyenne pondérée de chacune des séries statistiques suivantes (arrondis au dixième si