• Aucun résultat trouvé

INTERVALLE DE CONFIANCE D’UNE PROPORTION

N/A
N/A
Protected

Academic year: 2022

Partager "INTERVALLE DE CONFIANCE D’UNE PROPORTION "

Copied!
5
0
0
En savoir plus ( Page)

Texte intégral

(1)

INTERVALLE DE CONFIANCE D’UNE PROPORTION

Rappel de notations

Dans une population, le pourcentage des individus qui possèdent un caractère A est p.

On prélève dans cette population un échantillon aléatoire simple de taille n.

On appelle f le pourcentage d’individus possédant le caractère A dans l’échantillon et F la variable aléatoire d’échantillonnage correspondante.

Problème

Nous allons traiter le cas où n est "grand".

Dans ce cas donc, la loi de probabilité de F est approximativement la loi normale de moyenne p et d’écart type

n ) p 1 ( p −

.

On note u le nombre tel que Φ(u) = 1 -

α

2

où Φ est la fonction de répartition de la loi normale centrée réduite.

On a alors :

p

(

p - u

n ) p 1 ( p −

< F < p + u

n ) p 1 (

p − )

= 1 - α (1)

d’où

p

(

F - u

n ) p 1 ( p −

< p < F + u

n ) p 1 (

p − )

= 1 - α.

Cette dernière égalité ne permet pas de construire un intervalle de confiance pour p, car celui-ci figure dans les trois membres de la double inégalité.

Comment faire ?

* Dans certains ouvrages, on lit :

"on ne connaît pasp mais on en connaît une estimation, c’est f, on remplace donc p par f dans les bornes de l’intervalle et l’on obtient un intervalle de confiance à (1 - α) avec la formule :

[f - u

n ) f 1 ( f −

; f + u

n ) f 1 ( f −

]" (2) Il y a là une sorte de tour de passe-passe un peu rapide, essayons d’aller plus loin.

* une autre possibilité consiste à trouver un intervalle, indépendant de p, contenant, quel que soit p, l’intervalle [F - u

n ) p 1 ( p −

; F + u

n ) p 1 ( p −

]; pour cela il suffit de remarquer que, pour tout p, p (1 - p ) est inférieur à 1/4. On obtient donc l’intervalle de confiance aléatoire :

(2)

ENFA - Bulletin du GRES n°9 – février 2000 page 10

[F -

u n 2

; F +

u n 2

].

on est sûr que :

p(F -

u n

2

< p < F +

u n

2

) ≥ 1 - α

mais la précision (c’est à dire l’amplitude de l’intervalle) n’est pas la meilleure.

Remarque : Ce résultat permet de comprendre la formule donnée dans le premier Thème de Statistique du nouveau programme de Seconde applicable à la rentrée 2000. Dans l'explication de ce thème consacré aux "fourchettes" ou intervalles de confiance d'une proportion, on lit :

"…. On incitera les élèves à connaître l'approximation usuelle de la fourchette au niveau de confiance 0,95, issue d'un sondage sur n individus (n>30) dans le cas où la proportion observée

p

est comprise entre 0,3 et 0,7, à savoir [

p

-

n 1

;

p

+

n 1

]" ;

p

représente la proportion constatée sur l'échantillon et n la taille de l'échantillon ; on comprend donc la simplification du 1,96 (notre u pour 95%) avec le 2 du dénominateur.

* une autre solution consiste à résoudre de manière rigoureuse la double inéquation en p de la relation (1) :

l’événement -u <

n ) p 1 ( p

p F

< u est égal à l’événement :

2

n ) p 1 ( p

p F

⎟ ⎟

⎟ ⎟

⎜ ⎜

⎜ ⎜

< u2

nous allons résoudre cette inéquation du second degré en p qui peut s’écrire : (n + u2) p 2 - (2nF + u2) p + nF2 < 0.

Le coefficient du terme du second degré de ce trinôme du second degré en p est strictement positif donc, si le discriminant de ce trinôme est positif, l’ensemble des valeurs de p solutions de l’inéquation est l’ensemble des valeurs comprises entre les deux racines du trinôme.

Calculons le discriminant :

Δ = (2nF + u2)2 - 4(n + u2) nF2

Δ = 4n2F2 + 4nF u2 + u4 - 4n2F2 - 4nu2F2 Δ = 4nu2F(1-F) + u4

F prenant des valeurs comprises entre 0 et 1, cette quantité est strictement positive donc le trinôme admet les deux racines suivantes :

) u n ( 2

u ) F 1 ( F nu 4 ) u nF 2 (

2

4 2

2

+

+

+

et

(3)

) u n ( 2

u ) F 1 ( F nu 4 ) u nF 2 (

2

4 2

2

+

+

− +

+

d’où l’intervalle de confiance :

⎢ ⎢

+

+

− +

) u n ( 2

u ) f 1 ( f nu 4 ) u nf 2 (

2

4 2

2

;

⎥ ⎥

⎤ +

+

− +

+

) u n ( 2

u ) f 1 ( f nu 4 ) u nf 2 (

2

4 2

2

en essayant de simplifier un peu ces expressions (division par 2n des numérateurs et dénominateurs et extraction de u des radicaux), on obtient :

⎢ ⎢

⎢ ⎢

+

− +

− +

n 1 u

n 4

u n

) f 1 ( u f n 2 f u

2

2 2 2

;

⎥ ⎥

⎥ ⎥

+

− + +

+

n 1 u

n 4

u n

) f 1 ( u f n 2 f u

2

2 2 2

(3)

On constate que pour obtenir l’intervalle de confiance (2), on est amené à négliger certains termes*.

Lorsqu’on utilise la formule : [f - u

n ) f 1 ( f −

; f + u

n ) f 1 ( f −

], on procède à deux approximations : l’approximation d’une loi binomiale par une loi normale, et le fait de négliger certains termes dans la formule (3).

C’est pour cette raison que, dans certains ouvrages (Statistique Théorique et Appliquée – P.

DAGNELIE), on préconise les conditions suivantes :

nf ≥ 20 et n(1-f) ≥ 20. (4)

Remarque : Le problème qui se pose ici est de nature très différente de celui qui se pose pour l'intervalle de confiance d'une moyenne lorsque l'écart type de la population n'est pas connu. Ce qui fait la spécificité du cas des proportions est le fait que p se trouve dans les trois membres de l'inégalité, il ne s'agit donc pas de remplacer, dans les deux membres extrêmes, p par son estimation f ni

n ) p 1 ( p −

par son estimation que serait

1 n

) f 1 ( f

(en utilisant un estimateur non

biaisé) ni

n ) p 1 ( p −

par une estimation.

Il est d'ailleurs à remarquer que, s'il est pratique des dire aux élèves pour une moyenne, lorsque l'écart type de la population n'est pas connu, "on remplace σ par son estimation et on utilise une loi de Student", ceci ne correspond pas à la réalité mathématique qui est derrière (cf. Bulletin du GRES n°7 "Résumé sur les lois de probabilité"). De plus, S est un estimateur biaisé de σ.

Exemple : déterminons les intervalles de confiance avec les formules (3) puis (2) pour un échantillon sur lequel on a constaté une proportion f = 0,8, le premier de taille 50, le deuxième de taille 100, on obtient :

taille 50 : [0,6696 ; 0,8876] et [0,6891 ; 0,9109] pour l’approximation

(4)

ENFA - Bulletin du GRES n°9 – février 2000 page 12

-0,1 0,1 0,3 0,5 0,7 0,9 1,1

0 0,2 0,4 0,6 0,8 1 1,2

taille 100 : [0,7112 ; 0,8666] et [0,7216 ; 0,8784] pour l’approximation on constate une meilleure approximation pour n = 100.

A titre d’exemple, les deux graphiques qui suivent, réalisés avec EXCEL, représentent pour n = 50 et n = 100, les courbes donnant p, en fonction de f, en trait plein les bornes des intervalles de confiance à 95% calculées avec la formule (3), et en traits interrompus avec la formule (2) . Les traits verticaux correspondent aux conditions (4).

f

n=50 p

(5)

-0,1 0,1 0,3 0,5 0,7 0,9 1,1

0 0,2 0,4 0,6 0,8 1 1,2

≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈

n=100

f p

Références

Documents relatifs

Conclusion : Pour comparer les résultats d’un modèle de régression avec un modèle théorique, il faut considérer simultanément tous les coefficients du modèle et donc

Cela signifie que si on réalise un grand nombre d’échantillons de taille n, environ 95 % des fréquences f seront dans cet intervalle.. On dit &#34;asymptotique&#34; car : plus n

Si on considère 577 personnes françaises tirées aléatoirement avec remise, à quel intervalle appartiendra la proportion de femmes parmi ces 577 personnes avec une probabilité

Sous l’hypothèse que l’échantillon est issu d’un tirage aléatoire correspondant à un schéma de Bernoulli (tirage avec remise ou s’y apparentant), la

Un échantillon de taille 200 a été réalisé pour estimer le nombre moyen d’appels par minute ; c’est un échantillon de taille 50 pour la variable précédente (nombre

Combien de pi` eces doit-on contrˆ oler pour que la proportion observ´ ee soit correcte ` a 1% pr` es au risque de 5%.. On consid` ere 10 sujets pris comme leurs propres

Supposer que c’est un échantillon simple et utiliser les caractéristiques suivantes pour construire un intervalle de confiance à 95% de l’écart type pour les

[r]

Pour un apprentissage utile de la correction / révision de l’écrit, les utilisateurs doivent absolument être initiés au fonctionnement des correcticiels (bien comprendre

Nous restons consciente que les interactions verbales analysées ici dépendent étroitement de la nature du logiciel sur lequel travaillent les apprenants, mais c'est justement ce

[r]

On se place dans le cadre d'une relation linéaire entre deux variables (examen du nuage de points) et d'une liaison linéaire significative entre ces deux variables (coefficient

On cherche ` a d´ eterminer un intervalle de confiance pour p au niveau de confiance 99% (1% de risque) 1.. Je pense donc que oui.. a) D i est la diff´ erence du nombre de p` eche

Les nombres sur l’axe des abscisses représentent les numéros des simulations et les nombres sur l’axe des ordonnées représentent les fréquences (simulées) d’animaux

paramètre θ à l’aide d’un estimateur sans biais de θ Soit X une v.a.r... Ainsi, une marge d’erreur faible produit un niveau de risque élevé et un niveau de

Dans la suite, on considère l’exemple suivant : une urne contient des boules vertes et des boules rouges dont on ignore le nombre et la proportion.. On effectue un tirage dans

Il s'agit d'une suite de 100 intervalles de confiance au niveau de confiance 0,95, dont chacun a été calculé sur un échantillon de taille 1000 simulé à partir de ce que fut le score

Pour cela, elle souhaite obtenir, à partir d’un échantillon aléatoire, une estimation de la proportion de clients satisfaits au niveau 0,95 avec un intervalle de confiance

Sauf peut-être que Julie ferait mieux de se calmer, faut pas déconner… Johan ne dira rien, car il drague certainement Julie… À vous d’imaginer la suite de l’histoire..

Il s'agit d'une suite de 100 intervalles de confiance au niveau de confiance 0,95, dont chacun a été calculé sur un échantillon de taille 1000 simulé à partir de ce que fut le score

Le

Donner un intervalle de fluctuation au seuil de 95% de la fr´ equence de personnes satisfaits de la qualit´ e des produits commercialis´ es par son entreprise2. Parmi les

Les déterminants, en début d’étude, qui caractérisaient les participants ayant amélioré leur fonction diastolique en cours d’intervention étaient une tolérance