Échantillonnage

(1)

I. Échantillon

Définition 1 : Une expérience aléatoire est une expérience dont on ne peut pas prévoir le résultat de façon certaine.

Exemples : lancer un dé et s'intéresser au numéro sorti. jouer à pile ou face avec une pièce de monnaie.

tirer un jeton dans un sac contenant des jetons de couleurs différentes et s'intéresser à la couleur. Définition 2 : Un échantillon de taille n est la série statistique formée des n résultats obtenus en répétant n fois une expérience dans les mêmes conditions.

Quelques précisions :

– En théorie, pour créer un échantillon de taille n à partir d'une population, l'expérience devant être répétée n fois de façon indépendante (autrement dit : dans les mêmes conditions), on peut la modéliser ainsi : on prélève au hasard un individu de la population, on note la valeur du caractère étudié, et on remet l'individu prélevé dans la population. C'est sur ce principe que l'on construit une simulation.

– En pratique, bien souvent, il n'y a pas de remise lors du prélèvement. On peut néanmoins prouver que les résultats obtenus restent vrais, pour peu que l'effectif total de la population soit très grand par rapport au nombre n d'individus prélevés.

Définition 3 : La distribution des fréquences associées à un échantillon est la liste des fréquences des résultats de l'échantillon.

Remarque :

Les distributions des fréquences varient d'un échantillon à l'autre pour une même expérience: c'est la fluctuation d'échantillonnage.

Lorsque la taille n de l'échantillon augmente, les fréquences tendent à se stabiliser : c'est la loi des grands nombres

Différence entre statistique descriptive et statistique inférentielle

La statistique descriptive vise à résumer, par des représentations graphiques ou par des indicateurs numériques, l’information contenue dans un ensemble d’observations effectuées sur une population entière. La

statistique inférentielle vise, sur la base de l’observation d’un échantillon de la population et avec un certain niveau de confiance, à estimer des paramètres relatifs à la population entière (estimation), ou encore, à vérifier certaines hypothèses statistiques posées sur ces paramètres ou sur le modèle proposé (prise de décision).

II. Échantillons construits par n répétitions indépendantes d'une épreuve de Bernoulli Jacques Ier_{Bernoulli (Bâle, Belgique, 1654-1705)}

Définition 4 : Une épreuve de Bernoulli est une expérience aléatoire qui n'a que deux issues possibles. Exemples :

1. Lancer un dé et s'intéresser au numéro sorti n'est pas une expérience de Bernoulli. 2. Jouer à pile ou face avec une pièce de monnaie constitue une expérience de Bernoulli. 3. Dans une urne, on a 15 boules dont 4 sont rouges et les autres vertes.

Les boules sont indiscernables au toucher. On tire une boule au hasard, on note sa couleur et on la remet dans l'urne.

L'expérience décrite ci-dessus est une expérience de Bernoulli.

On dit d'un échantillon de taille n obtenu en répétant n fois une épreuve de Bernoulli dans les mêmes conditions (c'est-à-dire que p ne change pas), qu'il relève du modèle de Bernoulli.

(2)

1. Intervalle de fluctuation (ou intervalle de conformité )

Si on note f la fréquence d'apparition du 1 dans un tel échantillon, f va, d'un échantillon à l'autre fluctuer autour de p. On retrouve là la notion de fluctuation d'échantillonnage.

On admet que, sous certaines conditions de validité (n  25 et 0,2  p  0,8), la probabilité que f soit dans l’intervalle

[

p – 1

√n

; p+ 1

√n

]

est supérieure à 0,95. Cet intervalle s'appelle l'intervalle de fluctuation au seuil de 95 %.

2. Intervalle de confiance (ou fourchette de sondage ) L'objectif de cette partie est de répondre à la problématique suivante : comment, à partir d'une proportion calculée sur un échantillon, retrouver ou plutôt estimer celle d'une population entière ? L'estimation est le problème réciproque de l'échantillonnage (point précédent), mais on a besoin des résultats établis sur la théorie de l'échantillonnage pour passer à la phase estimative.

Soit p la proportion d'un caractère dans une population. p, contrairement à la situation précédente, n'est pas connue. On suppose néanmoins que p est comprise entre 0,2 et 0,8. Pour un échantillon de taille n (n étant supérieur à 25) prélevé dans cette population, on note f la fréquence observée du caractère pour cet échantillon.

Si on note la fréquence f observée pour 100 échantillons de taille n, on peut espérer que 95 % des intervalles

[

f – 1



n; f – 1



n

]

associés aux résultats de ces échantillons vont contenir p.

Ou encore, la probabilité (avant le prélèvement de l'échantillon) que la proportion effective p du caractère soit comprise dans l'intervalle

[

f – 1



n; f – 1



n

]

est de 0,95. Un intervalle

[

f – 1



n; f – 1



n

]

, obtenu à partir d'un échantillon de taille n, est appelé un intervalle de confiance (ou fourchette de sondage) de p au niveau 0,95.