• Aucun résultat trouvé

Le théorème de la limite centrale

Dans le document Apprentissage des statistiques avec Jamovi (Page 159-162)

Pour l’instant, j’espère que vous avez une bonne idée de ce que sont les distributions

d’échantillonnage, et en particulier de la distribution d’échantillonnage de la moyenne. Dans cette section, je veux parler de la façon dont la distribution d’échantillonnage de la moyenne change en fonction de la taille de l’échantillon. Intuitivement, vous connaissez déjà une partie de la réponse. Si vous n’avez que quelques observations, la moyenne de l’échantillon est susceptible d’être assez imprécise. Si vous répliquez une petite expérience et recalculez la moyenne, vous obtiendrez une réponse très différente. En d’autres termes, la distribution d’échantillonnage est assez large. Si vous répliquez une grande expérience et recalculez la moyenne de l’échantillon, vous obtiendrez probablement la même réponse que la dernière fois, donc la distribution d’échantillonnage sera très étroite. Vous pouvez le voir

visuellement à la Figure 8‑8, qui montre que plus la taille de l’échantillon est grande, plus la distribution d’échantillonnage est étroite. Nous pouvons quantifier cet effet en calculant l’écart-type de la distribution d’échantillonnage, qu’on appelle l’erreur type. L’erreur-type d’une statistique est souvent appelée SE, et comme nous nous intéressons habituellement à l’erreur-type de la moyenne de l’échantillon, nous utilisons souvent l’acronyme SEM. Comme vous pouvez le voir, rien qu’en regardant l’image, plus la taille de l’échantillon N augmente, plus le SEM diminue.

Bien, c’est une partie de l’histoire. Cependant, il y a quelque chose que j’ai négligé jusqu’ici. Tous mes exemples jusqu’ici ont été basés sur les expériences de « IQ scores », et parce que les scores de QI sont à peu près normalement distribués, j’ai supposé que la distribution de la population est normale. Et si ce n’est pas normal ? Qu’arrive-t-il à la distribution

d’échantillonnage de la moyenne ? Ce qui est remarquable, c’est que, quelle que soit la forme de votre distribution de population, Lorsque N augmente la distribution

d’échantillonnage de la moyenne commence à ressembler davantage à une distribution normale. Pour vous donner une idée, j’ai fait quelques simulations. Pour ce faire, j’ai commencé avec la distribution « cumulée" montrée dans l’histogramme de la Figure 8‑9. Comme vous pouvez le voir en comparant l’histogramme de forme triangulaire à la courbe en cloche tracée par la ligne noire, la distribution de la population ne ressemble pas du tout à une distribution normale. Ensuite, j’ai simulé les résultats d’un grand nombre

puis j’ai calculé la moyenne de l’échantillon. La Figure 8‑9b présente l’histogramme de ces moyennes d’échantillonnage (c.-à-d. la distribution d’échantillonnage de la moyenne pour N = 2). Cette fois, l’histogramme produit une distribution en cloche. Ce n’est toujours pas normal, mais c’est beaucoup plus près de la ligne noire que la distribution de la population à la Figure 8‑9a. Lorsque j’augmente la taille de l’échantillon à N = 4, la distribution

d’échantillonnage de la moyenne est très proche de la normale (Figure 8‑9c), et au moment où nous atteignons une taille d’échantillon de N = 8, elle est presque parfaitement normale. En d’autres termes, tant que la taille de votre échantillon n’est pas minuscule, la distribution d’échantillonnage de la moyenne sera à peu près normale, peu importe à quoi ressemble la distribution de votre population !

Sur la base de ces chiffres, il semble que nous ayons des preuves pour toutes les allégations suivantes concernant la distribution d’échantillonnage de la moyenne.

• La moyenne de la distribution d’échantillonnage est la même que la moyenne de la population.

• L’écart-type de la distribution d’échantillonnage (c.-à-d. l’erreur type) diminue à mesure que la taille de l’échantillon augmente.

• La forme de la distribution d’échantillonnage devient normale à mesure que la taille de l’échantillon augmente.

En fait, non seulement ces affirmations sont vraies, mais il existe un théorème très célèbre en statistique qui prouve les trois, il est connu sous le nom de théorème de la limite centrale. Entre autres choses, le théorème de la limite centrale nous dit que si la distribution de la population a une moyenne µ et un écart-type 𝜎, alors la distribution d’échantillonnage de la moyenne a aussi une moyenne 𝜇 et l’erreur type de la moyenne est

𝑆𝐸𝑀 = 𝜎 √𝑁

Comme nous divisons l’écart-type de la population 𝜎 par la racine carrée de la taille de l’échantillon N, le SEM diminue à mesure que la taille de l’échantillon augmente. Il nous indique également que la forme de la distribution d’échantillonnage devient normale.47

Ce résultat est utile pour toutes sortes de choses. Il nous dit pourquoi les grandes

expériences sont plus fiables que les petites, et parce qu’il nous donne une formule explicite

47 Comme d’habitude, je suis un peu négligent. Le théorème de la limite centrale est un peu

plus général que ne l’implique cette section. Comme la plupart des textes d’introduction aux statistiques, j’ai discuté d’une situation où le théorème de la limite centrale s’applique : lorsque vous prenez une moyenne sur un grand nombre d’événements indépendants tirés de la même distribution. Cependant, le théorème de la limite centrale est beaucoup plus large que cela. Il y a toute une classe de choses appelées “U-statistiques” par exemple, qui satisfont toutes le théorème de la limite centrale et sont donc normalement distribuées pour les échantillons de grande taille. La moyenne est l’une de ces statistiques, mais ce n’est pas la seule.

pour l’erreur type, il nous dit à quel point une grande expérience est beaucoup plus fiable. Il nous dit pourquoi la distribution normale est, bien sûr, normale.

Dans les expériences réelles, bon nombre des choses que nous voulons mesurer sont en fait des moyennes de d’ensemble de quantités différentes (p. ex. l’intelligence « générale », telle que mesurée par le QI, est une moyenne d’un grand nombre de compétences et d’aptitudes « spécifiques »), et lorsque cela se produit, la quantité moyenne devrait suivre une

distribution normale. En raison de cette loi mathématique, la distribution normale apparaît encore et encore dans les données réelles.

Figure 8‑9 : Démonstration du théorème de la limite centrale. Dans le panel a, nous avons une distribution non normale de la population, et les panels b-d montrent la distribution d’échantillonnage de la moyenne pour les échantillons de taille 2,4 et 8 pour les données

tirées de la distribution du panel a. Comme vous pouvez le voir, même si la distribution originale de la population est non normale, la distribution d’échantillonnage de la moyenne devient assez proche de la normale lorsque vous avez un échantillon même de quatre observations.

Dans le document Apprentissage des statistiques avec Jamovi (Page 159-162)