• Aucun résultat trouvé

Estimation de l’écart-type de la population

Dans le document Apprentissage des statistiques avec Jamovi (Page 164-169)

Jusqu’à présent, l’estimation semble assez simple, et vous vous demandez peut-être

pourquoi je vous ai forcé à lire tous ces trucs sur la théorie de l’échantillonnage. Dans le cas de la moyenne, notre estimation du paramètre de population (c.-à-d. 𝜇^) s’est avérée

identique à celle de l’échantillon statistique correspondant (c.-à-d. 𝑋). Cependant, ce n’est pas toujours vrai. Pour voir cela, réfléchissons à la façon de construire une estimation de l’écart-type de la population, que nous indiquerons à 𝜎^. Que devons-nous utiliser comme estimation dans ce cas ? Votre première pensée pourrait être que nous pourrions faire la même chose que pour l’estimation de la moyenne, et utiliser simplement la statistique de l’échantillon comme estimation. C’est presque la bonne chose à faire, mais pas tout à fait. Voilà pourquoi. Supposons que j’ai un échantillon qui contient une seule observation. Pour cet exemple, il est utile de considérer un échantillon où vous n’avez aucune intuition sur ce que pourraient être les vraies valeurs de la population, alors utilisons quelque chose de complètement fictif. Supposons que l’observation en question mesure la cromulence de mes chaussures. Il s’avère que mes chaussures ont une cromulence de 20. Voilà mon

échantillon :

20

C’est un échantillon parfaitement légitime, même s’il a une taille d’échantillon de N = 1. Il a une moyenne d’échantillon de 20 et parce que chaque observation dans cet échantillon est égale à la moyenne de l’échantillon (évidemment !) il a un écart type d’échantillon de 0. Comme une description de l’échantillon cela semble tout à fait juste, l’échantillon contient une seule observation et donc aucune variation observée dans l’échantillon. Un écart-type d’échantillon de s = 0 est ici la bonne réponse. Mais en tant qu’estimation de l’écart-type de la population, cela parait complètement fou, ne croyez-vous pas ? Certes, vous et moi ne savons rien du tout de ce qu’est la « cromulence », mais nous savons quelque chose des données. La seule raison pour laquelle nous ne voyons aucune variabilité dans l’échantillon est que l’échantillon est trop petit pour afficher une variation ! Donc, si vous avez un

échantillon de taille N = 1, vous avez l’impression que la bonne réponse est simplement de dire « aucune idée du tout ».

Remarquez que vous n’avez pas la même intuition lorsqu’il s’agit de la moyenne de l’échantillon et de la moyenne de la population. S’il est forcé de faire une meilleure estimation de la population, cela signifie qu’il n’est pas complètement insensé de deviner que la moyenne de la population est de 20. Bien sûr, vous ne vous sentiriez probablement pas très confiant dans cette supposition parce que vous n’avez qu’une seule observation sur laquelle travailler, mais c’est quand même la meilleure supposition que vous pouvez faire.

Étendons un peu cet exemple. Supposons maintenant que je fasse une deuxième observation. Mon ensemble de données contient maintenant N = 2 observations de la cromulence des chaussures, et l’échantillon complet ressemble maintenant à ceci :

20, 22

Cette fois-ci, notre échantillon est juste assez grand pour nous permettre d’observer une certaine variabilité : deux observations est le nombre minimum nécessaire pour qu’une variabilité puisse être observée ! Pour notre nouvel ensemble de données, la moyenne de l’échantillon est

𝑋

= 21, et l’écart-type de l’échantillon est s = 1. Encore une fois, pour ce qui est de la moyenne de la population, la meilleure estimation que nous puissions faire est la moyenne de

l’échantillon. Si nous devions deviner, nous devinerions probablement que la cromulence moyenne de la population est de 21. Qu’en est-il de l’écart-type ? C’est un peu plus

compliqué. L’écart-type de l’échantillon n’est basé que sur deux observations, et si vous êtes comme moi, vous avez probablement l’intuition que, avec seulement deux observations, nous n’avons pas donné à la population « assez de chance » pour nous révéler sa véritable variabilité. Ce n’est pas seulement que nous soupçonnons que l’estimation est erronée, après tout, avec seulement deux observations, nous nous attendons à ce qu’elle le soit dans une certaine mesure. L’inquiétude est que l’erreur est systématique. Plus précisément, nous soupçonnons que l’écart-type de l’échantillon est probablement inférieur à celui de la population.

Cette intuition semble juste, mais ce serait bien de le démontrer d’une manière ou d’une autre. Il existe en fait des preuves mathématiques qui confirment cette intuition, mais à moins d’avoir le bon bagage mathématique, elles n’aident pas beaucoup. Je vais plutôt simuler les résultats de quelques expériences. Dans cet esprit, revenons à nos études sur le QI. Supposons que le QI moyen de la population réelle est de 100 et que l’écart-type est de 15. Je vais d’abord faire une expérience dans laquelle je mesure N = 2 scores de QI et je vais calculer l’écart-type de l’échantillon. Si je le fais encore et encore, et que je trace un

histogramme de ces écarts-types d’échantillon, ce que j’ai, c’est la distribution

d’échantillonnage de l’écart type. J’ai tracé cette distribution dans la Figure 8‑10. Même si l’écart type réel de la population est de 15, la moyenne des écarts types de l’échantillon n’est que de 8,5. Remarquez qu’il s’agit d’un résultat très différent de celui que nous avons

obtenu à la Figure 8‑8b lorsque nous avons tracé la distribution d’échantillonnage de la moyenne, où la moyenne de la population est de 100 et la moyenne des moyennes de l’échantillon est également de 100.

Figure 8‑10 : Distribution d’échantillonnage de l’écart-type de l’échantillon pour une expérience à «deux scores de QI». L’écart-type réel de la population est de 15 (ligne pointillée), mais comme vous pouvez le voir sur l’histogramme, la grande majorité des expériences produiront un écart-type de l’échantillon beaucoup plus petit que celui-ci. En moyenne, cette expérience produirait un écart-type d’échantillon de seulement 8,5, bien en dessous de la valeur réelle ! En d’autres termes, l’écart-type de l’échantillon est une

estimation biaisée de l’écart-type de la population.

Maintenant, étendons la simulation. Au lieu de nous limiter à la situation où N = 2, répétons l’exercice pour les tailles d’échantillon de 1 à 10. Si nous traçons la moyenne et l’écart-type moyen de l’échantillon en fonction de la taille de l’échantillon, nous obtenons les résultats présentés à la Figure 8‑11. Sur le côté gauche (panneau a) j’ai tracé la moyenne des

moyennes des échantillons et sur le côté droit (panneau b) j’ai tracé l’écart type moyen. Les deux graphiques sont très différents : en moyenne, la moyenne de l’échantillon moyen est égale à la moyenne de la population. Il s’agit d’un estimateur non biaisé, ce qui explique essentiellement pourquoi votre meilleure estimation de la moyenne de la population est la moyenne de l’échantillon49. Le graphique de droite est très différent : en moyenne, l’écart-

type s de l’échantillon est inférieur à l’écart-type de la population 𝜎. C’est un estimateur biaisé. En d’autres termes, si nous voulons faire une « meilleure estimation » 𝜎^ de la valeur de l’écart-type de la population 𝜎 nous devons nous assurer que notre estimation est un peu plus grande que l’écart-type s de l’échantillon.

Figure 8‑11 : Illustration du fait que la moyenne de l’échantillon est un estimateur non biaisé de la moyenne de la population (panel a), mais que l’écart-type de l’échantillon est biaisé (panel b). Pour la figure, j’ai généré 10 000 ensembles de données simulées avec 1 observation chacun, 10 000 autres avec 2 observations, et ainsi de suite jusqu’à une taille d’échantillon de 10. Chaque ensemble de données était constitué de fausses données sur le QI, c’est-à-dire que les données étaient normalement distribuées avec une moyenne de population réelle de 100 et un écart type de 15. En moyenne, la moyenne de l’échantillon est de 100, quelle que soit la taille de l’échantillon (panel a). Cependant, les écarts-types des échantillons s’avèrent systématiquement trop faibles (panel b), en particulier pour les petites tailles d’échantillons.

La solution à ce biais systématique s’avère très simple. Voici comment ça marche. Avant d’aborder l’écart-type, examinons la variance. Si vous vous souvenez de la section 4.2, la

49 Je dois noter que je cache quelque chose ici. L’impartialité est une caractéristique

souhaitable pour un estimateur, mais il y a d’autres choses qui comptent en plus du biais. Cependant, ce n’est pas l’objet de ce livre d’en discuter en détail. Je veux simplement attirer votre attention sur le fait qu’il y a là une certaine complexité cachée.

variance de l’échantillon est définie comme étant la moyenne des écarts quadratiques de la moyenne de l’échantillon. C’est à dire :

𝑠2 = 1

𝑁∑(𝑋𝑖− 𝑋)

2 𝑁

𝑖=1

La variance d’échantillon 𝑠2 est un estimateur biaisé de la variance de la population 𝜎2 Mais

il s’avère que nous n’avons qu’à faire un tout petit ajustement pour transformer cela en un estimateur non biaisé. Tout ce que nous avons à faire est de diviser par N-1 plutôt que par

N. Si nous faisons cela, nous obtenons la formule suivante :

𝜎 ^2 = 1 𝑁 − 1∑(𝑋𝑖 − 𝑋) 2 𝑁 𝑖=1

Il s’agit d’un estimateur non biaisé de la variance de la population 𝜎. En outre, cela répond enfin à la question que nous avons soulevée à la section 4.2. Pourquoi Jamovi nous a-t-il donné des réponses légèrement différentes pour la variance ? C’est parce que Jamovi calcule

𝜎 ^2

pas s2, voilà pourquoi. Il en va de même pour l’écart-type. Si nous divisons par N - 1 au lieu de N, notre estimation de l’écart-type de la population devient :

𝜎 ^ = √ 1 𝑁 − 1∑(𝑋𝑖 − 𝑋) 2 𝑁 𝑖=1

et lorsque nous utilisons la fonction d’écart-type intégrée de Jamovi, ce qu’il fait est de calculer 𝜎^, pas s. a50

50 D’accord, je cache quelque chose d’autre ici. De façon bizarre et contre-intuitive, puisque

𝜎^2 est un estimateur non biaisé de 𝜎2, on pourrait supposer que prendre la racine carrée serait bien et que 𝜎^ serait un estimateur non biaisé de 𝜎. Bizarrement, ça ne l’est pas. Il y a en fait un biais subtil et minuscule dans 𝜎^. C’est tout simplement bizarre : 𝜎^2 est une estimation non biaisée de la variance de la population 𝜎2, mais lorsque vous prenez la

racine carrée, il s’avère que 𝜎^. est un estimateur biaisé de l’écart-type de la population 𝜎. Bizarre, bizarre, bizarre, pas vrai ? Alors, pourquoi 𝜎^. est-il biaisé ? La réponse technique est « parce que les transformations non linéaires (par exemple, la racine carrée) ne

correspondent pas aux attentes », mais cela ressemble à du charabia pour tous ceux qui n’ont pas suivi de cours en statistique mathématique. Heureusement, cela n’a pas

d’importance en pratique. Le biais est faible, et dans la vraie vie tout le monde utilise 𝜎^. et ça marche très bien. Parfois, les mathématiques sont tout simplement ennuyeuses.

Un dernier point. Dans la pratique, beaucoup de gens ont tendance à se référer à 𝜎^. (c.-à-d. la formule où nous divisons par N-1) comme écart-type de l’échantillon. Techniquement, c’est incorrect. L’écart-type de l’échantillon devrait être égal à s (c.-à-d. la formule où nous divisons par N). Ce n’est pas la même chose, que ce soit sur le plan conceptuel ou

numérique. L’une est une propriété de l’échantillon, l’autre est une caractéristique estimée de la population. Cependant, dans presque toutes les applications de la vie réelle, ce qui nous préoccupe réellement, c’est l’estimation du paramètre de population, et donc les gens rapportent toujours 𝜎^ plutôt que s. C’est le bon chiffre à rapporter, bien sûr. C’est juste que les gens ont tendance à être un peu imprécis au sujet de la terminologie lorsqu’ils la

rédigent, parce que « l’écart-type de l’échantillon » est plus court que « l’écart-type estimé de la population ». Ce n’est pas grand-chose, et en pratique, je fais la même chose que tout le monde. Néanmoins, je pense qu’il est important de garder les deux concepts séparés. Ce n’est jamais une bonne idée de confondre les « propriétés connues de votre échantillon » avec les « suppositions sur la population dont il provient ». Dès que vous commencez à penser que s et 𝜎^ sont la même chose, vous commencez à faire exactement cela.

Pour terminer cette section, voici quelques autres tableaux qui vous aideront à clarifier les choses.

Symbole Qu’est-ce que c’est ? On sait ce que c’est ?

𝑠 Écart-type de l’échantillon Oui, calculé à partir des données brutes 𝜎 Écart-type de la population Presque jamais connu avec certitude 𝜎^ Estimation de l’écart-type de

la population

Oui, mais ce n’est pas la même chose que l’écart-type de l’échantillon

Symbole Qu’est-ce que c’est ? On sait ce que c’est ?

𝑠2 Variance de l’échantillon Oui, calculé à partir des données brutes 𝜎2 Variation de la population Presque jamais connu avec certitude 𝜎^2 Estimation de la variation de

la population Oui, mais ce n’est pas la même chose que la variance de l’échantillon

Dans le document Apprentissage des statistiques avec Jamovi (Page 164-169)