Définir une population - Apprentissage des statistiques avec Jamovi

Un échantillon est une chose concrète. Vous pouvez ouvrir un fichier de données et il y a les données de votre échantillon. Une population, par contre, est une idée plus abstraite. Il s’agit de l’ensemble de toutes les personnes possibles, ou de toutes les observations possibles, au sujet desquelles vous voulez tirer des conclusions et qui est généralement

beaucoup plus grand que l’échantillon. Dans un monde idéal, le chercheur commencerait

l’étude avec une idée claire de ce qu’est la population d’intérêt, puisque le processus de conception d’une étude et de vérification des hypothèses avec les données dépend de la population au sujet de laquelle vous voulez faire des affirmations.

Parfois, il est facile d’indiquer la population d’intérêt. Par exemple, dans l’exemple de la « société de sondage » qui a ouvert le chapitre, la population se composait de tous les électeurs inscrits au moment de l’étude, des millions de personnes. L’échantillon était constitué d’un ensemble de 1000 personnes qui appartiennent toutes à cette population. Dans la plupart des études, la situation est beaucoup moins simple. Dans une expérience psychologique typique, déterminer la population d’intérêt est un peu plus compliqué. Supposons que je mène une expérience à laquelle participent 100 étudiants de premier cycle. Mon but, en tant que cognitiviste, est d’essayer d’apprendre quelque chose sur le fonctionnement de l’esprit. De ce point de vue, lequel des éléments suivants correspondrait à la « population » :

• Tous les étudiants en psychologie de l’Université d’Adélaïde ?

• Les étudiants en psychologie de premier cycle en général, n’importe où dans le monde ?

• Des Australiens vivent actuellement ?

• Des Australiens du même âge que mon échantillon ? • Quelqu’un de vivant ?

• Un être humain, passé, présent ou futur ?

• Tout organisme biologique ayant un degré d’intelligence suffisant et opérant dans un environnement terrestre ?

• Un être intelligent ?

Chacune de ces définitions définit un véritable groupe d’entités possédant un esprit, qui pourraient toutes m’intéresser en tant que cognitiviste, et savoir quelle devrait être la véritable population d’intérêt n’est pas du tout clair. Prenons un autre exemple, celui du jeu Wellesley-Croker dont nous avons discuté dans l’introduction. L’échantillon ici est une séquence spécifique de 12 victoires et 0 défaite pour Wellesley. Quelle est la population ? • Tous les résultats jusqu’à ce que Wellesley et Croker arrivent à destination ?

• Tous les résultats si Wellesley et Croker avaient joué le jeu pour le reste de leur vie ? • Tous les résultats si Wellseley et Croker vivaient éternellement et jouaient le jeu

jusqu’à ce que le monde soit à court de collines ?

• Tous les résultats si nous créions un ensemble infini d’univers parallèles et que la paire Wellesely/Croker faisait des suppositions sur les 12 mêmes collines dans chaque univers ?

Figure 8‑1 : Échantillonnage aléatoire simple sans remplacement à partir d’une population finie

Encore une fois, ce n’est pas évident de savoir quelle est la population.

Échantillons aléatoires simples

Quelle que soit ma définition de la population, le point critique est que l’échantillon est un sous-ensemble de la population et que notre but est d’utiliser notre connaissance de

l’échantillon pour tirer des conclusions sur les propriétés de la population. La relation entre les deux dépend de la procédure de sélection de l’échantillon. Cette procédure est appelée méthode d’échantillonnage et il est important de comprendre pourquoi elle est

Pour simplifier les choses, imaginons que nous ayons un sac contenant 10 jetons. Chaque jeton a une lettre unique imprimée sur lui afin que nous puissions distinguer les 10 jetons. Les jetons sont disponibles en deux couleurs, noir et blanc. Cet ensemble de jetons est la population d’intérêt et il est représenté graphiquement à gauche de la Figure 8‑1. Comme vous pouvez le voir en regardant l’image, il y a 4 jetons noirs et 6 jetons blancs, mais bien sûr dans la vraie vie nous ne le saurions pas si nous ne regardons pas dans le sac. Imaginez maintenant que vous faites « l’expérience » suivante : vous secouez le sac, fermez les yeux et retirez 4 jetons sans en remettre aucune dans le sac. D’abord le jeton a (noire), puis le jeton

c (blanche), puis j (blanche) et enfin b (noire). Si vous le souhaitez, vous pouvez ensuite

remettre toutes les jetons dans le sac et répéter l’expérience, comme illustré à droite sur la

Figure 8‑1. Chaque fois que vous obtenez des résultats différents, mais la procédure est identique dans chaque cas. Le fait qu’une même procédure peut conduire à des résultats différents à chaque fois nous conduits à parler d’un processus aléatoire.44_{Cependant, parce}

que nous avons secoué le sac avant de retirer les jetons, il semble raisonnable de penser que chaque jeton a les mêmes chances d’être sélectionnée. Une procédure dans laquelle chaque membre de la population a les mêmes chances d’être sélectionné s’appelle un simple échantillon aléatoire. Le fait que nous n’ayons pas remis les jetons dans le sac après les avoir retirées signifie que vous ne pouvez pas observer la même chose deux fois, et dans de tels cas les observations sont les suivantes dont on dit qu’ils ont été

échantillonnés sans remise.

44_{La définition mathématique correcte du hasard est extraordinairement technique et}

dépasse largement le cadre de ce livre. Nous ne serons pas techniques ici et dirons qu’un processus comporte un élément de hasard chaque fois qu’il est possible de répéter le processus et d’obtenir des réponses différentes à chaque fois.

Figure 8‑2 : Échantillonnage biaisé sans remplacement à partir d’une population finie

Figure 8‑3 : Échantillonnage aléatoire simple avec remplacement dans une population finie Pour vous assurer de bien comprendre l’importance de la procédure d’échantillonnage, envisagez une autre façon de procéder à l’expérience. Supposons que mon fils de 5 ans ait ouvert le sac et décidé de retirer quatre jetons noirs sans en remettre aucun dans le sac. Ce plan d’échantillonnage biaisé est illustré à la Figure 8‑2. Considérons maintenant la valeur probante de voir 4 jetons noirs et 0 jetons blancs. Cela dépend clairement du plan

d’échantillonnage. Si vous savez que le plan d’échantillonnage est biaisé pour ne

sélectionner que des jetons noirs, alors un échantillon composé uniquement de jetons noirs ne vous dit pas grand-chose sur la population ! C’est la raison pour laquelle les statisticiens aiment beaucoup qu’un ensemble de données puisse être considéré comme un simple échantillon aléatoire, parce qu’il rend l’analyse des données beaucoup plus facile.

Une troisième procédure mérite d’être mentionnée. Cette fois-ci, nous fermons les yeux, secouons le sac et sortons un jeton. Cette fois, cependant, nous enregistrons l’observation et remettons le jeton dans le sac. Encore une fois, nous fermons les yeux, secouons le sac et sortons un jeton. Nous répétons ensuite cette procédure jusqu’à ce que nous ayons 4 jetons. Les ensembles de données générés de cette façon sont encore de simples échantillons aléatoires, mais parce que nous remettons les jetons dans le sac immédiatement après les avoir tirés, on parle d’un échantillon avec remise. La différence entre cette situation et la première est qu’il est possible d’observer le même membre de la population plusieurs fois, comme l’illustre la Figure 8‑3.

D’après mon expérience, la plupart des expériences de psychologie ont tendance à être des échantillonnages sans remise, parce que la même personne n’est pas autorisée à participer deux fois à l’expérience. Toutefois, la plupart des théories statistiques reposent sur

Dans la vie réelle, cela importe très rarement. Si la population d’intérêt est importante (p. ex. a plus de 10 entités !), la différence entre l’échantillonnage avec ou sans remise est trop faible pour être prise en compte. La différence entre les échantillons aléatoires simples et les échantillons biaisés, par contre, n’est pas une chose si facile à rejeter.

La plupart des échantillons ne sont pas de simples échantillons aléatoires

Dans le document Apprentissage des statistiques avec Jamovi (Page 144-148)