• Aucun résultat trouvé

Estimation d’un intervalle de confiance

Dans le document Apprentissage des statistiques avec Jamovi (Page 169-171)

Les statistiques, c’est de ne jamais avoir à dire qu’on est certain - Origine inconnue51

51 Cette citation apparaît sur un grand nombre de t-shirts et de sites web, et est même

mentionnée dans quelques articles académiques.(voir http://www. mais je n’ai jamais trouvé la source originale.

Jusqu’à présent, dans ce chapitre, j’ai exposé les principes de base de la théorie de

l’échantillonnage sur lesquels se fondent les statisticiens pour deviner les paramètres de la population à partir d’un échantillon de données. Comme l’illustre cette discussion, l’une des raisons pour lesquelles nous avons besoin de toute cette théorie de l’échantillonnage est que chaque ensemble de données nous laisse avec une certaine incertitude, de sorte que nos estimations ne seront jamais parfaitement exactes. Ce qui manque dans cette

discussion, c’est une tentative de quantifier le degré d’incertitude qui s’attache à notre estimation. Il ne suffit pas de deviner que, disons, le QI moyen des étudiants en psychologie de premier cycle est de 115 (oui, je viens d’inventer ce chiffre). Nous voulons aussi pouvoir dire quelque chose qui exprime le degré de certitude que nous avons à son propos. Par exemple, il serait bien de pouvoir dire qu’il y a 95% de chances que la vraie moyenne se situe entre 109 et 121. Le nom pour ceci est un intervalle de confiance pour la moyenne. Armé d’une compréhension des distributions d’échantillonnage, l’établissement d’un intervalle de confiance pour la moyenne est en fait assez facile. Voici comment ça marche. Supposons que la vraie moyenne de la population est 𝜇 et que l’écart-type est 𝜎. Je viens de terminer mon étude qui a N participants, et le QI moyen parmi ces participants est 𝑋. Notre analyse du théorème de la limite centrale (section 8.3.3) nous a appris que la distribution d’échantillonnage de la moyenne est approximativement normale. Nous savons également, d’après notre analyse de la distribution normale (section 7.5), qu’il y a 95 % de chances qu’une quantité normalement distribuée se situe à l’intérieur d’environ deux écarts-types de la moyenne réelle.

Pour être plus précis, la réponse la plus correcte est qu’il y a 95 % de chances qu’une quantité normalement distribuée se situe à l’intérieur de 1,96 écart type de la moyenne réelle. Ensuite, rappelez-vous que l’écart-type de la distribution d’échantillonnage est

désigné sous le nom d’erreur-type, et que l’erreur-type de la moyenne est écrite sous le nom de SEM. Lorsque nous mettons tous ces éléments ensemble, nous apprenons qu’il y a une probabilité de 95 % que la moyenne de l’échantillon 𝑋 que nous avons effectivement observée se situe à l’intérieur de 1,96 erreur type de la moyenne de la population. Mathématiquement, nous écrivons ceci comme :

𝜇 − (1,96 ∗ 𝑆𝐸𝑀) ≤ 𝑋 ≤ 𝜇 + (1,96 ∗ 𝑆𝐸𝑀)

où le SEM est égal à 𝜎/√𝑁 et nous pouvons être sûrs à 95% que c’est vrai. Cependant, cela ne répond pas à la question qui nous intéresse. L’équation ci-dessus nous indique ce à quoi nous devons nous attendre au sujet de la moyenne de l’échantillon étant donné que nous connaissons les paramètres de la population. Ce que nous voulons, c’est que ce travail se fasse dans l’autre sens. Nous voulons savoir ce que nous devons croire des paramètres de la population, étant donné que nous avons observé un échantillon particulier. Cependant, ce n’est pas trop difficile à faire. En utilisant un peu d’algèbre de lycée, une façon sournoise de réécrire notre équation est comme ceci :

𝑋 − (1,96 ∗ 𝑆𝐸𝑀) ≤ 𝜇𝑋 + (1,96 ∗ 𝑆𝐸𝑀)

Ce qui est révélateur, c’est que la plage de valeurs a une probabilité de 95 % de contenir la moyenne de la population µ. Nous appelons cette plage un intervalle de confiance à 95 %,

appelé CI95. Bref, tant que N est suffisamment grand (assez grand pour que l’on croie que la distribution d’échantillonnage de la moyenne est normale), nous pouvons écrire cette formule comme étant notre formule pour l’intervalle de confiance à 95 % :

CI95 = 𝑋 ± (1,96 × 𝜎 √𝑁)

Bien sûr, il n’y a rien de spécial avec le chiffre 1,96. C’est tout simplement le multiplicateur qu’il vous faut utiliser si vous voulez un intervalle de confiance à 95 %. Si j’avais voulu un intervalle de confiance de 70%, j’aurais utilisé 1,04 comme chiffre magique plutôt que 1,96.

Une légère erreur dans la formule

Comme d’habitude, j’ai menti. La formule que j’ai donnée ci-dessus pour l’intervalle de confiance à 95 % est à peu près exacte, mais j’ai passé sous silence un détail important de la discussion. Notez que ma formule exige que vous utilisiez l’erreur type de la moyenne, SEM, ce qui vous oblige à utiliser l’écart-type de la population réelle 𝜎. Pourtant, à la section 8.4, j’ai souligné le fait que nous ne connaissons pas réellement les vrais paramètres de

population. Comme nous ne connaissons pas la valeur réelle de 𝜎, nous devons plutôt utiliser une estimation de l’écart-type de la population (𝜎^). C’est assez simple à faire, mais cela a pour conséquence que nous devons utiliser les percentiles de la distribution t plutôt que la distribution normale pour calculer notre nombre magique, et la réponse dépend de la taille de l’échantillon. Quand N est très grand, on obtient à peu près la même valeur en utilisant la distribution t ou la distribution normale : 1,96. Mais lorsque N est petit, nous obtenons un nombre beaucoup plus grand lorsque nous utilisons la distribution t : 2,26. Il n’y a rien de trop mystérieux dans ce qui se passe ici. Des valeurs plus élevées signifient que l’intervalle de confiance est plus large, ce qui indique que nous sommes plus incertains quant à la valeur réelle de µ. Lorsque nous utilisons la distribution t au lieu de la

distribution normale, nous obtenons des nombres plus grands, ce qui indique que nous avons plus d’incertitude. Et pourquoi avons-nous cette incertitude supplémentaire ? Eh bien, parce que notre estimation de l’écart-type de la population 𝜎^ pourrait être fausse ! Si c’est faux, cela signifie que nous sommes un peu moins sûrs de ce à quoi ressemble

réellement notre distribution d’échantillonnage de la moyenne, et cette incertitude finit par se refléter dans un intervalle de confiance plus large.

Dans le document Apprentissage des statistiques avec Jamovi (Page 169-171)