• Aucun résultat trouvé

La distribution normale

Dans le document Apprentissage des statistiques avec Jamovi (Page 133-137)

Bien que la distribution binomiale soit conceptuellement la distribution la plus simple à comprendre, ce n’est pas la plus importante. Cet honneur particulier revient à la

distribution normale, également appelée « courbe en cloche » ou « distribution

gaussienne ». Une distribution normale est décrite à l’aide de deux paramètres : la moyenne de la distribution µ et l’écart-type de la distribution 𝜎.

Figure 7‑5 : Distribution normale avec moyenne µ = 0 et écart-type𝜎 = 1. L’axe des x correspond à la valeur d’une variable, et l’axe des y nous indique la probabilité d’observer cette valeur. Notez cependant que l’axe des y est appelé « densité de probabilités » et non « Probability ». Il y a une particularité subtile et quelque peu frustrante des distributions continues qui fait que l’axe des y se comporte un peu bizarrement : la hauteur de la courbe ici n’est pas vraiment la probabilité d’observer une valeur x particulière. D’autre part, il est vrai que les hauteurs de la courbe vous indiquent quelles valeurs x sont les plus probables (les plus élevées !) (voir section 7.5.1 pour tous les détails agaçants).

La notation que nous utilisons parfois pour dire qu’une variable X est normalement distribuée est la suivante :

𝑋 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙(𝜇, 𝜎)

Bien sûr, c’est juste de la notation. Cela ne nous dit rien d’intéressant sur la distribution normale elle-même. Comme dans le cas de la distribution binomiale, j’ai inclus la formule de la distribution normale dans ce livre, parce que je pense qu’il est assez important que tous ceux qui apprennent les statistiques y jettent un coup d’œil, mais comme il s’agit d’un texte d’introduction, je ne veux pas m’y attarder, alors je l’ai mis de côté au Tableau 7‑2.

Au lieu de se concentrer sur les mathématiques, essayons de comprendre ce que signifie le fait qu’une variable soit normalement distribuée. Pour ce faire, jetez un coup d’œil à la

Figure 7‑5 qui présente une distribution normale avec une moyenne µ = 0 et un écart-type 𝜎 = 1. Vous pouvez voir d’où vient le nom « courbe en cloche » ; elle ressemble un peu à une cloche. Remarquez que, contrairement aux graphiques que j’ai dessinés pour illustrer la distribution binomiale, l’image de la distribution normale de la Figure 7‑5 montre une distribution lissée au lieu des barres d’un histogramme. Ce n’est pas un choix arbitraire, la

distribution normale est continue alors que la distribution binomiale est discrète. Par exemple, dans l’exemple du jet de dé de la dernière section, il était possible d’obtenir 3 ou 4 crânes, mais impossible d’obtenir 3,9 crânes. Les chiffres que j’ai mentionnés dans la

section précédente reflètent ce fait. Dans la Figure 7‑3, par exemple, il y a une barre située à

X = 3 et une autre à ** = *4 mais il n’y a rien entre les deux. Les quantités continues n’ont

pas cette contrainte. Supposons, par exemple, qu’il s’agisse du temps qu’il fait. La

température par une agréable journée de printemps peut être de 23 degrés, 24 degrés, 23,9 degrés, ou n’importe quoi entre les deux, puisque la température est une variable continue. Par conséquent, une distribution normale pourrait être tout à fait appropriée pour décrire les températures printanières.42

En gardant cela à l’esprit, voyons si nous ne pouvons pas avoir une intuition sur le

fonctionnement de la distribution normale. Voyons d’abord ce qui se passe quand on joue avec les paramètres de la distribution. Pour cela, la Figure 7‑6 présente les distributions normales qui ont des moyennes différentes mais ont le même écart-type.

42 En pratique, la distribution normale est si pratique que les gens ont tendance à l’utiliser

même lorsque la variable n’est pas réellement continue. Tant qu’il y a suffisamment de catégories (p. ex. réponses à un questionnaire selon l’échelle de Likert), il est assez courant d’utiliser la distribution normale comme approximation. Cela fonctionne beaucoup mieux en pratique que vous ne le pensez.

Figure 7‑6 : Une illustration de ce qui se passe lorsque vous modifiez la moyenne d’une distribution normale. Dans les deux cas, l’écart-type est 𝜎 = 1. Comme on pouvait s’y attendre, les deux distributions ont la même forme, mais la ligne en pointillés est décalée vers la droite.

Comme on peut s’y attendre, toutes ces distributions ont la même « largeur ». La seule différence entre eux est qu’ils ont été déplacés vers la gauche ou vers la droite. Sur tous les autres points, ils sont identiques. Par contre, si nous augmentons l’écart-type tout en maintenant la moyenne constante, le pic de la distribution reste au même endroit mais la distribution s’élargit, comme vous pouvez le voir à la Figure 7‑7. Notez, cependant, que lorsque nous élargissons la distribution, la hauteur du pic diminue.

Figure 7‑7 : Une illustration de ce qui se passe lorsque vous modifiez l’écart-type d’une distribution normale. Les deux distributions représentées dans cette figure ont une moyenne de µ = 5, mais elles ont des écarts-types différents. La ligne pleine correspond à une distribution avec un écart-type 𝜎 = 1, et la ligne pointillée montre une distribution avec un écart-type 𝜎 = 2. Par conséquent, les deux distributions sont « centrées » au même endroit, mais la ligne pointillée est plus large que la solide.

Ceci doit se produire, de la même manière que les hauteurs des barres que nous avons utilisées pour dessiner une distribution binomiale discrète doivent totaliser 1, l’aire totale

sous la courbe pour la distribution normale doit être égale à 1. Avant de poursuivre,

j’aimerais souligner une caractéristique importante de la distribution normale.

Indépendamment de la moyenne réelle et de l’écart-type, 68,3 % de la superficie se situe à moins d’un écart-type de la moyenne. De même, 95,4 % de la distribution se situe à

l’intérieur de plus ou moins deux écarts-types de la moyenne et 99,7 % de la distribution se situe à l’intérieur de plus ou moins trois écarts-types. Cette idée est illustrée à la Figure 7‑8.

Figure 7‑8 : L’aire sous la courbe indique la probabilité qu’une observation se situe dans une plage particulière. Les lignes pleines représentent les distributions normales avec une moyenne µ = 0 et un écart-type 𝜎 = 1. Les zones ombrées illustrent les « zones sous la courbe » pour deux cas importants. Dans le panel a, nous pouvons voir qu’il y a 68,3 % de chances qu’une observation se situe dans un écart-type de la moyenne. Dans le panel b, nous voyons qu’il y a 95,4 % de chances qu’une observation se situe dans les deux écarts types de la moyenne.

Figure 7‑9 : Deux autres exemples de « l’aire sous l’idée de courbe ». Il y a 15,9 % de chances qu’une observation se situe un écart-type inférieur ou supérieure à la moyenne (panel a), et 34,1 % de chances que l’observation se situe quelque part entre un écart-type inférieur à la moyenne et la moyenne (panel b). Notez que si vous additionnez ces deux chiffres, vous obtenez 15,9% + 34,1% = 50%. Pour les données normalement distribuées, il y a 50 % de chances qu’une observation soit inférieure à la moyenne. Et bien sûr, cela implique aussi qu’il y a 50 % de chances qu’elle soit supérieure à la moyenne.

Dans le document Apprentissage des statistiques avec Jamovi (Page 133-137)