■ Définir les termes étendue, écart-type et distribution normale
▶
■ Décrire les avantages et les inconvénients de l’utilisation des termes étendue, écart-type et distribution normale
▶
■ Calculer une étendue et un écart-type
▶
■ Calculer et interpréter un Khi-carré
Les mesures de la tendance centrale (moyenne, médiane et mode) sont utiles pour décrire une répartition des fréquences, mais ne fournissent pas d’indication sur la dispersion de valeurs qui peuvent avoir la même tendance centrale. Pour prendre des décisions relatives à la prise en charge de maladies tropicales, comme dans beaucoup d’autres domaines de santé publique, il est important de définir ce qui est « normal ». La valeur « normale » est un concept statistique et dépend, dans une large mesure, de la distribution de l’attribut considéré dans la population.
Deux mesures récapitulatives rendent compte du degré de dispersion :
▶▶l’étendue,
▶▶l’écart-type.
5.1 Étendue
L’étendue indique l’écart entre la valeur la plus élevée et la valeur la plus faible dans la distribution.
Exemple 1
L’étendue des 11 valeurs (3, 4, 4, 5, 6, 6, 6, 7, 7, 8, 10) va de 3 à 10.
L’étendue peut être exprimée par 10 -3 = 7
L’étendue est facile à calculer et aisément compréhensible, mais elle ne renseigne que sur les deux extrêmes d’une série de valeurs observées. Une valeur très élevée ou très faible peut être due à une erreur de mesure. L’étendue ne prend pas en compte la variabilité des observations entre les deux valeurs extrêmes.
5.2 Écart-type
L’écart-type est une mesure qui décrit la dispersion des observations autour de la moyenne.
Si toutes les observations avaient la même valeur, l’écart-type serait égal à 0 ; plus les observations individuelles sont dispersées les unes par rapport aux autres (et s’écartent de la moyenne), plus grand est l’écart-type. Si l’écart-type d’un échantillon est très petit, la moyenne de l’échantillon est très proche de chaque observation individuelle ; ce n’est pas le cas si l’écart-type est grand.
Les étapes à suivre pour calculer l’écart-type sont les suivantes :
▶▶Calculer la différence entre chaque observation et la moyenne (xi – x )
▶▶Élever chaque différence au carré (xi – x )2
▶▶Additionner tous ces carrés et diviser la somme des carrés par le nombre d’observations moins 1, c’est-à-dire (n - 1)
▶▶Calculer l’écart-type (SD) en prenant la racine carrée du résultat obtenu dans les étapes ci-dessus, selon la formule :
47 MESURES DE LA VARIABILITÉ ET DISTRIBUTION NORMALE
U5
SD
dans laquelle xi représente les valeurs individuelles
x est la moyenne
(xi - x )2 est le carré de chaque différence
∑ signifie somme de
n est le nombre d’observations
On notera que le dénominateur est n - 1 et non n. En pratique, quand n est suffisamment grand, la différence est négligeable. Néanmoins, pour des raisons théoriques, il est préférable d’utiliser n - 1.
Exemple 2
Calculez l’écart-type (SD) d’un ensemble de 11 valeurs : 3, 4, 4, 5, 6, 6, 6, 7, 7, 8, 10.
Suivez les étapes indiquées ci-dessus :
▶▶Calculer la moyenne : 66 / 11 = 6
▶▶Calculer la différence entre chaque valeur observée et la moyenne :
Moyenne 6
Valeurs xi 3 4 4 5 6 6 6 7 7 8 10
Différence par rapport à la moyenne xi - 6 - 3 - 2 - 2 - 1 0 0 0 1 1 2 4 Carré de la différence par rapport à la
moyenne 9 4 4 1 0 0 0 1 1 4 16
▶▶Additionner les carrés des différences
somme des carrés = 9 + 4 + 4 + 1 + 0 + 0 + 0 + 1 + 1 + 4 + 16 = 40
▶▶Diviser par le nombre d’observations moins 1 (n -1), où : n = 11 ; on obtient 40 / 10 = 4
▶▶Calculer l’écart-type en prenant la racine carrée du résultat :
SD = = 2
où ∑ x2 élever chaque observation au carré, puis faire la somme des carrés (∑ x)2 faire la somme des valeurs observées, puis élever la somme au carré En utilisant les valeurs de l’exemple précédent : 3, 4, 4, 5, 6, 6, 6, 7, 7, 8, 10 (n = 11)
▶▶Élever au carré chaque observation, puis faire la somme des carrés : 9 + 16 + 16 + 25 + 36 + 36 + 36 + 49 + 49 + 64 + 100 = 436
Donc ∑ x2 = 436
▶▶Ensuite faire la somme des observations et élever la somme au carré : (3 + 4 + 4 + 5 + 6 + 6 + 6 + 7 + 7 + 8 + 10)2 = (66)2 = 4356
Donc (∑ x)2 = 4356
avec 396
11 4356 )
(∑ 2 = =
n x
et SD =
(
436 396−)
= =10 4 2
L’écart-type est basé sur l’ensemble des observations ; il est donc mieux approprié à la description de la distribution que l’étendue.
5.3 Distribution normale
L’écart-type est surtout utile lorsque la distribution est à peu près normale (courbe de Gauss), c’est-à-dire en forme de cloche symétrique. On suppose généralement que c’est le cas pour des caractéristiques biologiques (par exemple, hauteur, poids, tension artérielle). La distribution normale présente certaines caractéristiques utiles et de nombreux tests statistiques peuvent être utilisés si les valeurs observées ont une distribution normale. Si les valeurs ont une distribution normale, environ deux tiers d’entre elles sont contenues dans un intervalle compris entre la moyenne et ± un écart-type, et approximativement 95 % sont contenues dans un intervalle compris entre la moyenne et ± deux écarts-types (voir la Fig. 5.1). Cependant, de nombreuses distributions de caractéristiques biologiques, en parasitologie et en épidémiologie, ne suivent pas une courbe gaussienne (normale).
Figure 5.1 Courbe de distribution normale
Écart-type d’un pourcentage
Si le pourcentage d’une caractéristique observée dans un échantillon (d’au moins 30 individus) est de p%, on peut calculer l’écart-type de ce pourcentage dans la population comme suit : SD = p (100n–p)
Soit un échantillon de 100 personnes (80% de femmes et 20% d’hommes). L’écart-type du pourcentage de femmes dans la population est :
49 MESURES DE LA VARIABILITÉ ET DISTRIBUTION NORMALE
U5 p (100n –p) où p = 80, 100 - p = 20, n = 100
ici SD = p (100n –p) = 4
Il y a donc moins de 5 chances sur 100 qu’un échantillon de cette population comprenne un pourcentage de femmes inférieur à
80 % moins (1,96 x 4) ou 80 % - 7,84 % ou 72,16 % ou supérieur à
80 % plus (1,96 x 4) ou 80 % + 7,84 % ou 87,84 %
Si on n’utilise pas de calculette, 1,96 peut être arrondi à 2 pour simplifier le calcul.
Note : 95 % des valeurs observées sont comprises dans un intervalle compris entre la moyenne et ± deux écarts-types.
5.4 Test d’association : le test du Khi-carré
Le test du Khi-carré (c2) est un test statistique permettant de savoir si les valeurs observées sont telles qu’attendues ou inhabituelles. Il est très souvent utilisé pour tester l’hypothèse nulle.
La valeur du Khi-carré est calculée en faisant la somme des carrés des différences entre les valeurs observées et les valeurs attendues divisés par les valeurs attendues. Le tableau ci-dessous montre la distribution de deux variables A et B et comment calculer le Khi-carré pour tester l’association entre A et B.
Note : Cet exemple concerne une distribution 2 x 2 et le nombre de degrés de liberté est (2-1) (2-1) = 1, pour lequel la valeur du Khi-carré est 3,84 au seuil de probabilité de 5 %. Pour des degrés de liberté supérieurs à 1, voir le Tableau 5.1.
Valeurs observées
Variable B
Variable A
Présente Absente Total
Présente A B A+B
Absente C D C+D
Total A+C B+D A+B+C+D
▶▶Énoncez l’hypothèse nulle et calculez les fréquences attendues (E) pour chaque cellule observée (O) en admettant l’hypothèse nulle d’indépendance des variables (pas d’association).
Si l’hypothèse nulle n’avait pas été rejetée, les valeurs attendues auraient été les suivantes :
Valeurs attendues
Variable B
Variable A
Présente Absente Total
Présente (A+C)(A+B) / N (B+D)(A+B) / N A+B
Absente (A+C)(C+D) / N (B+D)(C+D) / N C+D
Total A+C B+D N =A+B+C+D
▶▶Déterminez le degré de liberté de la distribution (la liberté de choisir les fréquences dans les cellules tout en conservant des totaux marginaux fixés) : le degré de liberté est égal à (nombre de colonnes de données moins 1) x (nombre de rangées de données moins 1).
▶▶Calculez le Khi-carré
Khi-carré = χ2 avec un degré de liberté (df) = (rangée - l)(colonne - 1)
▶▶Comparez les résultats à la distribution théorique du Khi-carré pour déterminer leur signification.
Si le Khi-carré calculé est supérieur à la valeur en tableau, l’hypothèse nulle peut être rejetée au niveau correspondant (5 %, 10 %) de signification. Pour 1 degré de liberté, la valeur du χ2 correspondant à p = 0,05 est 3,84.
Exemples 3
Association entre exposition récente en forêt et infection palustre, État A
Maladie
Exposition
Présente Absente Total
Présente 50 11 61
Absente 16 41 57
Total 66 52 118
▶▶Hypothèse nulle : absence d’association entre forêt et paludisme
▶▶Valeurs attendues
Les valeurs attendues pour la première cellule (exposition et maladie toutes deux +) seraient :
Maladie
Exposition
Présente Absente Total
Présente 66 x 61 / 118 = 34,12 52 x 61 / 118 = 26,88 61 Absente 66 x 57 / 118 = 31,88 52 x 57 / 118 = 25,12 57
Total 66 52 118
▶▶Nombre de degré de liberté = 1
Le tableau ci-dessous présente les différences entre valeurs observées et valeurs attendues :
Maladie
Exposition
Présente Absente Total
Présente 50 – 34,12 = 15,88 11 – 26,88 = -15,88 61
Absente 16 – 31,88 = -15,88 41 – 25,12 = 15,88 57
Total 66 52 118
La valeur absolue de la différence entre valeur attendue et observée est :
(50 - 34.12) = 15,88 pour toutes les cellules et le carré de la différence est 252,17 Le Khi-carré est la somme des carrés des différences entre les valeurs observées et les valeurs attendues divisés par les valeurs observées =
(252,17 / 34,12) + (252,17 / 26,88) + (252,17 / 31,88) + (252,17 / 25,12) = 34,73
51 MESURES DE LA VARIABILITÉ ET DISTRIBUTION NORMALE
U5 Cette valeur est supérieure à 3,84, donc l’hypothèse nulle est rejetée et l’existence d’une association
entre exposition en forêt et infection palustre est considérée comme vraisemblable.
Note : En pratique, il suffit souvent de calculer (O - E)2/E pour la valeur de O la plus faible. Si, comme c’est le cas ici, le résultat est > 3,84, le test du Khi-carré est positif et les distributions sont significativement différentes.
Exercices
Calculez la moyenne, l’écart-type, l’étendue et le Khi-carré Exercice 5.1
La durée d’hospitalisation de 24 enfants souffrant d’une pneumonie admis le mois dernier à l’hôpital X est la suivante :
Enfant 1 6 jours Enfant 13 10 jours
Enfant 2 7 jours Enfant 14 18 jours
Enfant 3 10 jours Enfant 15 14 jours
Enfant 4 8 jours Enfant 16 12 jours
Enfant 5 11 jours Enfant 17 11 jours
Enfant 6 8 jours Enfant 18 10 jours
Enfant 7 4 jours Enfant 19 10 jours
Enfant 8 17 jours Enfant 20 15 jours
Enfant 9 15 jours Enfant 21 5 jours
Enfant 10 14 jours Enfant 22 12 jours
Enfant 11 8 jours Enfant 23 6 jours
Enfant 12 11 jours Enfant 24 11 jours
a. Quelle est l’étendue de la série de valeurs ?
b. Quelle est la moyenne de la durée d’hospitalisation ? c. Quel est l’écart-type ?
d. L’étendue ou l’écart-type est-il une meilleure mesure de la distribution dans ce cas. Expliquez pourquoi.
Exercice 5.2
Les données suivantes sur la fréquence du pouls ont été obtenues lors de l’admission de 10 patients masculins hospitalisés en une semaine :
Homme 1 83 battements/minute Homme 6 59 battements/minute
Homme 2 72 battements/minute Homme 7 72 battements/minute
Homme 3 77 battements/minute Homme 8 58 battements/minute
Homme 4 62 battements/minute Homme 9 65 battements/minute
Homme 5 60 battements/minute Homme 10 77 battements/minute
a. Quelle est l’étendue des valeurs de fréquence du pouls ? b. Quelle est la moyenne ?
c. Quel est l’écart-type?
Exercice 5.3
Un échantillon de 200 personnes examinées fait apparaître les résultats suivants :
▶▶Parmi 94 personnes dont le frottis sanguin est positif, 34 utilisent régulièrement une moustiquaire imprégnée d’insecticide.
▶▶Parmi 106 personnes dont le frottis sanguin est négatif, 80 utilisent régulièrement une moustiquaire imprégnée d’insecticide.
a. Mettre les informations en tableau
b. La distribution des « frottis sanguins positifs » et celle des « utilisateurs de moustiquaires » est-elle significativement différente (p = 0,05) ?