Calculer et interpréter un Khi-carré

■ Définir les termes étendue, écart-type et distribution normale

▶

■ Décrire les avantages et les inconvénients de l’utilisation des termes étendue, écart-type et distribution normale

▶

■ Calculer une étendue et un écart-type

▶

■ Calculer et interpréter un Khi-carré

Les mesures de la tendance centrale (moyenne, médiane et mode) sont utiles pour décrire une répartition des fréquences, mais ne fournissent pas d’indication sur la dispersion de valeurs qui peuvent avoir la même tendance centrale. Pour prendre des décisions relatives à la prise en charge de maladies tropicales, comme dans beaucoup d’autres domaines de santé publique, il est important de définir ce qui est « normal ». La valeur « normale » est un concept statistique et dépend, dans une large mesure, de la distribution de l’attribut considéré dans la population.

Deux mesures récapitulatives rendent compte du degré de dispersion :

▶▶l’étendue,

▶▶l’écart-type.

5.1 Étendue

L’étendue indique l’écart entre la valeur la plus élevée et la valeur la plus faible dans la distribution.

Exemple 1

L’étendue des 11 valeurs (3, 4, 4, 5, 6, 6, 6, 7, 7, 8, 10) va de 3 à 10.

L’étendue peut être exprimée par 10 -3 = 7

L’étendue est facile à calculer et aisément compréhensible, mais elle ne renseigne que sur les deux extrêmes d’une série de valeurs observées. Une valeur très élevée ou très faible peut être due à une erreur de mesure. L’étendue ne prend pas en compte la variabilité des observations entre les deux valeurs extrêmes.

5.2 Écart-type

L’écart-type est une mesure qui décrit la dispersion des observations autour de la moyenne.

Si toutes les observations avaient la même valeur, l’écart-type serait égal à 0 ; plus les observations individuelles sont dispersées les unes par rapport aux autres (et s’écartent de la moyenne), plus grand est l’écart-type. Si l’écart-type d’un échantillon est très petit, la moyenne de l’échantillon est très proche de chaque observation individuelle ; ce n’est pas le cas si l’écart-type est grand.

Les étapes à suivre pour calculer l’écart-type sont les suivantes :

▶▶Calculer la différence entre chaque observation et la moyenne (xi – x )

▶▶Élever chaque différence au carré (x_i – x )2

▶▶Additionner tous ces carrés et diviser la somme des carrés par le nombre d’observations moins 1, c’est-à-dire (n - 1)

▶▶Calculer l’écart-type (SD) en prenant la racine carrée du résultat obtenu dans les étapes ci-dessus, selon la formule :

47 MESURES DE LA VARIABILITÉ ET DISTRIBUTION NORMALE

dans laquelle xi représente les valeurs individuelles

x est la moyenne

(xi - x )2 est le carré de chaque différence

∑ signifie somme de

n est le nombre d’observations

On notera que le dénominateur est n - 1 et non n. En pratique, quand n est suffisamment grand, la différence est négligeable. Néanmoins, pour des raisons théoriques, il est préférable d’utiliser n - 1.

Exemple 2

Calculez l’écart-type (SD) d’un ensemble de 11 valeurs : 3, 4, 4, 5, 6, 6, 6, 7, 7, 8, 10.

Suivez les étapes indiquées ci-dessus :

▶▶Calculer la moyenne : 66 / 11 = 6

▶▶Calculer la différence entre chaque valeur observée et la moyenne :

Moyenne 6

Valeurs xi 3 4 4 5 6 6 6 7 7 8 10

Différence par rapport à la moyenne xi - 6 - 3 - 2 - 2 - 1 0 0 0 1 1 2 4 Carré de la différence par rapport à la

moyenne 9 4 4 1 0 0 0 1 1 4 16

▶▶Additionner les carrés des différences

somme des carrés = 9 + 4 + 4 + 1 + 0 + 0 + 0 + 1 + 1 + 4 + 16 = 40

▶▶Diviser par le nombre d’observations moins 1 (n -1), où : n = 11 ; on obtient 40 / 10 = 4

▶▶Calculer l’écart-type en prenant la racine carrée du résultat :

SD = = 2

où ∑ x2 élever chaque observation au carré, puis faire la somme des carrés (∑ x)2 faire la somme des valeurs observées, puis élever la somme au carré En utilisant les valeurs de l’exemple précédent : 3, 4, 4, 5, 6, 6, 6, 7, 7, 8, 10 (n = 11)

▶▶Élever au carré chaque observation, puis faire la somme des carrés : 9 + 16 + 16 + 25 + 36 + 36 + 36 + 49 + 49 + 64 + 100 = 436

Donc ∑ x2 = 436

▶▶Ensuite faire la somme des observations et élever la somme au carré : (3 + 4 + 4 + 5 + 6 + 6 + 6 + 7 + 7 + 8 + 10)² = (66)² = 4356

Donc (∑ x)2 = 4356

avec ₃₉₆

11 4356 )

(∑ ² = =

n x

et SD =

(

^{436 396}⁻

)

₌ ₌

10 4 2

L’écart-type est basé sur l’ensemble des observations ; il est donc mieux approprié à la description de la distribution que l’étendue.

5.3 Distribution normale

L’écart-type est surtout utile lorsque la distribution est à peu près normale (courbe de Gauss), c’est-à-dire en forme de cloche symétrique. On suppose généralement que c’est le cas pour des caractéristiques biologiques (par exemple, hauteur, poids, tension artérielle). La distribution normale présente certaines caractéristiques utiles et de nombreux tests statistiques peuvent être utilisés si les valeurs observées ont une distribution normale. Si les valeurs ont une distribution normale, environ deux tiers d’entre elles sont contenues dans un intervalle compris entre la moyenne et ± un écart-type, et approximativement 95 % sont contenues dans un intervalle compris entre la moyenne et ± deux écarts-types (voir la Fig. 5.1). Cependant, de nombreuses distributions de caractéristiques biologiques, en parasitologie et en épidémiologie, ne suivent pas une courbe gaussienne (normale).

Figure 5.1 Courbe de distribution normale

Écart-type d’un pourcentage

Si le pourcentage d’une caractéristique observée dans un échantillon (d’au moins 30 individus) est de p%, on peut calculer l’écart-type de ce pourcentage dans la population comme suit : SD = ^{p (100}_n^–^p)

Soit un échantillon de 100 personnes (80% de femmes et 20% d’hommes). L’écart-type du pourcentage de femmes dans la population est :

49 MESURES DE LA VARIABILITÉ ET DISTRIBUTION NORMALE

U5 ^{p (100}_n ^–^p) où p = 80, 100 - p = 20, n = 100

ici SD = ^{p (100}_n ^–^p) = 4

Il y a donc moins de 5 chances sur 100 qu’un échantillon de cette population comprenne un pourcentage de femmes inférieur à

80 % moins (1,96 x 4) ou 80 % - 7,84 % ou 72,16 % ou supérieur à

80 % plus (1,96 x 4) ou 80 % + 7,84 % ou 87,84 %

Si on n’utilise pas de calculette, 1,96 peut être arrondi à 2 pour simplifier le calcul.

Note : 95 % des valeurs observées sont comprises dans un intervalle compris entre la moyenne et ± deux écarts-types.

5.4 Test d’association : le test du Khi-carré

Le test du Khi-carré (c²) est un test statistique permettant de savoir si les valeurs observées sont telles qu’attendues ou inhabituelles. Il est très souvent utilisé pour tester l’hypothèse nulle.

La valeur du Khi-carré est calculée en faisant la somme des carrés des différences entre les valeurs observées et les valeurs attendues divisés par les valeurs attendues. Le tableau ci-dessous montre la distribution de deux variables A et B et comment calculer le Khi-carré pour tester l’association entre A et B.

Note : Cet exemple concerne une distribution 2 x 2 et le nombre de degrés de liberté est (2-1) (2-1) = 1, pour lequel la valeur du Khi-carré est 3,84 au seuil de probabilité de 5 %. Pour des degrés de liberté supérieurs à 1, voir le Tableau 5.1.

Valeurs observées

Variable B

Variable A

Présente Absente Total

Présente A B A+B

Absente C D C+D

Total A+C B+D A+B+C+D

▶▶Énoncez l’hypothèse nulle et calculez les fréquences attendues (E) pour chaque cellule observée (O) en admettant l’hypothèse nulle d’indépendance des variables (pas d’association).

Si l’hypothèse nulle n’avait pas été rejetée, les valeurs attendues auraient été les suivantes :

Valeurs attendues

Variable B

Variable A

Présente Absente Total

Présente (A+C)(A+B) / N (B+D)(A+B) / N A+B

Absente (A+C)(C+D) / N (B+D)(C+D) / N C+D

Total A+C B+D N =A+B+C+D

▶▶Déterminez le degré de liberté de la distribution (la liberté de choisir les fréquences dans les cellules tout en conservant des totaux marginaux fixés) : le degré de liberté est égal à (nombre de colonnes de données moins 1) x (nombre de rangées de données moins 1).

▶▶Calculez le Khi-carré

Khi-carré = χ² avec un degré de liberté (df) = (rangée - l)(colonne - 1)

▶▶Comparez les résultats à la distribution théorique du Khi-carré pour déterminer leur signification.

Si le Khi-carré calculé est supérieur à la valeur en tableau, l’hypothèse nulle peut être rejetée au niveau correspondant (5 %, 10 %) de signification. Pour 1 degré de liberté, la valeur du χ² correspondant à p = 0,05 est 3,84.

Exemples 3

Association entre exposition récente en forêt et infection palustre, État A

Maladie

Exposition

Présente Absente Total

Présente 50 11 61

Absente 16 41 57

Total 66 52 118

▶▶Hypothèse nulle : absence d’association entre forêt et paludisme

▶▶Valeurs attendues

Les valeurs attendues pour la première cellule (exposition et maladie toutes deux +) seraient :

Maladie

Exposition

Présente Absente Total

Présente 66 x 61 / 118 = 34,12 52 x 61 / 118 = 26,88 61 Absente 66 x 57 / 118 = 31,88 52 x 57 / 118 = 25,12 57

Total 66 52 118

▶▶Nombre de degré de liberté = 1

Le tableau ci-dessous présente les différences entre valeurs observées et valeurs attendues :

Maladie

Exposition

Présente Absente Total

Présente 50 – 34,12 = 15,88 11 – 26,88 = -15,88 61

Absente 16 – 31,88 = -15,88 41 – 25,12 = 15,88 57

Total 66 52 118

La valeur absolue de la différence entre valeur attendue et observée est :

(50 - 34.12) = 15,88 pour toutes les cellules et le carré de la différence est 252,17 Le Khi-carré est la somme des carrés des différences entre les valeurs observées et les valeurs attendues divisés par les valeurs observées =

(252,17 / 34,12) + (252,17 / 26,88) + (252,17 / 31,88) + (252,17 / 25,12) = 34,73

51 MESURES DE LA VARIABILITÉ ET DISTRIBUTION NORMALE

U5 Cette valeur est supérieure à 3,84, donc l’hypothèse nulle est rejetée et l’existence d’une association

entre exposition en forêt et infection palustre est considérée comme vraisemblable.

Note : En pratique, il suffit souvent de calculer (O - E)²/E pour la valeur de O la plus faible. Si, comme c’est le cas ici, le résultat est > 3,84, le test du Khi-carré est positif et les distributions sont significativement différentes.

Exercices

Calculez la moyenne, l’écart-type, l’étendue et le Khi-carré Exercice 5.1

La durée d’hospitalisation de 24 enfants souffrant d’une pneumonie admis le mois dernier à l’hôpital X est la suivante :

Enfant 1 6 jours Enfant 13 10 jours

Enfant 2 7 jours Enfant 14 18 jours

Enfant 3 10 jours Enfant 15 14 jours

Enfant 4 8 jours Enfant 16 12 jours

Enfant 5 11 jours Enfant 17 11 jours

Enfant 6 8 jours Enfant 18 10 jours

Enfant 7 4 jours Enfant 19 10 jours

Enfant 8 17 jours Enfant 20 15 jours

Enfant 9 15 jours Enfant 21 5 jours

Enfant 10 14 jours Enfant 22 12 jours

Enfant 11 8 jours Enfant 23 6 jours

Enfant 12 11 jours Enfant 24 11 jours

a. Quelle est l’étendue de la série de valeurs ?

b. Quelle est la moyenne de la durée d’hospitalisation ? c. Quel est l’écart-type ?

d. L’étendue ou l’écart-type est-il une meilleure mesure de la distribution dans ce cas. Expliquez pourquoi.

Exercice 5.2

Les données suivantes sur la fréquence du pouls ont été obtenues lors de l’admission de 10 patients masculins hospitalisés en une semaine :

Homme 1 83 battements/minute Homme 6 59 battements/minute

Homme 2 72 battements/minute Homme 7 72 battements/minute

Homme 3 77 battements/minute Homme 8 58 battements/minute

Homme 4 62 battements/minute Homme 9 65 battements/minute

Homme 5 60 battements/minute Homme 10 77 battements/minute

a. Quelle est l’étendue des valeurs de fréquence du pouls ? b. Quelle est la moyenne ?

c. Quel est l’écart-type?

Exercice 5.3

Un échantillon de 200 personnes examinées fait apparaître les résultats suivants :

▶▶Parmi 94 personnes dont le frottis sanguin est positif, 34 utilisent régulièrement une moustiquaire imprégnée d’insecticide.

▶▶Parmi 106 personnes dont le frottis sanguin est négatif, 80 utilisent régulièrement une moustiquaire imprégnée d’insecticide.

a. Mettre les informations en tableau

b. La distribution des « frottis sanguins positifs » et celle des « utilisateurs de moustiquaires » est-elle significativement différente (p = 0,05) ?

53 APPROC HE ÉPIDÉMIOLOGIQUE

GUIDE DES PARTICIPANTS

UNITÉ D’APPRENTISSAGE 6

Dans le document GUIDE DES PARTICIPANTS (Page 57-65)