• Aucun résultat trouvé

Les bases de l’analyse statistique

Analyse statistique des données

8.2 Les bases de l’analyse statistique

Les principes fondamentaux de la théorie de la probabilité (cités brièvement dans le chapitre 7) sont utiliés dans l’inférence statistique.

Toutes les inférences sont fondées sur trois concepts primaires : la population concernée (U), l’ensemble des caractéristiques (variables) attachées à chaque unité de cette population (V), et la distribution de probabilité (P) de ces caractéristiques dans la population.

La population (U)

La population est l’ensemble des unités d’observation qui sont à considérer et qui constituent la cible de l’investigation. Par exemple, pour déterminer l’efficacité d’un médicament donné dans une maladie,

la population comprendra tous les patients possibles ayant cette maladie. Pour déterminer la prévalence de l’infection par le VIH parmi les personnes vivant de la prostitution dans un pays, la population (le terme “population” est ici synonyme de “population cible” citée au chapitre 7) comprendra toutes les personnes relevant de cette catégorie dans la population générale.

Dans toute étude de recherche, il est essentiel d’identifier clairement et avec précision la population. Le succès de l’investigation dépendra beaucoup de l’identification de la population concernée.

Souvent la population concernée n’est pas observable, alors une population moins nombreuse est identifiée comme sujet de l’étude.

Par exemple, dans les essais cliniques, avant randomisation, on exclut certains patients pour différentes raisons ; alors la population étudiée est quelque peu différente de la population cible. Cette distinction doit être faite clairement au début de l’étude et aussi au moment de l’analyse des données et de leur interprétation, de façon à assurer la validité des inférences tirées de l’étude.

Les variables (V)

Une fois que la population est identifiée, il nous faut définir clairement quelles sont les caractéristiques des unités de la population (sujets de l’étude) que nous nous proposons d’étudier. Par exemple, dans le cas de l’étude sur le VIH citée plus haut, il nous faut définir le VIH (une méthode fiable et valide pour identifier le VIH chez l’individu), et préciser quelles sont les autres caractéristiques des personnes que nous désirons étudier. (par exemple, âge, sexe, niveau d’instruction, etc.). Pour le succès de l’étude de recherche, il faut disposer de définitions et de méthodes claires et précises (simple observation, mesure de laboratoire, batterie de tests à l’aide d’un questionnaire) pour mesurer ces caractéristiques.

Les variables sont caractérisées de plusieurs façons et, dans le contexte de la statistique, elles sont habituellement soit discrètes, soit continues. Les variables discrètes sont celles qui ne peuvent prendre qu’un petit nombre de valeurs possibles, par exemple, sexe (masculin, féminin), incidence d’une maladie (oui, non). Les variables continues sont celles qui peuvent théoriquement prendre toute valeur à l’intérieur d’un domaine compris entre un minimum et un maximum, par exemple, âge, pression sanguine. Il y a certaines variables de nature discrète mais présentant de nombreuses valeurs et qui sont similaires à des variables continues ; elles sont considérées comme des variables continues dans la plupart des calculs statistiques. Ce sont, par exemple,

le nombre d’années de scolarité ou le nombre de personnes dans un foyer.

La distribution de probabilité (P)

C’est cette distribution de probabilité qui constitue le lien crucial entre la population et ses caractéristiques, lien qui nous permet de tirer des inférences sur la population à partir des observations sur échantillon. La distribution de probabilité est une façon d’énumérer les différentes valeurs que peut prendre la variable et de préciser la fréquence d’apparition de chacune de ces valeurs dans la population.

La distribution réelle de cette fréquence s’approche d’une courbe théorique représentant la distribution de probabilité.

Les distributions de probabilité habituelles sont la distribution binomiale, de Poisson et normale. La plupart des analyses statistiques pratiquées dans les recherches en matière de santé, utilisent l’une ou l’autre de ces trois distributions de probabilité. Par exemple, l’incidence d’une maladie relativement répandue peut être approchée par une distribution binomiale, tandis que l’incidence d’un événement rare (nombre de morts dans les accidents de véhicules) peut être considérée suivre une distribution de Poisson. Les variables continues (pression sanguine, battements du coeur) sont souvent considérées comme distribuées normalement.

Les distributions de probabilité sont caractérisées par des

“paramètres”, quantités qui nous permettent de calculer les probabilités de différents événements concernant la variable, ou bien de déterminer la probabilité d’une valeur particulière de la variable. Par exemple, la distribution binomiale a deux paramètres n et π. La distribution est binomiale lorsqu’on observe un nombre donné de sujets (n) dont la caractéristique est dichotomique (elle ne peut prendre que deux valeurs possibles), et que chaque sujet a la même probabilité (π) de présenter une valeur et la probabilité (1 - π) de présenter l’autre valeur.

L’inférence statistique consiste à trouver la valeur de π dans la population à partir de l’observation d’un échantillon choisi avec soin.

Par ailleurs la distribution normale est une courbe mathématique définie par deux paramètres : la moyenne des valeurs de la variable (μ) et l’écart-type (σ) ; leurs définitions sont données à la section 8.3.3.

Le type d’analyse statistique pratiquée dépend beaucoup du plan d’étude, et en particulier du fait que l’étude est descriptive ou

non, et du plan d’échantillonnage utilisé pour prélever l’échantillon dans la population.

8.3 Études descriptives.

L’objectif des études descriptives est d’estimer la valeur des paramètres de la distribution de probabilité, ou une fonction de ces paramètres. Se basant sur ce qui a été observé dans l’échantillon, on calcule une estimation (valeur la plus probable) des valeurs relatives à la population et on mesure l’exactitude de cette estimation. Cette mesure d’exactitude est basée sur ce qu’on appelle la distribution d’échantillonnage de l’estimation.

8.3.1 Exactitude des estimations

Une étude descriptive est entreprise qui permet d’obtenir l’estimation (E) d’un paramètre. Il faut savoir comment cette valeur E va changer si on observe un autre échantillon. La distribution des valeurs de E au cours des répétitions de l’échantillonnage (fait dans des conditions identiques au premier) est appelée distribution d’échantillonnage de E. Cette distribution peut être déterminée empiriquement en répétant effectivement le processus d’échantillonnage, mais cela est bien sûr à la fois difficile et non justifié.

Il est possible d’obtenir une approximation de la distribution d’échantillonnage en se basant simplement sur la théorie de l’échantillonnage.

Une fois obtenue la distribution d’échantillonnage, nous pouvons répondre à la question suivante : de combien s’approche l’estimation du paramètre de sa vraie valeur ? Evidemment nous ne pouvons pas être certains à 100 % de la réponse à cette question, car nous n’avons observé qu’un seul échantillon. Cependant, en se basant sur la distribution d’échantillonnage, on peut dire avec un certain degré de confiance (par exemple avec une certitude de 95 %) que l’estimation se situe dans un intervalle de + x autour de la vraie valeur. Cet intervalle est appelé intervalle de confiance. Plus le niveau de confiance de l’affirmation est grand, plus l’intervalle de confiance est large. Comme nous le verrons plus loin sur des exemples, l’intervalle de confiance pour un niveau de confiance donné, décroît si la taille de l’échantillon augmente. Intuitivement, plus on a d’informations (n élevé), plus on est sûr du résultat (intervalle de confiance plus étroit, ou niveau de confiance accru pour un même intervalle).

8.3.2 Estimation des paramètres dans une distribution binomiale.

Lorsque l’étude concerne un événement dichotomique (comme l’incidence d’une maladie), l’objectif est d’obtenir une estimation de la probabilité de l’apparition de l’événement (taux d’incidence) dans la population. En se basant sur la distribution de probabilité binomiale, on montre que la meilleure estimation de π est la proportion p dans l’échantillon (nombre d’événements dans l’échantillon divisé par la taille de l’échantillon, n).

Pour évaluer l’exactitude de cette estimation (c’est-à-dire de combien p est proche de la vraie valeur π), il nous faut connaître la variabilité prévue pour p dans des échantillons répétés prélevés selon le même plan (distribution d’échantillonnage de p). On montre que la distribution de p est approximativement normale, avec une moyenne π et un écart-type s, où s = √π(1 - π) /n. En utilisant les propriétés de la distribution normale, on peut dire, avec un niveau de confiance de 95 %, que la vraie valeur de π se situe dans l’intervalle p + 1,96s.

Exemple 1

Dans une étude pour déterminer la prévalence de l’infection par le VIH chez les personnes vivant de la prostitution, sur un échantillon de 150 prostituées on en a trouvé 42 qui étaient séropositives au VIH. L’estimation de la prévalence du VIH est donc 28%, avec un écart-type de 3,67%. L’intervalle de confiance au niveau de 95 % pour la prévalence du VIH parmi les prostituées de cette population générale, est donc 28 + 1,96*3,67 = (20,82 % à 35,18 %). Autrement dit, sur la base de cette enquête, on peut affirmer avec 95 % de certitude que la vraie prévalence peut être aussi basse que 21 % ou aussi élevée que 35 %.

Noter qu’au chapitre 7, nous avons discuté de divers paramètres et fonctions de paramètres concernant des distributions binomiales, lorsque nous avons parlé de l’incidence, de la prévalence et des risques relatifs.

Les risques relatifs RR et les rapports de chance OR obtenus dans des études de cohortes et de cas-témoins sont des estimations des vrais risques relatifs dans la population d’où sont extraits les échantillons étudiés. Pour compléter l’étude il nous faut donc calculer la distribution d’échantillonnage de ces estimations. Dans la plupart des cas on suppose que les distributions d’échantillonnage suivent approximativement la loi normale (ce qui est statistiquement acceptable si la taille de l’échantillon est grande et si l’échantillonnage est fait

selon des méthodes de probabilité). Alors il nous faut seulement calculer l’écart-type de ces estimations pour en déduire les intervalles de confiance. La plupart des logiciels utilisés pour calculer les risques relatifs RR ou les rapports de chance OR donnent aussi l’écart-type sur ces valeurs, et dans certains cas les intervalles de confiance.

8.3.3 Estimation des paramètres dans une distribution normale.

Dans le cas d’une variable X ayant une distribution normale, nous devrons connaître la moyenne μ et l’écart-type σ. La meilleure estimation de ces paramètres est la moyenne de l’échantillon x(moyenne arithmétique de toutes les observations dans l’échantillon) et l’écart-type de l’échantillon σ.

La distribution normale présente la propriété d’être une loi de probabilité symétrique et le centre de la distribution est μ.

Ainsi, l’intervalle : moyenne + 1,96 * écart-type, contient 95 % des valeurs de la variable, c’est-à-dire qu’il y a une probabilité de 95 % que la valeur de la variable se trouve dans cet intervalle.

Une autre raison d’utiliser couramment la distribution normale dans l’inférence statistique est que les fonctions de paramètres sur l’échantillon (moyenne, risques relatifs, coefficient de corrélation, etc.) présentent une distribution d’échantillonnage suivant la loi normale, si la taille de l’échantillon est suffisamment grande.

La plupart des recherches dans le domaine de la santé impliquent seulement des inférences sur les valeurs moyennes. La moyenne de l’échantillon présente une distribution normale de moyenne μ et d’écart-type (écart-d’écart-type de la moyenne) s/√n. Ainsi l’intervalle de confiance au niveau de confiance 95 % pour la moyenne de la population est :

x±

ou plus simplement : moyenne de l’échantillon + 2*écart-type de la moyenne. On trouvera dans le livre de Kleinbaum, Kupper et Morgenstern, et celui de Glantz, la description détaillée de problèmes courants d’estimation et des formules pour les intervalles de confiance.

,

=

i(xi - x)2/(n-1) σ