• Aucun résultat trouvé

Les informations par commune ont été compilées en une table (Annexe 3). L'attention a été portée à utiliser des séries aussi chronologiquement rapprochées que possible, ce qui nous laisse un éventail de 1997 à 2001. Il n’a pas été décelé de modifications dans les méthodes de collecte et de présentation des données pour cette période.

Les taux ont été calculés, commune par commune, par rapport à la population estimée 2001.

Les populations étudiées montrant entre elles un grand éventail de modes de vie de par leur distribution géographique, l’accent a été mis sur l’étude du comportement des diverses variables les unes par rapport aux autres, et l’existence éventuelle de corrélations positives ou négatives.

Les séries ont été soumises à une analyse visuelle des graphes (« scatterplots ») à la recherche de particularités dans la distribution des données (groupements par entité géographique,

distributions en U, ou encore corrélations non linéaires inverses comme celle qui a été détectée entre le revenu autonome et les subsides, par exemple) . Le degré de normalité des séries de données, particulièrement relevant par rapport à de nombreux test statistiques courants et aux coefficients de corrélation linéaire, a été estimé par le calcul du kurtosis (aplatissement) et du biais (« skewness ») :

Soit Xi la valeur de la variable, N le nombre d’observations et X la moyenne de la série. On détermine d’abord la déviation standard σ, mesure de dispersion, racine carrée de la

variance :

On calcule ensuite le biais de la distribution (skewness) :

3

et la mesure d’aplatissement de la distribution, le kurtosis : ) 3

Une distribution normale a un biais de 0 et un kurtosis de 0.

Quels critères utiliser pour déterminer que la distribution d’une série diffère significativement d’une distribution normale ? D’après Tabachnik et Fidell (1996), on peut utiliser une

approximation de la déviation standard du biais (dsb) et de la déviation standard du kurtosis (dsk) de la distribution normale:

dsb N6

= et

dsk 24N

=

On retient comme différant significativement d’une distribution normale toute série qui présente une valeur absolue du biais ou du kurtosis supérieure à 2 * dsb ou 2 * dsk respectivement. (voir l’annexe 3, en bas de tableau, noms des séries en rouge).

L’interprétation des résultats de traitements statistiques effectués sur de séries différant significativement de la distribution normale doit faire l’objet de précautions particulières.

Dans la pratique, nous avons cependant remarqué que certaines données importantes risquaient

d’être ignorées dans le cas d’une extraction des séries a-normales du tableau de comparaison (par exemple la corrélation linéaire étroite, significative et indéniable entre deux séries fortement biaisées et leptokurtiques, le budget municipal total par habitant et par an et le nombre de consultations médicales préventives par habitant et par an. Fig. 1.3.1). Nous avons donc opté pour garder les séries significativement a-normales dans la matrice de corrélation.

Des tests spécifiques aux distributions non normales devront être effectués ultérieurement sur ces séries avant toute conclusion définitive, ou, mieux encore, un recoupement avec d’autres informations statistiques.

Budget municipal par habitant et par an

275.0

consultations de médecin préventives / hab / an

1.13

Fig. 2.2.1 : Distribution des valeurs pour deux variables qui ne suivent pas une distribution normale, le budget municipal par habitant et par an et le nombre de consultations de médecin préventives par habitant et par an, et qui sont cependant fortement corrélées.

Le coefficient de corrélation linéaire ou coefficient de Pearson r est une mesure du degré auquel deux variables évoluent l’une par rapport à l’autre. Soit cov (X,Y) la covariance de deux séries :

Le coefficient de corrélation linéaire entre les variables X et Y est défini par la covariance de X et Y divisée par le produit de la déviation standard de X et la déviation standard de Y :

Y

Le coefficient de corrélation varie entre 1 (corrélation parfaite) et –1 (corrélation négative parfaite). Des valeurs proches de zéro indiquent l’absence de corrélation des variables. Une corrélation est dite forte si sa valeur absolue est supérieure à 0.8, moyenne si sa valeur absolue se situe entre 0.5 et 0.8, faible en dessous.

Le rejet de l’hypothèse nulle, ou probabilité pour que r soit différent de zéro (signifiance) a été testée par le calcul de t :

1 2

2 r r N

t

× −

=

la valeur est ensuite comparée à celle d’une table de valeurs de t avec N-2 degrés de liberté (bicaudal puisqu’on ignore en général le sens de la corrélation), aux intervalles de confiance de 95% et 99%.

A toutes fins pratiques, les coefficients de corrélation linéaire entre les différentes variables et le niveau de signifiance de la corrélation ont été calculés à l’aide du logiciel SPSS

(http://www.spss.com/). La table de matrices obtenue est consignée dans l’annexe 6. Les corrélations pour chaque variable ont ensuite été classées en tableaux par coefficient de détermination r2 et par degré de signifiance, reproduits dans le texte et dans l’annexe 7.

Enfin, des essais de visualisation en 3D de la matrice de corrélation obtenue ont été effectués à l’aide des logiciels UCINET (http://www.analytictech.com/ucinet_5_description.htm) et Mage (http://kinemage.biochem.duke.edu/software/software1.html#mage).

A titre de précaution : Le coefficient de corrélation de Pearson se base, comme la régression linéaire, sur plusieurs hypothèses sur la nature des données examinées, les plus importantes d’entre elles étant (d’après Osborne et Waters, 2002) :

Les variables présentent une distribution normale : Les distributions fortement kurtotiques, biaisées ou présentant des points en dehors des limites normales, peuvent interférer avec le calcul des corrélations et avec les tests de signifiance. Cet aspect a été abordé lors du traitement initial des données, les variables présentant des distributions significativement kurtotiques ou biaisées sont signalées en bas du tableau de l’annexe 3.

Lorsque les distributions des deux variables diffèrent beaucoup, une atténuation peut être observée dans le coefficient de corrélation. La corrélation d’une variable à distribution normale avec une variable fortement kurtotique et/ou biaisée peut passer inaperçue.

La relation entre les variables est linéaire. Les corrélations d’une autre nature (géométrique, quadratique, cubique, en U) sont sous-estimées. C’est l’une (mais pas la

seule) des raisons qui donnent de l’importance à l’analyse visuelle des graphes des données.

Les variables sont mesurées avec fiabilité et un minimum d’erreur. Les erreurs de mesure et les problèmes de fiabilité ont pour effet d’atténuer les corrélations observées, aboutissant à une sous-estimation. En l’occurrence, les données des enquêtes CASE que nous avons utilisées ont en principe déjà été filtrées pour ce type d’erreurs (la méthodologie des sondages n’était cependant pas immédiatement disponible sur le site du Mideplan) et les communes pour lesquelles l’échantillonnage pose des problèmes sont

(malheureusement) absentes des données publiées.

Une correction d’atténuation peut en principe être appliquée aux coefficients de corrélation, avec la formule

YY XX XY XY

r r corrigé r

r = ×

rXXet rYY sont les fiabilités des variables (ou corrélation de chaque variable avec elle-même). Il existe plusieurs modèles de calcul de fiabilité dont les indications particulières sortent du propos du présent travail.

Les variables sont homoscédatiques, c’est à dire que la distribution des erreurs est la même sur toute la gamme des valeurs. L’hétéroscédascité cause une atténuation des

coefficients de corrélation. Des tests spécifiques peuvent être mis en œuvre afin de détecter une hétéroscédascité (Goldfeld-Quandt, Glejser).

On retiendra que les différentes limites de la corrélation linéaire conduisent essentiellement, par l’effet d’atténuation, à un risque de sous-estimation de certaines corrélations, et non pas à une sur-estimation des corrélations.

Enfin, l’existence d’un coefficient de corrélation marqué n’implique aucunement un lien de cause à effet, ni le sens de celui-ci.

Dans le but d’alléger la présentation et améliorer la lisibilité du document, un certain nombre d’images ont été déplacées dans l’annexe 4. Leur numération par rapport à l’ordre du texte a cependant été conservée.

Pour référence, un un profil global du pays et de la de la situation de santé, largement basé sur les informations publiées par l’organisation panaméricaine de la santé (http://www.paho.org) et l’institut national des statistiques (http://www.ine.cl) est placé dans l’annexe 5.