• Aucun résultat trouvé

2 État de l’art

2.2 Les méthodes statistiques en épidémiologie spatiale

2.2.5 Études de corrélation écologique

Après la cartographie de la distribution d’une maladie et la caractérisation de ses structures spatiales, la dernière finalité de l’analyse spatiale est de rechercher les facteurs de risque de la maladie et de sa distribution spatiale. Les études dites « écologiques » permettent de mettre en parallèle les variations géographiques d’une pathologie et de variables d’exposition, à l’échelle de groupes (unités géographiques telles que commune, district, région…) et ainsi d'examiner les éventuelles corrélations entre ces variations (Guihenneuc-Jouyaux, 2002). Les mesures écologiques peuvent être de trois sortes : (i) des données agrégées qui sont des résumés (e.g. moyennes ou proportions) d'observations individuelles dans chaque groupe, (ii) des données environnementales qui sont des caractéristiques physiques (e.g. niveau de pollution ou température), mais qui ont leur analogue, plus rarement mesuré, au niveau individuel (e.g. dose individuelle d'exposition à la pollution), et (iii) des données globales qui sont des attributs de chaque groupe et qui n'ont pas d'analogue individuel (e.g. densité de population, système de soins…) (Morgenstern, 2008).

 Avantages et limites

Cette approche écologique tire son avantage de l’utilisation de données agrégées qui sont souvent plus facilement disponibles et accessibles que des données individuelles : données de mortalité ou morbidité via les bases de données de surveillance ou les registres, données démographiques via les recensements de la population et données environnementales via les stations météorologiques ou les images satellites notamment. Les données individuelles requièrent, elles, des investigations épidémiologiques plus poussées

(telles que les études cas-témoins ou de cohorte) et certaines expositions environnementales sont difficilement mesurables sur les individus. De plus, ces études écologiques sont moins sensibles aux erreurs aléatoires dans la mesure de l’exposition que les études individuelles et les contrastes d’exposition sont potentiellement plus grands qu’au niveau individuel, induisant une meilleure puissance (Richardson and Monfort, 2000).

Cependant, ces études doivent être interprétées avec prudence car elles peuvent conduire au phénomène d’« erreur écologique » (« ecological fallacy ») (Selvin, 1958) lorsque les associations mesurées à l’échelle d’un groupe ne sont pas nécessairement transférables à l’échelle individuelle, en raison notamment de la variabilité intra-unité de l’exposition et des facteurs de risque. Cette erreur écologique peut survenir pour plusieurs raisons, dont un biais de spécification (non prise en compte au niveau du groupe de relations exposition-risque individuelles non linéaires) ou un biais de confusion (non-prise en compte de facteurs de confusion) (Greenland, 1992). Ces biais peuvent être réduits en introduisant les facteurs de confusion potentiels, en prenant en compte l’influence de facteurs non mesurés avec des modèles adaptés (voir plus loin) et en réduisant le taille des unités spatiales : l’analyse est ainsi plus proche du niveau individuel (mais est limitée par le problème de l’instabilité des taux cité plus haut) et les populations des unités spatiales sont plus homogènes quant à l’exposition (minimisation de la variance intra-unité) (Rezaeian et al., 2007).

Néanmoins, de telles études écologiques ont été cruciales pour développer des hypothèses étiologiques majeures, comme l’établissement d’un lien entre le carcinome hépatocellulaire et l’infection par le virus de l’hépatite B (Beasley, 1988). Ces études fournissent des pistes solides mais les associations mises en évidence à l’échelle écologique nécessitent d’être confirmées et répliquées à l’échelle individuelle pour aller vers l’établissement d’une relation de causalité entre un facteur d’exposition et une maladie (Cuzick and Elliott, 1994).

 Modèles statistiques

Dans une analyse de corrélation écologique, pour estimer l’association entre les variations géographiques d’un indicateur de santé et celles de variables d’exposition, les outils statistiques typiquement utilisés sont les modèles de régression écologique, qui peuvent être de complexité variable (Guihenneuc-Jouyaux, 2002). Pour des données agrégées (e.g. nombre de cas par unités spatiales), et en particulier lorsque la maladie étudiée est rare, l’approche classique est le modèle de régression de Poisson, qui fait partie

de la classe des modèles linéaires généralisés (Langford and Day, 2001). Dans ce cas, on suppose que le nombre de cas Yi observés dans chaque unité spatiale i suit une distribution de Poisson de moyenne µi = λiEi où Ei est le nombre de cas attendus et λi est le risque relatif de l’unité i :

Yi ~ Poisson(λiEi)

Le nombre de cas attendus est calculé en fonction de la population à risque et du taux d’incidence dans la population générale, suivant éventuellement une procédure de standardisation si des taux spécifiques par âge et sexe sont disponibles. Le risque relatif λi est ensuite modélisé, via un modèle log-linéaire, en fonction de variables d’exposition Xk et d’un terme α qui représente le risque moyen dans toutes les unités spatiales, de sorte que le logarithme de µi s’écrive :

+ + = k ki k i i E α β X µ ) log( ) log(

Le nombre de cas attendus est traité comme un offset dans le modèle et les βk sont des effets fixes à estimer. Pour chaque covariable, le ratio des taux d’incidence, mesure épidémiologique utilisée pour comparer les risques entre les catégories d’exposition, est alors donné par exp(βk). Dans ce modèle de Poisson, la variance de la distribution est égale à la moyenne. Ce modèle de base peut s’avérer inadapté en cas de sur-dispersion, ou variation extra-poissonnienne, dans les données. La distribution de Poisson peut alors être remplacée par une distribution binomiale négative, qui autorise une variance supérieure à la moyenne en introduisant un paramètre de sur-dispersion (Rezaeian et al., 2007).

Il est ensuite possible d’étendre ce modèle standard à un modèle linéaire mixte généralisé en introduisant différents types d’effets aléatoires au niveau des unités spatiales, pour prendre en compte une variabilité supplémentaire dans les observations dérivant de sources non-spatiales ou spatiales. Cela peut être réalisé dans le cadre d’une formulation hiérarchique bayésienne. Les modèles de régression hiérarchique bayésienne se sont avérés utiles pour analyser les dynamiques spatio-temporelles de maladies infectieuses dans différents contextes épidémiologiques, telles que la dengue au Brésil (Lowe et al., 2013), les géohelminthiases au Kenya (Pullan et al., 2011) ou la schistosomiase en Chine (Wang et al., 2008). L’utilisation d’une approche hiérarchique bayésienne pour tenir compte de la variabilité spatialement structurée et non structurée dans les études écologiques a d’abord été introduite par Clayton et Kaldor (1987), puis développée par Besag et al (1991).

Comme évoqué plus haut, certains facteurs de confusion non mesurés ou non identifiés peuvent modifier la relation écologique entre un facteur d’exposition et le risque de maladie. Il est donc nécessaire de prendre en compte ces facteurs de confusion, en introduisant dans l’équation du prédicteur des effets aléatoires Vi au niveau des unités spatiales. Ces effets vont permettre de capturer l’influence de facteurs spécifiques à chaque unité spatiale et d’introduire une source supplémentaire de variabilité dans le modèle :

i ki k k i =α +

β X +V λ ) log(

où la distribution a priori desVi est généralement spécifiée par une loi normale de variance inter-unités σv² :

i

V ~N(0,σv2)

Cependant, ces effets aléatoires gaussiens indépendants ignorent la possibilité d’une dépendance spatiale entre les observations. Or, l’hypothèse qu’il existe une forme d’autocorrélation spatiale est plus réaliste, d’autant plus si les unités spatiales sont petites (Richardson and Monfort, 2000). Ignorer l’autocorrélation spatiale entre les observations peut conduire à une sous-estimation des erreurs standards associées aux paramètres de régression estimés par le modèle, créant des intervalles de confiance faussement étroits et des niveaux de significativité sur-estimés (Beale et al., 2008; Bithell, 1998). Pour faire face à ce problème, il est nécessaire d’inclure une structure spatiale dans les effets aléatoires des unités spatiales, en considérant que le risque relatif d’une unité est influencé par le risque relatif des unités voisines. Ces effets notés Ui représentent la corrélation spatiale entre unités voisines (variabilité structurée spatialement) due à des facteurs de risque inconnus :

i ki k k i =α +

β X +U λ ) log(

Les effets aléatoires Ui sont spécifiés par un modèle conditionnel auto-régressif (CAR), qui implique que la distribution conditionnelle de chaque Ui est une distribution normale centrée sur la moyenne pondérée des effets dans les unités voisines, ui, et de variance σ i2 inversement proportionnelle au nombre de voisins ; les poids wij représentent la relation de voisinage entre deux unités i et j :

i j j iU U , ~N(uii2),

= j ij j ij j i w U w u ,

= j ij u i w 2 2 σ σ 44

Pour plus de flexibilité, Besag, York et Mollié (Besag et al., 1991) ont proposé de combiner ces deux types d’effets aléatoires via le modèle baptisé « modèle BYM » du nom de ses trois auteurs. Au final, ce modèle complet, qui est le plus couramment utilisé aujourd’hui, s’écrit (Richardson and Monfort, 2000) :

• Premier niveau : Yi ~ Poisson(λiEi) • Deuxième niveau : i i ki k k i =α +

β X +V +U λ ) log( i V ~N(0,σv2) i j j iU U , ~N(uii2),

= j ij j ij j i w U w u ,

= j ij u i w 2 2 σ σ

Dans l’approche bayésienne, des distributions a priori doivent également être spécifiées pour α, les coefficients de régression βk et les (hyper-)paramètres σv² et σu² des effets aléatoires (troisième niveau du modèle hiérarchique). L’estimation des paramètres de ce modèle hiérarchique bayésien requiert des techniques de simulation stochastiques appartenant à la famille des méthodes de Monte Carlo par chaînes de Markov (MCMC), dont la mise en œuvre a été relativement facilitée par le développement du logiciel WinBUGS (Lunn et al., 2000).

Dans de nombreuses situations, les données spatiales sont également indexées dans le temps. Ces données spatio-temporelles (e.g. nombres de cas par unité spatiale mesurés sur plusieurs années consécutives) doivent être analysées par un modèle qui prend à la fois en compte la dépendance spatiale et la dépendance temporelle. Le modèle BYM purement spatial peut alors être étendu à une structure spatio-temporelle additive (modèle développé dans l’Article II). Les effets aléatoires au niveau des unités spatiales décrits plus haut permettent notamment d’exprimer ce que les mesures répétées sur une même unité ont en commun. À ces effets spatiaux sont ajoutés des effets aléatoires temporels non structurés et/ou structurés (e.g. sous la forme d’une marche aléatoire d’ordre 1 (Knorr-Held and Besag, 1998)), permettant respectivement d’exprimer ce que les risques relatifs au même temps t ont en commun et de modéliser la dépendance des risques relatifs entre temps t consécutifs. Ce modèle additif peut finalement être étendu en incluant un paramètre d’interaction spatio-temporelle qui permet de capturer les écarts à la structure additive, sous

différentes formes possibles (Knorr-Held, 2000). L’estimation de ces modèles complexes peut également être réalisée dans le logiciel WinBUGS via les méthodes MCMC, qui sont souvent très coûteuses en temps de calcul afin d’atteindre un niveau de convergence satisfaisant.