• Aucun résultat trouvé

RECHERCHE : ÉLABORATION DU CADRE CONCEPTUEL, DES OUTILS ET DES MÉTHODES

SURVEILLANCE EN SANTÉ PUBLIQUE ENVIRONNEMENTALE

II – 1. Paradigmes

Les questions auxquelles se sont adressés les travaux de recherche que nous avons menés jusqu’à présent sont celles qui ont été citées dans le paragraphe I – 1.2. (comment définir le champ et les objectifs de la surveillance en santé publique environnementale et comment s’assurer de son efficacité et son utilité). Les réponses à ces questions ont été évoquées dans le paragraphe I – 1.3.. Elles se structurent selon trois thématiques : le cadre conceptuel de la surveillance, le développement des outils de la surveillance, l’élaboration de dispositifs de surveillance adaptés.

II – 1.1. L’approche conceptuelle

Il s’agit, ici, de revoir entièrement le cadre conceptuel de la surveillance en santé publique environnementale (définition, objectifs, champ, structure…) et, même au-delà, revoir les fondements de la surveillance que sont la santé publique et la notion de santé environnement mais aussi les relations que la surveillance entretien avec d’autres activités liées à la santé publique environnementale (observation, veille, recherche…). Cette approche est nécessaire pour donner une cohérence aux travaux de développement des outils de la surveillance, de leur utilisation et ainsi s’assurer de l’utilité, de la pertinence et de l’efficacité des systèmes de surveillance mis en place.

II – 1.2. L’amélioration voire l’élaboration des outils dans les différentes phases du

processus de la surveillance

Les outils sont les données et les bases de données, les méthodes de traitement de ces données (fabrication des indicateurs, méthodes d’analyse statistiques, interprétation des résultats et communication).Il est nécessaire d’inventorier ces outils, les développer, voire les créer.

II – 1.3. Modification des systèmes de surveillance en santé publique

environnementale

Les systèmes de surveillance fonctionnent isolément les uns des autres et ont recours à des indicateurs relativement anciens. Il est nécessaire de donner une cohérence à ces systèmes en remettant la population au centre de l’activité de surveillance(9) en élaborant des méthodes capables de suivre plusieurs indicateurs de la chaîne causale ou d’élaborer des indicateurs qui synthétisent l’information.

II – 2. Situation du projet

La littérature s’intéresse surtout aux objectifs et aux indicateurs (en modifiant plus ou moins le schéma DPSEEA) de la surveillance en santé publique environnementale sans remettre en question ses concepts et ses fondements [Choi, 1998 ; Sladden, 1999 ; Gosselin, 2003]. De même, concernant les outils, de nombreux travaux ont été réalisés afin d’améliorer les méthodes d’analyse statistique temporelles [McCullagh, 1989 ; Lindsey, 1997 ; Hastie, 1990 ; Eilstein, 2000 ; Bashir, 2001 ; Eilstein, 2001c ; Bray, 2002] et géographiques [Cížek, 2004 ; Elliott, 2001 ; Lawson, 1999; Lawson, 2008], de développer les systèmes d’information géographiques [Béguin,

1994 ; Maheswaran, 2004 ; Fleuret, 2007] ou de construire des méthodes de traitement des données [Institut de veille sanitaire, 1999 ; Institut de veille sanitaire, 2002].

II – 3. Méthodes et matériel

II – 3.1. L’approche conceptuelle

II – 3.1.1. La surveillance en santé publique environnementale : les principes généraux et leur application

Un groupe de travail coordonné au sein du Département santé environnement de l’InVS s’attache à construire le cadre conceptuel de la surveillance en santé publique environnementale. La démarche est fondée sur une reprise des notions de santé environnement, de santé publique, une mise à plat du processus de la surveillance, un examen de ses outils (données, indicateurs, méthodes statistiques, communication, etc.) et une analyse des systèmes de surveillance existants. Le but de ce travail qui doit paraître sous forme d’un livre, est de proposer les bases d’un dispositif de surveillance intégré fondé sur des indicateurs pouvant être facilement utilisés pour la décision en santé publique(10).

Outre ce travail de fond, le DSE a organisé, en juin 2009, un colloque sur la surveillance en santé environnement (« Surveillance en santé environnementale : pourquoi et comment ? », dont le programme et le compte-rendu sont accessibles sur le site de l’InVS(11)) auquel a été adossé un numéro spécial du Bulletin épidémiologique

10 Eilstein D, Lefranc A, Lim TA, Le Moal J, Le Tertre A, Jouan M, Salines G. Surveillance en santé publique environnementale. Rédaction en cours.

11 Programme du colloque :

hebdomadaire (BEH)(12). Le colloque devait aborder deux problématiques : les questions auxquelles la surveillance en santé environnementale permet de répondre (et, donc, celles auxquelles elle ne peut pas répondre) et les difficultés rencontrées dans l’exercice de la surveillance. Le BEH présentait un ensemble de systèmes et d’outils de surveillance en santé environnement, précédé par une réflexion sur les concepts de cette activité [Eilstein, 2009b].

II – 3.1.2. La surveillance en santé publique environnementale à une échelle locale

Parallèlement à ce projet, un autre groupe de travail, coordonné également au sein du Département santé environnement, aborde la question de la surveillance en santé environnement à un niveau local. Il montre, qu’organisée à un niveau plus fin, la surveillance, plus proche de la population et de la décision locales, ne présente pas les mêmes propriétés que la surveillance nationale. Ce travail fait l’objet d’un rapport, actuellement en cours d’écriture(13).

II – 3.2. L’amélioration et l’élaboration des outils dans le processus de la

surveillance

II – 3.2.1. Les indicateurs en santé publique environnementale

1) Exploration des systèmes de surveillance internationaux, analyse de leurs indicateurs et adaptabilité au dispositif français de surveillance épidémiologique en santé publique environnementale

L’encadrement d’une étudiante en master II de santé publique – Master of Public Health de l’École des hautes études en santé publique (EHESP) – a permis de répertorier les indicateurs utilisés par les CDC ainsi qu’un

12 BEH, numéro thématique 27-28 du 22 juin 2009. « Surveillance en santé environnementale : mieux comprendre » : http://www.invs.sante.fr/beh/2009/27_28/beh_27_28_2009.pdf.

ensemble d’indicateurs européens puis de proposer une liste d’indicateurs adaptables en France en complément ou en remplacement de ceux qui existent déjà [Campion, 2009].

2) Élaboration de nouveaux indicateurs adaptés à la surveillance en santé publique environnementale

Un travail de thèse est co-encadré actuellement avec le Conservatoire national des arts et métiers (Cnam). Il s’agit de l’élaboration d’un ensemble d’indicateurs construits sur des phénomènes sanitaires ressentis (des symptômes, essentiellement). L’intérêt de ces indicateurs est d’être plus sensibles que les indicateurs classiques (mortalité, incidences et admissions hospitalières pour entités pathologiques). L’étude porte tout d’abord sur la définition d’un état de référence (à partir des phénomènes ressentis) puis les indicateurs seront testés dans des situations d’exposition à des facteurs environnementaux (lignes électriques à très hautes tension…).

II – 3.2.2. Les méthodes analytiques et les modélisations statistiques

Les méthodes développées jusqu’à présent sont les essentiellement celles qui utilisent les séries chronologiques et ceci dans deux directions. La première a été explorée, essentiellement, dans le cadre de l’activité menée au sein du Programme air santé de l’InVS [Institut de veille sanitaire, 1999 ; Institut de veille sanitaire, 2002 ; Cassadou, 2004 ; Lefranc, 2006]. La seconde a été développée lors du travail de projection des incidences des cancers dans le cadre de la thèse d’université [Eilstein, 2001c].

Une autre voie de recherche a été explorée, plus récemment. Il s’agit de l’analyse d’une perturbation (une action de santé publique) sur un indicateur épidémiologique classique tel que la mortalité par cancer [Eilstein, 2007 ; Uhry, 2010].

1) Analyse des relations entre l’exposition à la pollution atmosphérique et la santé

La méthode la plus souvent utilisée est l’analyse de séries chronologiques. Celle-ci vise à quantifier les liens pouvant exister entre les variations quotidiennes du niveau d’un indicateur d’exposition à la pollution atmosphérique et celles du nombre d’occurrences d’un événement sanitaire (décès, hospitalisations, etc.). Afin d’obtenir une estimation non biaisée de l’association à court terme entre la pollution atmosphérique et la santé, il

permettent d’ajuster le modèle au plus près de la forme des relations entre la variable sanitaire et les variables explicatives. Une autre méthode a été utilisée dans ce cadre. Il s’agit de la méthode des cas croisés (case crossover) qui a été utilisée dans un travail de thèse réalisé à l’EHESP [Havard, 1998]. La participation au suivi de ce travail a été motivée par la production antérieure d’un protocole relatif à cette approche, dans le cadre du Psas(14). Ce travail a donné lieu à la rédaction d’un ensemble d’article parus ou soumis [Bard, 2007 ; Havard, AAAA].

Sont intégrés au modèle la variable d’intérêt (teneurs atmosphériques d’un polluant) ainsi que les facteurs de confusion potentiels. Ces facteurs sont la tendance à long terme et la saisonnalité, le jour de la semaine, les jours fériés, les périodes de vacances, les conditions météorologiques (température), les épisodes de grippe, les périodes de pollinisation, etc. Les données sanitaires présentent souvent une surdispersion qui est prise en compte par l’hypothèse d’une distribution quasi-poissonnienne de la variable sanitaire. Les paramètres de la fonction de lissage (spline pénalisée) utilisée pour prendre en compte la tendance à long terme et la saisonnalité sont sélectionnés de façon à minimiser la somme des autocorrélations partielles des résidus. Le modèle de régression permet d’estimer le coefficient associé à l’indicateur de pollution, et de calculer un risque relatif (RR). Le modèle exprime le logarithme népérien de l’espérance de la variable sanitaire comme une somme de fonctions des variables temps, jour de la semaine, jours fériés, épidémies de grippe, pollens (si nécessaire), température minimale journalière, température maximale journalière et un indicateur de pollution.

La variable sanitaire est le nombre d’événements journalier (décès). Elle figure, dans le modèle, sous forme de logarithme. La variable temps apparaît dans le modèle comme la série des indices des jours de l’étude. Elle est transformée par une fonction spline pénalisée. La modélisation du temps par une telle fonction va permettre de contrôler à la fois la tendance et les variations saisonnières. D’autre part, la durée de la période d’observation étant courte, la population exposée subit peu de variations quantitatives ou qualitatives au cours de cette période. Aussi, fait-on l’hypothèse que la population étudiée varie peu sur le court terme. En fait, la variable temps prend en compte la variation (faible) éventuelle de la population, en taille et en structure. Le paramètre de lissage de la fonction spline du temps devra permettre de modéliser suffisamment l’impact de ces variables tout en évitant d’intégrer l’effet de la pollution. Dans cette optique, la minimisation de la somme des autocorrélations partielles des résidus guide le choix de ce paramètre de lissage [Touloumi, 2004]. Le jour de la semaine est également un facteur de confusion : le nombre de décès (plus encore les hospitalisations) présente une variation périodique hebdomadaire. Il en est de même pour les polluants issus du trafic routier. Le jour de la semaine figure dans le modèle comme une variable qualitative. Cette variable n’est pas transformée. Les jours fériés sont pris en compte sous forme de variable binaire. Cette variable n’est pas transformée, non plus. Dans certains cas, l’effet

des vacances doit également être pris en compte dans le modèle (par exemple, lorsque la variable sanitaire étudiée est le nombre d’hospitalisations car l’activité des hôpitaux est influencée par ce facteur). La variable qualitative type vacances sera alors introduite sans transformation dans le modèle (les types sont : « noël », « février », « pâques », « été », « toussaint »). Les épidémies de grippe ont un impact sur les données de santé, que l’on qualifie de « limité » à « majeur » selon le sérotype du virus circulant. Aussi, pour chaque période d’épidémie, une variable grippe est créée, permettant ainsi d’individualiser des périodes épidémiques caractérisées par des virus de types différents. Ces variables prennent la valeur 0, en dehors de la période d’épidémie et les valeurs de 1 à n, pendant la période d’épidémie avec n, durée de l’épisode grippal exprimé en jours. Les variables grippe apparaissent sous forme de B-splines à 3 degrés de liberté, permettant ainsi de prendre en compte la variabilité inter-épidémie dans l’intensité et la dynamique des effets sanitaires dus à la grippe. Les variables météorologiques prises en compte dans l’analyse sont les températures minimales et maximales. Ce sont des variables continues exprimées en °C. Ces variables apparaissent sous forme de natural-splines à 3 degrés de liberté. La température maximale journalière est affectée d’un retard de un jour, tandis que la température minimale n’est pas décalée. L’humidité et la pression atmosphériques ne sont habituellement pas intégrées dans le modèle car leur prise en compte n’apporte pas d’information supplémentaire par rapport à celle déjà intégrée au modèle au travers des variables températures minimales et maximales. Parfois, les périodes de pollinisation peuvent également être prises en compte, en particulier lorsque l’événement sanitaire étudié est un indicateur de pathologie respiratoire. Dans ce cas, les comptes journaliers des grains de pollens pour les taxons pertinents (possédant des propriétés allergisantes) sont sélectionnés selon la zone étudiée et inclus dans le modèle sous forme d’une variable sans transformation. Le polluant est une variable continue, sans transformation, exprimée en µg/m3 car son effet est supposé linéaire et sans seuil. Il apparaît sous forme d’un terme linéaire égal à la moyenne des niveaux de polluant du jour même et de la veille. Ce décalage est sélectionné a priori. En effet, l’attitude classique, abandonnée à présent, consistait à tester un ensemble de décalages (de 0 à 5 jours) mais ceci augmentait l’erreur de première espèce associée à la réalisation de tests multiples. Le choix de ce décalage, supposant des effets similaires des niveaux de polluants le jour et la veille du décès sur le risque de décès, est par ailleurs biologiquement vraisemblable, et le plus fréquemment étudié dans la littérature.

Pratiquement le modèle s’écrit dans le logiciel statistique R de la façon suivante :

variable.sanitaire.gam <- gam(indic.variable.sanitaire ~ polluant + ns(température.minimale,df=3) + ns(température.maximale1,df=3) + as.factor(jour.de.la.semaine) + as.factor(jour.férié) + bs(grippe1,df=3) + bs(grippe2,df=3) + bs(grippe3,df=3) + bs(grippe4,df=3) + bs(grippe5,df=3) + s(time), data=dataset, family=quasi(log,mu))

2) Projection des indicateurs épidémiologiques classiques relatifs aux cancers (mortalité, incidence)

Le principe de la méthode utilisée est d’exprimer l’espérance de la variable aléatoire représentant le nombre d’événements (cas incident ou décès) comme fonction des paramètres « âge », « période calendaire » et « cohorte de naissance ». Ce type de modèle n’impose pas la connaissance des facteurs explicatifs extrinsèques.

Le modèle utilisé est le modèle âge-période-cohorte (encadré 1). Il s’agit, dans sa forme la plus classique d’un cas particulier du GLM (plus rarement d’un GAM), les variables explicatives représentant, respectivement, les effets de l’âge, de la période calendaire et de la cohorte de naissance. Ce modèle est décrit par ailleurs [Bray, 2000 ; Eilstein, 2000 ; Bashir, 2001 ; Bray, 2002]. Dans le cas présent, l’approche est bayésienne.

Encadré 1. Le modèle âge-période-cohorte.

Le modèle âge-période-cohorte s’écrit :

( ) [ ]

k j i ijk ijk ijk ijk ijk ijk ijk ijk ijk c p a η ) ln(λ η Y E λ m et λ m P ~ Y + + = = =

Yijk : variable nombre de cas mijk : nombre de personnes-années λijk : taux d’incidence ou de mortalité

ai, bj, ck, respectivement le facteur « âge » (l’effet « âge ») pour la classe d’âge i, facteur « période » (l’effet « période ») pour la période j, facteur « cohorte » (l’effet « cohorte ») pour la cohorte de naissance k.

Les données (nombre d’événements et nombre de personnes années) se présentent sous la forme d’un tableau âge-période.

Soit y la valeur sur laquelle doit porter la prédiction (ici, le nombre d’événements). Les données disponibles sont représentées par y1, y2, …yn mesurées respectivement aux temps t1, t2, …tn (passé). Les variables aléatoires correspondantes sont Y1, Y2, … Yn. Le paramètre de la distribution de probabilité des Yi est Θ.

La prédiction doit être établie pour les temps (futurs) tn+1, tn+2, …tn+p. Les valeurs et les variables aléatoires correspondantes sont, respectivement, yn+1, yn+2, …yn+p et Yn+1, Yn+2, …Yn+p.

Le modèle bayésien exprime la distribution de probabilité prédictive a posteriori des Yn+1, Yn+2, …Yn+p comme suit [Mouchart, 1998] :

(

y ,y ,...,y y ,y ,...,y

)

f

(

θy ,y ,...,y

)

g

(

y ,y ,...,y y ,y ,...,y ,θ

)

dθ g n+1 n+2 n+p 1 2 n =

1 2 n n+1 n+2 n+p 1 2 n

f(θ|y1, y2, …yn) est la distribution de probabilité a posteriori de Θ.

Si, de plus, il existe des covariables Z1, Z2, …Zn, Zn+1, Zn+2, …, Zn+p dont les réalisations respectives z1, z2, …zn, zn+1, zn+2, …, zn+p, sont connues, la formule précédente devient :

(

y ,...,y y ,...,y ,z,...z

) (

fθy,...,y ,z,...z

) (

gy ,...,y y,...,y ,z,...z ,θ

)

dθ g n+1 n+p 1 n 1 n+p =

1 n 1 n+p n+1 n+p 1 n 1 n+p

Cette écriture peut être résumée par l’expression suivante :

(

y y ,z

) (

fθy ,z

) (

gy y ,z,θ

)

dθ g F P =

P F P

Avec yP = y1, y2, …yn les valeurs passées de y, yF = yn+1, yn+2, …yn+p les valeurs futures de y, z = z1, z2, …zn, zn+1, zn+2, …, zn+p les covariables.

En résumé, une probabilité jointe est donnée pour l’ensemble des variables et il faut trouver la probabilité marginale de chacune des variables, ce qui nécessite une intégration compliquée ; il est alors possible d’avoir recours à l’échantillonnage de Gibbs [Robert, 1996], une des méthodes de Monte Carlo par chaines de Markov qui produit des échantillons pour chaque variable, tirés de la densité marginale de cette variable sans calculer l’intégrale marginale elle-même mais en calculant les densités de probabilité conditionnelle d’une variable par rapport aux autres ; ces densités conditionnelles sont en effet plus facile à calculer.

Le modèle impose, de plus, des contraintes entre les paramètres successifs (les effets) des trois covariables « âge », « période » et « cohorte » : ce sont des relations autorégressives déduites des réflexions et des modèles de Breslow et Clayton [Breslow, 1993] et de Berzuini et Clayton [Berzuini, 1994 ; Bashir, 2001].

2 j 1 j j ~2β β β ; Pour la cohorte : 2 k 1 k k ~2γ γ γ .

Ces relations incluent des termes généraux et ne peuvent être appliquées comme telles aux paramètres extrêmes ; pour ces derniers, les relations particulières sont détaillées ailleurs [Eilstein, 2001c]).

Les calculs sont effectués sous WinBugs [Spiegelhalter, 1996 a ; Spiegelhalter, 1996 b], logiciel dédié aux calculs basés sur l’échantillonnage de Gibbs. Le programme établi pour réaliser ces calculs dans le cas particulier des projections mises en jeu ici, pourra être trouvé en annexe A – 1.1..

Remarque. D’autres études sont en cours, en particulier, un nouveau calcul de projection des mortalités par cancers du sein et du poumon chez les femmes en France métropolitaine

3) Estimation de l’impact du dépistage sur la mortalité par cancer du sein

En France, un programme pilote de dépistage organisé du cancer du sein a débuté en 1989 et a été progressivement généralisé à l’ensemble des départements. L’objectif premier du dépistage systématique du cancer du sein est de réduire la mortalité associée à ce cancer. Un groupe de travail collaboratif, réunissant des responsables de registres des cancers, de structures de gestion du dépistage, de centres de lutte contre le cancer et piloté par l’InVS, a été constitué pour réaliser une estimation quantitative de l’impact du dépistage organisé sur la mortalité par cancer du sein en France. L’importance du dépistage individuel en France et sa coexistence avec le dépistage organisé ont conduit le groupe de travail à considérer les deux types de pratique de dépistages.

Le premier rapport [Eilstein, 2007] présente une revue bibliographique des méthodes d’estimations d’impact du dépistage sur la mortalité, les méthodes envisagées dans le contexte français, ainsi qu’une synthèse des différentes sources de données disponibles et études françaises concernant la pratique de la mammographie, les caractéristiques des tumeurs et la survie. Le second rapport (en cours d’écriture(15)) donnera l’estimation du

15 Uhry Z, Hédelin G, Colonna M, Asselain B, Arveux P, Exbrayat C, Guldenfelds C, Courtial I, Soler-Michel P, Molinié F, Rogel A, Danzon A, Trétarre B, Guizard AV, Ancelle-Park R, Eilstein D, Duffy S. Modélisation de l’effet

nombre de décès évitable suite à la mise en place d’un dépistage. Ces résultats ont déjà fait l’objet d’un article paru récemment [Uhry, 2010].

La méthodologie retenue(16), reposant sur une modélisation de la progression de la maladie couplée à une analyse de survie, en fonction de facteurs pronostics des tumeurs, a semblé la plus robuste dans le contexte français. Cette approche permet d’estimer l’effet d’une stratégie de dépistage par rapport à une situation sans dépistage, en termes de réduction de la mortalité par cancer du sein. Le modèle de progression de la maladie (modèle de Markov) permet de prédire la distribution des caractéristiques des tumeurs dans chacune des situations. Deux modèles ont été testés : le modèle à trois états (1 : pas de cancer détectable (assimilé à pas de cancer) ; 2 : cancer préclinique détectable (assimilé aux cancers dépistés) ; 3 : cancer clinique (assimilé aux cancers diagnostiqués cliniquement)) et le modèle à cinq états (1: pas de cancer détectable ; 2: cancer préclinique détectable pN- ; 3: cancer préclinique détectable pN+ ; 4: cancer clinique pN- ; 5 : cancer clinique pN+). Les paramètres de ces modèles sont estimés à partir des données issues des structures de gestion du dépistage. L’analyse de survie permet de traduire la différence de distribution entre les deux situations (avec et sans dépistage) en termes de réduction de la mortalité. Le détail de la méthode est exposé dans le premier rapport.

Une autre méthode avait été envisagée qui utilisait la méthode de projection de la mortalité par cancer du sein pour estimer un taux de mortalité attendu en l’absence de dépistage et comparer ce taux à celui observé en

Documents relatifs