• Aucun résultat trouvé

Données manquantes en épidémiologie environnementale

Dans le document en fr (Page 96-101)

Matériels et méthodes

II.6 Mesure de l’association entre l’exposition domestique à des polluants de l’air intérieur et la morbidité respiratoire

II.6.2 Approche « conjointe » avec prise en compte des données manquantes

II.6.2.1 Données manquantes en épidémiologie environnementale

Contexte

Les données manquantes sont ubiquitaires dans les études épidémiologiques[274,275]. Elles peuvent être indépendantes de la planification des études, par exemple les non-réponses dans les questionnaires, les perdus de vue ou, être planifiées pour être manquantes dans le cas des études spécifiques réalisées dans des sous-populations. En raison du coût et des problèmes techniques, les mesures environnementales sont généralement réalisées dans des échantillons de logements. Par exemple, dans la cohorte INMA conduite à Valence incluant 787 enfants, les mesures des niveaux en NO2 n’ont été conduites que chez 352 enfants de la cohorte[178]. Les auteurs étudient l’impact sanitaire de ce polluant pour cette sous-population d’enfants. En outre, des problèmes d’échantillonnage et/ou d’analyse peuvent augmenter la proportion de données manquantes. Dans la cohorte nationale américaine réalisée dans les quartiers pauvres des États-unis (NCICAS –

National Cooperative Inner-City Asthma Study cohort), 1 528 enfants âgés entre 4 et 9 ans

sont recrutés, les visites aux domiciles pour collecter le NO2 sont réalisés chez 663 enfants, 525 échantillons sont retournés au laboratoire mais pour 56 d’entre eux, le temps de prélèvement n’a pas été rapporté, ce qui conduit à des données invalides, augmentant ainsi le nombre de données manquantes dans cette étude[171].

Dans ces études, d’après la typologie des données manquantes proposée par Little et

Ru-bin[276,277], Annexe I, les données sont manquantes au hasard (MAR).

Dans la cohorte PARIS, les données relatives aux polluants chimiques sont planifiées pour être man-quantes, l’investigation s’étant déroulée dans un sous-échantillon aléatoire de la cohorte. D’après Allison[278], il s’agit de la meilleure configuration pour que les données vérifient l’hypothèse de données manquantes complètement au hasard (MCAR).

Gestion des données manquantes

Lorsque des données sont manquantes dans un jeu de données, les analyses doivent en tenir compte. Plusieurs stratégies se sont développées et existent à l’heure actuelle pour considérer ces données : les méthodes supprimant les données manquantes : analyse des cas complets, la

70

Mesure de l’association entre l’exposition domestique à des polluants et la morbidité respiratoire des enfants de la cohorte

plus fréquemment rencontrée, et celles utilisant toute l’information disponible, notamment les

méthodes d’imputation simple et multiple.

La méthode d’analyse des cas complets consiste à supprimer des observations pour lesquelles des données sont manquantes, c’est la procédure réalisée par défaut dans la majorité des procédures des logiciels statistiques. Il s’agit de ne réaliser l’analyse que sur les observations complètes. Ainsi, seules les observations pour lesquelles les données sont complètes pour l’ensemble des variables à étudier sont considérées.

Cette stratégie est simple à mettre en œuvre, ce qui représente son principal atout. Elle permet de délivrer un jeu de données complet sur lequel les analyses standards peuvent être menées. Son principal défaut est la perte d’information puisque les informations disponibles pour les autres variables sont, par la même occasion, supprimées. À côté de la diminution du nombre d’observations, une perte de précision des estimations et une précision moindre des analyses menées en découlent.

De plus, il se peut que les cas complets ne constituent pas un échantillon aléatoire de l’ensemble des sujets inclus dans l’étude. L’analyse des cas complets provoque donc la suppression d’une sous-population particulière de sujets. Les estimations s’en trouveront alors biaisées. L’analyse des cas complets peut être justifiée par sa simplicité, lorsque la perte de précision et le biais sont faibles. Elle est ainsi considérée efficace, si les sujets incomplets représentent une faible fraction de l’ensemble des sujets. Il est cependant difficile de formuler des recommandations, puisque l’amplitude du biais et la perte de précision dépendent non seulement de la proportion de sujets complets, mais également de l’importance des différences entre les sujets complets et les sujets incomplets.

Les méthodes d’imputation remplacent chaque donnée manquante par une, imputation

simple, ou plusieurs, imputation multiple, valeurs plausibles. Par conséquent, les méthodes

statistiques standards peuvent être employées. Plusieurs procédures existent pour remplacer les données manquantes. Une option est de remplacer la donnée manquante par la moyenne des valeurs observées. Des méthodes hot-deck visent à remplacer la donnée manquante pour un individu donné par celle observée pour un autre individu proche en termes de caractéristiques des autres variables observées. Enfin la méthode d’imputation par régression peut aussi être utilisée, la donnée manquante est remplacée par l’estimation de la moyenne conditionnellement aux valeurs des autres variables recueillies. Comme l’imputation simple sous-estime la variabilité associée aux données manquantes, Rubin a proposé l’imputation multiple[279], son principe est présenté dans la section suivante.

Imputation multiple Principe général

Cette méthode a vu son usage s’amplifier dans de nombreuses disciplines, mais reste encore limitée en épidémiologie environnementale[274]. L’imputation multiple consiste à remplacer la donnée manquante par un ensemble de valeurs plausibles. Plusieurs valeurs sont imputées pour refléter au mieux l’incertitude concernant la valeur imputée. Afin d’imputer des valeurs plausibles, l’imputation multiple doit se baser sur un modèle qui relie les valeurs observées aux valeurs manquantes : le modèle d’imputation. L’imputation multiple suppose que les données soient manquantes aléatoirement (MAR).

Comme l’illustre la Figure 17, trois étapes composent l’imputation multiple.

Première étape : substituer m fois les données manquantes par des valeurs pour générer m

jeux complets, phase d’« IMPUTATION » proprement dite.

Dans cette phase, les données manquantes sont remplacées par des prédictions issues d’un modèle

d’imputation effectué à partir des informations disponibles. Le choix du modèle d’imputation

II.6.2. Approche « conjointe » avec prise en compte des données manquantes 71

IMPUTATION ANALYSES SÉPARÉES ANALYSE COMBINÉE

Données incomplètes

m jeux de données

complets

m analyses des données

complètes Résultat combiné Modèle 1 Modèle m Modèle 2 q2 q1 qm Dincom. D1 Dm D2 qglobal

Figure 17 – Principe de l’imputation multiple, illustré par un modèle de régression, pour le remplacement des données manquantes

Dincom: jeu de données incomplet avec Dincom= (Dmanquant; Dobservé); D1, . . . , Dm: Dmjeux de données ;

θm: paramètres du mèmejeu, par exemple avec θm=(βm; σm) où βm: coefficient de régression et σm: écart type associé ;

θglobal: paramètres finaux avec θglobal=(βglobal=β ; σglobal=σintra−jeu+ σinter−jeu)

Deuxième étape : analyser les jeux de données séparément pour produire m estimations

1,. . .,θm), phase des « ANALYSES SEPARÉES ».

Cette étape souligne l’avantage majeur de l’imputation multiple, une fois les données imputées, les analyses statistiques standards peuvent être utilisées. Chaque jeu de données complété peut être analysé avec la méthode prévue pour des données complètes.

Troisième étape : combiner les m séries d’estimations afin d’obtenir une estimation globale

unique, phase d’« ANALYSE COMBINÉE ».

Dans cette dernière étape, l’ensemble des estimations sont combinées pour prendre en compte la variabilité, associée aux données manquantes. L’estimateur global du paramètre principal est la moyenne des m estimations du paramètre sur les m jeux imputés. La variance associée à cet estimateur global possède deux composantes : l’une est la moyenne de la variance estimée au sein du mème jeu imputé (variance intra-) et l’autre est la variance entre les m jeux imputés (variance inter-). Cette prise en compte de la variance fait la différence entre l’imputation simple et l’imputation multiple.

72

Mesure de l’association entre l’exposition domestique à des polluants et la morbidité respiratoire des enfants de la cohorte

les règles de Rubin[276]:

β = 1 m m Ø i=1 â βi

L’estimateur de la matrice de variance et covariance associé à β comprend deux composantes : la variabilité dans chaque ensemble de données (variance intra-imputation, dénotée U) et entre les

mensemble de données (variance inter-imputation, dénotée B). La variance intra-imputation est estimée par la moyenne des m variances :

U = 1 m m Ø i=1 â Ui La variance inter-imputation B : B = 1 m − 1 m Ø i=1 (βâi− β)2

Ainsi, la matrice de variabilité totale de β est : â

T = U + (1 + 1 m)B

où (1 + 1

m)joue le rôle de facteur de correction pour un nombre m fini d’imputations.

Une approximation de la distribution se Student est utilisée pour les tests et le calcul des intervalles de confiance :

i− β)Tâ−12 ∼ tdf où le nombre de degré de liberté est :

df = (m − 1)

C

1 + mU

(m + 1)B D2

Choix du modèle d’imputation

Certains auteurs soulignent l’importance d’inclure la variable sanitaire d’intérêt dans le

modèle d’imputation, ce qui peut paraître étonnant puisque l’objectif est d’étudier l’effet de

la variable d’exposition sur cette variable sanitaire. Cependant les études de simulation Moons et coll.[280]montrent que sa non inclusion peut induire une dilution de l’effet et une estimation biaisée de la mesure de l’association. Par ailleurs, il a été démontré que l’inclusion d’un plus grand ensemble de variables dans le modèle d’imputation rend l’hypothèse MAR plus plausible.

Dans la cohorte PARIS, les travaux de modélisation des concentrations domestiques ont permis d’identifier les facteurs associés aux niveaux de polluant. Le choix du modèle d’imputation correspond donc au modèle prédictif établi pour un polluant donné incluant la variable

sanitaire d’intérêt comme suggéré dans la littérature[280].

En plus de la régression linéaire comme modèle d’imputation, la régression par les moindres

carrés partiels (PLS : Partial Least Squares) est également considérée.

II.6.2. Approche « conjointe » avec prise en compte des données manquantes 73

domaine de la chimie, principalement en chromatographie et spectroscopie. Cette méthode est née des recherches de H. Wold sur l’analyse en composantes principales et de l’algorithme NILES (non

linear iterative squares) qui deviendra par la suite l’algorithme NIPALS (non linear iterative partial least squares) pour aboutir enfin à l’approche PLS. La régression PLS s’inscrit dans la catégorie

des régressions linéaires ; il s’agit aussi de réaliser une régression d’une variable à expliquer Y sur des variables explicatives (X1,. . . , Xp), mais à partir de composantes orthogonales, combinaisons linéaires des variables explicatives. Les composantes sont les nouvelles variables explicatives d’un modèle de régression linéaire[281]. La corrélation des variables explicatives et la présence de peu d’observations ou de nombreuses variables explicatives en comparaison au nombre d’individus ne sont pas problématiques pour l’approche PLS. Ces éléments sont les principaux avantages de cette approche.

Les packages pls et plsRglm du logiciel R permettent de conduire ces analyses.

Analyse conjointe par une approche bayésienne Principe de l’analyse bayésienne

L’idée centrale de l’analyse bayésienne est de considérer les paramètres inconnus comme des variables aléatoires (ensemble noté θ). C’est par l’expression de cette incertitude sur les paramètres au travers de lois a priori que l’approche bayésienne se distingue de l’approche fréquentiste et il s’agit sans nul doute de l’aspect le plus délicat de l’approche bayésienne. La distribution a priori, notée P (θ), traduit les connaissances sur les paramètres du modèle et l’appelation a priori désigne le fait que cette distribution est établie préalablement à l’observation des données y, elle donne un niveau de crédibilité aux différentes valeurs possibles θ. Les lois non informatives minimisent le rôle de la loi a priori sur l’inférence, et sont comme leur nom l’indique utilisées quand peu d’information est disponible. Ces distributions ont une forme très aplatie traduisant le peu de connaissance a priori sur le paramètre. Les distributions a priori sont ensuite mises à jour avec les nouvelles données pour conduire à une distribution de probabilité a posteriori (P(θ|y)), cette probabilité est proportionnelle au produit de la distribution a priori et de la vraisemblance des données, P (y|θ), selon le théorème de Bayes :

P (θ|y) = Pθ× P (y|θ) P (y)

L’avancée dans les approximations des calculs d’intégrales grâce aux méthodes de Monte Carlo par Chaînes de Markov (MCMC) rend les méthodes bayésiennes numériquement accessibles. L’algorithme MCMC est une méthode itérative générant une chaîne de Markov régulière dont l’une des propriétés intéressantes est qu’elle converge vers une loi stationnaire, indépendemment des conditions initiales, cette loi correspond à notre loi d’intérêt P (θ|y).

La convergence des algorithmes MCMC a été vérifiée, au cours de ce travail, par un examen visuel des chaînes MCMC simulées.

Imputation multiple par « Fully Bayesian »

Les modèles pour l’imputation des niveaux du polluant et l’étude de l’impact sanitaire sont conduits conjointement par l’approche MCMC. Dans cette approche dénommée « Fully

Baye-sian », de par cette modélisation conjointe, les distributions de la variable présentant des données

manquantes comme les paramètres de régression du modèle sanitaire sont simulés

conjointe-ment[282]. Cette approche s’apparente plus aux modèles connus sous le nom de modèle de variables

cachées, c’est-à-dire non observées directement.

L’algorithme est mené pour un nombre d’itérations défini selon la méthode graphique de convergence.

Cette analyse est conduite sous le logiciel WinBUGS, du projet BUGS (Bayesian inference Using Gibbs Sampler)[267], permettant de faire des analyses bayésiennes, et sous le logiciel R avec

74

Mesure de l’association entre l’exposition domestique à des polluants et la morbidité respiratoire des enfants de la cohorte

le package R2W inBUGS.

Les résultats sont exprimés par les moyennes a posteriori des OR avec leur intervalle de crédibilité à 95 % (ICr95 %).

II.6.2.2 Comparaison des performances des différentes approches pour la

Dans le document en fr (Page 96-101)