• Aucun résultat trouvé

Matériels et méthodes

II.5 Modélisation des concentrations domestiques annuelles en polluants chimiques

Les niveaux de polluants n’étant disponibles que pour un échantillon de logements de la cohorte (ceux de l’investigation environnementale de la cohorte), la modélisation des niveaux de pollution a toute son importance dans la cohorte PARIS pour estimer un niveau moyen, ou une classe de concentration, en un polluant donné à l’aide des informations recueillies par questionnaires. Le principe de la modélisation dans la cohorte est similaire à celle développée pour la pollution de l’air extérieur avec les modèles LUR dont la popularité s’est accentuée avec le développement des SIG[89]. Les modèles LUR reposent sur l’élaboration d’un modèle prédictif établi à partir d’une

campagne de mesures préliminaires en un petit nombre de points d’une agglomération dont les données (concentrations d’un ou plusieurs polluants) sont confrontées aux caractéristiques de l’environnement urbain (types de routes, densité de trafic, relief et occupation des sols)[88,89]. Ces

modèles sont utilisés dans les cohortes en les appliquant à l’adresse de l’ensemble des individus de la cohorte[91,92,272].

La modélisation ne portera que sur certains composés dosés dans l’investigation environne- mentale. La sélection des composés s’est faite à partir de la synthèse bibliographique, arguments toxicologiques et épidémiologiques quant à leur effet sur la santé respiratoire et/ou allergiques, ainsi que sur les niveaux retrouvés dans les logements de l’investigation environnementale de la cohorte PARIS et les informations recueillies par questionnaires.

II.5.1 Élaboration des modèles statistiques prédictifs

Afin d’élaborer les modèles statistiques prédictifs, il faut tout d’abord définir le type de modèle et identifier les facteurs prédictifs. Dans notre contexte, la variable à modéliser étant un niveau annuel de polluant, les modèles de régressions linéaire et logistique, si l’on discrétise la distribution des niveaux, sont adaptés et sont les modèles les plus fréquemment retrouvés dans la littérature[3,4,72,73,184].

II.5.1.1 Choix du modèle statistique

Si l’on considère Y comme une variable quantitative, le modèle de régression linéaire se traduit par : E(Y |X1, . . . , Xp) = α + β1X1+ . . . + βpXp= α + p Ø i=1 βiXi

où E(Y |X1, . . . , Xp) : moyenne de Y connaissant X1, . . . , Xp, α : constante, βi : coefficient de

régression associée à la variable explicative Xi, avec i=1,. . . , p.

Si l’on considère Y comme une variable qualitative binaire, avec Y =1 correspondant au fait d’avoir des niveaux supérieurs à un seuil donné et Y =0 correspondant au fait d’avoir des niveaux inférieurs à un seuil donné, le modèle de régression logistique s’exprime par :

P (Y = 1|X1, . . . , Xp) = 1 1 + e {−(α+ p Ø i=1 βiXi)}

où P (Y = 1|X1, . . . , Xp) : probabilité de l’événement {Y = 1} connaissant X1, . . . , Xp avec α :

constante, βi : coefficient de régression associé à la variable explicative Xi, avec i=1,. . . , p.

66

Modélisation des concentrations domestiques annuelles en polluants chimiques II.5.1.2 Choix des variables

Les analyses descriptives et univariées permettent d’étudier le lien entre les niveaux de pol- luants et les déterminants des niveaux de pollution relevés dans la littérature. Les variables associées aux niveaux de polluants avec un degré de signification inférieur ou égal à 20 % et les facteurs dont l’intérêt est suggéré par la littérature sont incluses dans les modèles multivariés.

Afin de confirmer le choix des variables explicatives par les analyses univariées, une procédure automatique « pas à pas » ascendante et/ou descendante est également menée avec le même degré de signification.

Des interactions multiplicatives deux à deux sont également testées (ex : humidité et revêtements ou matériaux).

Sous le logiciel STATA R, les estimations des paramètres se font par défaut, par la méthode du maximum de vraisemblance.

II.5.2 Validation et adéquation des modèles

Une fois les modèles établis, la qualité de leur ajustement aux données est évaluée. Pour le modèle de régression linéaire, après avoir vérifié l’hypothèse d’homoscédasticité, par l’analyse des résidus, et la multicolinéarité éventuelle des variables, par le facteur d’inflation de la variance (VIF), les niveaux prédits sont représentés en fonction des niveaux observés afin d’étudier la corrélation entre ces niveaux.

Pour le modèle de régression logistique, l’adéquation du modèle aux données est vérifiée par le test de Hosmer et Lemeshow[273](p

HL: degré de signification du test de Hosmer et Lemeshow),

évaluant la concordance entre les probabilités prédites et observées. La capacité du modèle à discriminer les deux groupes (Y = 1 et Y = 0) est évaluée par la courbe ROC (Receiver Operating

Characteristic Curve). Plusieurs palliers d’aire sous la courbe (AUC : area under the ROC curve)

sont proposés afin d’évaluer la qualité de la discrimination : – AUC = 0,5, aucune discrimination ;

– 0,7 ≤ AUC < 0,8, discrimination acceptable ; – 0,8 ≤ AUC < 0,9, discrimination excellente ; – AUC ≥ 0,9, discrimination exceptionnelle.

L’appréciation de la qualité de la modélisation du modèle de régression linéaire final s’est faite par l’estimation du coefficient de détermination (R2) traduisant la part de la variabilité des

niveaux expliqués par le modèle et par le critère d’information Akaike (AIC). Il s’agit de minimiser la valeur de ce dernier critère qui est fonction de la log-vraisemblance ln(L) et pénalisée par le nombre de paramètres k à estimer :

AIC = 2[k − ln(L)]

Les performances du modèle logistique sont évaluées à l’aide des critères diagnostiques suivants : la sensibilité, la spécificité, les valeurs prédictives positive et négative et le taux de logements correctement classés.

Dans le cas de Y continu, afin d’obtenir des critères de performances comparables à ceux de la régression logistique, les niveaux prédits par le modèle de régression linéaire sont discrétisés à partir de la médiane des niveaux observés, un taux de bien classés est alors calculé et la concordance

des deux modèles peut ainsi être évaluée. Enfin, une validation interne des modèles est

effectuée via une technique de validation croisée de type Jaacknife. Cette méthode évalue la part influente ou non de chaque logement sur les estimations des paramètres du modèle, en étudiant la stabilité des paramètres. Chaque logement est enlevé tour à tour et les coefficients sont estimés sur l’échantillon de taille n − 1.

II.5.3. Expression des résultats 67

II.5.3 Expression des résultats

De manière générale, les résultats des modèles de régression linéaire et logistique sont ex- primés respectivement en termes de coefficient de régression β et d’odds ratio ajustés (ORa) avec leur IC95 % associé. Si des transformations mathématiques des niveaux de polluants (ex :

transformation inverse de racine carrée) sont utilisées pour la régression linéaire ne permettant ni d’interpréter directement les coefficients fournis par le modèle ni de revenir à un niveau estimé de la concentration moyenne du polluant, ce niveau est alors approché par une technique ité-

rative d’échantillonnage. Des niveaux prédits sont calculés pour des logements « types » par

un processus itératif. À chaque itération, chaque paramètre estimé par le modèle de régression linéaire βiest tiré dans sa loi normale (βâi;σâi2). La concentration moyenne de Y est alors obtenue

en appliquant la transformation mathématique réciproque. Le fait de réitérer cette procédure permet d’avoir une évaluation de la variabilité des niveaux moyens prédits par le modèle.

Les logements « types » pour lesquels ces calculs sont appliqués ont été choisis de telle sorte que les variables explicatives, reconnues dans la littérature comme déterminantes du niveau du polluant, varient tandis que les autres sont fixées.

II.6 Mesure de l’association entre l’exposition domestique à