• Aucun résultat trouvé

Chapitre 2. Méthodologie

2.2. Méthodes statistiques

2.2.1. Régression sur des jeux de données censurées

Toute analyse de substances dans l’air ou dans les matrices biologiques comporte des limites de détection analytique. Les valeurs rapportées par les laboratoires comme « sous la limite de détection (LOD) » ou encore « sous la limite de quantification (LOQ) » sont dites « censurées à gauche », c’est-à-dire qu’on ne connaît d’elles que le fait qu’elles sont quelque part entre zéro et la LOD (ou LOQ) (Helsel 2010). Si une faible proportion (autour de 15% et moins) des valeurs du jeu de données est sous la LOD, une substitution simple des valeurs par la LOD divisée par 2 ou par la racine carrée de 2 peut produire une estimation acceptable lors de l’estimation de paramètres distributionnels comme la moyenne arithmétique ou géométrique (Hornung and Reed 1990) ou encore dans des analyses multivariées (Lubin et al. 2004). Cependant, lorsqu’une grande proportion des valeurs sont censurées (au-delà de 50%), il est préférable d’employer d’autres méthodes pour obtenir des estimations fiables, comme les modèles Tobit ou les approches bayésiennes (Hewett and Ganser 2007; Huynh et al. 2016). Ceci est particulièrement important dans le cadre de tests statistiques formels, quoique ces méthodes présentent des prémisses parfois contraignantes, comme les modèles Bayesiens et Tobit qui requièrent une hypothèse de distribution, et ce dernier qui requiert l’indépendance du terme d’erreur (où la variance ne dépend pas de la variable indépendante du modèle). Bien que les mesures environnementales soient généralement distribuées selon la loi log-normale

(Kromhout 1994; Rappaport and Kupper 2011), la nature hétérogène des activités de travail et du matériel traité dans le recyclage électronique peut résulter en des distributions

inhabituelles. Il peut être intéressant alors d’avoir recours à certaines méthodes statistiques qui ne requièrent pas de distribution préalable, et dont les prémisses ne requièrent pas

l’homogénéité des variances. Ces méthodes, soit les modèles Tobit et la régression de Cox inversée, appuyés sur des prémisses différentes, ont été utilisées dans cette thèse et sont décrites dans les pages qui suivent.

Les modèles Tobit (articles 3 et 4, respectivement chapitres 5 et 6)

Les modèles Tobit consistent en une régression censurée, c’est-à-dire qu’elle permet d’estimer une relation linéaire entre une variable réponse et une variable explicative, lorsque la valeur de cette dernière est en partie censurée (Tobin 1958). Cette méthode s’utilise lorsque les données sont censurées à droite de la distribution (perte de vue dans une enquête), ou à gauche comme en présence de valeurs de concentration de substances sous la limite de détection analytique (Lubin et al. 2004).

Le modèle suppose une variable latente y*, laquelle est inobservable sous une valeur de censure τ (McDonald and Moffitt 1980). Soit y la variable observée, elle est fixée à τy (la limite de détection) si la variable latente se situe sous τ :

𝑦 = {𝑦

𝑠𝑖 𝑦> 𝜏

𝜏𝑦 𝑠𝑖 𝑦∗ ≤ 𝜏

L’équation du modèle comprenant un seul coefficient (comme dans le cas d’une régression linéaire simple) est ainsi 𝑦𝑖 = Xiβ + εi. Le modèle Tobit emploie le calcul de la vraisemblance

maximale (maximum likelihood) pour produire une estimation du coefficient β à partir de l’ensemble des observations i et des valeurs associées du prédicteur Xi ; et où le terme des résidus εi est indépendant et distribué selon la loi normale (Holden 2004; McDonald and Moffitt 1980). Le coefficient β estime l'augmentation linéaire de la variable latente pour chaque augmentation d'unité de X. Par exemple, dans un modèle Tobit où l’on veut estimer l’effet de l’ancienneté en mois sur la concentration d’un ignifuge, un β de 2,0 s’interprète comme une augmentation de 2 ng/m³ pour chaque mois d’ancienneté. Les données censurées sont prises en compte par le fait que la vraisemblance pour ces observations est calculée selon une équation différente de celle utilisée pour les données observées.

La régression à risques proportionnels de Cox inversée (article 3, chapitre 5)

La régression à risques proportionnels de Cox (Cox proportional hazard regression; RRPC) est habituellement employée dans un contexte d’exposition et d’effet pour lequel le temps est un facteur important. Elle permet de calculer le risque de survenue d’un événement,

Szklo and Nieto 2012). La mesure d’effet calculée est ainsi un ratio de probabilités (hazard ratio), où l’on peut comparer la probabilité de survenue d’un événement entre différents groupes. Par exemple si l’on compare, entre les hommes (groupe de référence) et les femmes, la durée en années entre l’embauche et la démission (événement) dans le département d’une entreprise, et que le coefficient calculé est de 2, cela signifie que l’on peut s’attendre à deux fois plus de démissions par années chez les femmes que chez les hommes.

En plus du temps jusqu’à la survenue d’un événement (par exemple, la démission d’un

travailleur), la RRPC tient compte de la perte de vue des sujets (par exemple, sa mutation dans un autre département). Ces deux types d’événements peuvent se produire à différents

moments, mais la perte de vue est considérée comme étant une censure des données à droite de la distribution, où elle est nécessairement antécédente à l’événement d’intérêt pour un sujet donné (Cox 1972). De plus, cette approche présuppose que la probabilité de survenue de l’événement est proportionnelle à une probabilité de base; c’est-à-dire que les rapports de risque (hazard ratio ou relative hazard) comparant différents groupes entre eux ne changent pas avec le temps et demeurent proportionnels. Ainsi, le risque d’un groupe donné h1(t) au temps t est le multiple d’un risque de base h0(t) et du ratio de probabilités, lequel est une expression exponentielle de la combinaison linéaire des variables prédictives : h1(t) = h0(t) exp(β1x1 + … + βkxk), où x1… xk sont des covariables indépendantes (Rosner 2010; Szklo and Nieto 2012). Selon t, les risques h1(t) et h0(t) peuvent donc indépendamment changer, mais le ratio ℎ1(𝑡)

ℎ0(𝑡) ne change pas (Machin et al. 2006). La RRPC est une méthode statistique semi-

paramétrique, parce que seules les variables indépendantes sont paramétrées et appartiennent à une distribution déterminée, et non la variable de temps t qui elle ne requiert pas de

distribution particulière.

Puisque la censure est prise en compte dans la RRPC, il est possible d’utiliser cette approche statistique avec des données d’exposition qui comprennent des valeurs sous la LD où ces données censurées à gauche sont transformées pour être reportées à droite. La transformation consiste à soustraire chaque résultat d’une valeur égale ou supérieure à la valeur maximale mesurée de la distribution, de manière à renverser la distribution (Helsel 2012). Alors, pour une valeur maximale M, une concentration mesurée T et une valeur transformée t; cette

les valeurs sous la limite de détection s’approcheront de M. De cette manière, la variable de concentration fait office de variable temporelle t dans la régression de Cox, et la variable indépendante x peut être un déterminant catégorique ou continu de l’exposition (ou encore une issue de santé) (Dinse et al. 2014). Cette utilisation de la méthode est nommée « régression à risques proportionnels de Cox inversée » (reverse-scale Cox’s proportional hazard

regression) (Dinse et al. 2014).

L’interprétation du rapport de risque issu d’une RRPC inversée doit se faire avec prudence. Dans le cas d’une variable indépendante binaire (p. ex. travailleur permanent ou temporaire), un rapport de risques ainsi obtenu peut s’interpréter comme un rapport de cotes (odds ratio). Le rapport de cotes pour une variable binaire représente le quotient entre la cote pour un groupe d’avoir une concentration plus élevée que la concentration t, sur la cote pour l’autre groupe d’avoir une concentration plus élevée que la concentration t. Ainsi, en comparant le risque à une concentration t pour un déterminant de l’exposition où x=0 est le groupe

« travailleurs permanents » et x=1 est le groupe « travailleurs temporaires », le risque pour les travailleurs permanents à la concentration t s’exprime [h0(t)], et le risque cumulatif pour les

travailleurs temporaires à t s’exprime [H0(t)]; le odds ratio s’exprime donc [h0(t)/ H0(t)] /

[h1(t)/ H1(t)]. Par exemple, un coefficient de régression de Cox pour les travailleurs

temporaires de 0,4 correspond à un ratio de probabilités de e(0.4) = 1,5, ce qui signifie que les

travailleurs temporaires auraient une probabilité 50 % fois plus grande d’avoir une exposition plus élevée que les travailleurs permanents. Dans le cas où x est continu, il s’agit d’un ratio de probabilités pour un changement de une unité de x (Dinse et al. 2014). Ainsi, contrairement à aux modèles Tobit où l’on estimerait le ratio des niveaux moyens d’exposition, on estime ici le ratio de la probabilité d’être plus exposé.

Puisque cette approche requiert que le ratio de probabilités soit constant sur les différentes concentrations de contaminants (t), il est important de vérifier cette supposition en testant la signification statistique du modèle auquel on ajoute le produit d’une variable d’intérêt x et de la concentration t. Dans le cas où cette supposition est enfreinte, il est plus prudent de

présenter les résultats selon différentes fourchettes de t (Rosner 2010). Cette méthode a toutefois l’avantage de ne pas requérir de suppositions relatives quant à la distribution de la variable de concentration t.

Documents relatifs