1.Description des données
Nous supposons que nous mesurons, à plusieurs reprises, l'exposition professionnelle dans l'air
et l’imprégnation biologique (par exemple dans l'urine) d’un groupe de salariés. Nous supposons
que ces salariés appartiennent à un même GES. On suppose que les deux types de mesures
48
(biologiques et atmosphériques) suivent chacune une distribution log-normale, avec une
composante inter et intra-sujet de la variance. Alors que la composante inter-sujet de la variance
de l'exposition atmosphérique est principalement liée aux différences dans les pratiques de
travail, la composante inter-sujet de la variance de l’imprégnation biologique est due aux
différences intrinsèques de métabolisme entre les salariés, à exposition atmosphérique égale.
Enfin, une LD est associée à chaque type de mesure, et la mesure de l'exposition biologique est
supposée ne dépendre, pour un salarié donné, que de son exposition atmosphérique.
Les mesures atmosphériques log-transformées sont désignées par X et les mesures biologiques
log-transformées sont notées Y. Les limites de détection respectives correspondantes (sur
l'échelle logarithmique) sont notées et .
2.Modélisation bayésienne
Dans un premier temps, nous présentons le modèle bayésien complet en ignorant la censure.
D’après Kromhout et al. (35), les données d'exposition atmosphérique X sont modélisées par un
modèle à effet aléatoire, avec un effet aléatoire représentant la variabilité inter-sujet et une
erreur résiduelle représentant la variabilité intra-sujet. Un modèle similaire est utilisé pour les
données biologiques Y, avec un effet aléatoire pour la variabilité inter-sujet et un autre pour la
variabilité résiduelle intra-sujet. Compte tenu de ces effets aléatoires, nous supposons que la
mesure de l'exposition biologique (log-transformée) dépend linéairement de la mesure de
l'exposition atmosphérique (log-transformée). Ainsi, pour la jème observation du ième sujet, le
modèle peut s'écrire :
avec (1)
avec (2)
Où
et sont respectivement l'écart-type inter-sujet et l'écart-type intra-sujet des mesures
log-transformées de l'exposition atmosphérique et
la moyenne atmosphérique de la population
l'écart-49
type intra-sujet des mesures log-transformées de l’imprégnation biologique,
est la
moyenne de l’imprégnation biologique de population, pour une exposition atmosphérique nulle
sur une échelle logarithmique (ordonnée à l’origine du modèle de régression), et β est la pente
de la relation.
3.La censure dans le modèle
Afin de tenir compte des mesures sous la LD, introduisons la notation suivante pour une
distribution normale tronquée sur l’intervalle : .
Ainsi, dans notre modèle correspondant à (1), une valeur censurée à gauche observée pour la
jième observation du ième sujet serait spécifiée par
(
)
Dans notre modèle correspondant à (2), une valeur censurée à gauche observée pour la jième
observation du ième sujet serait spécifiée par
.
4.Distributions a priori des paramètres
Sur les paramètres de précisions intra et inter-sujet des mesures urinaires (sur une échelle log),
qui correspondent à l’inverse de la variance (1/ ² et 1/ ²), Spiegelhalter et al. (55) ont
suggéré l’utilisation de distributions a priori faiblement informatives, basées sur la distribution
inverse gamma avec les paramètres (0,001 ; 0,001). En effet, la distribution inverse gamma est
une distribution conjuguée de la distribution inverse-chi2 (distribution de l’inverse de la
variance sous l’hypothèse d’une loi normale) et conduit à un temps de calcul réduit. Cependant,
afin d'examiner la sensibilité des choix de distributions a priori, la distribution de Half-Cauchy
non-informative a également été utilisée pour ces paramètres pour un ensemble limité de
simulations (56, 57).
Il existe des informations dans la littérature sur la paramètre de variabilité . Ainsi, d’après
Kromhout et al.(35), on définit pour une distribution a priori informative : une loi lognormale
avec une moyenne géométrique = 0,29 et un écart-type géométrique = 2,82 , impliquant que
se situe entre 0,036 et 2,22 dans 95% des cas.
50
La distribution a priori du paramètre de variabilité est également informative car des
informations existent dans la littérature sur cette quantité. D’après Kromhout et al.(35), on
définit pour une distribution a priori informative : une loi lognormale avec une moyenne
géométrique = 0,92 et écart-type géométrique = 1,64, impliquant que se situe entre 0,34 et
2,38 dans 95% des cas. Les distributions a priori des paramètres
, β et
sont des
distributions normales non informatives.
5.Estimation des paramètres du modèle
Le modèle bayésien a été ajusté à l'aide de l’échantillonneur de Gibbs. Initialement, nous avons
utilisé le logiciel Openbugs, version opensource de Winbugs. En intégrant une loi a priori
informative sur les paramètres de variabilité, dans le cadre d’un modèle intégrant de la censure,
nous avons observé des estimations de paramètres incohérentes (par rapport à l’utilisation
d’une loi a priori non informative sur ces paramètres). A partir de ce même modèle, avec
l’utilisation des lois informatives, nous avons réalisés des simulations dans Winbugs, qui a
convergé vers des estimations différentes et plus raisonnables que celles de OpenBugs. Pour
s’assurer de la validité de nos résultats, nous avons utilisé le logiciel Jags, via R (JAGS 4.2.0 et R
version 3.3.2) que nous avons comparé à Winbugs. Les estimations Winbugs et JAGS étaient
similaires. Un gain de temps de calcul a été observé avec l’utilisation de JAGS. L'annexe C
contient le code du modèle utilisé, respectivement dans Jags, OpenBugs et WinBugs.
Nous avons exécuté l'algorithme d'échantillonnage de Gibbs pour N = 50000 échantillons, un
« thin » de 5, et un "burn-in" de 10000. Les « valeurs initiales » des paramètres étaient basées
sur leur valeur vraie pour l'étude de simulations. L’autocorrélation des échantillons dans les
chaînes de simulations a été évaluée graphiquement à l’aide des graphiques de diagnostic
d’autocorrélation. Le nombre d’itérations de chaque chaîne représente ainsi un compromis entre
le thinning et le temps de calcul.
51
6.Approche alternative : modèle Tobit avec effet aléatoire (38)
Une approche alternative est le modèle Tobit avec effet aléatoire, décrit par Jin et al.(38), détaillé
en partie II.A.3.C, basé sur le maximum de vraisemblance. Dans notre contexte de modélisation
de mesures biologiques Y (sur une échelle logarithmique) en fonction de mesures
atmosphériques X (sur une échelle logarithmique) avec mesures répétées et censure sur X et Y,
ce modèle s’écrirait:
avec (3)
La modélisation de l’imprégnation biologique serait ainsi similaire à celle réalisée avec
l’approche bayésienne (voir équation (2)). Ce modèle intègre un effet aléatoire, et permet de
gérer la censure en Y (voir partie II.A.3.C).
Cependant, à la différence de l’approche bayésienne proposée, il n’y a pas dans cette approche de
modélisation de la distribution de X. Il n’est donc pas possible de prendre en compte la censure
sur X, d’estimer la variabilité intra et inter-sujet sur X et d’intégrer dans le modèle toute la
connaissance en hygiène industrielle disponible sur les mesures d’exposition professionnelle. Ce
modèle de régression Tobit avec effet aléatoire, appelé méthode de référence MLE dans la suite,
sera comparé à l’approche proposée dans un cadre bayésien.
Dans le document
Analyse de données de biométrologie : aspects méthodologiques et applications
(Page 59-63)