PROCESSUS D’IMPUTATION MULTIPLE DEDIE A DES ANALYSES SPECIFIQUES : APPLICATION A DES DONNEES
2. Enquête cas-témoins sur l’infection à campylobacter
2.1. Population d’étude et critères d’inclusion
2.3.3. Analyse et diagnostic des données imputées
• Analyse
Les 30 bases de données imputées sont analysées de façon séparée puis combinée selon les règles de Rubin. Le modèle d’analyse multivariée inclut la variable à expliquer ainsi que les 14 variables identifiées lors de l’analyse univariée cas-complet. Les commandes spécifiques de l’imputation permettent d’effectuer une analyse par régression logistique tenant compte de l’appariement (régression logistique conditionnelle).
Notons que les variables associées à une diminution du risque de Campylobactériose ont été conservées dans le modèle d’analyse (avoir mangé du poisson ou des fruits de mer, avoir mangé des légumes crus ou des salades et avoir mangé des fruits ou des baies). En effet, on peut faire l’hypothèse que l’effet protecteur de ces variables est probablement indirect, lié à une préférence alimentaire et non à un mécanisme biologique.
• Diagnostic
Cette étape, qui en pratique est réalisée en parallèle de la phase d’analyse, a pour objectif de valider le modèle d’imputation, et d’estimer si l’hypothèse que les données soient MAR est plausible.
Comparaison des données observées et imputées
Même si la procédure d’imputation multiple ne peut être validée à partir des données observées, la comparaison des données observées et des données imputées est informative. Ainsi, il est logique d’observer des différences modérées entre données observées et imputées, puisque l’examen des mécanismes de données manquantes montre de nombreuses relations entre les indicatrices de données manquantes et les variables. Nous avons choisi de comparer les OR obtenus en analyse univariée cas-complet et après imputation. Le Tableau 2.6 présente ces résultats, ainsi qu’un critère de variation relative entre ces OR.
98
Tableau 2.6 – Résultats comparés de l’analyse univariée en analyse cas-complet et après imputation multiple
Cas Complet Imputation Multiple Diagnostic (%)
|ORIM-ORCC|* Variables d'exposition ORCC (IC 95%) SE ORIM (IC 95%) SE ORCC Données manquantes (%)
E1 Avoir mangé du poulet 0.69 (0.42-1.16) 0.18 0.91 (0.60-1.38) 0.19 31.9 30.0
E2 Avoir mangé du poulet acheté au détail 0.55 (0.30-0.99) 0.17 0.73 (0.47-1.13) 0.16 32.7 26.2
E3 Avoir mangé du bœuf 0.80 (0.54-1.19) 0.16 0.85 (0.60-1.21) 0.15 6.3 12.3
E5
Avoir mangé du bœuf acheté en boucherie, à la ferme ou au marché
0.64 (0.43-0.97) 0.13 0.69 (0.46-1.03) 0.14 7.8 3.3
E6 Avoir mangé du bœuf acheté au détail 0.62 (0.41-0.94) 0.13 0.78 (0.54-1.12) 0.14 25.8 17.1
E7 Avoir mangé du bœuf peu cuit 2.00 (1.18-3.38) 0.53 2.26 (1.39-3.69) 0.56 13.0 9.5
E8 Avoir mangé au
restaurant 1.64 (1.00-2.70) 0.42 1.67 (1.02-2.72) 0.41 1.8 3.5
E10 Avoir mangé du poisson ou des fruits de mer 0.55 (0.34-0.88) 0.13 0.55 (0.36-0.86) 0.12 0.0 10.8
E11 Avoir mangé des légumes crus ou des salades 0.42 (0.25-0.72) 0.12 0.45 (027-0.74) 0.12 7.1 6.0
E12 Avoir mangé des fruits ou
des baies 0.55 (0.37-0.83) 0.11 0.64 (0.44-0.94) 0.12 16.4 9.5
E16 Hygiène insuffisante des mains 1.50 (1.01-2.22) 0.3 1.51 (1.03-2.21) 0.29 0.7 5.2
E17 Hygiène insuffisante des ustensiles 1.71 (1.15-2.55) 0.35 1.68 (1.14-2.49) 0.34 1.8 4.5
E19
Avoir eu des contacts avec des animaux de compagnie ou de ferme
1.52 (0.98-2.35) 0.34 1.46 (0.95-2.23) 0.32 3.9 4.5
E21 Avoir été en contact avec une personne diarrhéique 2.26 (1.32-3.88) 0.62 2.03 (1.22-3.39) 0.53 5.8 4.3
99
Des variations relatives de 20 à 30% sont observées pour les 3 variables ayant une proportion de données manquantes élevée, de 17 à 30%. Pour ces variables, les ORCC et les ORIM ne diffèrent pas significativement puisque les ORCC appartiennent aux intervalles de confiance à 95% des ORIM. Pour les autres variables, le critère de variation relative des OR est inférieur à 10% pour 10 variables sur 12.
En ce qui concerne les variables d’hygiène pour lesquelles les données sont à risque d’être MNAR, la variation relative est inférieure à 2%. Cela peut être lié au faible pourcentage de données manquantes pour ces variables (<5%), ainsi que par l’inclusion des principaux prédicteurs de ces variables dans le modèle d’imputation.
Choix du nombre de bases
Lors de la réalisation de cette étude, les critères diagnostiques tels que l’efficacité statistique et l’erreur de Monte Carlo n’étaient pas directement accessibles lors des analyses. De ce fait, nous avons tenu compte, lors du choix du nombre de bases imputées, des variations de la valeur de l’odds ratio ajusté (ORa) de 4 variables clés en analyse multivariée en fonction du nombre de bases imputées.
Tableau 2.7 – Evolution des ORa en analyse multivariée en fonction du nombre de bases imputées
Nombre de bases imputées Variables Données manquantes (%) 5 10 20 30 50 E1 29.9 1.05 (0.70 - 1.58) 0.96 (0.64 - 1.45) 0.97 (0.65 - 1.45) 0.99 (0.66 - 1.49) 0.99 (0.66 - 1.49) E6 17.1 0.96 (0.64 - 1.43) 0.90 (0.61 - 1.32) 0.91 (0.62 - 1.34) 0.91 (0.61 - 1.34) 0.90 (0.61 - 1.32) E10 16.8 0.64 (0.40 - 1.06) 0.66 (0.41 - 1.08) 0.67 (0.41 - 1.10) 0.67 (0.41 - 1.09) 0.67 (0.41 - 1.09) E17 4.5 1.80 (1.15 - 2.82) 1.83 (1.19 - 2.82) 1.82 (1.18 - 2.81) 1.82 (1.18 - 2.81) 1.82 (1.18 - 2.82)
E1 : Avoir mangé du poulet ; E6 : Avoir mangé du bœuf acheté au détail ; E10 : Avoir mangé du poisson ou des fruits de mer ; E17 : Hygiène insuffisante des ustensiles
Les résultats présentés dans le Tableau 2.7 montrent peu de variations au-delà de 20 bases, aussi bien pour la valeur de l’ORa que pour l’intervalle de confiance à 95%. On peut en déduire qu’il est suffisant d’imputer 30 bases.
100
2.4. Résultats
Les résultats des analyses cas-complet et par imputation multiple sont présentés dans le Tableau 2.8. Pour le modèle d’analyse final, les effectifs sont respectivement de 340 et 538 individus.
Tableau 2.8 – Analyse multivariée des facteurs associés à une augmentation ou une diminution du risque d’infection à Campylobacter, analyse cas-complet et imputation multiple
Cas complet† (N* = 340) Imputation Multiple (N* = 538) Variables
OR IC 95% p OR IC 95% p
E5 - Avoir mangé du bœuf acheté en
boucherie, à la ferme ou au marché 0.51 0.28 - 0.93 0.03 0.59 0.37 - 0.94 0.03
E7 - Avoir mangé du bœuf peu cuit 2.71 1.37 - 5.39 0.004 2.76 1.62 - 4.73 < 0.001
E8 - Avoir mangé au restaurant NS‡ 1.75 1.02 - 3.03 0.04 E11 - Avoir mangé des légumes crus ou des
salades 0.45 0.23 - 0.88 0.002 0.40 0.22 - 0.70 0.002
E17 - Hygiène insuffisante des ustensiles NS‡ 2.10 1.32 - 3.30 0.002 E21 - Avoir été en contact avec une
personne diarrhéique 3.19 1.57 - 6.48 0.001 2.01 1.13 - 3.58 0.02
Sont notés en caractères gras les ORa des variables associées à une augmentation du risque d’infection à Campylobacter.
* Nombre d’individus pris en compte dans le calcul des ORa dans le modèle final † Analyse cas-complet réalisée par l’intermédiaire de sous-modèles
‡ Odds ratio non significatif
Pour les deux analyses, la consommation de bœuf insuffisamment cuit et le contact avec une personne diarrhéique sont des facteurs indépendamment associés au risque de survenue d’une Campylobactériose. Par ailleurs, la consommation de bœuf acheté en boucherie, à la ferme ou au marché, ainsi que la consommation de légumes crus ou de salades sont des facteurs associés à une diminution du risque de Campylobactériose.
L’analyse réalisée par imputation multiple met en évidence deux facteurs de risque supplémentaires de Campylobactériose : le fait d’avoir mangé au restaurant et une hygiène insuffisante des ustensiles de cuisine lors de la préparation des repas.
Les odds ratios ajustés (ORa) présentés dans le Tableau 2.8 sont issus de modèles multivariés différents en analyse cas-complet et en imputation multiple. Nous avons restreint l’analyse
101
par imputation multiple aux 4 variables sélectionnées par l’analyse cas-complet afin de pouvoir comparer les estimations en fonction du type d’analyse. Les résultats sont présentés dans le Tableau 2.9.
Tableau 2.9 – Résultats comparés de l’analyse multivariée (modèle final à 4 variables), analyse cas-complet et imputation multiple
Cas Complet (N* = 330) Imputation Multiple (N* = 538) Variables OR SE (SE/OR)x100† OR SE (SE/OR)x100† E5 - Avoir mangé du bœuf acheté en boucherie, à la ferme ou au marché 0.51 (0.28-0.93) 0.15 29.4 0.61 (0.39-0.97) 0.14 23.1 E7 - Avoir mangé du
bœuf peu cuit 2.71 (1.37-5.38) 0.95 35.1 2.62 (1.57-4.38) 0.69 26.3
E11 - Avoir mangé des légumes crus ou des salades
0.45 (0.23-0.88) 0.15 33.3 0.47 (0.27-0.80) 0.13 27.7
E21 - Avoir été en contact avec une personne diarrhéique
3.19 (1.57-6.48) 1.15 36.1 2.03 (1.17-3.53) 0.57 28.1
* Nombre d'individus pris en compte dans le calcul des OR dans le modèle final † Coefficient de variation associé à l'OR, exprimé en %
Les ORa sont proches pour les deux analyses pour les variables E5, E7 et E11. On observe un gain de précision après imputation multiple avec une baisse du coefficient de variation. Pour la variable contact avec une personne diarrhéique, la différence entre les ORa obtenus dans les deux analyses est plus marquée avec une variation relative de 36%. Notons que, pour cette variable, l’écart type est divisé par 2 après imputation et le coefficient de variation est réduit de presque 10%.
102