• Aucun résultat trouvé

PROCESSUS D’IMPUTATION MULTIPLE DEDIE A DES ANALYSES SPECIFIQUES : APPLICATION A DES DONNEES

2. Enquête cas-témoins sur l’infection à campylobacter

2.1. Population d’étude et critères d’inclusion

2.3.3. Analyse et diagnostic des données imputées

• Analyse

Les 30 bases de données imputées sont analysées de façon séparée puis combinée selon les règles de Rubin. Le modèle d’analyse multivariée inclut la variable à expliquer ainsi que les 14 variables identifiées lors de l’analyse univariée cas-complet. Les commandes spécifiques de l’imputation permettent d’effectuer une analyse par régression logistique tenant compte de l’appariement (régression logistique conditionnelle).

Notons que les variables associées à une diminution du risque de Campylobactériose ont été conservées dans le modèle d’analyse (avoir mangé du poisson ou des fruits de mer, avoir mangé des légumes crus ou des salades et avoir mangé des fruits ou des baies). En effet, on peut faire l’hypothèse que l’effet protecteur de ces variables est probablement indirect, lié à une préférence alimentaire et non à un mécanisme biologique.

• Diagnostic

Cette étape, qui en pratique est réalisée en parallèle de la phase d’analyse, a pour objectif de valider le modèle d’imputation, et d’estimer si l’hypothèse que les données soient MAR est plausible.

Comparaison des données observées et imputées

Même si la procédure d’imputation multiple ne peut être validée à partir des données observées, la comparaison des données observées et des données imputées est informative. Ainsi, il est logique d’observer des différences modérées entre données observées et imputées, puisque l’examen des mécanismes de données manquantes montre de nombreuses relations entre les indicatrices de données manquantes et les variables. Nous avons choisi de comparer les OR obtenus en analyse univariée cas-complet et après imputation. Le Tableau 2.6 présente ces résultats, ainsi qu’un critère de variation relative entre ces OR.

98

Tableau 2.6 – Résultats comparés de l’analyse univariée en analyse cas-complet et après imputation multiple

Cas Complet Imputation Multiple Diagnostic (%)

|ORIM-ORCC|* Variables d'exposition ORCC (IC 95%) SE ORIM (IC 95%) SE ORCC Données manquantes (%)

E1 Avoir mangé du poulet 0.69 (0.42-1.16) 0.18 0.91 (0.60-1.38) 0.19 31.9 30.0

E2 Avoir mangé du poulet acheté au détail 0.55 (0.30-0.99) 0.17 0.73 (0.47-1.13) 0.16 32.7 26.2

E3 Avoir mangé du bœuf 0.80 (0.54-1.19) 0.16 0.85 (0.60-1.21) 0.15 6.3 12.3

E5

Avoir mangé du bœuf acheté en boucherie, à la ferme ou au marché

0.64 (0.43-0.97) 0.13 0.69 (0.46-1.03) 0.14 7.8 3.3

E6 Avoir mangé du bœuf acheté au détail 0.62 (0.41-0.94) 0.13 0.78 (0.54-1.12) 0.14 25.8 17.1

E7 Avoir mangé du bœuf peu cuit 2.00 (1.18-3.38) 0.53 2.26 (1.39-3.69) 0.56 13.0 9.5

E8 Avoir mangé au

restaurant 1.64 (1.00-2.70) 0.42 1.67 (1.02-2.72) 0.41 1.8 3.5

E10 Avoir mangé du poisson ou des fruits de mer 0.55 (0.34-0.88) 0.13 0.55 (0.36-0.86) 0.12 0.0 10.8

E11 Avoir mangé des légumes crus ou des salades 0.42 (0.25-0.72) 0.12 0.45 (027-0.74) 0.12 7.1 6.0

E12 Avoir mangé des fruits ou

des baies 0.55 (0.37-0.83) 0.11 0.64 (0.44-0.94) 0.12 16.4 9.5

E16 Hygiène insuffisante des mains 1.50 (1.01-2.22) 0.3 1.51 (1.03-2.21) 0.29 0.7 5.2

E17 Hygiène insuffisante des ustensiles 1.71 (1.15-2.55) 0.35 1.68 (1.14-2.49) 0.34 1.8 4.5

E19

Avoir eu des contacts avec des animaux de compagnie ou de ferme

1.52 (0.98-2.35) 0.34 1.46 (0.95-2.23) 0.32 3.9 4.5

E21 Avoir été en contact avec une personne diarrhéique 2.26 (1.32-3.88) 0.62 2.03 (1.22-3.39) 0.53 5.8 4.3

99

Des variations relatives de 20 à 30% sont observées pour les 3 variables ayant une proportion de données manquantes élevée, de 17 à 30%. Pour ces variables, les ORCC et les ORIM ne diffèrent pas significativement puisque les ORCC appartiennent aux intervalles de confiance à 95% des ORIM. Pour les autres variables, le critère de variation relative des OR est inférieur à 10% pour 10 variables sur 12.

En ce qui concerne les variables d’hygiène pour lesquelles les données sont à risque d’être MNAR, la variation relative est inférieure à 2%. Cela peut être lié au faible pourcentage de données manquantes pour ces variables (<5%), ainsi que par l’inclusion des principaux prédicteurs de ces variables dans le modèle d’imputation.

Choix du nombre de bases

Lors de la réalisation de cette étude, les critères diagnostiques tels que l’efficacité statistique et l’erreur de Monte Carlo n’étaient pas directement accessibles lors des analyses. De ce fait, nous avons tenu compte, lors du choix du nombre de bases imputées, des variations de la valeur de l’odds ratio ajusté (ORa) de 4 variables clés en analyse multivariée en fonction du nombre de bases imputées.

Tableau 2.7 – Evolution des ORa en analyse multivariée en fonction du nombre de bases imputées

Nombre de bases imputées Variables Données manquantes (%) 5 10 20 30 50 E1 29.9 1.05 (0.70 - 1.58) 0.96 (0.64 - 1.45) 0.97 (0.65 - 1.45) 0.99 (0.66 - 1.49) 0.99 (0.66 - 1.49) E6 17.1 0.96 (0.64 - 1.43) 0.90 (0.61 - 1.32) 0.91 (0.62 - 1.34) 0.91 (0.61 - 1.34) 0.90 (0.61 - 1.32) E10 16.8 0.64 (0.40 - 1.06) 0.66 (0.41 - 1.08) 0.67 (0.41 - 1.10) 0.67 (0.41 - 1.09) 0.67 (0.41 - 1.09) E17 4.5 1.80 (1.15 - 2.82) 1.83 (1.19 - 2.82) 1.82 (1.18 - 2.81) 1.82 (1.18 - 2.81) 1.82 (1.18 - 2.82)

E1 : Avoir mangé du poulet ; E6 : Avoir mangé du bœuf acheté au détail ; E10 : Avoir mangé du poisson ou des fruits de mer ; E17 : Hygiène insuffisante des ustensiles

Les résultats présentés dans le Tableau 2.7 montrent peu de variations au-delà de 20 bases, aussi bien pour la valeur de l’ORa que pour l’intervalle de confiance à 95%. On peut en déduire qu’il est suffisant d’imputer 30 bases.

100

2.4. Résultats

Les résultats des analyses cas-complet et par imputation multiple sont présentés dans le Tableau 2.8. Pour le modèle d’analyse final, les effectifs sont respectivement de 340 et 538 individus.

Tableau 2.8 – Analyse multivariée des facteurs associés à une augmentation ou une diminution du risque d’infection à Campylobacter, analyse cas-complet et imputation multiple

Cas complet(N* = 340) Imputation Multiple (N* = 538) Variables

OR IC 95% p OR IC 95% p

E5 - Avoir mangé du bœuf acheté en

boucherie, à la ferme ou au marché 0.51 0.28 - 0.93 0.03 0.59 0.37 - 0.94 0.03

E7 - Avoir mangé du bœuf peu cuit 2.71 1.37 - 5.39 0.004 2.76 1.62 - 4.73 < 0.001

E8 - Avoir mangé au restaurant NS 1.75 1.02 - 3.03 0.04 E11 - Avoir mangé des légumes crus ou des

salades 0.45 0.23 - 0.88 0.002 0.40 0.22 - 0.70 0.002

E17 - Hygiène insuffisante des ustensiles NS 2.10 1.32 - 3.30 0.002 E21 - Avoir été en contact avec une

personne diarrhéique 3.19 1.57 - 6.48 0.001 2.01 1.13 - 3.58 0.02

Sont notés en caractères gras les ORa des variables associées à une augmentation du risque d’infection à Campylobacter.

* Nombre d’individus pris en compte dans le calcul des ORa dans le modèle final † Analyse cas-complet réalisée par l’intermédiaire de sous-modèles

‡ Odds ratio non significatif

Pour les deux analyses, la consommation de bœuf insuffisamment cuit et le contact avec une personne diarrhéique sont des facteurs indépendamment associés au risque de survenue d’une Campylobactériose. Par ailleurs, la consommation de bœuf acheté en boucherie, à la ferme ou au marché, ainsi que la consommation de légumes crus ou de salades sont des facteurs associés à une diminution du risque de Campylobactériose.

L’analyse réalisée par imputation multiple met en évidence deux facteurs de risque supplémentaires de Campylobactériose : le fait d’avoir mangé au restaurant et une hygiène insuffisante des ustensiles de cuisine lors de la préparation des repas.

Les odds ratios ajustés (ORa) présentés dans le Tableau 2.8 sont issus de modèles multivariés différents en analyse cas-complet et en imputation multiple. Nous avons restreint l’analyse

101

par imputation multiple aux 4 variables sélectionnées par l’analyse cas-complet afin de pouvoir comparer les estimations en fonction du type d’analyse. Les résultats sont présentés dans le Tableau 2.9.

Tableau 2.9 – Résultats comparés de l’analyse multivariée (modèle final à 4 variables), analyse cas-complet et imputation multiple

Cas Complet (N* = 330) Imputation Multiple (N* = 538) Variables OR SE (SE/OR)x100 OR SE (SE/OR)x100 E5 - Avoir mangé du bœuf acheté en boucherie, à la ferme ou au marché 0.51 (0.28-0.93) 0.15 29.4 0.61 (0.39-0.97) 0.14 23.1 E7 - Avoir mangé du

bœuf peu cuit 2.71 (1.37-5.38) 0.95 35.1 2.62 (1.57-4.38) 0.69 26.3

E11 - Avoir mangé des légumes crus ou des salades

0.45 (0.23-0.88) 0.15 33.3 0.47 (0.27-0.80) 0.13 27.7

E21 - Avoir été en contact avec une personne diarrhéique

3.19 (1.57-6.48) 1.15 36.1 2.03 (1.17-3.53) 0.57 28.1

* Nombre d'individus pris en compte dans le calcul des OR dans le modèle final † Coefficient de variation associé à l'OR, exprimé en %

Les ORa sont proches pour les deux analyses pour les variables E5, E7 et E11. On observe un gain de précision après imputation multiple avec une baisse du coefficient de variation. Pour la variable contact avec une personne diarrhéique, la différence entre les ORa obtenus dans les deux analyses est plus marquée avec une variation relative de 36%. Notons que, pour cette variable, l’écart type est divisé par 2 après imputation et le coefficient de variation est réduit de presque 10%.

102

2.5. Analyse de sensibilité selon le modèle d’imputation