• Aucun résultat trouvé

PROCESSUS D’IMPUTATION MULTIPLE DEDIE A DES ANALYSES SPECIFIQUES : APPLICATION A DES DONNEES

2. Enquête cas-témoins sur l’infection à campylobacter

2.1. Population d’étude et critères d’inclusion

2.2.1. Données collectées

La période d’exposition explorée correspondait aux 8 jours précédant la date d’apparition des premiers symptômes du cas. Le questionnaire a porté sur des expositions alimentaires (types d’aliments, mode de cuisson et/ou lieu de consommation) et sur des contacts avec des animaux (vivants ou morts) ainsi qu’avec des malades diarrhéiques dans l’entourage du cas. L’hygiène en cuisine a été explorée comme une habitude comportementale et non sur une période donnée.

A partir de la base de données d’origine, nous avons constitué une base de données restreinte pour les analyses (cas-complet et imputation multiple). Pour cela, nous avons d’abord sélectionné et/ou reconstruit 28 variables binaires. Des variables ayant un pourcentage élevé de données manquantes (30%) ont été retenues, mais les variables ayant de faibles effectifs dans la catégorie des exposés ont été exclues. La base de données contient au final 21 variables d’exposition.

2.2.2. Examen des données manquantes

• Examen quantitatif

Le questionnaire contenait 200 questions portant sur la consommation détaillée de nombreuses catégories d’aliments pendant une période de 8 jours. Malgré la qualité du recueil des informations, le mode de recueil rétrospectif a induit un problème de mémorisation et les réponses "ne sait pas" ont généré des données manquantes pour la majorité des variables d’exposition. Sur les 21 variables d’exposition, 3 variables sont complètes, 10 variables ont moins de 8% de données manquantes, 5 variables de 8 à 15% et 3 variables de 15 à 30% (Tableau 2.4).

Afin de déterminer la typologie des données manquantes, on examine la répartition des données manquantes parmi les différentes combinaisons des 21 variables incomplètes. Même si des variables appartenant à un même sous-groupe (par exemple les variables de consommation de poulet) ont des données manquantes communes, la répartition paraît suivre un motif arbitraire, c'est-à-dire que la proportion de données manquantes est du même ordre de grandeur pour la plupart des combinaisons des 21 variables.

91

De ce fait, les 21 variables sont entièrement renseignées pour 202 individus seulement, sur un effectif total de 538.

• Examen qualitatif

Afin d’identifier le mécanisme de données manquantes, on associe à chaque variable d’exposition incomplète Ei une indicatrice de données manquantes Ri binaire, qui vaut 1 si la variable Ei est manquante pour l’individu i et 0 sinon. On croise chaque indicatrice Ri avec d’une part la variable à expliquer M (infection à Campylobacter), et d’autre part chacune des variables d’exposition Ei. Le lien statistique recherché est un test du Chi2 significatif (p 0.05). Cet examen univarié permet de proposer une première synthèse des mécanismes de données manquantes.

Le mécanisme de données manquantes dépend de la variable à expliquer pour une seule variable, avoir mangé au restaurant. Cela signifie que, pour les autres variables d’exposition, la proportion de données manquantes ne diffère pas significativement entre les cas et les témoins. Le détail des relations entre les variables indicatrices de réponse et les variables d’exposition est donné dans le Tableau 2.4. Il montre que 18 des 21 variables d’exposition sont liées significativement à au moins une variable indicatrice de données manquantes. Le mécanisme de données manquantes serait donc a priori de type MAR(ME) pour la variable avoir mangé au restaurant, MAR(E) pour 17 autres variables, et MCAR pour les 3 variables de contact (avec des malades diarrhéiques ou des animaux). On peut en déduire que le risque de biais des estimateurs en analyse cas-complet est réduit. Notons qu’un mécanisme MCAR pour les 3 variables de contact est peu réaliste, même si aucune relation statistique n’a été mise en évidence. Par ailleurs, un mécanisme de type MNAR doit être envisagé pour les 18 autres variables, puisqu’un lien existe entre leurs indicatrices de données manquantes et des variables d’exposition incomplètes, donc potentiellement avec les valeurs non-observées de ces variables.

92

Tableau 2.4 – Examen de la base de données incomplète

Variables d'exposition Données manquantes

(%)

Variables de non réponse *

Libellé Signification Témoins (N=269)

Cas

(N=269) Libellé

Lien avec les variables d'exposition

Consommation de volaille

E1 Avoir mangé du poulet 32.7 27.1 R1 R2 R8 R16

E2 Avoir mangé du poulet acheté au détail 23.8 28.6 R2 R1

Consommation de bœuf

E3 Avoir mangé du bœuf 11.1 13.4 R3 R1 R2 R6 R7

E4 Avoir mangé du bœuf hors du domicile 4.5 2.2 R4 R2 R6 R7

E5 Avoir mangé du bœuf acheté en boucherie,à la ferme ou au marché 0.0 0.4 R5 R3 R6 R7

E6 Avoir mangé du bœuf acheté au détail 15.6 18.6 R6 R2 R18

E7 Avoir mangé du bœuf peu cuit 7.8 11.1 R7 R3

Autres consommations alimentaires

E8 Avoir mangé au restaurant 6.0 1.1 R8 R1 R2 R6 R10 R16 R17 R18

E9 Avoir mangé de la viande cuite au barbecue 0.0 0.0 R9 R16 R17 R18

E10 Avoir mangé du poisson ou des fruits de mer 11.9 9.7 R10 R1 R6

E11 Avoir mangé des légumes crus ou des salades 7.4 4.5 R11 R1 R3 R6

E12 Avoir mangé des fruits ou des baies 7.4 11.5 R12 R8

E13 Avoir consommé des produits laitiers 3.0 3.0 R13 R11

E14 Avoir mangé du fromage 0.0 0.0 R14 R1 R6 R8 R21

E15 Avoir bu de l'eau du robinet 0.7 1.1 R15 R6

Comportement en cuisine pour la préparation des repas

E16 Hygiène insuffisante des mains 4.1 6.3 R16 R21

E17 Hygiène insuffisante des ustensiles 3.3 5.6 R17 R8 R18

E18 Hygiène insuffisante des plans de travail 5.2 7.1 R18 R21

Contacts avec des animaux ou des personnes malades

E19 Avoir eu des contacts avec des animaux de compagnie ou des animaux de ferme 6.0 3.0 R19 _

E20 Expositions professionnelles (animaux morts ou vivants) 0.0 0.0 R20 _

E21 Avoir été en contact avec une personne diarrhéique 3.3 5.2 R21 _

* Variables indicatrices de données manquantes indiquant si la variable est entièrement renseignée ou non † Variables indicatrices de données manquantes liées significativement à chacune des variables d'exposition (Chi2, p 0,05)

93

Il est possible d’évaluer la pertinence de l’hypothèse MAR. D’un point de vue épidémiologique, les mécanismes de données manquantes explorés concernent des variables de consommation alimentaire, d’hygiène et de contact avec des animaux ou des personnes. Parmi ces expositions, un mécanisme de type MAR parait plausible pour les variables de consommation alimentaire puisque les données manquantes proviennent sans doute d’un défaut de mémorisation. Le mécanisme de données manquantes dépendrait alors seulement des valeurs observées des autres variables (un consommateur régulier de produits carnés pourrait consommer moins souvent du poisson).

En revanche, les expositions liées aux comportements d’hygiène en cuisine pourraient être ressenties comme sensibles et il parait cohérent que certaines personnes, plus particulièrement parmi celles qui ont été malades, préfèrent ne pas fournir ce type d’information. Le mécanisme de données manquantes dépendrait alors de la valeur non-observée des variables, et les données seraient MNAR. Cependant, la proportion de données manquantes pour ces variables est faible (5%) et n’est pas plus élevée chez les cas que chez les témoins.

2.3. Construction et validation du modèle d’imputation

2.3.1. Analyse cas-complet

Une analyse cas-complet est réalisée afin (i) d’identifier les variables retenues pour être incluses dans le modèle d’analyse multivariée en cas-complet et après imputation multiple, et (ii) d’obtenir des estimations qui pourront être comparées à celles obtenues après imputation multiple. Au terme de l’analyse univariée, 14 variables ont été retenues pour l’analyse multivariée car elles sont liées à la variable à expliquer avec un seuil de significativité p 0.2 (Tableau 2.5). Des interactions d’ordre 1 ont été recherchées mais aucune n’était significative.

94

Tableau 2.5 – Sélection des variables incluses dans les modèles d’analyse et d’imputation Variables d'exposition Odds Ratio apparié

Libellé Signification (IC 95%) p

Variables d'exposition liées à la variable à expliquer et à la non réponse : variables principales

E1 Avoir mangé du poulet 0,7 (0,4;1,2) 0.2

E2 Avoir mangé du poulet acheté au détail 0,5 (0,3;1,0) 0.05

E3 Avoir mangé du bœuf 0,8 (0,5;1,2) 0.2

E5 Avoir mangé du bœuf acheté en boucherie,à la ferme ou au marché 0,6 (0,4;1,0) 0.03

E6 Avoir mangé du bœuf acheté au détail 0,6 (0,4;0,9) 0.02

E7 Avoir mangé du bœuf peu cuit 2,0 (1,2;3,4) 0.009

E8 Avoir mangé au restaurant 1,6 (1,0;2,7) 0.06

E10 Avoir mangé du poisson ou des fruits de mer 0,5 (0,3;0,9) 0.01

E11 Avoir mangé des légumes crus ou des salades 0,4 (0,2;0,7) 0.002

E12 Avoir mangé des fruits ou des baies 0,5 (0,4;0,8) 0.004

E16 Hygiène insuffisante des mains 1,5 (1,0;2,2) 0.04

E17 Hygiène insuffisante des ustensiles 1,7 (1,1;2,6) 0.009

E19 Avoir eu des contacts avec des animaux de compagnie ou des animaux

de ferme 1,5 (1,0;2,3) 0.06

E21 Avoir été en contact avec une personne diarrhéique 2,3 (1,3;3,9) 0.003

Variables d'exposition non liées à la variable à expliquer mais liées à la non réponse : variables auxiliaires

E4 Avoir mangé du bœuf hors du domicile 0,9 (0,4;2,1) 0.8

E14 Avoir mangé du fromage 0,8 (0,5;1,2) 0.3

E9 Avoir mangé de la viande cuite au barbecue (toute viande) 1,5 (0,8;2,3) 0.3

E13 Avoir consommé des produits laitiers 0,8 (0,4;1,5) 0.4

E15 Avoir bu de l'eau du robinet 1,0 (0,7;1,4) 0.9

E18 Hygiène insuffisante des plans de travail 1,3 (0,8;2,0) 0.3

Variable d'exposition ni liée à la variable à expliquer ni liée à la non réponse : variable accessoire

95

Nous avons réalisé une analyse multivariée en appliquant une stratégie de sélection des variables pas à pas descendante. Cependant, les 14 variables incluses dans le modèle sont incomplètes, et la perte d’effectifs en analyse multivariée est importante et aggravée par l’appariement. En effet, comme illustré sur la Figure 2.2, la présence d’une donnée manquante pour un cas ou un témoin entraine la perte de la paire complète lors de l’analyse.

Figure 2.2 – Evolution des effectifs en fonction des variables incluses successivement dans le modèle d’analyse multivariée cas-complet

0 100 200 300 400 500 600 Modèle vide

E1 E2 E3 E5 E6 E7 E8 E10 E11 E12 E16 E17 E19 Modèle

complet Variables ajoutées successivement dans le modèle d'analyse multivariée (14 variables)

E ff e c ti fs

Sans appariement Avec appariement

Ainsi, après inclusion des 14 variables dans le modèle multivarié tenant compte de l’appariement, les effectifs sont ramenés à 94 individus sur les 538 initiaux. De ce fait, l’algorithme de maximisation de la vraisemblance du modèle ne converge pas et les paramètres ne peuvent pas être estimés. Nous avons donc appliqué une stratégie d’analyse par sous-modèles qui consiste à effectuer une première sélection des variables en les incluant par groupes de variables corrélées dans 4 modèles multivariés indépendants. Les 9 variables retenues au terme des 4 analyses (p 0.2) sont incluses dans un modèle unique et le modèle final obtenu porte sur 340 individus.

96