• Aucun résultat trouvé

ETUDE TRANSVERSALE DANS UN SYSTEME DE SURVEILLANCE DE L’HEPATITE C

2. Analyse de sensibilité par pondération

2.4. Application pratique de l’analyse de sensibilité par pondération

2.4.2. Processus de sélection du paramètre de sensibilité delta

• Etape 1 : Régression logistique explorant le mécanisme de données manquantes

Cette étape consiste à générer une variable indicatrice de réponse pour la variable incomplète, puis à déterminer par une régression logistique multivariée les associations avec, d’une part la variable à expliquer, et d’autre part les autres covariables.

La variable génotype 3 étant utilisée pour l’illustration, on génère une variable indicatrice de données manquantes égale à 1 si la variable génotype 3 est observée et 0 sinon (notons que le codage retenu ici est celui utilisé par Carpenter et al. dans l’article princeps [116], inverse par rapport au reste de ce travail). Puis, en utilisant les données imputées pour toutes les variables à l’exclusion de la variable génotype 3, on ajuste un modèle de régression logistique multivariée pour expliquer l’indicatrice de données manquantes de la variable genotype 3. On inclut dans ce modèle la variable à expliquer (complications hépatiques graves) ainsi que toutes les covariables retenues dans le modèle d’analyse initial, à l’exclusion de la variable génotype 3. Les résultats sont présentés dans le Tableau 3.6 et montrent que le mécanisme de données manquantes de la

148

variable génotype 3 dépend de l’âge et de la durée de la maladie, mais pas de la variable à expliquer.

Tableau 3.6 – Régression multivariée expliquant l’indicatrice de données manquantes de génotype 3 à partir des covariables

Indicatrice de données manquantes de génotype 3

Coefficients

de régression SE p

Complications hépatiques graves -0.05 0.13 0.72

Age 0.17 0.09 0.06

Sexe 0.04 0.08 0.63

Durée de l'infection par le VHC 0.19 0.09 0.04

Délai de prise en charge 0.05 0.08 0.53

Consommation d'alcool -0.005 0.07 0.94

Co-infection par le VIH 0.02 0.14 0.90

Co-infection par le VHB -0.15 0.23 0.52

• Etape 2 : Détermination graphique d’une valeur de delta

La justification théorique de la méthode repose sur le principe de l’échantillonnage préférentiel (importance sampling) [118]. Dans les applications d’échantillonnage préférentiel, il est recommandé de ne pas mettre tout le poids sur une ou très peu de valeurs. De ce fait, il est nécessaire de réduire l’étendue des valeurs prises par . Nous recommandons d’appliquer les critères suivants : les valeurs de doivent être choisies de façon à ce que la valeur du poids normalisé maximal se situe autour de 0.5 et qu’au moins 5 poids normalisés soient supérieurs à 1/M (c'est-à-dire la valeur des poids lorsque δ =0) [68]. Ainsi, l’estimateur MNAR obtenu est déduit d’informations issues d’au moins 5 bases de données imputées, ce qui correspond au nombre minimum usuellement recommandé en pratique.

Nous recommandons de représenter cette information sur un graphique tel que la Figure 3.2. La partie gauche de la Figure représente (pour chacune des 1000 bases imputées) l’histogramme de la somme des valeurs imputées de Y pour la variable génotype 3. Les valeurs extrêmes sont 340 pour la base imputée n°921 et 480 pour la base n°771. Sur la partie droite de la Figure sont représentés les poids normalisés en fonction de la valeur de , pour chacune des M =1000bases de données imputées. Le poids normalisé maximal correspond à la base de données pour laquelle la somme de valeurs imputées de Y est minimale (base n°921) quand δ>0 ou maximale (base

149

n°771) quand δ<0. Lorsque δ=0, le poids normalisé est égal à M1 car tous les w~m

( )

0 sont égaux à 1.

Figure 3.2 – Détermination graphique d’une valeur de pour la variable génotype 3

Partie gauche : histogramme de la somme des valeurs imputées de génotype 3 pour chaque base de données imputée parmi M=1000 bases.

Partie droite : poids normalisés (wm) selon la valeur de pour chaque base de données imputée.

La Figure 3.3 montre la partie centrale de la Figure 3.2. En suivant les recommandations citées précédemment, nous retenons des valeurs positives de δ correspondant à un poids normalisé d’environ 0.5, ce qui donne un intervalle pour de [-0.2;0.15]. Même pour les valeurs extrêmes de cet intervalle, on note que plus de 5 poids normalisés sont supérieurs à 0.001. Notons que la partie centrale de la zone hachurée correspond à des valeurs de induisant des écarts à l’hypothèse MAR trop réduits pour être utilisés en pratique, puisque tous les poids normalisés décroissent vers 1 M . 340 360 3 80 400 42 0 440 46 0 480 0 5 1 0 1 5 2 0 2 5 3 0 Im puted data set n°921 Im puted data set n°771 δ wm Im puted data set n°771 Im puted data s et n°92 1 -1.0 -0.5 0.0 0.5 1.0 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0

150

Figure 3.3 – Poids normalisés (wm) selon pour chaque base de données imputée

La zone hachurée délimite les valeurs de correspondant à des poids normalisés égaux à 0.5 au maximum.

• Etape 3 : Choix du signe de delta

Nous déterminons lors de cette étape si la valeur de retenue correspond à la borne haute ou basse de l’intervalle identifié au cours de l’Etape 2.

Pour le génotype 3 de l’hépatite C, l’équation (1) montre la relation entre le signe de et le mécanisme de données manquantes supposé : pour des valeurs positives de , la probabilité d’observer le génotype augmente si l’individu porteur de l’hépatite C est infecté par une souche virale de génotype 3, et inversement pour des valeurs négatives de . Dans notre exemple et tenant compte des résultats de l’Etape 2 (Figure 3.3), nous sélectionnons δ =0.15. Cela signifie en pratique qu’il est 1.2 (exp(0.15)) fois plus fréquent d’observer des données manquantes pour le génotype 3 parmi les individus infectés par une souche virale de génotype 3 que parmi ceux infectés par des souches virales d’autres génotypes.

Dans le cas particulier de cette variable, l’expérience ne permet pas de suggérer fortement une valeur positive ou négative pour , et les résultats sont présentés pour les deux valeurs.

δ wm -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0 .0 0 .1 0 .2 0 .3 0 .4 0 .5

151

• Etape 4 : Diagnostic graphique

La méthode de pondération est applicable seulement pour une analyse de sensibilité ‘locale’, ce qui signifie que les distributions du paramètre d’intérêt obtenues sous les hypothèses MAR et MNAR doivent se chevaucher partiellement, même si elles ont des valeurs moyennes différentes. Ceci ne sera généralement pas vrai pour une analyse de sensibilité "non locale". Pour vérifier si cette condition est respectée pour la valeur de choisie, nous proposons de représenter (i) la distribution des poids normalisés wm en fonction de θˆ , m m=1,...,M , et (ii) la distribution de l’estimateur MNAR en fonction d’un nombre croissant d’imputation. Pour ces deux représentations, si la méthode donne des résultats valides, la distribution de l’estimateur MNAR doit être contenue dans la distribution des θˆ obtenus par imputation multiple sous l’hypothèse m MAR, sans être positionnée aux extrêmes de la distribution MAR.

Pour la variable génotype 3, les résultats de cet examen graphique sont présentés sur la Figure 3.4. La partie gauche de la Figure représente, pour δ =0.15, les poids normalisés selon θˆ pour m chaque base de données imputées (sachant que θˆ est l’estimation du coefficient de régression m obtenu sous l’hypothèse MAR pour chaque base de données imputée). La partie droite de la figure représente l’estimateur MNAR, calculé pour n imputations en fonction du nombre de bases de données imputées noté n,

(

n=10,...,M

)

, et défini comme :

( )

( )

( )

δ θ δ δ θ = = × = n m m m n m m MNAR w w n 1 1 ˆ , ˆ . Par exemple :

( )

δ

( )

δ θ

( )

δ θˆ ,1 w1 ˆ1 w1 NMAR = × ,θˆ

(

δ,2

) (

w1

( )

δ θˆ1 w2

( )

δ θˆ2

)(

w1

( )

δ w2

( )

δ

)

NMAR = × + × + et ainsi de suite.

152

Figure 3.4 – Analyse de la variable genotype 3 pour =0.15

Partie gauche : poids normalisés (wm) selon θˆm (coefficient de régression estimé de genotype 3 pour la base de

données imputées m).

Partie droite : estimateur pondéré, calculé comme la moyenne mobile des θˆMNAR selon le nombre de bases de

données imputées. A l’extrémité droite du graphe est représentée la distribution des 1000 estimations de θˆm, une

pour chaque base de données imputée.

Pour les deux graphes, la ligne pointillée représente θˆMAR (moyenne des

m

θˆ sur les 1000 bases de données

imputées).

Sur le graphe nous observons que (i) l’estimateur MNAR paraît se stabiliser lorsque le nombre d’imputations augmente et que (ii) la distribution de l’estimateur MNAR ne se situe pas dans les valeurs extrêmes de la distribution MAR (représentée par les traits sur la partie droite du graphe).

θ ^ m wm 0.3 0.4 0.5 0.6 0.7 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 0 200 400 600 800 1000 0 .3 0 .4 0 .5 0 .6 0 .7 Number of imputations (n) θ^M N A R ( δ , n )

153

2.5. Résultats

Les résultats des analyses cas-complet et imputation multiple sous l’hypothèse MAR sont présentés dans le Tableau 3.7. Nous présentons également dans ce tableau les résultats de l’analyse de sensibilité pour les trois variables suivantes : génotype 3 du VHC, sérologie VIH et historique de consommation excessive d’alcool.

Pour le génotype 3 du VHC, nous utilisons la valeur de telle qu’elle a été sélectionnée selon la procédure en 4 étapes proposée. Nous appliquons la même approche pour les variables sérologie du VIH et consommation d’alcool. La Figure 3.5 représente les graphes de l’Etape 2 pour ces deux variables.

Figure 3.5 – Poids normalisés (wm) selon pour chaque base de données imputée, pour les variables consommation d’alcool et statut sérologique VIH

L’intervalle retenu pour est [-0.4;0.4] pour l’alcool (partie gauche) et [-0.4;0.7] pour le VIH (partie droite).

Alcohol δ wm -1.0 -0.5 0.0 0.5 1.0 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 HIV δ wm -1.0 -0.5 0.0 0.5 1.0 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0

154

Pour la variable consommation d’alcool, l’Etape 1 montre que la probabilité d’avoir des observations pour cette variable dépend de la variable à expliquer (complications hépatiques graves). L’Etape 2 permet d’identifier une étendue de valeurs de de [-0.4;0.4] (partie gauche de la Figure 3.5). Tenant compte des résultats de l’Etape 1 et des hypothèses épidémiologiques formulées précédemment, nous supposons que la probabilité d’observer la consommation d’alcool est plus faible si cette consommation est excessive et nous choisissons δ =−0.4. L’interprétation de ce choix est que, après ajustement sur les autres covariables, la probabilité d’observer l’historique de consommation d’alcool est réduite d’un facteur 0.7=exp

(

−0.4

)

pour les individus ayant un historique de consommation d’alcool excessive.

Pour la variable co-infection par le VIH, l’Etape 1 montre que la probabilité d’avoir des observations pour cette variable dépend de la variable à expliquer (complications hépatiques graves). L’Etape 2 permet d’identifier une étendue de valeurs pour de [-0.4;0.7] (partie droite de la Figure 3.5). Selon les résultats de l’Etape 1, et sachant que, dans un contexte similaire, la probabilité d’observer une co-infection par le VIH est plus élevée pour les individus positifs pour le VIH, nous retenons δ =0.7. L’interprétation de cette valeur est que, après ajustement sur les autres covariables, la probabilité d’observer une sérologie VIH est augmentée d’un facteur

( )

0.7 exp 0 .

2 = pour les individus positifs pour le VIH.

Pour ces trois variables, on peut considérer le diagnostic exposé en Etape 4 comme acceptable. Les odds ratios ajustés sont présentés dans le Tableau 3.7. Notons que le même modèle multivarié incluant les variables sexe, âge, durée de l’infection par le VHC, consommation excessive d’alcool, génotype du VHC et co-infection par le VIH a été appliqué pour chaque analyse (cas-complet, imputation multiple sous MAR, analyse de sensibilité). L’analyse de sensibilité a été réalisée pour chacune des 3 variables tour à tour.

Deux critères ont été retenus pour interpréter les odds ratios ajustés dans chacune des trois analyses :

(1) Le coefficient de variation (CV) de l’odds ratio qui donne sa mesure de dispersion normalisée. Pour les trois variables, il est nettement réduit après imputation et reste stable après pondération.

155

(2) Le taux de variation (TV) permet d’estimer la variation relative entre l’O ˆRMNAR et l’O ˆRMAR, et est défini par TVAS =100×(ORˆMNARORˆMAR)/ORˆMAR. De la même façon, nous avons défini un taux de variation (TVIM) qui rend compte de la variation relative des odds ratios ajustés obtenus lors des analyses cas-complet et imputation multiple sous l’hypothèse MAR. Le TVIM varie de 9.7% pour le genotype 3 à 15.5% pour la co-infection par le VIH et 22% pour la consommation d’alcool. Le TVAS est calculé pour la valeur de choisie pour chaque variable. Sa valeur est relativement faible pour la consommation d’alcool (1.3%) et pour le génotype 3 (3.5%) mais augmente pour la co-infection par le VIH (6.6%). La Figure 3.6 montre que le TVAS est relativement stable pour des valeurs de variant de [-1;1] pour les variables consommation d’alcool et génotype 3, mais augmente pour la co-infection par le VIH pour des valeurs de supérieures à celle retenue.

Figure 3.6 - Taux de variation selon après analyse de sensibilité (TVSA) pour les variables génotype 3, consommation d’alcool et co-infection par le VIH

Les points noirs correspondent au TVSA calculé pour la valeur de retenue pour chaque variable (génotype 3 : =0.15 ; alcool : =-0.4 ; VIH : =0.7)

-1.0 -0.5 0.0 0.5 1.0 -5 0 5 δ V RS A ( % ) HIV Alcohol Genotype 3 HIV Alcohol Genotype 3

156

Tableau 3.7 - Analyse multivariée de type cas complet, imputation multiple et analyse de sensibilité, pour M = 1000 bases de données imputées

Variables Cas Complet (CC) Imputation multiple (IM) Analyse de sensibilité (AS)

Données ORa SE CV* ORa SE CV* TVIM ORa SE CV* TVAS

Manquantes (IC 95%) (IC 95%) (IM versus CC) (IC 95%) (AS versus IM)

(%) (%) (%) (%) (%) (%) Consommation d'alcool 11.1 2.32 0.39 17 2.82 0.37 13 21.86 -0.40 2.86 0.37 13 1.29 (1.66 - 3.23) (2.18 - 3.66) (2.21 - 3.70) Génotype 3 26.3 1.51 0.24 16 1.66 0.23 14 9.70 0.15 1.60 0.21 13 3.56 (1.10 - 2.07) (1.27 - 2.16) (1.23 - 2.06) Co-infection par le VIH 16.3 1.56 0.41 27 1.80 0.34 19 15.52 0.70 1.91 0.36 19 6.12 (0.92 - 2.62) (1.24 - 2.61) (1.32 - 2.76)

* Coefficient de variation de l’aOR

† Taux de variation exprimant la variation relative entre l’ORa obtenu par analyse de sensibilité et l’ORa après imputation multiple ‡ Taux de variation exprimant la variation relative entre l’ORa obtenu après imputation multiple et l’ORa par analyse cas-complet.

157

2.6. Discussion

En présence de données manquantes, toutes les analyses et estimations correspondantes sont basées sur des hypothèses sur le mécanisme de données manquantes que l’on ne peut tester directement. Des analyses de sensibilité permettant d’explorer la robustesse des estimations selon les différentes hypothèses sont donc essentielles.

Ainsi, des approches ont été proposées afin d’élaborer des modèles prenant en compte des données MNAR selon diverses hypothèses sur les paramètres de modélisation, et de tester l’impact de ces paramètres sur les inférences clés. Van Buuren [2] propose d’adapter la méthode d’imputation par équations chaînées en incorporant dans le processus d’imputation un facteur d’ajustement , générant ainsi plusieurs modèles d’imputation sous l’hypothèse MNAR selon la valeur de retenue. Troxel et al. [117] proposent de créer un "index de sensibilité à un mécanisme MNAR" (index of sensitivity to non-ignorability) calculé à partir des données observées. Si l’impact sur les inférences est modéré, alors l’analyse est robuste à la spécification du mécanisme de données manquantes, et les résultats de l’imputation multiple sont valides. La méthode présentée dans ce travail permet d’appliquer rapidement une analyse de sensibilité afin de tester la robustesse des estimations obtenues par imputation multiple sous l’hypothèse MAR. Cette approche consiste à surpondérer des imputations qui sont alors plus plausibles sous un mécanisme MNAR. En modélisant le mécanisme de données manquantes par une régression logistique, ces poids prennent alors une forme particulièrement simple. Même si l’analyse de sensibilité demeure à un niveau local, elle fournit cependant d’importantes informations sur l’impact des déviations de l’hypothèse MAR sur les estimations, tout en évitant la complexité d’une modélisation du mécanisme de données manquantes (full joint modeling). La pertinence de cette approche a été confirmée par d’autres études [68;116].

Nous avons donc développé et illustré la mise en application de cette approche, et proposé une procédure en 4 étapes afin de sélectionner une valeur pour le paramètre de sensibilité .

Pour la variable génotype 3, l’étape 1 de notre procédure montre que la probabilité d’observer le génotype ne semble pas liée à la variable à expliquer de notre modèle d’intérêt (complications hépatiques graves), après ajustement sur les autres covariables (Tableau 3.6). L’analyse de sensibilité permet à la probabilité d’observer le génotype de dépendre en plus de la valeur du

158

génotype. Le Tableau 3.7 et la Figure 3.6 montrent que les estimations ne sont pas sensibles à cette dépendance. Ainsi, on peut en déduire que cette dépendance MNAR ne modifie pas la relation entre la probabilité d’observer cette variable génotype 3 et la variable à expliquer.

En ce qui concerne la variable consommation d’alcool, nous avons posé l’hypothèse que les patients pouvaient être réticents à déclarer une consommation excessive passée car cette question pouvait être ressentie comme sensible socialement. Cependant, le mode de déclaration de la consommation d’alcool et sa relation avec la consommation réelle observée n’est pas si claire dans la littérature. Ainsi, Pernanen [119] a rapporté des taux de non-réponse plus élevés dans des populations incluant une forte proportion de gros consommateurs d’alcool. Van Oers [120] a observé une sous-déclaration de la consommation d’alcool plus importante chez les femmes que chez les hommes, mais pas spécifiquement parmi les gros consommateurs. Un pourcentage plus élevé de non-consommateurs et de consommateurs excessifs parmi des non-répondants a été rapporté par Knibbe [121], tandis que Lemmens [122] n’a pas mis en évidence une consommation plus importante parmi les non-répondants que parmi les répondants. Finalement, Lahaut [123] a observé des proportions de non-réponse importantes parmi les non-buveurs, et beaucoup moins élevées parmi les buveurs excessifs.

Le fait de rapporter une consommation d’alcool est fortement lié aux caractéristiques sociodémographiques des individus, caractéristiques qui peuvent être incluses dans le modèle d’imputation de façon à réduire le biais de non-réponse. Nous avons seulement pu inclure l’âge et le sexe dans le modèle d’imputation car les autres variables n’étaient pas liées au mécanisme de données manquantes. Notre Etape 1 montre que la probabilité d’observer la consommation d’alcool dépend de la variable à expliquer, après avoir pris en compte les autres covariables. L’analyse de sensibilité permet à cette probabilité de dépendre en plus de la valeur de la consommation d’alcool. Ainsi, on peut en déduire que cette dépendance MNAR ne modifie pas la relation entre la probabilité d’observer cette variable consommation d’alcool et la variable à expliquer.

Pour la variable co-infection avec le VIH, les hépatologues des pôles de référence ont probablement tendance à considérer leurs patients comme étant mono-infectés par le VHC car les patients co-infectés VHC-VIH sont habituellement référés dans les services hospitaliers de maladies infectieuses en France. Par ailleurs, les patients infectés par le VHC auraient dû être testés plus fréquemment pour le VIH depuis la conférence de consensus de 2002 qui spécifie un

159

traitement plus long pour les patients co-infectés [124]. Etonnamment, aucun effet de la période sur le mécanisme de données manquantes n’a été détecté puisque la proportion de données manquantes reste à peu près constante au cours du temps. De plus, lorsque le statut VIH a été mieux rapporté, la proportion de patients négatifs pour le VIH a augmenté. Nous avons donc fait l’hypothèse par défaut que le statut VIH était plus susceptible d’être observé si le statut sérologique était positif, d’où notre choix d’un signe positif pour . L’Etape 1 montre que la probabilité d’observer le statut VIH dépend de la variable à expliquer, après ajustement sur les autres covariables. L’analyse de sensibilité permet à cette probabilité de dépendre en plus du statut VIH. Le Tableau 3.7 et la Figure 3.6 montrent que les résultats sont sensibles à cela. On peut en déduire que, si le mécanisme de données manquantes est MNAR, avec une probabilité plus élevée que le statut VIH soit renseigné pour les patients positifs pour le VIH, alors l’association entre cette variable et la variable à expliquer est en réalité plus forte que ce qui est observé dans l’analyse réalisée sous l’hypothèse MAR.

Conclusion

On peut conclure de l’analyse de ces données que l’analyse de type cas-complet est potentiellement biaisée puisque les données suggèrent une dépendance entre la probabilité d’observer les valeurs et la variable à expliquer, après prise en compte des covariables. Une analyse réalisée par imputation multiple sous l’hypothèse MAR est donc préférable. Notre analyse de sensibilité montre que, pour des déviations locales de l’hypothèse MAR, les estimations pour les variables génotype 3 et consommation d’alcool sont peu affectées, alors que l’impact sur l’odds ratio associé à la variable co-infection par le VIH est sous-estimé si la probabilité d’observer le statut VIH est plus importante lorsque ce statut sérologique est positif.

161

CHAPITRE 4

PROCESSUS D’IMPUTATION MULTIPLE PERENNE :