• Aucun résultat trouvé

ETUDE TRANSVERSALE DANS UN SYSTEME DE SURVEILLANCE DE L’HEPATITE C

1. Analyse étiologique des facteurs de risque de complications hépatiques graves

1.3. Construction et validation du modèle d’imputation

1.3.3. Analyse des bases de données imputées

Les 30 bases de données imputées sont analysées automatiquement de façon séparée puis combinée selon les règles de Rubin. Le modèle utilisé pour les analyses cas-complet et après imputation multiple est un modèle de régression logistique incluant les 6 variables binaires complétées ainsi que le sexe et l’âge en deux catégories ( 40 ans, >40 ans). Pour les deux analyses, une stratégie d’analyse manuelle pas à pas descendante a été menée. La sélection des

135

variables a été effectuée par des tests de rapport de vraisemblances sur modèles emboités pour l’analyse cas-complet. Une stratégie différente a été utilisée pour l’analyse après imputation, puisque la vraisemblance est une statistique qui ne peut être combinée sur toutes les bases imputées [28]. De ce fait, la sélection des variables a été basée sur un test des coefficients de régression. Après imputation multiple, le test de Wald est approximé par un test de Student dont le nombre de degrés de liberté dépend des variances inter et intra-imputation et du nombre de bases.

1.3.4. Diagnostic de l’imputation

• Comparaisons des données observées et imputées

Le Tableau 3.3 présente, pour chaque variable imputée, les proportions observées et estimées. Les résultats issus des deux bases de données sont proches, puisque les proportions observées de chaque variable appartiennent à l’intervalle de confiance à 95% des proportions estimées. Cet examen a été effectué pour les différents modèles d’imputation testés et les proportions estimées ne différent pas significativement selon les modèles. De ce fait, le choix du modèle le plus simple contenant 10 variables apparaît justifié.

Tableau 3.3 – Comparaison des proportions observées et imputées Durée de la

maladie

Délai de prise en charge

Consommation

d'alcool Sérologie VIH Sérologie VHB Genotype3

( 18 ans) ( 1an) (excessive) (positive) (aghbs+) (positif)

Observé (%) 53.95 55.6 47.82 8.09 2.43 34.91

Estimé (%) 52.20 58.3 46.12 8.19 2.76 35.20

IC 95% 46.4-58.0 51.3-65.0 38.1-54.2 5.1-11.3 0.7-4.9 31.1-39.3

• Choix du nombre de bases

L’efficacité statistique obtenue avec l’imputation de 30 bases de données est supérieure à 99% pour toutes les variables, ce qui signifie que l’on observe une perte d’efficacité statistique inférieure à 1% par rapport à un nombre infini d’imputations. Des outils de diagnostic plus élaborés tels que l’examen de l’erreur de Monte-Carlo n’ont pas été appliqués à cette analyse, mais ils sont illustrés dans le chapitre 4, dans un cas de figure plus complexe.

136

1.4. Résultats et discussion

Le Tableau 3.4 présente les résultats comparés des deux analyses cas-complet et imputation multiple.

• Interprétation des résultats

Les variables retenues dans les modèles finaux des deux analyses différent : la variable co-infection avec le VIH a été retenue après imputation alors que c’est la variable co-co-infection avec le VHB qui apparaît dans le modèle cas-complet. D’un point de vue épidémiologique et statistique, la co-infection avec le VIH apparaît plus justifiée comme facteur de risque de complications hépatiques. En effet, le nombre de cas de co-infections avec le VIH est de l’ordre de 8.1% (294 cas) versus 2.4% (89 cas) pour la co-infection avec le VHB. Même si la proportion de données manquantes est proche pour ces deux variables (16.3% versus 15.7%), la perte d’effectifs cumulés due aux données manquantes des 6 variables incomplètes a affecté davantage la variable co-infection par le VIH (c'est-à-dire que l’effectif global est plus faible pour le modèle multivarié incluant la co-infection avec le VIH). Le processus de sélection des variables a donc été faussé en faveur de la co-infection par le VHB. Il faut noter que la variable génotype 3, qui est en limite de significativité dans le modèle cas-complet final (p=0.05), apparaît nettement significative après imputation multiple (p=0.003). De plus, la variable génotype 3 n’était pas retenue lors d’une analyse cas-complet antérieure portant sur une période de surveillance plus restreinte (2001-2004, 3153 patients).

137

Tableau 3.4 – Analyse par régression logistique multivariée en cas-complet et par imputation multiple des facteurs de risques associés à des complications hépatiques graves

Analyse multivariée

Cas Complet Imputation Multiple (N*=2130) (N*=4343) Variables Patients (N=4343) Complications hépatiques (%) Données manquantes (%)

ORa (IC 95%) ORa (IC 95%)

Période d'inclusion 2001-2003 2330 7.0 2004-2007 2013 9.5 † NS † NS Sexe femmes 993 4.2 1.0 1.0 hommes 3350 9.3 1.8 (1.1-3.0) 2.0 (1.4-2.9) Age 40 ans 2435 3.9 1.0 1.0 >40 ans 1908 13.6 2.2(1.5-3.3) 2.3 (1.7-3.1)

Délai de prise en charge

<1an 1728 6.7 1an 2163 8.7 † NS † NS manquant 452 11.5 10.4 Durée de l'infection VHC <18 ans 1709 3.0 1.0 1.0 18 ans 2002 12.5 3.1 (2.0-5.1) 2.6 (1.8-3.7) manquant 632 8.2 14.6

Historique de consommation excessive d'alcool

non 2015 4.5 1.0 1.0 oui 1847 13.2 2.6 (1.8-3.7) 2.8 (2.2-3.7) manquant 481 4.4 11.1 Statut AgHBs négatif 3570 8.3 1.0 positif 89 13.5 2.4 (1.0-5.9) † NS manquant 684 6.7 15.7

Satut sérologique VIH

négatif 3342 8.2 1.0 positif 294 14.0 † NS 1.8 (1.2-2.6) manquant 707 5.7 16.3 VHC génotype 3 non 2083 7.2 1.0 1.0 oui 1117 10.3 1.5 (1.1-2.0) 1.6 (1.3-2.1) manquant 1143 7.8 26.3

* Nombre d’individus pris en compte dans le calcul des ORa dans le modèle final † Odds ratio non significatif

138

Afin de pouvoir comparer les résultats des analyses cas-complet et imputation multiple, le même modèle incluant les 5 variables communes aux deux analyses a été appliqué aux deux bases de données (initiale et imputée). Les résultats sont présentés dans le Tableau 3.5. Les odds-ratios ajustés (ORa) ne diffèrent pas significativement entre les deux analyses puisque les ORa en analyse cas-complet appartiennent aux intervalles de confiance à 95% des ORa après imputation. Les écarts-types sont globalement réduits après imputation, puisque les effectifs sont restaurés par l’imputation (2265 à 4343), et ce malgré la prise en compte dans le calcul de la variance de la variabilité entre les bases imputées. Paradoxalement, la baisse d’écart type la plus marquée concerne une variable complète, l’âge, alors que pour la variable génotype 3 contenant une forte proportion de données manquantes, l’écart-type reste très stable entre les deux analyses. Lors de l’analyse cas-complet, les données manquantes ont induit une perte importante d’effectifs, de près de 50%, qui affecte proportionnellement davantage les variables originellement complètes comme l’âge, variable pour laquelle les effectifs varient donc beaucoup entre les deux analyses. Cet argument explique la réduction marquée d’écart-type pour l’âge, essentiellement due à une élévation artificielle de la valeur de l’écart-type en analyse cas-complet. Inversement, la variable genotype 3 induit la majorité des données manquantes en analyse cas-complet, et la valeur de son écart-type varie peu entre les deux analyses.

Tableau 3.5 – Résultats comparés de l’analyse multivariée (modèle final à 5 variables), analyse cas-complet et imputation multiple

Cas Complet (N*=2465) Imputation Multiple (N*=4343)

ORa (SE/OR)100 ORa (SE/OR)100

(IC 95%) SE (%) (IC 95%) SE (%)

Sexe 1.93 0.44 22.5 1.94 0.34 17.4

(1.24 - 3.01) (1.38 - 2.73)

Age 2.44 0.47 19.4 2.28 0.34 15.0

(1.67 - 3.57) (1.70 - 3.06) Durée de l'infection par le

VHC 2.83 0.64 22.6 2.65 0.49 18.5 (1.82 - 4.41) (1.84 - 3.81) Consommation d'alcool 2.54 0.41 16.2 2.78 0.37 13.3 (1.85 - 3.48) (2.14 - 3.60) Génotype 3 1.50 0.23 15.2 1.62 0.22 13.7 (1.11 - 2.02) (1.23 - 2.12)

* Nombre d’individus pris en compte dans le calcul des OR du modèle final † Coefficient de variation associé à l’ORa

139

Ces résultats sont issus d’une imputation multiple utilisant un modèle simple, c’est à dire n’incluant pas de variables auxiliaires. Des modèles d’imputation plus complexes, incluant des variables auxiliaires et/ou des termes d’interaction (par exemple entre âge et durée de la maladie), n’ont pas apporté de changements dans les estimations. Comme pour toute procédure d’imputation, l’hypothèse MAR doit être discutée, ce qui sera fait dans la deuxième partie de cette étude.

• Discussion épidémiologique

Les données ont été collectées pour un sous-échantillon d’usagers de drogues au sein d’un système de surveillance. Le type d’étude correspond donc à une enquête transversale et il est délicat d’identifier des facteurs de risque de complications hépatiques graves au moyen d’une analyse étiologique. Cependant, bien que les variables d’exposition aient été renseignées en même temps que la variable d’intérêt (complications hépatiques graves), la plupart de ces variables reflètent des expositions antérieures à l’issue de la maladie hépatique.

Les résultats de l’analyse étiologique après imputation multiple montrent que les variables suivantes sont significativement associées à des complications hépatiques graves chez les patients nouvellement diagnostiqués : sexe masculin, âge >40 ans, durée de l’infection 18ans, historique de consommation excessive d’alcool, co-infection par le VIH et infection par le VHC de génotype 3. A l’exclusion de la variable génotype 3, tous ces facteurs ont déjà été identifiés comme facteurs associés avec une fibrose hépatique [106].

De nombreuses études ont montré qu’une consommation excessive passée ou actuelle d’alcool était associée à une évolution plus rapide de la fibrose hépatique chez les patients porteurs du VHC [103;106]. Par ailleurs, l’infection par le VIH est connue pour modifier l’histoire naturelle de la maladie en accélérant la progression de la fibrose hépatique, que ce soit avant ou depuis l’avènement des traitements antirétroviraux [107]. Une étude a montré une association entre une infection par un virus de l’hépatite C de génotype 3 et une fibrose hépatique avancée chez des patients co-infectés par le VIH [108]. Par ailleurs, le portage du génotype 3, qui est le génotype de l’hépatite C le plus répandu parmi les usagers de drogue (>30%), a pu être lié à une stéatose hépatique et a également émergé comme un co-facteur de risque de progression de fibrose hépatique [109].

140

Ces trois facteurs de risque ont déjà été identifiés parmi les usagers de drogues. Ils doivent être pris en compte de façon à optimiser la prise en charge des patients ayant été soumis à ces expositions. L’identification du portage d’un virus de génotype 3 comme facteur de risque de fibrose hépatique est récente [109], et a été renforcée par ce travail.

• Hypothèse MAR

La validité des résultats de l’imputation multiple repose, lors de l’utilisation de logiciels standards, sur l’hypothèse que le mécanisme de données manquantes est de type MAR.

La co-infection par le VIH et l’infection par le VHC de génotype 3 ont été identifiés comme facteurs de risque de fibrose hépatique après estimation des données manquantes par imputation multiple. La consommation excessive d’alcool est un facteur de risque bien établi de fibrose, mais sa déclaration peut être considérée comme sensible.

Même si les résultats des analyses cas-complet et imputation multiple sont proches, ce qui peut laisser supposer que les deux analyses sont valides (car non-biaisées), il parait important de tester la robustesse des résultats pour ces trois variables clés. De ce fait, une analyse de sensibilité par pondération, basée sur une approche proposée par Carpenter et al., a été appliquée à ces trois facteurs de risque.