• Aucun résultat trouvé

TRAITEMENT DES DONNEES MANQUANTES EN EPIDEMIOLOGIE : REVUE DES METHODES

3. Méthodes simples de traitement des données manquantes

3.1. Analyse cas-complet

La méthode d’analyse de bases de données incomplètes la plus répandue consiste à restreindre l’analyse aux individus pour lesquels l’ensemble des variables est entièrement renseigné. Cette méthode, dite analyse cas-complet et appliquée par défaut par la plupart des logiciels d’analyse statistique, a longtemps été considérée comme la manière la plus "propre" de gérer les données manquantes. Mittienen propose ainsi de supprimer de l’analyse tous les sujets pour lesquels des informations sont manquantes, ajoutant que cette approche est la seule qui garantisse qu’aucun biais n’est introduit, et ce quels que soient les mécanismes induisant les données manquantes [7].

Ce sujet a été largement repris dans la littérature et il est à présent établi que l’analyse cas-complet, puisqu’elle n’utilise pas toutes les informations disponibles dans la base de données, induit une perte de puissance et donc de précision. Dans le cas d’une analyse multivariée, ce type d’analyse peut également fausser le processus de sélection des variables puisque celui-ci se fera au profit des variables les mieux renseignées. Enfin, puisque l’analyse cas-complet sélectionne un sous-échantillon de la base de données initiale qui n’est généralement pas aléatoire, elle peut induire des biais dans les estimations en fonction du mécanisme de données manquantes en cause [3].

Selon la proportion et la répartition des données manquantes dans la base de données, il est aisé de prévoir l’étendue de la perte de puissance attendue pour une analyse donnée. Si la répartition des données manquantes est de type aléatoire, et que les variables incluses dans une analyse multivariée sont majoritairement incomplètes avec une proportion d’environ 5 à 10% chacune, la perte d’effectifs dépasse couramment 50%, et peut même empêcher la convergence statistique du modèle souhaité [8;9].

Pour ce qui est des biais attendus pour les estimations en analyse multivariée, la littérature n’est pas toujours claire. Alors qu’il est bien établi qu’une analyse cas complet ne sera pas biaisée si le mécanisme de données manquantes est de type MCAR, il est parfois stipulé que, si les données manquantes sont dues à un mécanisme de type MAR, une analyse cas complet

36

sera systématiquement biaisée [10]. Même si dans un contexte pratique cette assertion sera souvent vérifiée, il est important de la modérer en spécifiant qu’une analyse cas-complet sera non-biaisée pour un mécanisme MCAR, ou MAR ne dépendant pas de la variable à expliquer [11]. Il faut aussi noter que, comme le souligne Allison [12], une analyse cas-complet peut être valide lorsque le mécanisme de données manquantes est de type MNAR, alors que des analyses plus élaborées telles que l’imputation multiple seront biaisées.

En pratique, une analyse cas-complet est justifiée si la proportion de cas incomplets est faible, induisant ainsi une perte de puissance et de précision limitée. En pratique, un seuil de 5% de données manquantes est souvent cité dans la littérature. Il est cependant difficile de formuler des recommandations puisqu’il faut également tenir compte du mécanisme à l’origine des données manquantes et du nombre d’individus dans la base de données.

3.2. Analyse de tous les cas disponibles

3.2.1. Création d’une catégorie additionnelle

Une approche alternative à l’analyse cas complet, souvent utilisée en épidémiologie lorsque les variables incluses dans l’analyse sont binaires ou catégorielles, consiste à créer une catégorie additionnelle en remplaçant toutes les données manquantes par une valeur fixe. Cette approche présente l’avantage de conserver l’intégralité des effectifs. Elle est peu discutée dans la littérature, mais Vach et Blettner [1;4] ont démontré à partir d’un exemple simple qu’elle produit toujours des estimations biaisées, et ce quelle que soit la typologie des données manquantes, c'est-à-dire même lorsque les données sont MCAR.

Par ailleurs, d’un point de vue épidémiologique, les estimations produites sont difficilement interprétables puisque la catégorie additionnelle peut regrouper des modalités très différentes de la variable ainsi recodée. Cette méthode ne peut donc être considérée comme valide que dans des cas de figures très particuliers tels que l’utilisation des scores de démence en psychiatrie: les résultats d’un test sont manquants car les patients ne le comprennent pas et la catégorie données manquantes est alors très prédictive du diagnostic [13]. Cette approche reste donc à proscrire en dehors de cas très particuliers.

37

3.2.2. Indicateur de donnée manquante

Une autre méthode consiste à remplacer dans le modèle d’analyse chaque variable incomplète

i

X par une paire de variables. Il s’agit d’associer une variable indicatrice de réponse Ri, codée 1 si la valeur est manquante et 0 sinon, à une variable *

i

X égale à Xi si celle-ci est connue, et égale à 0 sinon. Pour une variable continue, Xi peut prendre pour valeur la moyenne des valeurs observées. L’analyse peut alors porter sur l’intégralité de la base de données en remplaçant Xi par le couple Xi*Ri. Notons que, dans le cas d’une variable catégorielle, la méthode est identique à l’ajout d’une catégorie supplémentaire. Au final, même si cette méthode présente l’avantage de conserver l’intégralité de la base de données, elle peut induire des biais pour les estimations quel que soit le mécanisme de données manquantes [11].

3.3. Imputation simple

L’imputation simple consiste à remplacer chaque donnée manquante par une estimation (et une seule) de sa valeur et à analyser la base de données ainsi complétée. D’un point de vue statistique, cette procédure de remplacement peut être stochastique ou déterministe, selon qu’elle implique ou non le tirage d’un nombre aléatoire.

Pour les méthodes déterministes, sous l’hypothèse MCAR, les valeurs manquantes peuvent être remplacées par la valeur moyenne des valeurs observées auprès des sujets ayant des données complètes. Sous l’hypothèse MAR, il est fréquent de remplacer les données manquantes par la moyenne des valeurs observées sur les sujets ayant les mêmes caractéristiques ou par la valeur prédite en fonction des covariables à l’aide d’un modèle de régression estimé sur l’échantillon complet [12].

Pour la méthode stochastique la plus simple, la valeur de remplacement est issue d’un tirage aléatoire à partir des réponses complètes. Le choix de cette valeur peut également être effectué par tirage aléatoire parmi les sujets ayant la même probabilité de non-réponse pour la variable à estimer [14;15]. Les modalités de tirage aléatoire peuvent être plus ou moins complexes. Ainsi, des échantillonnages de type bootstrap ou jacknife sont choisis pour des méthodes d’estimation conditionnelle élaborées [16].

38

Les méthodes déterministes produisent des estimateurs biaisés si les données ne sont pas MCAR. Si le modèle d’imputation est correct et que les données sont MAR, les paramètres estimés à partir des données complétées sont non biaisés. Cependant, ces méthodes d’imputation simple induisent systématiquement une sous estimation de la variance car l’incertitude liée à la présence de valeurs estimées n’est pas prise en compte par les logiciels standards [17].