• Aucun résultat trouvé

4.4 Imputation simple

4.4.5 Conclusions sur l’imputation simple

Dans cette section, nous avons pr´esent´e les principales m´ethodes d’imputation simple, en les cat´egorisant en trois grandes familles : compl´etion stationnaire, imputation fond´ee sur des similarit´es entre individus et m´ethodes de pr´ediction. Dans le cadre particulier des analyses factorielles, nous avons aussi pr´esent´e les approches d´evelopp´ees sp´ecifiquement pour ces cas-ci.

La compl´etion stationnaire est probablement l’approche la plus simple et la plus rapide. Pour ces raisons, elle peut apparaˆıtre comme tr`es attractive. Cependant, mˆeme pour des taux de manquants relativement faibles, cette approche n’est pas recommand´ee car elle ignore

19. https://www.bioconductor.org

les relations de corr´elation entre variables et entre individus, elle sous-estime fortement la variabilit´e des variables imput´ees et en d´eforme leurs distributions.

Les m´ethodes qui utilisent une information de ressemblance entre individus (comme les approches hot-deck) sont particuli`erement bien appropri´ees dans le cas de donn´ees discr`etes (cat´egorielles ou num´eriques discr`etes). D’une mani`ere g´en´erale, toutefois, si elles pr´eservent la distribution univari´ee des donn´ees, elles tendent `a fortement d´eformer les corr´elations entre variables. Dans le cas o`u le jeu de donn´ees contient des individus avec un grand nombre de valeurs manquantes, des individus entiers peuvent ˆetre utilis´es pour imputer toutes les valeurs manquantes comme le sugg`erent [226]. Dans ce cas, elles permettent de mieux conserver les relations de corr´elation entre variables et sont donc bien adapt´ees au cas o`u des analyses factorielles ou une inf´erence de r´eseaux sont r´ealis´ees apr`es l’imputation comme dans [107]. Toutefois, elles n´ecessitent de pouvoir obtenir une mesure de ressemblance ou une distance entre individus, ce qui peut ˆetre r´ealis´e par l’utilisation de covariables compl`etement observ´ee. Le choix de la distance et la n´ecessit´e d’avoir des donn´ees permettant de la calculer sont donc ´egalement deux limitations de la m´ethode.

Les approches d’imputation qui utilisent des m´ethodes de r´egression ou une mod´elisation jointe (comme les approches param´etriques multivari´ees de la section4.3ou les approches factorielles) sont g´en´eralement mieux adapt´ees pour la mod´elisation de la loi jointe des va- riables. Elles sont plus difficiles `a mettre en œuvre, en g´en´eral, que les approches pr´ec´edentes, n´ecessitent la d´efinition correcte d’un mod`ele de loi jointe des donn´ees ou d’une m´ethode de r´egression dont la qualit´e de l’analyse d´epend fortement. Dans le cas d’approches pa- ram´etriques, il est parfois possible d’obtenir une estimation de la variabilit´e du param`etre de la loi (voir section4.5.3) et elles fournissent donc, par ce biais, une information sur l’incertitude li´ee `a l’imputation.

N´eanmoins, au sein d’un mˆeme jeu de donn´ees, il peut s’av´erer utile d’utiliser une combinaison d’approches pour s’adapter au mieux aux sp´ecificit´es de chaque variable ou chaque individu contenant des valeurs manquantes. La d´emarche standard consiste `a com- mencer par une analyse exploratoire des valeurs manquantes puis, selon la distribution de celles-ci par variable et par individu, et les corr´elations connues entre variables, `a supprimer les variables et individus ayant un fort taux de manquants (s’ils sont peu nombreux) puis `

a combiner diverses m´ethodes d’imputation (par pr´ediction, par hot-deck, etc) selon la variable ou l’individu `a imputer. Le packagesimputation permet de g´erer facilement ce type d’approches en proposant une collection de m´ethodes standard pour l’analyse exploratoire des donn´ees manquantes et leur imputation. Enfin, il est recommand´e de chercher `a estimer l’incidence de l’imputation sur les analyses pratiqu´ees a posteriori, par exemple en estimant l’incertitude li´ee `a l’imputation (voir section4.5). Des conseils pratiques d´etaill´es sont fournis sur le site d´ecrivant les grandes lignes directrices en mati`ere de qualit´e dans le traitement des enquˆetes de l’organisme publicStatistique Canada20ainsi que par [77].

Enfin, l’imputation doit parfois ˆetre adapt´ee aux particularit´es du jeu de donn´ees. Par exemple, une approche pour l’imputation de variables ordinales est propos´ee dans [79]. Celle-ci alterne une ACP non lin´eaire et une imputation par kNN et est impl´ement´ee dans le packageForImp. ´Egalement, l’imputation de s´eries chronologiques peut ˆetre pratiqu´ee en tenant compte de la tendance observ´ee au cours du temps avec des approches par interpolation, par ajustement d’une courbe de lissage ou par estimation d’un mod`ele de r´egression longitudinale (ARIMA, par exemple, voir [122]). Les m´ethodes les plus courantes d’imputation de s´eries temporelles sont impl´ement´ees dans le packageimputeTS [153]

20. https://www.statcan.gc.ca/pub/12-539-x/2009001/imputation-fra.htm

qui, `a ce jour, est l’unique package d’imputation de donn´ees uniquement d´edi´e aux s´eries temporelles. D’autres packages dont zoo [241] et forecast incluent aussi des m´ethodes d’imputation pour les s´eries temporelles qui sont relativement sophistiqu´ees. ´Egalement, les packagesspacetime [160], timeSeries et xts incluent des approches plus basiques pour l’imputation de s´eries temporelles. Une comparaison des diverses m´ethodes d’imputation de s´eries temporelles est effectu´ee dans [154] qui montrent que les m´ethodes d’imputation les plus efficaces pour ce type de donn´ees sont fond´ees sur une prise en compte de la saisonnalit´e de la s´erie temporelle.