• Aucun résultat trouvé

Approches factorielles pour l’analyse exploratoire

Dans le document TH `ESE TH `ESE (Page 89-92)

statistiques : une revue des approches existantes

4.4 Imputation simple

4.4.4 Approches factorielles pour l’analyse exploratoire

a la valeur r´eelle non observ´ees, et pas l’inf´erence statistique qui pourraient ˆetre pratiqu´ees sur le tableau de donn´ees imput´ees) et d´ecoulent directement des garanties th´eoriques connues pour les diverses m´ethodes de r´egression utilis´ees.

Conclusion et recommandations:

Avantages : permettent d’obtenir un jeu de donn´ees complet sur lequel n’importe quelle analyse statistique peut ˆetre pratiqu´ee ; flexibles (large choix d’approches de r´egression) ;

D´esavantages : principalement valables dans le cas MAR ; requi`erent une bonne sp´ecification de la m´ethode de r´egression ; requi`erent une bonne pr´edictibilit´e des variables ayant des valeurs manquantes par les autres variables ; cadre th´eorique li´e `a l’erreur quadratique sur la valeur imput´ee (et non aux r´esultats de l’analyse statistique pratiqu´ee).

4.4.4 Approches factorielles pour l’analyse exploratoire

Il est important de souligner qu’un grand nombre de travaux ´etudiant le traitement des donn´ees manquantes se placent dans un cadre inf´erentiel (c’est le cas, par exemple, de l’ouvrage de r´ef´erence de [133]). Ceux-ci peuvent ne pas ˆetre bien adapt´es `a un cadre exploratoire comme l’analyse de donn´ees, dans lequel des crit`eres g´eom´etriques sont pri-vil´egi´es par rapport aux hypoth`eses de nature probabilistes. Parmi les analyses exploratoires, l’Analyse en Composantes Principales (ACP) tient une place importante et son extension en pr´esence de valeurs manquantes a ´et´e largement ´etudi´ee ([115] et [106]). De nombreux probl`emes sont soulign´es pour la pratique de l’ACP en pr´esence de manquants : difficult´e pour le centrage et la r´eduction des variables, non unicit´e de la solution de minimisation de la fonction de coˆut classique en ACP, extension non triviale de la notion de base de l’ACP, ...

Dans l’´etude de l’ACP en pr´esence de valeurs manquantes, deux objectifs compl´ementaires sont vis´es : celui de la r´ealisation d’une ACP en pr´esence de valeurs manquantes et celui de l’utilisation de l’ACP pour imputer des valeurs manquantes. Dans le cadre d’´etudes de simulations o`u des donn´ees manquantes sont produites de mani`ere artificielle pour ´evaluer la qualit´e des algorithmes (sur-imputation ; voir section4.5.1), ces deux objectifs sont ´evalu´es par des m´etriques de performance diff´erentes [115] : coefficient RV [75] entre les coordonn´ees des individus sur les donn´ees compl`etes par rapport aux coor-donn´ees produites par les approches d’ACP adapt´ees, d’une part, et erreur de reconstitution entre valeurs initiales et valeurs imput´ees, d’autre part.

4.4 Imputation simple 89

De nombreuses variantes des methodes de prises en compte des valeurs manquantes dans l’ACP ont ´et´e propos´ees dont les principales sont :

Nonlinear Iterative Partial Least Squares (NIPALS) [234]. Le principe de cette m´ethode est aussi `a la base de la r´egression PLS (Partial Least Squares; [209]). Il permet de r´ealiser une ACP avec donn´ees manquantes sans supprimer les individusi pour lesquelles une valeuryijest manquante et sans imputer les valeurs manquantes.

En ce sens, la m´ethode se rapproche des m´ethodes fond´ees sur l’analyse des cas disponibles, d´ecrites dans la section4.2.2, mais elle peut, en outre, ˆetre utilis´ee comme base pour l’imputation des valeurs manquantes.

De mani`ere plus pr´ecise, si on suppose les variables(Y1, ..., Yp)centr´ees, l’algorithme NIPALS utilise la formule de d´ecomposition de l’ACP suivante :

Y'

d

X

h=1

thρ>h

o`udpest la dimension de projection permettant d’obtenir unebonne recons-titution des donn´ees et{th}h=1,...,d⊂Rnet{ρh}h=1,...,d⊂Rpsont, respectivement, les composantes principales et les vecteurs directeurs des axes principaux de l’ACP.

Ceci implique que les observations de la variable Yj peuvent s’´ecrire comme une r´egression lin´eaire sur les composantes(th)h :Yj =Pd

h=1ρhjth(et respectivement pour l’individuiqui peut ˆetre ´ecrit comme une r´egression sur les axes principaux).

L’algorithme NIPALS utilise cette remarque et estime, de mani`ere it´erative et jusqu’`a convergence, les(ρh)het les(th)hpar r´egressions successives sur les valeurs observ´ees, en initialisant les composantes principales, par exemple, `a une colonne deY. Contrai-rement `a l’approche standard de l’ACP o`u les axes sont d´etermin´es simultan´ement par d´ecomposition spectrale, l’approche NIPALS calcule les axes successivement en utilisant une ´etape de d´eflation.

Une fois les(th)h=1,...,det les(ρh)h=1,...,destim´es, il est possible de proposer une esti-mation des valeurs manquantes en utilisant la formule de reconstitution des individus :

ybij =

d

X

h=1

thiρhj. (4.4)

En pratique, l’approche NIPALS fournit des solutions raisonnables lorsque le taux de manquant est faible mais elle souffre de plusieurs d´esavantages. Le premier est que lorsqu’une proportion importante de valeurs sont manquantes, la proc´edure it´erative de NIPALS propage les erreurs d’axe en axe et sa convergence n’est pas garantie. Par ailleurs, si l’ACP est pratiqu´ee sur les donn´ees centr´ees et r´eduites, NIPALS ne peut r´ealiser une mise `a jour de l’´ecart-type des variables (`a cause de la d´eflation) et produit donc un r´esultat qui ne correspond pas `a une ACP r´eduite. Enfin, les axes obtenus ne sont pas n´ecessairement orthogonaux et le crit`ere classique de minimisation de l’erreur de reconstitution de l’ACP,

n’est pas minimis´e par la proc´edure s´equentielle.

90 Chapitre 4 D ´ecrire, prendre en compte, imputer et ´evaluer les valeurs manquantes dans les ´etudes

ACP it´erative[120]. L’ACP it´erative est une approche it´erative qui vise `a minimiser l’erreur de reconstitution de l’ACP (´equation (4.5)). L’initialisation de la m´ethode attribue une valeur arbitraire aux donn´ees manquantes (souvent la moyenne de la variable consid´er´ee). Une ACP est ensuite effectu´ee sur ce jeu de donn´ees rendu com-plet et les donn´ees initialement manquantes sont alors mises `a jour via la formule de reconstitution de l’´equation (4.4). Les deux ´etapes d’estimation de l’ACP et d’imputa-tion sont r´ep´et´ees jusqu’`a convergence, [120] montrant que la proc´edure converge n´ecessairement, ´eventuellement vers un minimum local.

En raison de l’alternance des ´etapes d’estimation et d’imputation, similaires aux ´etapes ExpectationetMaximizationdes algorithmes EM, l’ACP it´erative est souvent appel´ee ACP-EM. En effet, l’ACP peut ˆetre vue comme un mod`ele statistique dans lequel les donn´ees ont une structure dans un espace `a faible dimension (d) et sont corrompues par un bruit [40]. Cette formulation se r´e-´ecrit sous la forme d’un mod`ele `a effet fixe [43] que [115] utilisent pour montrer que l’ACP it´erative peut effectivement ˆetre vue exacte-ment comme un algorithme EM et b´en´eficie donc des propri´et´es et des caract´eristiques de ces approches.

Toutefois, l’approche souffre d’un probl`eme de sur-ajustement aux donn´ees, parti-culi`erement dans les cas de grande dimension (p > n) [115]. Aussi, pour pallier le probl`eme du sur-ajustement, la version r´egularis´ee de l’ACP it´erative lui est pr´ef´er´ee.

La r´egularisation peut ˆetre effectu´ee en choisissant une dimension r´eduite,dp, pour la reconstitution ou bien en ajoutant un terme de p´enalit´e en norme`2(ridge) lors de l’´etape d’imputation. [219] montrent que l’ACP r´egularis´eeridgepeut ˆetre vue comme une extension de l’´equation (4.6) au mod`ele mixte

yi=Rti+i, (4.7)

o`uRest une matrice de dimensionp×d,ti ∼ N(0,Id)eti ∼ N(0, σ2)(i.i.d.). Ce mod`ele, connu sous le nom d’ACP probabiliste, est propos´e initialement dans [213].

ACP bay´esienne([106] et [219]). Diverses approches bay´esiennes sont propos´ees dans la litt´erature pour l’ACP, fond´ees sur le mod`ele `a effets fixes de l’´equation (4.6) ou le mod`ele d’ACP probabiliste de l’´equation (4.7). En particulier, [219] montrent que l’ACP probabiliste peut ˆetre vue comme un traitement bay´esien des effets fixes du mod`ele de l’´equation (4.6) ou bien comme un traitement bay´esien direct des effets fixes avec le mod`ele

est de dimensionn×d. [106] proposent d’autresa priori bay´esiens et font le lien entre diverses variantes de l’ACP probabiliste. Ils proposent

´

egalement des versions rapides de l’estimation, utilisant des approches en ligne ou des approximations variationnelles, qui montrent des r´esultats encourageants sur les donn´ees de la comp´etition Netflix (2007) (qui consiste `a compl´eter un tableau de notes

4.4 Imputation simple 91

dep= 17 770films ´evalu´es parn= 480 189spectateurs et contenant plus de 98% des donn´ees manquantes).

Enfin, comme beaucoup de m´ethodes d’analyse factorielle s’apparentent `a l’ACP, il est possible d’´etendre l’imputation par ACP `a celles-ci. Ainsi, une m´ethode d’imputation fond´ee sur l’Analyse des Correspondances Multiples (ACM), propos´ee par [14], permet de g´erer l’imputation de variables cat´egorielles et une m´ethode fond´ee sur l’Analyse Factorielle Multiple (AFM), propos´ee par [116], permet de prendre en compte la structuration d’un jeu de donn´ees en blocs de variables. De mˆeme, une m´ethode fond´ee sur l’Analyse Factorielle des Donn´ees Mixtes (AFDM) de [13] permet d’imputer des donn´ees mixtes (cat´egorielles et num´eriques). Les approches d’ACP en pr´esence de valeurs manquantes ont ´egalement

´

et´e ´etendues au cadre de l’imputation multiple (voir section4.5.2) par [113] pour l’ACP it´erative et [15] pour l’ACP bay´esienne.

Les m´ethodes factorielles qui prennent en compte les valeurs manquantes sont impl´ement´ees dans plusieurs packagesRdont les principaux sont :

ade4[46] qui permet l’analyse exploratoire de donn´ees ´ecologiques et environnemen-tales et propose une impl´ementation de NIPALS ;

missMDA[116] qui propose des impl´ementations de plusieurs m´ethodes d’analyse factorielle en pr´esence de valeurs manquantes ;

mixOmics[129] qui propose des m´ethodes d’analyses multivari´ees pour l’exploration et l’int´egration de donn´ees biologiques (en particulier les donn´ees ’omiques) et impute les valeurs manquantes avec l’approche NIPALS ;

pcaMethods[200] qui est un package Bioconductor19qui propose de nombreuses m´ethodes d’ACP en pr´esence de valeurs manquantes (dont NIPALS, les m´ethodes d’ACP probabiliste et d’ACP bay´esienne) ainsi que des outils pour la validation crois´ee et la visualisation des r´esultats.

Conclusion et recommandations:

Avantages: bien adapt´ees `a l’analyse exploratoire ; garanties th´eoriques fond´ees sur les mod`eles `a effets fixes ou mixtes ; variantes adapt´ees `a la grande dimension et au grand volume ;

D´esavantages: cadre th´eorique restreint aux mod`eles de g´en´eration des donn´ees fond´es sur les mod`eles `a effets fixes ou mixtes d´ecrits plus haut : mˆemes limitations que celles d´ecrites dans la section4.3.

Dans le document TH `ESE TH `ESE (Page 89-92)