Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Imputation de données manquantes pour des données mixtes via les méthodes factorielles grâce à missMDA

Partager "Imputation de données manquantes pour des données mixtes via les méthodes factorielles grâce à missMDA"

N/A

N/A

Protected

Année scolaire: 2021

Info

Protected

Academic year: 2021

Partager "Imputation de données manquantes pour des données mixtes via les méthodes factorielles grâce à missMDA"

Copied!

3

0

0

3

0

0

Chargement.... (Voir le texte intégral maintenant)

Télécharger maintenant ( 3 Page )

Texte intégral

(1)

HAL Id: hal-00716876

https://hal.archives-ouvertes.fr/hal-00716876

Submitted on 11 Jul 2012

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Imputation de données manquantes pour des données mixtes via les méthodes factorielles grâce à missMDA

Vincent Audigier, François Husson, Julie Josse

To cite this version:

Vincent Audigier, François Husson, Julie Josse. Imputation de données manquantes pour des données mixtes via les méthodes factorielles grâce à missMDA. 1ères Rencontres R, Jul 2012, Bordeaux, France.

�hal-00716876�

(2)

Imputation de données manquantes pour des données mixtes via les méthodes factorielles grâce à missMDA

Vincent Audigier, Francois Husson, Julie Josse

Département de mathématiques appliquées, Agrocampus, Rennes, France

?

Contact author : julie.josse@agrocampus-ouest.fr

Keywords: Imputation simple, Données mixtes, Données manquantes, Méthodes factorielles, ACP, ACM

Cette présentation a pour objet une nouvelle méthode d’imputation simple de données mixtes. L’objectif est alors de compléter des tableaux comprenant à la fois des variables quantitatives et qualitatives. L’imputation repose ici sur l’utilisation de méthodes factorielles.

Toutes les méthodes d’analyse factorielle peuvent s’écrire comme une ACP (Analyse en Composantes Prin- cipales) ou une décomposition en valeurs singulières d’un tableau de données particulier. L’ACP est donc au cœur de ces méthodes. L’approche classique pour gérer les données manquantes en ACP consiste à mini- miser la fonction de coût (l’erreur de reconstitution) sur tous les éléments présents. Ceci peut être effectué à travers un algorithme d’ACP itérative (aussi appelé expectation maximisation PCA, EM-PCA) décrit dans Kiers (1997). Celui-ci consiste à attribuer une valeur initiale aux données manquantes, effectuer l’analyse (ACP) sur le jeu rendu complet, compléter les données manquantes via la formule de reconstitution pour un nombre d’axes fixé, et recommencer ces deux étapes jusqu’à convergence. Les paramètres (axes et com- posantes) ainsi que les données manquantes sont de cette manière simultanément estimés. Par conséquent cet algorithme peut être vu comme une méthode d’imputation simple. Il souffre cependant d’un problème de surajustement. En conséquence une version régularisée de cet algorithme doit être utilisée (Josse et al., 2009; Ilin and Raiko, 2010) afin de répondre à ce problème. De même un algorithme d’ACM régularisée permet de gérer les données manquante en ACM. Il consiste à effectuer une ACP régularisée sur une matrice judicieusement pondérée (Josse et al., 2012).

L’AFDM (Analyse Factorielle des Données Mixtes) généralise l’ACP et l’ACM, elle permet de traiter à la fois des données quantitatives propres à l’ACP et des variables qualitatives propres à l’ACM. La force de l’AFDM réside donc dans la prise en compte des relations entre individus, au même titre que toutes les autres méthodes factorielles, mais aussi, et c’est là son unicité, dans les relations entre les variables quantitatives et qualitatives équilibrées, renforçant ainsi la qualité d’imputation que l’on aurait eu en utilisant séparément une imputation par ACP et une par ACM. L’équilibre entre les différents types de variables est important au risque d’altérer l’imputation.

Le package missMDA (Husson and Josse, 2010) permet de gérer les données manquantes dans les méthodes d’analyse factorielle. Il s’agit d’abord d’imputer les données manquantes à l’aide des fonctions du package, puis d’effectuer l’analyse à l’aide d’un logiciel adapté comme FactoMineR (Lê et al., 2008; Husson et al., 2011). Ainsi, missMDA permet d’envisager tout type d’analyse et ceci en dépit de l’absence de données.

Bien que le problème de données manquantes sur des données mixtes soit courant, peu de méthodes d’im-

putation sont disponibles. Une des plus récentes (2011) et offrant de bons résultats est basée sur les forêts

al´eatoires et donc sur des pr´edicteurs par arbres (Stekhoven and Buhlmann, 2011). Les comparaisons avec

cette méthode d’imputation offrent des résultats comparables et encourageants autant sur des jeux réels que

simul´es.

(3)

R´ef´erences

Husson, F. and J. Josse (2010). missMDA : Handling missing values with/in multivariate data analysis (principal component methods). R package version 1.2.

Husson, F., J. Josse, S. Le, and J. Mazet (2011). FactoMineR : Multivariate Exploratory Data Analysis and Data Mining with R. R package version 1.16.

Ilin, A. and T. Raiko (2010). Practical approaches to principal component analysis in the presence of missing values. Journal of Machine Learning Research 11, 1957–2000.

Josse, J., M. Chavent, B. Liquet, and F. Husson (2012). Handling missing values with regularized iterative multiple correspondence analysis. Journal of classification 29, 91–116.

Josse, J., J. Pagès, and F. Husson (2009). Gestion des données manquantes en analyse en composantes principales. Journal de la Société Française de Statistique 150, 28–51.

Kiers, H. A. L. (1997). Weighted least squares fitting using ordinary least squares algorithms. Psychome- trika 62, 251–266.

Lˆe, S., J. Josse, and F. Husson (2008, 3). Factominer : An r package for multivariate analysis. Journal of Statistical Software 25(1), 1–18.

Stekhoven, D. and P. Buhlmann (2011). Missforest - nonparametric missing value imputation for mixed-type

data. Bioinformatics 28, 113–118.

Références

Télécharger maintenant ( PDF - 3 Page - 141.90 KB )

Documents relatifs

Perdre ses photos de vacances : ¸ca n’a pas de

Gestion des données manquantes en Analyse en Composantes Principales

L’algorithme de ”recherche directe du sous-espace” peut être perçu comme un algorithme qui ”saute” les données manquantes via l’introduction d’une matrice de poids dans

Imputation de données manquantes pour l'inférence de r éseau à partir de données RNA-seq

Enfin, dans la section 4, nous pr´ esentons quelques r´ esultats pr´ eliminaires montrant l’influence des individus utilis´ es pour l’inf´ erence sur le r´ eseau lui- mˆ eme et

Analyse asymptotique des processus autoregressifs de bifurcation avec données manquantes

Mots cl´ es processus autor´ egressif de bifurcation ; processus de Galton-Watson multi- type ; donn´ ees manquantes ; s´ eries temporelles index´ ees par un arbre ; martingales ;

Classification hiérarchique ascendante avec imputation multiple de données manquantes

En présence de données manquantes, et dans le cadre de la classification hiérarchique de variables on étudie deux méthodes utilisant les matrices obtenues après imputation

Données manquantes

La probabilité qu’une donnée soit manquante ne dépend pas des données observées et non observée(s) de l’individu.. • Données manquantes de façon aléatoire : MAR (Missing

Suppl´ eer aux donn´ ees manquantes par maximum de vraisemblance : une application ` a des variables de

Il s’agit alors de maximiser le produit des probabilit´ es mesurables, soit les N = 18 probabilit´ es associ´ ees aux valeurs de la vari- able : d’une part, nous avons 16

La recherche de données manquantes dans une distribution

Par: Mélodie Achodian et Mégane Fatal.. 28) Tu désires développer une application «jeu» pour les téléphones intelligents qui fait appel au raisonnement logique des

Téléchargez tous les documents en téléchargeant vos documents d'étude.

Votre document sera enrichi, partagé sur 123dok FR pour vous aider à étudier.

Documents relatifs

A. paléolithique supérieur

A. paléolithique supérieur

4

0

0

Imputation des données manquantes: Comparaison de différentes approches

Imputation des données manquantes: Comparaison de différentes approches

7

0

0

Does Trade Openess Affect Core Labor Standards ?

Does Trade Openess Affect Core Labor Standards ?

19

0

0

Entity-centric representations in deep learning

Entity-centric representations in deep learning

73

0

0

Méthodes statistiques et informatiques pour le traitement des données manquantes

Méthodes statistiques et informatiques pour le traitement des données manquantes

197

0

0

Imputation multiple pour données mixtes par analyse factorielle

Imputation multiple pour données mixtes par analyse factorielle

6

0

0

An optimal bandwidth allocation algorithm for improving QoS in WiMAX

An optimal bandwidth allocation algorithm for improving QoS in WiMAX

23

0

0

A Methodological Approach for Web Sites Reengineering

A Methodological Approach for Web Sites Reengineering

15

0

0