• Aucun résultat trouvé

Données manquantes

N/A
N/A
Protected

Academic year: 2022

Partager "Données manquantes"

Copied!
12
0
0

Texte intégral

(1)

M Éc E n

I NTERLUDE

D ONNÉES MANQUANTES

Julie Scholler - Bureau B246

I. Introduction

“The best thing to do with missing value is not to have any.”

Gertrude Mary Cox

Que faire quand il y en a ?

supprimer les individus ayant des données manquantes

faire avec en utilisant des méthodes adapter à la présence de données manquantes

imputer des valeurs là où elles sont manquantes

Mais toujours commencer par regarder et visualiser les données.

(2)

I. Introduction

Différents types de données manquantes

Données manquantes de façon complètement aléatoire : MCAR (Missing Completely At Random)

La probabilité qu’une donnée soit manquante ne dépend pas des données observées et non observée(s) de l’individu.

Données manquantes de façon aléatoire : MAR (Missing At Random)

La probabilité qu’une donnée soit manquante ne dépend pas des données non observées de l’individu.

Données manquantes de façon non aléatoire : MNAR (Missing Not At Random)

La probabilité qu’une donnée soit manquante dépend des données non observées de l’individu.

II. Visualisation

Données sur le ronflement

age (3%) w eight (9%) siz e (5%)

alcohol (5%) se x (3%)

snore (6%) tobacco (7%)

0

25

50

75

100

Obser v ations

Missing (5.4%)

Present

(94.6%)

(3)

7

6

5 5

4

3

2 2

1

0 2 4 6 8

Intersection Siz e

weight_NA tobacco_NA

snore_NA alcohol_NA

size_NA sex_NA age_NA

0.0 2.5 5.0 7.5

Set Size

● ●

N Y NA

0 2 4 6 0 2 4 6 0 2 4 6

age sex alcohol size tobacco weight

# Missing

V ar iab les

snore

M W NA

0 2 4 6 8 0 2 4 6 8 0 2 4 6 8

age alcohol size snore tobacco weight

# Missing

V ar iab les

sex

N Y NA

0 2 4 6 0 2 4 6 0 2 4 6

age sex alcohol size snore weight

# Missing

V ar iab les

tobacco

(4)

● ●

● ●

20 40 60

50 75 100

weight

age

missing

Missing Not Missing

● ●

● ●

20 40 60

150 160 170 180 190 200 210

size

age

missing

Missing Not Missing

● ●

●●

● ●

● ●

●●

● ●

● ●

●●

● ●

50 75 100

0 5 10 15

alcohol

w eight

missing

Missing Not Missing

●●

20 40 60

0 5 10 15

alcohol

age

missing

Missing Not Missing

age

● ●

40 60 80 100 120

● ●

0 5 10 15

30 50 70

40 60 80 100

weight

●●

●●

●●

●● ●

●●

● ●

●●

●●

● ●●

size

160 180 200

30 40 50 60 70

0 5 10 15

● ● ●●

●●

● ●

● ●

●●

●●

160 170 180 190 200 210

alcohol

(5)

III. Imputation

Imputation de données manquantes

Imputation par la valeur moyenne

R : le package e1071 et la fonction impute

-2 -1 0 1 2

-2 -1 0 1 2

x

y

-2 -1 0 1 2

-2 -1 0 1 2

x

y

age

● ●

● ●

● ● ●

● ● ●

● ●

●●

40 60 80 100 120

● ●

● ●

● ● ●

●●

● ●

●●

● ●

●●

● ●

● ● ●

● ●

● ●

0 5 10 15

30 40 50 60 70

● ●

● ●

● ●

● ●

● ●

● ●

● ● ● ●

● ●

● ●

●● ●● ●

● ● ●

40 60 80 100 120

weight

●●

● ● ●

●●

●●

● ●

● ●● ●

●●

●●

●●● ● ●

●●●

● ●

● ●●

●●

● ●

●●

● ●

●●

●●

● ●

● ●

●● ● ●

●● ●

● ●

● ●

● ●

● ●

● ●

●●

● ●

●● ●

● ● ●

●●

●●

●●

● ● ●

●●

●●●

● ●●

size

●●

●●

● ●

● ●

● ● ●

● ●

●● ●

● ●

160 180 200

● ●

● ●

● ●

● ● ●

● ●

● ●

● ● ●●●

● ●

● ●

● ●

30 40 50 60 70

0 5 10 15

● ●

● ●

● ● ● ●●

● ●

● ●

● ●

● ● ●●

● ●

● ●

●●

●●● ●

● ●

● ●

● ● ● ●●

● ●

● ●

● ●

●●● ● ●

● ●

●●

● ●●●

160 170 180 190 200 210

alcohol

(6)

III. Imputation

Imputation de données manquantes

Utilisation de l’information apportée par les données des variables renseignées

Différentes méthodes

1. Prédiction : construire un modèle de régression à partir des individus complètement renseignés et l’utiliser pour prédire les données correspondant aux données manquantes.

R

à la main

package VIM et fonction regressionImp

package mice et une des fonctions mice.impute.norm...

III. Imputation

Imputation par régression

-2 -1 0 1 2

-2 -1 0 1 2

x

y

(7)

III. Imputation

Imputation par régression bruitée

-2 -1 0 1 2

-2 -1 0 1 2

x

y

III. Imputation

Méthodes non supervisées

1. Imputation par la moyenne (ou mode) au sein de sous-groupes homogènes

Nécessite de définir/découvrir des sous-groupes homogènes Classification non supervisée

2. Utilisation des méthodes d’analyse factorielle

R : package missMDA et les fonctions imputePCA et

imputeMCA

(8)

III. Imputation

Illustration

x y

-2.00 -2.01 -1.50 -1.48 0.00 -0.01

1.50 NA

2.0 1.98 +

+

+

+

+

+ + +

III. Imputation

Illustration

x y

-2.00 -2.01 -1.50 -1.48 0.00 -0.01 1.50 1.46

2.0 1.98 +

+

+

+

+

+

(9)

age

● ●

● ●

● ● ●

● ● ●

● ●

●●

40 60 80 100 120

● ●

● ●

● ● ●

●●

● ●

●●

●●

● ●

● ● ●

● ●

● ●

0 5 10 15

30 40 50 60 70

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ● ● ●

● ●

● ●

●● ●● ●

● ● ●

40 60 80 100 120

weight

●●

● ●

● ●

●●

●●

● ●

● ●● ●

●●

●●

●●● ● ●

●●●

● ●

●●

● ●

●●

● ●

●●

●●

● ●

● ●

●● ● ●

●● ●

● ●

● ●

● ●

● ●

● ●

●●

● ●

●● ●

● ● ●

●●

●●

●●

● ● ●

●●

●●●

● ●●

size

●●

●●

● ●

● ●

● ● ●

● ●

●● ●

● ●

160 180 200

● ●

● ●

● ●

● ●

● ● ●

● ●

● ●

● ● ●●●

● ●

● ●

● ●

30 40 50 60 70

0 5 10 15

● ●

● ●

● ● ● ●●

● ●

● ●

● ●

● ● ●●

● ●

● ●

●●

●●● ●

● ●

● ●

● ● ● ●●

● ●

● ●

● ●

●●● ● ●

● ●

●●

● ●●●

160 170 180 190 200 210

alcohol

III. Imputation

Imputation simple

Ne reflète pas l’incertitude dans l’imputation Imputation multiple

Génération de plusieurs imputations

(10)

−0.5 0.5 1.0 1.5

−3 −2 −1 0 1 2 3

Multiple imputation using Procrustes

Dim 1 (42.51%)

Dim 2 (35.14%)

1 2

3 4 5

6 7

8 9 10 11 12 13 14

15 16

17 18

19 20 21

22

23 24 25 26

27 28

29 30

31 32 33

34 35 36

37 38 39 40

41 42

43 44

45 46

47 48

49 50

51 52

53 54

55 56

57 58

59 60

61 62 63

64 65 66 67 68

69 70 71

72 73

74 75 76

77 78

79 80

81 82 84 83 85

86 87

88

89

90 91

92 93

94 95 96

97

98 99 100

−1.0 0.0 0.5 1.0

−3 −2 −1 0 1 2 3

Projection of the Principal Components

Dim 1 (42.51%)

Dim 2 (35.14%)

−0.5 0.5 1.0 1.5

−3 −2 −1 0 1 2 3

Supplementary projection individuals

Dim 1 (42.51%)

Dim 2 (35.14%)

X1 X2

X3 X4 X5

X6 X7

X8 X9 X10 X11 X12 X13 X14

X15 X16

X17 X18

X19 X20 X21

X22

X23 X24 X25 X26

X27 X28

X29 X30

X31 X32 X33

X34 X35 X36

X37 X38 X39 X40

X41 X42

X43 X44

X45 X46

X47 X48

X49 X50

X51 X52

X53 X54

X55 X56

X57 X58

X59 X60

X61 X62 X63

X64 X65 X66 X67 X68

X69 X70 X71 X72 X73 X74

X75 X76

X77 X78

X79 X80

X81 X82 X83

X84 X85 X86

X87

X88

X89

X90 X91

X92 X93

X94 X95 X96

X97

X98 X99 X100

Dim 1 (42.51%)

Dim 2 (35.14%)

−1.0 0.0 1.0

−2 0 2 4

Supplementary projection categories

Dim 1 (42.51%)

Dim 2 (35.14%)

M

W

snore_N snore_Y

tobacco_N

tobacco_Y

Dim 1 (42.51%)

Dim 2 (35.14%)

−4 −2 0 2 4

−10 −5 0 5 10

Multiple imputation using Procrustes

Dim 1 (49.31%)

Dim 2 (28.59%)

1 2

3 4 6 5

7 9 8

11 12 10 14 13

15 16 17

18 19

20

21 22 23

24

25 26 27

28

29 30

31

32 33

34

35 36 37 38

39 40 41

42

43 44

45 46 47 48

49 50 51

52 53 54

55 56

58 57

59 60

62 61

63 64

65

66

67 68

69 70 71

72 74 73

75 76

77 79 78

80 81 82

83

84

85 86

87 88

89 90

91 92 93 94

96 95 97 98 99

100

−1.0 −0.5 0.0 0.5 1.0

−2 −1 0 1 2

Variable representation

Dim 1 (49.31%)

Dim 2 (28.59%)

age

weight size

alcohol

−1.0 −0.5 0.0 0.5 1.0

−2 −1 0 1 2

Projection of the Principal Components

Dim 1 (49.31%)

Dim 2 (28.59%)

(11)

III. Imputation

Imputations multiples via missMDA

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.0 −0.5 0.0 0.5 1.0

Variable representation

Dim 1 (71.29%)

Dim 2 (16.54%)

Color.intensity Odor.intensity

Attack.intensity Sweet

Acid

Bitter Pulp

Typicity

III. Imputation

Imputations multiples via missMDA

−4 −2 0 2 4 6

−4 −2 0 2

Supplementary projection

Dim 1 (71.29%)

Dim 2 (16.54%)

1 3 2

4 5

6

7 8

9 10

11

12

Références

Documents relatifs

Dans un contexte d’´ etude transversale, Shen et Wang (2013) proposent la m´ ethode du MI-LASSO pour int´ egrer les imputations dans la s´ election de variables. L’id´ ee

Pour y remédier l’imputation multiple propose de remplacer chaque donnée manquante par un ensemble de valeurs générant m matrices de données complétées que

Nous pouvons alors recommencer la procédure pour la deuxième donnée manquante puisque nous disposons des deux informations nécessaires : le vecteur des coefficients de

Le package missMDA (Husson and Josse, 2010) permet de g´erer les donn´ees manquantes dans les m´ethodes d’analyse factorielle.. Il s’agit d’abord d’imputer les donn´ees

Dans nos tra- vaux, nous faisons l’hypothèse que les données manquantes sont de type NMAR et nous modélisons le mécanisme de manquement.. Nous supposons par exemple que la propension

Dans ce contexte de données manquantes, une solution simple pour estimer β 0 consiste à mener une analyse en "cas complets" ("CC" par la suite) c’est-à-dire à :

L’algorithme de ”recherche directe du sous-espace” peut ˆetre perc¸u comme un algorithme qui ”saute” les donn´ees manquantes via l’introduction d’une matrice de poids dans

Par: Mélodie Achodian et Mégane Fatal.. 28) Tu désires développer une application «jeu» pour les téléphones intelligents qui fait appel au raisonnement logique des