Données manquantes

(1)

M Éc E n

I NTERLUDE

D ONNÉES MANQUANTES

Julie Scholler - Bureau B246

I. Introduction

“The best thing to do with missing value is not to have any.”

Gertrude Mary Cox

Que faire quand il y en a ?

• supprimer les individus ayant des données manquantes

• faire avec en utilisant des méthodes adapter à la présence de données manquantes

• imputer des valeurs là où elles sont manquantes

Mais toujours commencer par regarder et visualiser les données.

(2)

I. Introduction

Différents types de données manquantes

• Données manquantes de façon complètement aléatoire : MCAR (Missing Completely At Random)

La probabilité qu’une donnée soit manquante ne dépend pas des données observées et non observée(s) de l’individu.

• Données manquantes de façon aléatoire : MAR (Missing At Random)

La probabilité qu’une donnée soit manquante ne dépend pas des données non observées de l’individu.

• Données manquantes de façon non aléatoire : MNAR (Missing Not At Random)

La probabilité qu’une donnée soit manquante dépend des données non observées de l’individu.

II. Visualisation

Données sur le ronflement

age (3%) w eight (9%) siz e (5%)

alcohol (5%) se x (3%)

snore (6%) tobacco (7%)

0

25

50

75

100 Obser v ations

Missing (5.4%)

Present

(94.6%)

(3)

7

6 5 5

4

3 2 2

1 0 2 4 6 8

Intersection Siz e

●

● weight_NA tobacco_NA

snore_NA alcohol_NA

size_NA sex_NA age_NA

0.0 2.5 5.0 7.5

Set Size

●

● ●

●

N Y NA

0 2 4 6 0 2 4 6 0 2 4 6

age sex alcohol size tobacco weight

# Missing

V ar iab les

snore

●

M W NA

0 2 4 6 8 0 2 4 6 8 0 2 4 6 8

age alcohol size snore tobacco weight

# Missing

V ar iab les

sex

●

N Y NA

0 2 4 6 0 2 4 6 0 2 4 6

age sex alcohol size snore weight

# Missing

V ar iab les

tobacco

(4)

●

● ●

●

● ●

●

20 40 60

50 75 100

weight

age

missing

●

Missing Not Missing

●

● ●

●

● ●

●

20 40 60

150 160 170 180 190 200 210

size

age

missing

●

Missing Not Missing

●

● ●

●●

●

● ●

●

● ●

●

●●

●

● ●

●

● ●

●

●●

●

● ●

50 75 100

0 5 10 15

alcohol

w eight

missing

●

Missing Not Missing

●

●●

●

20 40 60

0 5 10 15

alcohol

age

missing

●

Missing Not Missing

age

^●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

40 60 80 100 120

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

●●

●

●●

● ●

●

● ●

●

●●

●

● ●

●

● ●

●

● ●

●

0 5 10 15

30 50 70

●

● ●

●

● ●

●

● ● ● ●

●

● ●

●

● ●

●

●● ● ●

●

● ● ●

●

● ● ●● ●●

●

40 60 80 100

weight

●

●●

●

●●

●

● ●● ●

●

●●

●

●●

●

●●

● ●

●

●●

● ● ●● ● ●

●● ●

●

●●

●

● ●

●

● ●

●

●●

●

● ●

●

● ●

●

●● ● ●

●

● ●

●

●● ●

● ●

●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

● ●

●

● ●

●

● ● ●

●

● ● ●

●

●●

● ●

●

●●

●

●●

●

● ●

●

●●

●

● ● ●

●

●●

●

●●

●

● ●●

● ● ● ●●

●

●●

●

●●

●

size

●

●●

●

●●

●

●●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

● ●

● ●●●●

●

●●

●

● ●

●

160 180 200

●

● ●

●

● ●

● ● ●

●

● ●

●

● ●

●

● ● ●●●

●

●●

●

● ●

●

● ●

●

● ●

●

● ● ● ●

●

30 40 50 60 70

0 5 10 15

●

●●

● ● ●●

●

● ●

●

● ●

●

● ● ●●

● ●

●

● ●

●

●●

●

● ●● ●

●

● ● ●

● ●

●

● ●

● ● ●●

●

● ●

●

● ●

●

●●● ● ●

●

● ●

●

●●

●

● ●●●

●

●●●

● ●

●

160 170 180 190 200 210

alcohol

(5)

III. Imputation

Imputation de données manquantes

Imputation par la valeur moyenne

R : le package e1071 et la fonction impute

-2 -1 0 1 2

x

y

-2 -1 0 1 2

x

y

age

●

● ●

●

● ●

● ● ●

●

● ●

●

●●

●

40 60 80 100 120

●

● ●

●

● ●

● ● ●

●

●●

●

● ●

●

●●

●

● ●

●

●●

● ●

●

● ● ●

●

● ●

●

● ●

●

0 5 10 15

30 40 50 60 70

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ● ● ●

●

● ●

●

● ●

●

●● ●● ●

●

● ● ●

40 60 80 100 120

weight

●

●●

●

● ● ●

●

●●

●

●●

●

● ●

●

● ●● ●

●

●●

●

●●

●

●●● ● ●

●

●●●

●

● ●

●

● ●●

●

●●

●

● ●

●

●●

●

● ●

●

●●

●

● ●

●

● ●

●

●● ● ●

●

●● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

●● ●

●

● ● ●

●

●●

●

●●

●

●●

●

● ● ●

●

●●

●

●●●

●

● ●●

size

●

●●

●

●●

● ●

●

● ●

●

● ● ●

●

● ●

●

●● ●

●

● ●

160 180 200

●

● ●

● ● ●

●

● ●

●

● ●

●

● ● ●●●

●

● ●

●

● ●

●

30 40 50 60 70

0 5 10 15

●

● ●

● ● ● ●●

● ●

●

● ●

●

● ● ●●

● ●

●

● ●

●

●●

●

●●● ●

●

● ●

● ● ● ●●

● ●

●

● ●

●

●●● ● ●

●

● ●

●

●●

●

● ●●●

●

160 170 180 190 200 210

alcohol

(6)

III. Imputation

Imputation de données manquantes

Utilisation de l’information apportée par les données des variables renseignées

Différentes méthodes

1. Prédiction : construire un modèle de régression à partir des individus complètement renseignés et l’utiliser pour prédire les données correspondant aux données manquantes.

R

• à la main

• package VIM et fonction regressionImp

• package mice et une des fonctions mice.impute.norm...

III. Imputation

Imputation par régression

-2 -1 0 1 2

x

y

(7)

III. Imputation

Imputation par régression bruitée

-2 -1 0 1 2

x

y

III. Imputation

Méthodes non supervisées

1. Imputation par la moyenne (ou mode) au sein de sous-groupes homogènes

Nécessite de définir/découvrir des sous-groupes homogènes Classification non supervisée

2. Utilisation des méthodes d’analyse factorielle

R : package missMDA et les fonctions imputePCA et

imputeMCA

(8)

III. Imputation

Illustration

x y

-2.00 -2.01 -1.50 -1.48 0.00 -0.01

1.50 NA

2.0 1.98 +

+

+ + +

III. Imputation

Illustration

x y

-2.00 -2.01 -1.50 -1.48 0.00 -0.01 1.50 1.46

2.0 1.98 +

+

(9)

age

●

● ●

●

● ●

● ● ●

●

● ●

●

●●

●

40 60 80 100 120

●

● ●

●

● ●

● ● ●

●

●●

●

● ●

●

●●

●

●●

● ●

●

● ● ●

●

● ●

●

● ●

●

0 5 10 15

30 40 50 60 70

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ● ● ●

●

● ●

●

● ●

●

●● ●● ●

●

● ● ●

40 60 80 100 120

weight

●

●●

● ●

●

●●

●

●●

●

● ●

●

● ●● ●

●

●●

●

●●

●

●●● ● ●

●

●●●

●

● ●

●

●●

●

● ●

●

●●

●

● ●

●

●●

●

● ●

●

● ●

●

●● ● ●

●

●● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

●● ●

●

● ● ●

●

●●

●

●●

●

●●

●

● ● ●

●

●●

●

●●●

●

● ●●

size

●

●●

●

●●

● ●

●

● ●

●

● ● ●

●

● ●

●

●● ●

●

● ●

160 180 200

●

● ●

●

● ●

● ● ●

●

● ●

●

● ●

●

● ● ●●●

●

● ●

●

● ●

●

30 40 50 60 70

0 5 10 15

●

● ●

● ● ● ●●

● ●

●

● ●

●

● ● ●●

● ●

●

● ●

●

●●

●

●●● ●

●

● ●

● ● ● ●●

● ●

●

● ●

●

●●● ● ●

●

● ●

●

●●

●

● ●●●

●

160 170 180 190 200 210

alcohol

III. Imputation

Imputation simple

Ne reflète pas l’incertitude dans l’imputation Imputation multiple

Génération de plusieurs imputations

(10)

●

−0.5 0.5 1.0 1.5

−3 −2 −1 0 1 2 3

Multiple imputation using Procrustes

Dim 1 (42.51%)

Dim 2 (35.14%)

●

● ●

●

● ●

●

● ●

●

1 2

3 4 5

6 7

8 9 10 11 12 13 14

15 16

17 18

19 20 21

22 23 24 25 26

27 28

29 30

31 32 33

34 35 36

37 38 39 40

41 42

43 44

45 46

47 48

49 50

51 52

53 54

55 56

57 58

59 60

61 62 63

64 65 66 67 68

69 70 71

72 73

74 75 76

77 78

79 80

81 82 84 83 85

86 87

88

89 90 91

92 93

94 95 96

97 98 99 100

●

−1.0 0.0 0.5 1.0

−3 −2 −1 0 1 2 3

Projection of the Principal Components

Dim 1 (42.51%)

Dim 2 (35.14%)

●

−0.5 0.5 1.0 1.5

−3 −2 −1 0 1 2 3

Supplementary projection individuals

Dim 1 (42.51%)

Dim 2 (35.14%)

●

● ●

●

● ●

●

● ●

●

X1 X2

X3 X4 X5

X6 X7

X8 X9 X10 X11 X12 X13 X14

X15 X16

X17 X18

X19 X20 X21

X22

X23 X24 X25 X26

X27 X28

X29 X30

X31 X32 X33

X34 X35 X36

X37 X38 X39 X40

X41 X42

X43 X44

X45 X46

X47 X48

X49 X50

X51 X52

X53 X54

X55 X56

X57 X58

X59 X60

X61 X62 X63

X64 X65 X66 X67 X68

X69 X70 X71 X72 X73 X74

X75 X76

X77 X78

X79 X80

X81 X82 X83

X84 X85 X86

X87

X88

X89

X90 X91

X92 X93

X94 X95 X96

X97

X98 X99 X100

Dim 1 (42.51%)

Dim 2 (35.14%)

●

−1.0 0.0 1.0

−2 0 2 4

Supplementary projection categories

Dim 1 (42.51%)

Dim 2 (35.14%)

●

M

W

snore_N snore_Y

tobacco_N

tobacco_Y

Dim 1 (42.51%)

Dim 2 (35.14%)

●

−4 −2 0 2 4

−10 −5 0 5 10

Multiple imputation using Procrustes

Dim 1 (49.31%)

Dim 2 (28.59%)

●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

1 2

3 4 6 5

7 9 8

11 12 10 14 13

15 16 17

18 19

20 21 22 23

24 25 26 27

28 29 30

31 32 33

34 35 36 37 38

39 40 41

42 43 44

45 46 47 48

49 50 51

52 53 54

55 56

58 57

59 60

62 61

63 64

65

66 67 68

69 70 71

72 74 73

75 76

77 79 78

80 81 82

83

84 85 86

87 88

89 90

91 92 93 94

96 95 97 98 99

100

●

−1.0 −0.5 0.0 0.5 1.0

−2 −1 0 1 2

Variable representation

Dim 1 (49.31%)

Dim 2 (28.59%)

age

weight size

alcohol

●

−1.0 −0.5 0.0 0.5 1.0

−2 −1 0 1 2

Projection of the Principal Components

Dim 1 (49.31%)

Dim 2 (28.59%)

(11)