R EVUE DE STATISTIQUE APPLIQUÉE
F. C RETTAZ DE R OTEN
J.-M. H ELBLING
Données manquantes et aberrantes : le quotidien du statisticien analyste de données
Revue de statistique appliquée, tome 44, n
o2 (1996), p. 105-115
<http://www.numdam.org/item?id=RSA_1996__44_2_105_0>
© Société française de statistique, 1996, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DONNÉES MANQUANTES ET ABERRANTES : LE QUOTIDIEN DU STATISTICIEN
ANALYSTE DE DONNÉES
F. Crettaz de Roten
(1),
J.-M.Helbling (2)
(1) Université de Lausanne IMA-SSP, BFSH2, 1015 Lausanne (Suisse) (2) Ecole
Polytechnique
Fédérale de LausanneDépartement
deMathématiques
1015 Lausanne-Ecublens (Suisse)
1. Introduction
Un
statisticien, analyste
dedonnées,
est confrontérégulièrement
à des données que l’onpeut qualifier d’imparfaites
ou de «messy data» comme le mondeanglophone
les
appelle.
Ils’agit
soit de matrices de donnéesincomplètes
c’est-à-dire contenant des donnéesmanquantes
soit de matrices avec despoints
douteux voire aberrants ou encore de matrices dont les observations nerespectent
pas leshypothèses
nécessaires àl’application
de latechnique souhaitée,
parexemple,
ne suivent pas une loi normale.Dans cet
article,
nous allons traiter lepoint
de vueanalyse
de données des deuxpremiers problèmes
simultanément mêmesi,
àpremière
vue, iln’y
a rien deplus
différent
qu’une
donnéemanquante
et une donnée aberrante.Séparément
les deuxproblèmes
ont retenu l’attention de nombreux auteurs cesdernières années et la littérature est abondante sur chacun des
sujets
traités tantôt defaçon générale,
tantôt dans un contexteparticulier
comme les sériestemporelles
oules
plans d’expérience.
Pour une vision détaillée de cessujets,
onpeut
se référer aux livres de Bamett et Lewis(1994)
pour les données aberrantes et de Little et Rubin(1987)
pour les donnéesmanquantes.
Les deux
problèmes
sont traités très rarement ensemble. Iln’y
a que le contexte dessondages qui intègre
ces deuxproblèmes
dans laprocédure
d’édition des donnéesen définissant des
règles d’imputation
pour les donnéesmanquantes
et de consistence pour la détection de données aberrantes(Little
andSmith, 1987; Giles, 1988).
Notreintérêt pour un traitement simultané de ces deux
sujets peut s’expliquer
deplusieurs façons.
Premièrement il est bien connuqu’une
méthode de détection d’aberrance consiste à ôter la donnéesoupçonnée,
c’est-à-dire à créer une donnéemanquante,
et à comparer les estimations des
paramètres
obtenues avec les estimations baséessur l’ensemble des données.
Deuxièmement,
en étudiant et endéveloppant
desméthodes
d’imputation
de donnéesmanquantes (Crettaz
deRoten, 1993),
on a pu constater leur extrême sensibilité à laprésence
de données aberrantes.Finalement,
en recherchant de bonsjeux
de donnéesmultivariées,
nous avonsremarqué
que souvent106 F. CRETTAZ DE ROTEN, J. -M. HELBLING
les deux
problèmes
sontimbriqués
l’un dans l’autre etqu’il
est donc nécessaire d’êtreconséquent
dans le traitement de chacune des difficultés. Nous pensons que les deuxproblèmes
doivent donc être traités par destechniques
cohérentes. Lesdéveloppements théoriques
chercheront à mettre en évidence lesparallélismes
entreles
techniques
utilisées dans ces deux directions.Dans cet
article,
nous allonspremièrement rapprocher
les deux domaines dans trois contextes à savoir lesconcepts généraux,
la modélisationparamétrique
et
l’approche heuristique, puis
sur la base d’unexemple,
nous tenteronsd’esquisser
des
règles pratiques.
2.
Concepts généraux
Une difficulté survenant dans les deux domaines est la définition même de donnée
manquante
ou de donnée aberrante. D’unepart,
Rubin(1976)
aintroduit,
à l’aide d’un modèleprobabiliste,
troistypes
de donnéesmanquantes
selon les conditions «d’aléatoirité» du processus àl’origine
de l’absence de la donnée.D’autre
part,
une donnée aberrante est assez facilement définissable dans un cadre unidimensionnelpuisqu’il s’agit
d’unpoint
situé loin dans les queues de la distribution mais il devientpratiquement impossible
de donner une définitiongénérale
dans unesituation multidimensionnelle.
Le traitement des données
manquantes
ou aberrantes nécessite uneapproche quasi
semblable :( 1 ) Analyser
les données pour détecter les données aberrantes ou letype
de donnéesmanquantes.
(2)
Choisir si l’on vanettoyer
lesdonnées,
par élimination ou parimputation,
avantde les traiter par des méthodes standards ou si l’on veut modifier la méthode
d’analyse statistique
pour tenircompte
desimpuretés (par
l’introduction depoids
ou par l’accommodation de l’estimation à laprésence
de donnéesmanquantes).
Quelle
que soitl’approche choisie,
il nous semble essentiel degarder
enmémoire le fait que les données contenaient des
non-réponses
ou des aberrances. Une solution consiste à conserver le schéma de larépartition
des donnéesmanquantes
et lespoids
mesurant l’influence dechaque point
pour en tenircompte
dansl’interprétation
des résultats des
analyses
ultérieures.Le
problème
de l’existence de valeurs aberrantesporte
en lui le germe des méthodes robustes. Il est donc naturel d’utiliser de tellestechniques
pour le traitement des aberrances(estimation
robuste de la matrice devariance-covariance, régression L1)
etplus spécialement
pour leur détection(la
fiabilité de la détection d’une donnée aberrante par unetechnique
robuste estmeilleure) (Rousseeuw
etLeroy, 1987).
Demême, puisque
laplupart
des méthodes de traitement des donnéesmanquantes
sont sensibles à laprésence
de donnéesextrêmes,
l’utilisation de variantes robustes a faitses preuves
(imputation
à l’aide de modélisationrobuste,
voirparagraphe 3).
Une autre difficulté commune aux deux
problèmes
est le passage du traitement d’une seule donnéeimparfaite
à un groupe de donnéesimparfaites.
Enprésence
deplusieurs
donnéesmanquantes
doit-on utiliser uneprocédure d’imputation séquen-
tielle ou
globale?
Dans le cas des donnéesaberrantes,
doit-on détecter les aberrances consécutivement ou pargroupes?
Dans la situation de lafigure 1,
laplupart
desprocédures
consécutives auront un effet de masque, c’est-à-direqu’elles
ne découvri-ront pas de
points
aberrants alors que le groupe depoints {A, B, C, D}
est aberrant.Dans ce cas,
l’application
de méthodes robustespermet
d’améliorer la détection.FIGURE 1
D’autre
part, l’imputation
deplusieurs
donnéesmanquantes
ou lasuppression
de
plusieurs
données douteuses a pourconséquence
de diminuer la variabilité. Pour y remédierl’imputation multiple
propose deremplacer chaque
donnéemanquante
par un ensemble de valeursgénérant
m matrices de donnéescomplétées
que l’onanalyse
chacune par des méthodes standards(Little
etRubin, 1987).
Unavantage
de cettetechnique
est depouvoir
mesurer la variabilité due àl’imputation,
maisl’accroissement des calculs
qui
en découle limite son utilisation.Dans le cas des données
aberrantes, l’application
de méthodes robustes au lieu de lasuppression
aura un effetcomparable.
Eneffet,
diminuer la variabilité initiale est souhaitable enprésence
de données aberrantes car ces dernières créent une variabilitéartificielle,
mais lasuppression
est une solutiontrop
radicale pour lespartisans
destechniques
robustes.108 E CRETTAZ DE ROTEN, J. -M. HELBLING
3. Modélisation
paramétrique
La modélisation des
données,
leplus
souvent par un modèle de distribution normale et/ou par un modèle derégression
linéaire estfréquemment
utilisée. Dans lecas des données
manquantes l’algorithme
EMpermet
d’obtenir une estimation desparamètres
et uneimputation
des donnéesmanquantes : l’étape
E estime les donnéesmanquantes
etl’étape
M maximise la vraisemblance en vue d’estimer lesparamètres (Dempster,
Laird etRubin, 1977).
Deplus,
les écartsimportants
au modèlepeuvent
révéler laprésence
de données aberrantes.L’approche
robuste de cettemodélisation, proposée
par Little(1988),
résoud simultanément les deuxproblèmes
en introduisant despoids
dans la résolution del’algorithme
EM.Puisque
le modèle multinormal du traitement des donnéesmanquantes
est sensible à laprésence d’aberrances,
la version robuste del’algorithme
EM est certainementpréférable.
La modélisation sous la forme de lois normales contaminées fournit un moyen de détectionplus sophistiqué.
L’imputation
de donnéesmanquantes
est souvent obtenue parl’application
d’unmodèle de
régression
soit en utilisant directementl’espérance
conditionnelle estimée(méthode
deBuck, 1960)
soit en yajoutant
un résidu aléatoire. S’il manque lapremière composante
du dernierindividu,
cette méthodeimputera
par :où les
i
sont les estimateurs des moindres carrés évalués sur les individus sans donnéesmanquantes.
Si les données suivent une loi normalemultivariée,
la méthode de Buck etl’algorithme
EM donnent la même solution(Little
etRubin, 1987).
En
présence
deplusieurs prédicteurs possibles,
ils’agira
de définir le meilleur sous-ensemble pourchaque
variablequi possède
des donnéesmanquantes (Frane, 1977).
Certains auteurs utilisent des versions robustes de ces méthodes.La
régression
est certainement latechnique statistique qui dispose
deplus
demoyens pour détecter des données aberrantes
(Hadi
etSimonoff, 1993).
Il est parexemple
bien connu que l’examen de différentsgraphiques
relatifs auxrésidus,
meten évidence la
présence
d’aberrances. Deplus,
de nombreux auteurs ontproposé
desmesures du
degré
d’influence despoints
basées sur le modèle derégression.
Uneprocédure fréquemment
utilisée est cellequi
consiste à calculer les estimateurs des moindres carrés avec et sans la donnée mise en doutepuis
à évaluer la différence entre les valeurs obtenues.Régulièrement,
de nouvelles méthodes basées sur lesdéveloppements
récentsde la
statistique
sont introduites. Parexemple,
lestechniques
basées sur le rééchantil-lonnage
ont donné lieu à l’utilisation dubootstrap
etdu jackknife
pourl’imputation
de données
manquantes
et la détection d’aberrances. Dans ces cas, la modélisationse fait en se basant sur la fonction de
répartition empirique.
Cetteapproche peut
êtreintégrée
dans un contexteBayesien (par exemple
dansl’imputation
par lebootstrap Bayesien approximé (Little
etRubin, 1987).
Lebootstrap
offre aussi uneapproche non-paramétrique
pour vérifier laqualité
d’un estimateur enprésence
de donnéesmanquantes (Efron, 1993).
La modélisation
paramétrique
est évidemment un outilstatistique puissant
maisdans notre contexte, elle est très
rigide
et accentuel’adéquation
des données aumodèle. Par
exemple
dans une situation derégression,
uneimputation
par la valeurprédite
améliore laqualité
del’ajustement
sur les donnéesfinales,
de même que lasuppression
d’une donnée aberrante à cause d’un résidutrop important.
4.
Approche heuristique
De nombreuses
techniques
ont étédéveloppées
par despraticiens
sous formede
règles heuristiques; l’expérience
et certaines simulations ont montré que ces méthodes donnent d’assez bons résultats. Onpeut
citer pour les donnéesmanquantes l’imputation
par la valeurcorrespondante
d’un individuayant
descaractéristiques semblables, l’imputation
par la moyenne ou la médiane et pour lesaberrances,
l’examen du«boxplot» (données
extérieures auxmoustaches)
ainsi que d’autresreprésentations graphiques (glyphes, étoiles,
faces deChemoff, diagrammes
deAndrews,
arbres de classificationhiérarchique, Q-Qplot
decomposantes principales,
résidus de
régression, etc).
Dans les deux
domaines,
on utilise abondamment la notion de distances enprocédant
à une minimisation pourimputer
la valeurmanquante
et en recherchantun maximum pour détecter une valeur aberrante. Pour
l’imputation,
lesprincipales
distances sont la distance
euclidienne,
la distance de Mahalanobis et différentes distances entre individus. La famille des méthodes detype
«hot deck»(utilisation fréquente
dans l’édition dequestionnaires)
se baseprécisément
sur des distances entre individus(Ford, 1983) :
dans ce cas, onimpute
par la valeur de l’un des individus dont la distance à celuiqui
a une donnéemanquante
est minimale. Pour ladétection,
les distances lesplus
utilisées sont la distance deMahalanobis,
celle de Cook etWeisberg
et différentes distances de la forme
(xi- x)tSb(xi- x)
où x et Sreprésentent respectivement
le vecteur moyenneempirique
et la matrice de variance-covariance estimée et où bpeut prendre
des valeurs entièrespositives
ounégatives (Beckman
etCook, 1983). Mathématiquement
leparallélisme
entre les deux domaines se manifeste ainsi :- supposons que seul le
ième
individupossède
des donnéesmanquantes;
onpeut
lesimputer
en minimisantoù l’indice -i
signifie
que l’ estimateur est évalué sans laième
observation(cette procédure
estéquivalente
à la méthode deBuck);
- supposons que l’on soupçonne l’existence d’une donnée
aberrante;
onpeut
la détecter en déterminantl’observation j qui
maximise la distance de Mahalano- bisCe
parallélisme
dansl’optimisation
existe aussilorsqu’on
utilise unetechnique
de modélisation comme la
régression.
En effet dans ce cas, onimpute
en minimisant la valeur absolue du résidu et on détecte la donnée douteuse en déterminant le maximum de la valeur absolue des résidus.110 F. CRETTAZ DE ROTEN, J. -M. HELBLING
En
résumé,
onpeut
dire que lesapproches heuristiques
sont certainement leplus fréquemment
utilisées.5.
Exemple pratique
Dans les 4
premiers paragraphes,
nous avons cherché à mettre en évidence leparallélisme
entre ces deux domaines de lastatistique
multivariée. Nous désirons maintenant faire ressortir desaspects plus pratiques
enappliquant
certaines destechniques
énuméréesprécédemment
sur unexemple.
Dans un article paru en
1988, Daudin, Duby
et Trécourtreportent
les résultats de mesures faites sur 86 échantillons de lait. Ils’agit
des 8 variables suivantes :Nous avons
généré
aléatoirement 10 donnéesmanquantes
selon larépartition
suivante :
Ce
jeu
de données contient ainsi des donnéesmanquantes
et vraisemblablement des données aberrantes.Trois
approches
ont été étudiées : détecterpuis imputer, imputer puis
détecteret finalement
imputer
par destechniques
robustes. Pour évaluer laqualité
desimputations,
nous avons retenus deux critères conformément à la littérature sur lesujet (Gleason
etStaelin, 1975) :
à savoir la racine de la moyenne
(calculée par rapport
au nombre de valeursmanquantes)
des écarts au carréentre la valeur réelle
Xij
et la valeurimputée Xaij pondérés
par les variances estimées des variablescorrespondantes,
xij xa
2022
D a
= maxi jXij - X03B1ij j soit le maximum des différences en valeur absolue
entre la valeur réelle et la valeur imputée pondérées
par les écarts-types
estimés
des variables
correspondantes.
Pour la détection des données
douteuses,
nous utiliserons :1.
l’analyse
encomposantes principales (Q-Q plot
des deuxpremières
compo- santesprincipales) (défaut principal :
lien avec la normalité descomposantes principales),
2. la classification
hiérarchique (groupe
depoints
dont les éléments s’unissent àun bas niveau de distance et restent
longtemps
avant de s’unir à un autregroupe) (choix
dutype
declassification),
3. la distance de Mahalanobis
(effet
demasque),
4. le
boxplot (détection uniquement univariée),
5. la méthode de Wilks
(rapport
des déterminants des matrices de données avec et sans lepoint suspect)(effet
demasque),
6. la fonction d’influence de la corrélation vectorielle
pV (Cléroux, Helbling
etRanger, 1990) (deux
groupes de variables àdéfinir).
Les méthodes
d’imputation
retenues estiment la donnéemanquante
par : 1. la moyenne(défaut principal :
distorsion de ladistribution),
2. la
prédiction
fournie par larégression multiple
sur toutes les variablesdispo-
nibles
(sous-estimation
de lavariabilité),
3. la
prédiction
fournie par larégression simple
avec la variable laplus
corrélée(sous-estimation
de lavariabilité).
Dans
chaque
cas,l’imputation peut
se faire en utilisantuniquement
les individusn’ayant
pas de donnéesmanquantes (COMPLETE)
ou enexploitant
le maximumd’information
disponible (ALLVALUE).
Les méthodes robustes
imputeront
par la moyennetronquée (ce
=5% )
ou par laprédiction
de larégression simple
avec la variable laplus
corrélée selon la méthode LMS(Least
MedianSquare)
ou celle utilisant la norme Ll.A. Détecter
puis imputer
La détection des données aberrantes
porte
sur tous les individus àl’exception
deceux
qui
contiennent des valeursmanquantes.
Les méthodes1,
2 et 4 détectent l’en- semble{11,12,13,14,15}
alors que les méthodes 3 et 5 détectent{41, 44, 47, 75}.
La
figure
2 fait ressortir ces deuxtypes
d’aberrances : l’un formant un groupe depoints
situés dans la queue de la distribution et l’autre formé depoints
isolés hors du112 F. CRETTAZ DE ROTEN, J. -M. HELBLING
FIGURE 2
nuage.
Remarquons
que la méthode basée surpV
révèle comme douteux un ensembleformé de
points
des deuxgroupes {12,13,14,47}.
L’imputation
a été effectuée en éliminant les ensembles apparus dans la détec- tion à savoirpremièrement
sans les observations{11,12,13,14,15,41,44,47, 75 1 (Groupe 1),
deuxièmementsans{11,12,13,14,15} (Groupe 2),
troisièmement sans{41, 44, 47, 75} (Groupe 3)
et finalement sans{12,13,14, 47} (Groupe 4).
Les per- formances des différentes méthodes sont résumées dans le tableau 1 :(voir
pagesuivante).
Parmi cette
grande
diversité derésultats,
nous constatonsqu’il
sembleoptimal
d’enlever les aberrances situées dans les queues des distributions
marginales
etqu’il
n’est pas forcément souhaitable de
supprimer
la réunion des ensembles d’aberrances détectés par les différentes méthodes. Dans notreexemple,
la meilleureimputation
est obtenue en ôtant les données détectées par la méthode
pV.
B.
Imputer puis
détecterNous avons
imputé
les neuf donnéesmanquantes
sur la base des donnéesprésentes
éventuellement aberrantespuis
nous avonsappliqué
lestechniques
dedétection sur les données
complétées
c’est-à-dire sur les donnéesprésentes
etimputées.
Laqualité
desimputations
obtenues estprésentée
dans le tableau 2 :TAB LEAU 1
TABLEAU 2
114 F. CRETTAZ DE ROTEN, J. -M. HELBLING
La
qualité
del’imputation
est moins bonne que celle du tableau1,
cequi
concorde avec
plusieurs
résultats de la littérature(Little, 1988).
L’application
par la suite des méthodes de détection aboutit aux mêmes ensembles de données douteuses que ceux de lapremière approche
à uneexception près :
l’observation 77imputée
par les méthodesMoyenne
est détectée commeaberrante par la méthode Mahalanobis
(la
valeur de chacune des variables observées estparmi
lesplus
faibles de tous les individus et donc son association avec la moyenneimputée
créera uneaberrance).
C.
Imputer
par destechniques
robustesL’imputation
a été obtenue sur la base des observations des individusn’ayant
pas de données
manquantes
à l’aide de fonctions robustes dulogiciel Splus.
TABLEAU 3
Imputation Qa Da
moyenne
tronquée Complète (a
=5% )
0.8530 2.5339méthode L1
Complète
0.9045 2.2402méthode LMS
Complète
0.8025 2.1692Cette
approche
estperformante puisque
lestechniques
robustes donnent de meilleurs résultats que les méthodes standardséquivalentes
avant détection(tableau 2)
et unequalité proche
de celle del’imputation après
détection(tableau 1).
Selon leslogiciels
àdisposition,
onoptera
pour la méthode LMS ou pour la moyennetronquée.
Intuitivement,
lesapproches
A et C aboutissent à des résultatsproches,
car siune donnée aberrante existe son
poids
dans lesprocédures
robustes seranégligeable;
nous constatons cela aussi dans la
pratique.
Globalement,
nous pouvons relever lespoints
suivants. Conformément à de nombreuxarticles,
la méthode derégression simple
se révèlegénéralement supérieure
aux autres
méthodes;
notons que dans notreexemple
les corrélationssimples
sontassez fortes
(la
corrélation dechaque
variableayant
des donnéesmanquantes
avecune autre variable se situe entre 0.5 et
0.95).
Dans le domaine de la détection des
aberrances,
il estfréquent qu’une
donnéesoit identifiée comme une aberrance par une méthode et ne pas l’être par une autre.
Dès
lors,
il estimportant
que le statisticienqui
trouve une ouplusieurs
donnéesdouteuses en discute avec
l’expérimentateur
avant de choisir l’ensemble à écarter pourl’approche
A. Si aucune décision nepeut
êtreprise,
il est certainementpréférable
d’imputer
par unetechnique
robuste.Références
BARNETT V. et LEWIS T. 1994. Outliers in Statistical
Data, Wiley.
BECKMAN R.J. et COOK R.D. 1983.
Outlier....’s, Technometrics,
25 119-163.BUCK S.F. 1960. A method of estimation of
missing
values in multivariate data suitable for use with an electroniccomputer,
JRSSB, 22,
302-306.CLÉROUX R. ,
HELBLING J.-M. ET RANGER N. 1990. Détection d’ensembles de données aberrantes enanalyse
des donnéesmultivariées, RSA, 38,
5-21.CRETTAZ de ROTEN F. 1993. Données manquantes en
statistique
multivariée :une nouvelle méthode basée sur le
coefficient RV,
Thèse no 1111 EcolePolytechnique
Fédérale de Lausanne.DAUDIN
J.J. ,
DUBY C. etTRÉCOURT
P. 1988.Stability
ofprincipal component analysis
studiedby
thebootstrap method, MaOpfSTS, 19,
241-258.DEMPSTER
A.P.,
LAIRD N.M. et RUBIN D.B. 1977. Maximum likelihood fromincomplete
data via the EMalgorithm,
JRSSB, 39,
1-38.EFRON B. 1993.
Missing data, imputation
and thebootstrap, JASA, 89,
463-480.FORD B.L. 1983. An overview of hot-deck
procedures,
dans«Incomplete
data insample
survey» , AcademicPress, chapitre
14.FRANE J.W. 1977. Some
simple procedures
forhandling missing
data in multivariateanalysis, Psychometrika, 41,
409-415.GILES P. 1988. A model for
generalized
edit andimputation
of surveydata,
The Canadian Journalof Statistics, 16, 57-73.
GLEASON T.L. et STAELIN R. 1975.
Proposal
forhandling missing data, Psycho- metrika, 4,
229-252.HADI A.S. et SIMONOFF J.S. 1993. Procedures for the identification of
multiple
outliers in linear
models, JASA, 88,
1264-1272.LITTLE R.J.A 1988. Robust estimation of the mean and the covariance matrix from data with
missing values, Appl Stat, 37,
23-38.LITTLE R.J.A. et RUBIN D.B. 1987. Statistical
Analysis
withMissing Data, Wiley.
LITTLE R.J.A. et SMITH P.J. 1987.
Editing
andimputation
forquantitative
surveydata, JASA, 82,
58-68.ROUSSEEUW P.J. et LEROY A.M. 1987. Robust
Regression
and OulierDetection, Wiley.
RUBIN D.B. 1976. Inference and