R EVUE DE STATISTIQUE APPLIQUÉE
F. C RETTAZ DE R OTEN
J.-M. H ELBLING
Une estimation de données manquantes basée sur le coefficient RV
Revue de statistique appliquée, tome 39, n
o2 (1991), p. 47-57
<http://www.numdam.org/item?id=RSA_1991__39_2_47_0>
© Société française de statistique, 1991, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE ESTIMATION DE DONNÉES MANQUANTES BASÉE SUR LE COEFFICIENT RV.
F. CRETTAZ DE
ROTEN,
J.-M. HELBLINGDépartement
demathématiques,
Ecole
Polytechnique
Fédérale de Lausanne (Suisse)RÉSUMÉ
Dans cet article, on propose une nouvelle méthode d’estimation des données man-
quantes de type
analyse
des données. Pour l’estimation, on utilise la structure multivariée des données en maximisant le coefficient RV (Escoufier 1973)exprimé
en fonction du vecteurmanquant. La méthode
développée
dans lapremière partie,
sera confrontée aux méthodes existantes sur la base d’unexemple.
Les deux critères définis par Gleason et Staelin en 1975, permettront d’évaluer lesperformances
de chacune des méthodes.Mots-clés : données manquantes en
analyse
multivariée, estimation des données manquantes,coefficient
RV1. Introduction
En inférence
statistique
multivariée et enanalyse
de donnéesmultivariées,
on rencontre
fréquemment
des donnéesmanquantes :
refus derépondre
à certainsitems d’un
questionnaire, appareil
de mesurequi
tombe en panne, etc. Ellesposent
un dilemme au statisticien car, soit il résout de manière
abrupte
leproblème
enéliminant le ou les individus
ayant
des donnéesmanquantes
pour une ouplusieurs variables,
soit il sepenche
sur l’abondante littérature sur les donnéesmanquantes qui,
en luiproposant plusieurs techniques, l’obligera
à faire certains choix délicats.En
premier lieu,
le statisticien devrapréciser
la nature de ses donnéesmanquantes.
Pour unindividu,
une variablepeut
êtremanquante indépendamment
de sa valeur et de la valeur d’autres
variables,
onparle
alors de DonnéeManquante Complètement
au Hasard(notée DMCH). Lorsque
laperte
de la donnée estindépendante
de sa valeur maisdépendante
de la valeur d’autresvariables,
onparle
de DonnéeManquante
au Hasard(noté DMH).
Dans les autres cas, onparle
de donnée
manquante
non au hasard. Cetteclassification,
définie par Rubin en1976,
est admise actuellement. Il est très délicat de traiter des donnéesqui
ne sontpas de
type DMCH,
c’estpourquoi
on fait souvent cettehypothèse.
La vérification de cettehypothèse
est soitempirique (connaissance
des données et du processus derécolte),
soit assezcomplexe (Simon
et Simonoff1986,
Little1988).
48 F. CRETTAZ DE ROTEN, J.-M. HELBING
En second
lieu,
il devra choisir entre deuxapproches :
1)
L’estimation deparamètres
avec donnéesmanquantes.
De nombreuses méthodes multivariéess’appuyent
sur une réduction initiale des données au vecteur des moyennes et à la matrice devariance-covariance,
c’estpourquoi
cetteapproche
consiste à estimer ces
quantités
àpartir
des donnéesincomplètes (Timm 1970, Dempster,
Laird et Rubin1977, Curry
et Kim1977, Kariya,
Krishnaiah et Rao1983,
DerMegreditchian 1988).
Il n’estdonc,
dans cetteapproche,
pas réellement nécessaire d’estimer les donnéesmanquantes elles-mêmes, puisque
moyennes et variances-covariances estiméespermettent
d’effectuer lestechniques statistiques classiques.
2)
L’estimation directe des donnéesmanquantes
que la littératureanglaise appelle imputation
des donnéesmanquantes.
Cetteapproche complète
les données avant touteutilisation,
en estimant la valeur des donnéesmanquantes.
Lesprinci- pales
méthodes de cetype
se basent :- sur les moyennes : la valeur
manquante
estremplacée
par un estimateurde
l’espérance
de la variableconcernée,
- sur la
régression simple
oumultiple :
on estime la donnéemanquante
par la valeur queprend
la variable concernéelorsqu’on
larégresse
sur une ouplusieurs
variables(Buck 1960,
Frane1976,
Seber1984),
- sur la modélisation des données à l’aide de la loi normale et sur la fonction de vraisemblance
(Srivastava 1985,
Little et Rubin1987),
- sur
l’analyse
encomposantes principales (Dear 1959).
Les
techniques
basées sur larégression,
souventappelées
méthodes deBuck, comportent
de nombreuses variantes liées aux diversesfaçons
de calculer lesparamètres
de larégression.
L’algorithme
itératif EM se situe à la frontière des deuxapproches puis- qu’alternativement l’étape
E estime les donnéesmanquantes
etl’étape
M estimepar maximum de vraisemblance les
paramètres (Dempster,
Laird et Rubin1977, Boyles 1983,
Little et Rubin1987).
Dans la
littérature,
certains articlescomparent
un sous-ensemble des méthodesprécédentes
au niveauthéorique (Frane 1976,
Little et Rubin1987),
d’autresoptent
pour unecomparaison expérimentale,
soit en simulant des données normales(Curry
et Kim
1977,
Kaiser1990)
etparfois
enplus
en seplaçant
dans un contexte derégression (Haïtovsky 1968,
Little1979),
soit en utilisant des données réelles(Buck 1960). Enfin,
certains auteurs réunissent lacomparaison théorique
etempirique (Gleason
et Staelin1975,
Beale et Little1975).
Récemment,
une nouvelleconception
du traitement des donnéesmanquantes
a vu le
jour,
elle consiste àremplaçer
une donnéemanquante
par un ensemble de M valeurs(M
>1)
créant ainsi M tableauxcomplétés.
L’estimationmultiple
(imputation multiple
enanglais)
utilise les méthodes standard pour fournir les M estimations et pouranalyser chaque
tableaucomplété puis,
calcule l’effet des diverses estimations des donnéesmanquantes ( Herzog
et Rubin1983,
Rubin et Schenker1986,
Rubin1987).
Finalement,
d’autres méthodes sont liées à une situationparticulière : analyse
de variance
(Anderson 1946,
Rubin1972, Dodge 1985, Murray 1986), enquête (Ford 1983, Madow,
Olkin et Rubin1983,
Grosbras1987,
Little1986,
Rubin1987),
séries
temporelles (Jones 1980,
Abraham1981),...
Le livre de Little etRubin,
paruen
1987,
traite brièvement ces situations et fournit des référencessupplémentaires.
L’analyse
des méthodes existantes soulève desquestions.
Peut-on faire deshypothèses
si lourdes(de
modèle ou dedistribution) ?
Ne devrait-on pas rester dans un contexted’analyse
des données ? Lesdésavantages
connus de ces méthodes(sous-estimation
de lavariabilité,
distorsion de ladistribution)
sont-ilsacceptables ?
Dans cet
article,
nous allonsprésenter
une nouvelletechnique
d’estimation des données manquantes : elle utilise la structure multivariée des données et sebase sur la maximisation du coefficient RV introduit par Escoufier en 1973. La définition et les
propriétés
du RV ainsi que de la nouvelle méthode d’estimation seront étudiés auparagraphe
2. Dans leparagraphe 3,
nous allons comparer sur la base d’unexemple
lesprincipales
méthodesd’imputation
avec la méthode RV à l’aide de deux critères définis par Gleason et Staelin en 1975.2. Une nouvelle méthode d’estimation de données
manquantes
2.1 L’idée de la méthode
La méthode la
plus
utilisée estprobablement
la méthode de Buckqui
attribueà la valeur
manquante
laprédiction
fournie par larégression
de cette variable surles autres variables. On
peut
montrerqu’elle
revient à estimer la donnéemanquante
par la valeurqui
minimise la distance de Mahalanobis entre le vecteur individuqui
contient la donnéemanquante
et le vecteur moyenne. Cette minimisation d’une fonction d’une norme vectorielle nous a donné l’idée de minimiser une fonction d’une norme matricielle pour seplacer
dans un contexte multivariégénéral.
2.2 Le
coefficient
RVSoit X =
( X(2) } un vecteur aléatoire tel que X(1)
est un vecteur p x 1
et X(2) est q
x 1. La séparation
en deux parties
du vecteur X se fait de façon
naturelle par
exemple,
variablesendogènes
etexogènes,
ouqualités physiques
etintellectuelles. Sa moyenne J.L et sa matrice de variance-covariance E sont :
Escoufier
(1973)
a défini le coefficient de corrélation vectorielpV :
Les
propriétés
essentielles de ce coefficient sont les suivantes :50 F. CRETTAZ DE ROTEN, J.-M. HELBING
i)
Si p = q = 1 alorspV
=p2
le carré du coefficient de corrélationsimple.
ii) 0 ~ 03C1V ~ 1 et
1) pV
= 0 si et seulement si03A312
= 02) pV
= 1 siX(2)
=AX(1)
+ b où A est unematrice q
x p telle que A’A = kI(k
scalairepositif)
et b un vecteur q x 1(A
et bconstants).
iii)
Si A est une matrice p x p telle que A’A = kI(k
scalairepositif)
alorspV(AX(I), X(2») = pV(X(I), X(2»).
L’utilisation de ce coefficient en
statistique
multivarié estmultiple (Robert
et Escoufier
1976, Dambroise,
Escoufier et Massotte1987, Cléroux, Helbling
etRanger 1990).
En
présence
d’un échantillonXl, X2,
...,Xn,
on définit le coefficient de corrélation vectorielle échantillonnale enremplaçant
dansl’expression
depV
lesparamètres
par les estimateurs habituels pour obtenir :X(i)
etX(j) désignant
lesparties respectives
iet j
des vecteurs moyennesempiriques
desX(i)03B1
etXi (1 03B1 ~ n).
En définissant les matrices :
et en utilisant la norme
/lEI!
=ytr Ef E,
Robert et Escoufier(1976)
ont montréque :
Ainsi la
proximité
entre les deux matrices de donnéesY1
etY2 indique
que laposition
relative des npoints
dans Rp et dans Rq est semblable.2.3 La méthode basée sur le RV
matrice de données formée par n vecteurs individus de dimensions p + q.
Supposons qu’une partie
dupremier
groupe de variables du vecteurXn
contienne des données
manquantes,
on notera ce vecteur inconnu x. Ainsi on obtientxi n
=(x, y, z’) , y
étant lapartie complète
dupremier
groupe de variables.La méthode que nous proposons, consiste à
remplacer x
par le vecteurqui
minimise dist
(Y1, Y2) c-à-d, d’après
la formule(*)
duparagraphe 2.2,
par celuiqui
maximiseRV(X(I), X(2)).
Si
l’indice
i accolé à la matrice de variance-covariance S et au vecteur moyenne Xindique
que les ipremiers
individus ontparticipé
à l’évaluation de cetPosons
On a alors
et donc en
gardant
les notations duparagraphe
2.2 :Le coefficient
RV(X(1),X(2)) dépend
de x,qui
estinconnu,
par l’in-termédiaire de u. On le notera
RV(u)
et l’on doit donc maximiserRV(u)
enfonction de u. On obtient
après
desmanipulations algébriques :
avec
Le traitement de données artificielles
(5
individus et 4variables) permet
de visualiser comment la méthode RV utilise la structure deY2
pour estimer la valeur52 F. CRETTAZ DE ROTEN, J.-M. HELBING
manquante de
YI.
une valeur manque pour le dernier individu
Dans ce cas :
Remarques :
1)
Si r vecteurs individus ont des donnéesmanquantes,
on traiteséparément
et
séquentiellement
chacun des r vecteursincomplets
avec les n - r vecteurscomplets.
2)
Si laséparation
des données en deux groupes de variables n’est pasimposée
par le contexte, onpeut
choisir uneséparation
de sorte que les donnéesmanquantes n’apparaissent
que dans lepremier
groupe et éventuellement même afin que tout le vecteur manquantreprésente
lepremier
groupe. Dés lors les formulesse
simplifient
et
avec a = tr
(A13A31), (3
= tr(Ail) et 03B3
= tr(A2 33)
+2w’A33w
+(w’w)2
Si par contre la
séparation
estimposée
àpriori
et que, malheureusement des donnéesmanquent
dans les deux groupes devariables,
leprincipe
de maximisation de RV esttoujours applicable.
Seulel’expression
du RV en fonction desparties manquantes
estplus compliquée.
3)
Dans le casparticulier
des données bivariées(p
= q = 1 etXn-l
=(c1, c3)), RV(u)
devient :et par la
propriété i)
depV,
estégal
au carré de la corrélationsimple.
La maximisation de cette fonction fournit l’estimation :
alors que la méthode de Buck estime par :
La méthode RV utilise donc la
régression
de z sur x et la méthode de Buck celle de x sur z.4)
Lespropriétés ii)
etiii) permettent
d’assurer l’invariance de la méthode RV pour des transformationsorthogonales.
54 F. CREITAZ DE ROTEN, J.-M. HELBING
3.
Exemple
etcomparaison
Nous allons traiter les données « Têtes » recueillies par Frets et traitées dans le livre de
Mardia,
Kent etBibby (1979).
Elles forment une matrice de données X de 25 individus et 4 variables(2
groupes de 2 variableschacun).
Nous y décrétons de manière aléatoire 4 valeursmanquantes : X(23,1), X (24, 2), X(25,1)
etX (25, 2).
Pour
l’approche
estimation directe des donnéesmanquantes,
nous compare-rons la méthode RV avec
quatre
méthodes utilisant chacune le maximum d’infor- mationpossible.
Lapremière
méthode estime la donnéemanquante
par la moyenne(MEAN).
Les trois suivantes sont basées sur larégression : régression multiple
surtoutes les variables
(REGR), régression simple
sur la variable laplus
corrélée(SINGLE)
etrégression pas-à-pas (STEP).
Pour
l’approche
estimation desparamètres,
nous comparerons l’estimation de la matrice des corrélationsaprès
les estimations des valeursmanquantes
descinq
méthodesprécédentes
et celle de trois nouvelles méthodes. Lapremière
estbasée sur
l’algorithme
EM(ML),
la seconde utilise toute l’informationdisponible
pour le calcul de la matrice des corrélations
(ALLVALUE)
et la dernière neprend
en
compte
que les donnéescomplètes (COMPLETE).
Hormis la méthode
RV,
tous les résultats ont été obtenus avec BMDP. Onpeut
donc se référer au manuel BMDP pour unedescription précise
de ces méthodes(les
abréviations entreparenthèses correspondent
à laterminologie BMDP).
La
comparaison
se fera à l’aide de deux critères définis par Gleason et Staelinen 1975 : le
premier Qa représente
une distance entre la valeur réelle et la valeurimputée,
le secondDa représente
une distance entre la corrélation réelle et la corrélation estimée.approche
estimation directe :approche
estimation desparamètres :
Dans ces
formules,
p est le nombre devariables, n
le nombred’individus, 7r
lepourcentage
de donnéesmanquantes, Rij (resp. Xij)
la matrice des corrélations(resp.
des donnéesréelles), R(03B1)ij (resp. X(03B1)ij)
la matrice des corrélations(resp.
desdonnées)
obtenue par la méthode a et03C32j
la variance réelle de lavariable j.
Le tableau
ci-après permet
de faire les observations suivantes :1)
La méthode RV donne de bons résultatsqui peuvent
êtreexpliqués
parune valeur de RV assez élevée sur les données réelles
(RV
=0.5998).
2)
Lepourcentage
de donnéesmanquantes
dans notreexemple
est faible(03C0
=4%). Malgré
cela la méthode MEAN est bien moinsperformante
que les méthodes detype
Buck(REGR, SINGLE, STEP). L’importance
de la corrélation entre les variables étant un critèred’optimalité
des méthodes detype Buck,
leurbon
comportement
ici n’a rien d’étonnant : en effet on a maxRij =
0.8392 et minRij
= 0.6932.3)
Il estsurprenant
de constater que les méthodesspécifiques
d’estimation deparamètres
ont unDa
moins bon que cellesqui
estiment lesparamètres après imputation.
Peut-on y voir une condamnation de lapremière approche?
4)
Pour voir l’influence del’hypothèse
derépartition
au hasard des donnéesmanquantes,
on a créé des données non DMCH(la
donnée estmanquante
siXi
> 200 ouX2
>160).
Le coefficientQa augmente
d’un facteur allant de 1.2 à 1.8 parrapport
aux données DMCH mais la classification des méthodes resteidentique :
méthode RV en tête suivi des méthodes detype régression puis
de laméthode basée sur la moyenne. Ainsi la méthode RV a montré sur cet
exemple, qu’elle
résistait mieux que les autres méthodes à la violation de cettehypothèse.
Le traitement d’autres données réelles a confirmé ces observations et a
corroboré la bonne
qualité d’imputation
de la méthode RV.Bibliographie
[1]
ABRAHAM B.( 1981 ) - Missing
observations in timeseries,
Communications in Statistics :theory, 10,
1643-1653.[2]
ANDERSONR.L.(1946) - Missing-plot techniques, Biometrics, 2,
41-47.[3]
BEALE E.M.L et LITTLE R.J.A.(1975) - Missing
values in multivariateanalysis,
Journalof Royal
StatisticalSociety,
SeriesB, 37,
129-145.[4]
BOYLES R.A.( 1983) -
On the convergence of the EMalgorithm,
Journalof Royal
StatisticalSociety,
SeriesB, 45,
47-50.[5]
BUCK S.F.( 1960) -
A method of estimation ofmissing
values in multivariate data suitable for use with an electroniccomputer,
Journalof Royal
StatisticalSociety,
SeriesB, 22,
302-306.56 F. CRETTAZ DE ROTEN, J.-M. HELBING
[6]
CLEROUXR.,
HELBLING J.-M. ET RANGERN.(1990) -
Détection d’ensem- bles de données aberrantes enanalyse
des donnéesmultivariées,
Revue deStatistique Appliquée, XXXVIII,
5-21.[7]
CURRY J. et KIM J.O.( 1977) -
The treatment ofmissing
data in multivariateanalysis, Sociological
Methods andResearch, 6,
215-240.[8]
DAMBROISEE.,
ESCOUFIERY.,
MASSOTTE P.(1987) - Application
del’analyse
de données à l’élaboration de
mini-sondages d’opinion,
Revue deStatistique Appliquée, XXXV,
9-24[9]
DEAR R.E.A.(1959) -
Aprincipal-component missing
data method for mul-tiple regression
models.System Development Corporation,
TechnicalReport
SP-86.
[10]
DEMPSTERA.P.,
LAIRD N.M. et RUBIN D.B.( 1977) -
Maximum likelihood fromincomplete
data via the EMalgorithm,
Journalof Royal
StatisticalSociety,
SeriesB, 39,
1-38.[11]
DER MEGREDITCHIAN G.(1988) -
Problèmesengendrés
par les donnéesmanquantes
dans lapratique statistique,
Note de Travail de l’Etablissement d’Etudes et de RecherchesMétéorologiques,
208.[12]
DODGE Y( 1985) - Analysis
ofexperiments
withmissing data, Wiley.
[13]
ESCOUFIER Y( 1973) -
Le traitement des variablesvectorielles, Biometrics, 29, 751-760.
[14]
FORD B.L.(1983) -
An overview of hot-deckprocedures,
dansIncomplete
Data in
Sample Surveys,
vol II :(W.G. Madow,
I Olkin et D.B.Rubin, Eds),
Academic Press.
[15]
FRANE J.W.(1976) -
Somesimple procedures
forhandling missing
data inmultivariate
analysis, Psychometrika, 41,
409-415.[16]
GLEASON T.L. et STAELIN R.(1975) - Proposal
forhandling missing data, Psychometrika, 4,
229-252.[17]
GROSBRAS J.M.( 1987) -
Lesréponses manquantes,
dans Lessondages
éditépar Droesbeke
F,
Fichet B. et TassiP.,
Economica.[18]
HAITOVSKY Y( 1968) - Missing
data inregression analysis,
Journalof Royal
Statistical
Society,
SeriesB, 30,
67-82.[19]
HETJAN D.F.et RUBIN D.B.( 1990) -
Inference from coarse data viamultiple imputation
withapplication
to ageheaping,
Journalof
the American StatisticalAssociation, 85,
304-314.[20]
HERZOG T.N. et RUBIN D.B.( 1983) - Using multiple imputations
to handlenonresponse in
sample
surveys, dansIncomplete
Data inSample Surveys,
volII :
(W.G. Madow,
I Olkin et D.B.Rubin, Eds),
Academic Press.[21]
JONES R.H.( 1980) -
Maximum likelihoodfitting
of ARMA models to timeseries with
missing observations, Technometrics, 22,
389-395.[22]
KAISER J.(1990) -
The robustness ofregression
and substitutionby
meanmethods in
handling missing values, présenté
au22ème congrès
de l’ASU àTours.
[23]
KARIYAT,
KRISHNAIAH P.R. et RAO C.R( 1983) -
Inference onparameters
of multivariate normalpopulations
when some data ismissing, Developments in Statistics, 4,
137-184.[24]
LITTLE R.J.A.(1979) -
Maximum likelihood inference formultiple regression
with
missing
values : a simulationstudy,
Journalof Royal
StatisticalSociety,
Series
B, 41,
76-87.[25]
LITTLE R.J.A.(1986) - Survey
nonresponseadjustement
for estimates of means, International StatisticalReview, 54,
139-157.[26]
LITTLE R.J.A.(1988) -
A test ofmissing completely
at random for multivariate data withmissing values,
Journalof
the American StatisticalAssociation, 83,
1198-1202.
[27]
LITTLE R.J.A. et RUBIN D.B.(1987) -
Statisticalanalysis
withmissing data, Wiley.
[28]
MADOWW.G.,
OLKIN I. et RUBIN D.B.(eds) (1983) Incomplete
Data inSample Surveys,
3volumes,
Academic Press.[29]
MARDIAK.V.,
KENT J.T. et BIBBY J.M.(1979) -
Multivariateanalysis, London,
Academic Press.[30]
MURRAY L.W.( 1986) -
Estimation ofmissing
cells in randomized block and latin squaredesigns,
The AmericanStatistician, 40,
289-293.[31]
ROBERT P. et ESCOUFIER Y( 1976) -
Aunifying
tool for linear multivariate statistical methods : theRV-coefficient, Applied Statistics, 25,
257-265.[32]
RUBIN D.B.( 1972) -
A non-iterativealgorithm
for least squares estimation ofmissing
values in anyanalysis
of variancedesign,
Journalof Royal
StatisticalSociety,
SeriesC, 21,
136-141.[33]
RUBIN D.B.(1976) -
Inference andmissing data, Biometrika, 63,
581-592.[34]
RUBIN D.B.(1987) - Multiple imputation
for nonresponse in survey,Wiley.
[35]
RUBIN D.B. et SCHENKER N.(1986) - Multiple imputation
for intervalestimation from
simple
randomsamples
withignorable
nonresponse, Journalof the
American StatisticalAssociation, 81,
366-374.[36]
SEBERG.A.F.(1984) -
Multivariateobservations, Wiley,
422-423[37]
SIMON G.A. et SIMONOFF J.S.(1986) - Diagnostic plots
formissing
data inleast squares