R EVUE DE STATISTIQUE APPLIQUÉE
A LI G ANNOUN
S TÉPHANE G IRARD
C HRISTIANE G UINOT
J ÉRÔME S ARACCO
Trois méthodes non paramétriques pour l’estimation de courbes de référence - application à l’analyse de propriétés biophysiques de la peau
Revue de statistique appliquée, tome 50, n
o1 (2002), p. 65-89
<http://www.numdam.org/item?id=RSA_2002__50_1_65_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
TROIS MÉTHODES NON PARAMÉTRIQUES POUR
L’ESTIMATION DE COURBES DE RÉFÉRENCE -
APPLICATION À L’ANALYSE DE PROPRIÉTÉS BIOPHYSIQUES DE LA PEAU
Ali
GANNOUN(1), Stéphane GIRARD(1),
Christiane
GUINOT(2)
et JérômeSARACCO(1)
(1) Laboratoire de Probabilités et
Statistique,
CC 051, UniversitéMontpellier
II, PlaceEugène
Bataillon, 34095Montpellier
Cedex 5, FranceTéléphone :
+33-4-67-14-3505; Fax : +33-4-67-14-4974e-mail :{gannoun, girard, saracco}@stat.math. univ-montp2.fr
(2) CE. R. I. E. S, 20, Rue Victor Noir, 92 521
Neuilly
sur Seine Cedex, FranceTéléphone :
+33-1-46-43-43-59; Fax : +33-1-46-43-46-00e-mail :
christiane. guinot@ceries-lab.com
RÉSUMÉ
La construction de courbes de référence est un
sujet fréquemment
rencontré dans les do-maines biomédicaux ou industriels. Ces courbes sont
classiquement
estimées par des méthodesparamétriques
nécessitant deshypothèses contraignantes.
Pourpallier
cet inconvénient, des méthodes nonparamétriques,
fondées sur l’estimation dequantiles
conditionnels, ont étédéveloppées.
Dans cet article, nousprésentons
la mise en oeuvrecomplète
de trois d’entre elles. Leursperformances
sont tout d’abord illustrées sur des simulations,puis
parcomparai-
son à une méthode
paramétrique
sur des données réelles concernant despropriétés biophysiques
de la peau de femmes
japonaises
saines.Mots-clés : Quantiles Conditionnels, Estimateurs à Noyau, Intervalles de
Référence,
Courbesde
Référence.
ABSTRACT
Reference curves are
required
in various biomedical or industrialproblems.
Thesecurves are
classically
estimatedthrough parametric
methodsdemanding
strongassumptions.
To overcome this limitation,
nonparametric
methods based on conditionalquantile
estimationhave been
developped.
In this paper, we present thecomplete implementation
of three ofthem. Their
performances
are both illustratedby
a simulationstudy
andby comparison
with aspecific parametric
method on a data set collected to establish reference curves forbiophysical properties
of the skin ofhealthy japanese
women.Keywords :
Conditional Quantiles, Kernel Estimators,Reference
Ranges,Reference
Curves.66 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
1. Introduction
De nombreuses
expérimentations,
enparticulier
dans le cadre d’études bio-médicales,
sont conduites pour établir des intervalles de valeursqui
sontprises
« normalement » par une variable
d’intérêt,
que l’on noteraY,
dans unepopulation
cible.
Ici,
le terme « normalement » fait référence aux valeurs que l’on estsusceptible
d’observer avec une
probabilité donnée,
dans des conditions normales et pour des individustypes présumés
en bonne santé(les sujets
deréférence).
Ces intervalles sont souventappelés
intervalles de référence et les valeurscorrespondantes
sontappelées
valeurs de référence. Par
exemple,
onpeut
s’intéresser à un intervalle excluant les 5% d’observations lesplus grandes
et les 5% d’observations lesplus petites. Ainsi,
la construction d’intervalles de référence repose sur le calcul dequantiles.
Par
ailleurs,
il arriverégulièrement
que, sur lapopulation cible,
l’ondispose simultanément,
avec la variable d’intérêtY,
d’une informationcomplémentaire
sousla forme d’une covariable X. Très souvent, X
représente l’âge
dusujet.
Pour unevaleur donnée x de
X,
onpeut
construire un intervalle de référence.Lorsque
xvarie,
on obtient alors des courbes de référence. Dans cecadre-là,
il est nécessaire de travailler avec lesquantiles
conditionnels de Y sachant X. Le tracé de courbes de référence sur le nuage des valeursprises
par lecouple (X, Y)
pour lessujets
deréférence donne un résumé
graphique
très utile etinterprétable. Ainsi,
un individu ireprésenté
par lepoint (xi, yi)
pourra êtrecomparé
à lapopulation
de référence. En d’autres termes, une « anormalité » de cet individu serasuspectée
si cepoint
se situeen dessous de la courbe de référence inférieure ou au dessus de la courbe de référence
supérieure.
On trouve dans la littérature de nombreux articles sur lesujet
comme ceuxde
Healy,
Rasbash etYang (1988),
Cole(1988),
Goldstein et Pan(1992)
ouRoyston
et Altman
(1992)
dans les domaines biomédical etbiométrique,
ou encoreMagee, Burbidge
et Robb(1991),
Hendricks et Koenker(1992)
dans le domaine industriel.e
Quantiles
conditionnels et courbes de référencePlus
précisément,
lequantile
conditionnel d’ordre a~]0.5,1[ de
la variable Y sachant que X = x est défini de la manière suivante :où
F(. lx) désigne
la fonction derépartition
conditionnelle de Y sachant que X = x.Une caractérisation alternative de
q03B1(x)
est obtenue sous forme d’unproblème d’optimisation (P) :
où pa est la fonction définie par :
La théorie
sous-jacente
est décrite parexemple
dans Basset et Koenker(1982),
Jones et Hall
(1990),
Chaudhuri(1991)
et Yu(1997).
Pour une valeur x
donnée,
l’intervalle de référence contenant100 (2 a - 1)%
des
sujets
de référence est ensuite défini parLes courbes de référence sont alors les ensembles de
points {(x, q1-03B1(x)}
et{(x, q. (x) 1 lorsque
x varie.Soit
qn,03B1(x)
un estimateur deq03B1(x)
àpartir
del’échantillon {(Xi,Yi),
i =1, ... , n}
de n réalisationsindépendantes
ducouple
de variables aléatoires(X, Y).
L’estimateur
correspondant
deI, (x)
est défini parEn
pratique,
pour obtenir les courbes de référence à90%,
a est choisiégal
à 0.95.Deux
types d’approches
ont étédéveloppées
pour l’estimation desquantiles
conditionnels.
2022
Approche paramétrique
Quand
l’échantillon est depetite taille,
deshypothèses paramétriques
sonthabituellement
imposées
afin de réduire le nombre deparamètres
à estimer. Enparticulier,
la fonction derépartition
conditionnelle estsupposée gaussienne. Ainsi,
unestimateur du
quantile
conditionnel qa(x),
est donné parmn (x)+z03B1n(x),
oùmn (x)
et
2n(x) désignent respectivement
les estimateurs del’espérance
conditionnellem(x)
=E[Y|X = x]
et de la variance conditionnellea2 (x)
=V (Y 1 X
=x),
et où z, est le
quantile
d’ordre a de la loi normale centrée réduiteN ( 0,1 ) .
Un modèle linéaire ou
polynomial (voir Royston (1991), Royston
etWright (1998))
associé à la méthode des moindres carrés estgénéralement
utilisé pour estimerm(x)
eta2 ( x ). Cependant
ces estimations sont très sensibles aux valeurs aberrantes de Y. Deplus,
ilpeut
être nécessaire de transformer les données dedépart
dansl’espoir
d’obtenir des résidus normalement distribués avec cette nouvelle échelle(voir,
parexemple,
Cole(1988), Tango (1998), Wright
etRoyston (1997)).
C’est trèssouvent le cas avec des données
biologiques.
L’existence d’une telle transformation n’est nullementgarantie.
Il est aussi connu que leshypothèses paramétriques
sontrestrictives et
peuvent
rarement être faites avec certitude(voir
Cole(1988)).
Ainsi, l’approche paramétrique peut
être maladaptée
à la réalité des donnéesen
particulier biologiques.
Uneapproche
nonparamétrique
duproblème
a alorsété
développée
afin depallier
cesproblèmes d’hypothèses
et de modélisationparamétriques.
2022
Approche
nonparamétrique
De nombreux travaux récents ont été menés pour l’estimation non
paramétrique
des
quantiles
conditionnels aussi bien dans un cadrethéorique
que sur leplan
des ap-plications (voir,
parexemple, Bhattacharya
etGangopadhyay (1990),
Ducharme et al( 1995),
Jones et Hall(1990),
Poiraud-Casanova etThomas-Agnan (1998)
ou Poiraud-Casanova
(2000)).
Ces méthodes derégression
ne nécessitent pasd’hypothèse
sur lanature de la distribution.
68 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
A titre
d’exemple,
Hom et al(1998) proposent
uneapproche
robustepermettant
d’obtenir des courbes de référence. Cette méthode est basée sur unepartition
dusupport
de X en intervalles. Pourchaque intervalle,
les deuxquantiles q03B1(x)
etq1-03B1(x)
sont estimés defaçon
usuelle. L’ensemble desquantiles
estimés est alorslissé selon x pour obtenir les courbes de référence.
L’approche
nonparamétrique
que nous exposons ici ne nécessite pas departition
du
support
de X. Deplus,
elle est robuste dans le sens où les courbes de référence calculées sont peu sensibles à laprésence
depoints
aberrants.Dans cet
article,
trois méthodes nonparamétriques
d’estimation desquantiles
conditionnels sont
présentées :
- une méthode d’estimation par noyau,
- la méthode de la constante locale
(«
local constant kernelestimation
- une méthode d’estimation par noyau
produit («
double kernelestimation »).
Ces méthodes sont ensuite
comparées
entre elles ainsiqu’à
la méthodeparamétrique
deRoyston (1991).
La suite de cet article estorganisée
de lafaçon
suivante. Nous
présentons
dans lapartie
2 les estimateurs nonparamétriques
desquantiles
conditionnels mentionnés ci-dessus. Nousprécisons également
le choix desdifférents
paramètres
delissage
intervenant dans ces estimateurs. Lapartie
3 est con-sacrée à une étude
comparative
des différents estimateurs nonparamétriques.
Dans lapartie 4,
nous exposons uneapplication
visant à établir des courbes deréférence,
en fonction del’âge,
despropriétés biophysiques
de la peau de femmesjaponaises
surdeux zones du
visage
et une zone de l’avant-bras. Nous comparonsl’approche
nonparamétrique préconisée
àl’approche paramétrique
deRoyston (1991). Enfin,
dansune dernière
partie,
nous donnonsquelques
conclusions et extensionspossibles
de cetravail.
2. Méthodes non
paramétriques
d’estimation desquantiles
conditionnelsPar souci de
simplicité,
nous supposons désormais que X est une variable aléatoire réelle desupport
compact C.Nous décrivons ci-dessous les trois méthodes d’estimation des
quantiles
con-ditionnels
envisagées.
2.1. Méthode d’estimation par noyau
Définissons tout d’abord un estimateur non
paramétrique
de la fonction derépartition
conditionnelle de Y sachant X = x, pour y e R :La fonction
K, appelée
noyau, est mesurable sur R etd’intégrale égale
à un. Leparamètre hn
permet de contrôler lelissage appliqué
aux données. Son choix enpratique
est discuté dans leparagraphe
2.4.Il est alors naturel d’estimer le
quantile
conditionnelq03B1(x)
par03B1,n(x)
définide la manière suivante :
Sous certaines conditions de
régularité,
Stute(1986),
Samanta(1989)
et Gannoun(1990)
ont montré que:simplement
et uniformément sur Clorsque n ---+
oo.2.2. Méthode de la constante locale
Une
approche
linéaire locale a étédéveloppée
pour résoudre leproblème (P).
Le
quantile
inconnu estapproché
par une fonction linéaire qa(z)
qa(x) +q’03B1 (x) ( z - x)
= a +b(z - x)
pour z dans unvoisinage
de x, la notationqu désignant
la dérivéede q03B1.
Localement,
estimerqa (x)
est alorséquivalent
à estimer le coefficient a, et estimerq’03B1 (x)
revient à estimer b.Ainsi,
defaçon
tout à faitnaturelle,
onpeut
définir des estimateursde qa (x)
etqu (x)
en minimisant parrapport
à a et b laquantité
où
hn
et Kdésignent
la fenêtre et le noyau mentionnésprécédemment.
Si b =
0,
on définit la méthode dite de la constantelocale,
et onobtient,
pourq03B1(x),
l’estimateur suivant :Cette méthode directe d’estimation
présente
enparticulier l’avantage
d’un boncomportement
face aux effets de bords(voir
Chaudhuri(1991),
Fan et al(1994),
Koenker et al
(1992)
et Mint el Mouvit(2000)).
Deplus,
sous des conditionsgénérales,
la convergence de cet estimateur est obtenue sans étudierpréalablement
la convergence de l’estimateur de la fonction de
répartition
conditionnelle. Enparticulier, d’après
Stone(1977)
et Yu et Jones(1998),
on aen
probabilité
et en moyennequadratique lorsque
n ~ ~. Deplus,
enadaptant
unrésultat de Berlinet et al
(2001),
on obtient la convergence uniforme sur C.70 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
2.3. Méthode d’estimation par noyau
produit
Une version
plus
« lisse » de l’estimateur de la fonction derépartition
condi-tionnelle définie en
(2) peut
être introduite enremplaçant
la fonction indicatrice parune nouvelle densité
symétrique
w. L’estimateurcorrespondant, appelé
estimateurpar noyau
produit
est défini comme suit pour x E C et y E R :où [2 est la fonction de
répartition
associée à 03C9. Cet estimateurpeut également
êtrevu comme
l’intégrale
de l’estimateur à noyau de la densité conditionnelle(voir
parexemple
Berlinet et al(2001)).
Il en découle naturellement un estimateur03B1,,(x)
duquantile
conditionnel défini parCette
approche
est attractive mais nécessite le choix de deuxparamètres
delissage hl,,,
etrL2,n.
Ilapparaît
enpratique
que cet estimateur est extrêmement sensible auchoix de ces deux
paramètres.
Une méthodeempirique
pour choisirhl,,,
eth2,n a
étéproposée
par Yu et Jones(1998),
et sera décrite dans leparagraphe
2.4. Dupoint
devue
théorique,
Roussas(1991)
et Berlinet et al(2001)
ontmontré,
sous des conditions derégularité,
quesimplement
et uniformément sur Clorsque n~
oc.2.4. Choix des noyaux et des
paramètres
delissage
Nous
indiquons
dans ceparagraphe
des choixpossibles
de noyaux et de fenêtres.e Choix des noyaux
La
qualité
des estimateurs n’étant pas très affectée par le choix des noyaux(voir
parexemple
Deheuvels(1977)),
nous utiliserons dans toutes lesapplications,
les noyaux K et (j suivants :
e Choix des
paramètres
delissage
Le choix de la fenêtre est
quant
à lui crucial. Laqualité
des estimateurs nonparamétriques
basés sur les noyaux y est étroitement liée. Uneimportante
littérature est consacrée à cesujet,
et enparticulier
aux méthodes de sélectionautomatique
par minimisation d’un critère. La méthode de validation croisée entre dans cecadre,
voirpar
exemple
Hardie(1990).
D’autrespropositions
intéressantes dans ce domaine se trouvent dans l’article de Fan etGijbels (1992).
Nous avons retenu les choix suivants pour les différentes fenêtres intervenant dans chacun des estimateurs.
- Pour l’estimateur
(x),
uneapproche
dérivée du critère de validation croisée est utilisée(voir
Yao(1999)) :
où
Fn,-t (.|x)
est l’ estimateur deF (. 1 x)
défini auparagraphe
2.1 mais calculé àpartir
del’échantillon {(Xi, Yi),
i =1,..., n} privé
de la t-ème observation.- Pour l’estimateur
n,03B1(x),
Yu et Jones(1998) proposent
larègle empirique suivante,
où
hmoy
est la fenêtre obtenue par validation croisée dans le cadre de larégression
à noyau de Y sur X. Cetterègle
repose surl’hypothèse
de normalitéde la loi conditionnelle de Y sachant X. Les
fonctions 0
et 03A6 sontrespectivement
la densité et la fonction de
répartition
de la loi normale centrée réduite. Dans les cas où Q =0, 05
et a -0, 95,
la table 1 de Yu et Jones(1998)
donnehn
=1, 34hmoy.
- Pour l’estimateur
qa,n(x),
le choix de deux fenêtres est nécessaire. Nous utilisons encore les méthodesproposées
par Yu et Jones(1998).
Le choixhl,,,
de la
première
fenêtre estidentique
à celui de la fenêtrehn
décrit par la formule(4).
Pour la sélection de la fenêtreh2,n,
larègle
suivante a étéadoptée :
où
ho,n
=hmoy(03C0/2)1/5
est l’évaluation del’expression (4) lorsque
03B1=1/2.
L’utilisation de telles
règles empiriques présente l’avantage
d’une mise en oeuvresimple
etrapide. Cependant
cetavantage
estacquis
auprix
d’uneperte
degénéralité
due à
l’ajout
d’unehypothèse
de normalité. Dans lapartie suivante,
nous évaluonsla robustesse vis-à-vis de cette
hypothèse
sur simulations avant de mettre en oeuvre ces estimateurs sur des données réelles concernant despropriétés biophysiques
de lapeau de femmes
japonaises.
72 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
3.
Comparaison
sur simulations des trois méthodes nonparamétriques
Dans cette
partie,
nous évaluons les trois méthodes nonparamétriques
décritesprécédemment
sur des données simulées mais réalistes au vu del’application
surdonnées réelles considérées dans la
partie
4. Plusprécisément,
les choix de fenêtre des estimateurs 2 et 3 étant basés sur des considérations denormalité,
nous nous proposons d’évaluer leurcomportement
vis à vis de cettehypothèse.
3.1.
Description
du modèle simuléNous considérons le modèle suivant :
où le terme d’erreur é est
égal
à 03B5* 2013 aÀ avec é* suivant une loi Gamma deparamètres positifs (A, a)
dont la densité est définie pour tout x > 0 parRappelons
queE[03B5*] = aÀ, V(03B5*) = aÀ2
et8(E*)
=2/a, S désignant
lecoefficient
d’asymétrie,
dit « Skewness » enanglais.
Dans la suite de la
simulation,
on choisit a =11 À 2
afin de travailler avec un terme d’erreur de variance unité. Dans ce cadreparticulier, E
E[-1/03BB,+~[, l’espérance
de 03B5* étantégale
à1/À,
le terme d’erreur E est centré. Deplus,
le coefficientd’asymétrie
est alorségal
à 2À.Ainsi, plus À
estgrand, plus
la distribution de l’erreur estdissymétrique
et doncs’éloignera
de la normalité. Nous étudierons les cas où À ==0.5, 1, 1.5, 2,
2.5 et 3. Les données réelles que nous avons étudiées dans lapartie suivante, présentent,
pour laplupart
des variablesd’intérêt,
unerépartition
du nuagede
points
du mêmetype
que A = 1 ou 1.5 dans notre modèle(5).
Dans le cadre de cemodèle,
lequantile
conditionnel d’ordre ex s’écrit iciexplicitement
sous la forme :où
q(0393)03B1
est lequantile
d’ordre a de la loi Gamma deparamètres (03BB, 1/03BB2).
Pour chacune des valeurs de À
considérées,
nous avons simulé N == 50 échantillons de taille n = 200 selon le modèle(5)
avec la covariable Xgénérée
selon la loi uniforme discrète sur
{j /30, j == 0, 1,..., 30}.
Le choix de l’uniforme discrète sejustifie
par le fait que, sur les données réellesétudiées,
la covariable estl’âge (arrondi
àl’année)
des individus. Pourchaque
échantillonsimulé,
nous avons ensuite estiméq03B1(zj),
pour zj= j/50, j = 0,1, ... , 50,
par chacune des trois méthodes nonparamétriques.
Afin d’évaluer les différentesméthodes,
nous avons calculé pourchaque
échantillon(k = 1,.... 50)
l’Erreur RelativeMédiane,
notéeERM(k) :
où
q(k)03B1,n(zj) correspond
à l’estimation deqa(Zj)
obtenue par la méthode nonparamétrique
considérée sur l’échantillon k. Le critèreglobal
pour mesurer l’erreur d’estimation utilisé est le suivant :MERM - médiane
{ERM(k),
k =1,
... ,501.
Nous avons
préféré
la médiane à la moyenne pour estimer la tendance centrale de l’erreur en raison de sa robustesse.3.2. Résultats et commentaires
Un aperçu
qualitatif
dutype
de résultats obtenus pour les 3 estimateurs estprésenté figure
1.Visuellement, lorsque
ladissymétrie
de la distribution de l’erreur augmente, lesperformances
des estimateurs 2 et 3 sedégradent
pour lequantile
d’ordre
5%
alors que celles de l’estimateur 1 restent correctes. Ces conclusions sontinversées en ce
qui
concerne lequantile
d’ordre95%.
La
figure
2permet
une visionplus quantitative
de cephénomène
en montrantl’évolution des MERM obtenues pour les différents estimateurs en fonction du
degré d’asymétrie
du bruit. Lafigure
3complète
ces résultats enprésentant
les distributions des ERM sous forme de boîtes à moustaches. Ladégradation
desperformances
desestimateurs 2 et 3 avec
l’augmentation
del’asymétrie
du bruit n’est pas surprenante, le choix des fenêtres étant basé sur unehypothèse
de normalité. La détérioration des résultats est surtout sensible pour l’estimation desquantiles
d’ordre5%,
c’est àdire pour l’estimation des
quantiles proches
de l’extrémité finie(-1/03BB)
dusupport
de la loi du bruit. Ceux-ci sontglobalement sous-estimés,
leplus
souvent situés endeçà
dusupport (q200,
0.05-1/03BB).
Pour éliminer ceproblème, l’unique
solutionconsisterait à
changer
derègle
de choix delargeur
de fenêtre. Nous proposonsquelques possibilités
en conclusion.Par contre,
l’hypothèse
de normalité n’est pasrequise
pour le choix de la fenêtre lors de la mise en oeuvre de l’estimateur 1.Cependant,
même si laqualité
de l’estimation du
quantile
d’ordre 5%
restesatisfaisante,
laqualité
de l’estimation duquantile
d’ordre95 %
chutelorsque
ladissymétrie augmente beaucoup.
Cephénomène s’explique
par le très faible nombre d’observations dans lapartie
nonbornée du
support
de la loi. L’estimation duquantile conditionnel, purement
nonparamétrique,
souffre alors d’unegrande
sensibilité vis-à-vis de ces rares observa- tions. Cette limitationpeut
êtredépassée
en effectuant unlissage
des courbes dequantiles
conditionnels selon des abscisses. Les effets de celissage
sont illustrés surdonnées réelles dans la
partie
suivante.74 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
(b)
Coefficientd’asymétrie
S = 4FIGURE 1
Courbes de
référence
à 5% et 95% obtenues.(trait
continu : méthode d’estimation par noyau,pointillés :
méthode de la constantelocale, petits
tirets : méthoded’estimation par noyau
produit, grands
tirets :quantiles théoriques.)
FIGURE 2
Evolution de la Médiane de l’Erreur Relative Médiane en
fonction
del’asymétrie
del’erreur
(ronds :
méthode d’estimation par noyau,triangles :
méthode de laconstante
locale,
croix : méthode d’estimation par noyauproduit.)
76 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
FIGURE 3
Boîtes à moustaches pour les
différentes
Erreurs Relatives MédianesFIGURE 3
Boîtes à moustaches pour les
différentes
Erreurs Relatives Médianes78 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO 4.
Application
à des données réellesLes connaissances relatives aux courbes de référence ne sont documentées que par très peu d’études souvent réalisées avec des
méthodologies
nonappropriées.
Notreobjectif
est d’établir des courbes de référence à90%
en fonction del’âge
pour lespropriétés biophysiques
de la peau de femmesjaponaises
saines sur deux zones duvisage
et une zone de l’avant-bras.4.1. Les données
Une étude réalisée par le CE.R.I.E.S a été conduite entre le 15 décembre 1998
et le 15 avril 1999 à Sendai
(Japon)
sur n = 120 femmesjaponaises agées
de 20à 80 ans
présentant
une peauapparemment
saine(c’est-à-dire
sans aucunsigne
dedermatose en cours ou de maladie
générale
avec manifestations cutanéesavérées).
Chaque
volontaire a été examinée enatmosphère
contrôlée(température
de 23 =L 1°C et humidité relative de 50 Jr5%).
Cette étudecomportait
desquestionnaires
surles habitudes de
vie,
uninterrogatoire
et un examen médicalcutané,
ainsiqu’une
évaluation des
propriétés biophysiques
cutanées. Lespropriétés biophysiques
de lapeau incluaient : le taux de sécrétion de sébum
(taux
instantané delipides (pg/m 2),
SM810PC
Sebumeter@, Courage
et Khazaka ElectronicGmbH, Kôln, Germany),
latempérature
cutanée(exprimée
endegrés Celsius,
thermomètre différentielPT200,
IMPOElectronics, Denmark),
la perte insensible en eau(TWL (g/m2h),
EPIEvaporimeter(c), Servomed, Kinna, Sweden),
lepH
cutané(pHmeter@, Courage
et Khazaka Electronic
GmbH, Koln, Germany), l’hydratation
de la peau par estiméepar la
capacitance (Comeometer(c)
CM820 etCM825, Courage
et Khazaka ElectronicGmbH, Koln, Germany),
et la conductance(Skicon@, I.B.S., Hamamatsu-shi, Japan),
et la couleur de la peau
(Chromameter(c) CR-300, Minolta, Osaka, Japan).
La couleur aété
exprimée
à l’aide des troisparamètres
dusystème
L*a*b* CIE1976,
où L*exprime
la
luminosité,
a* les coordonnées de chromacitérouge/vert
et b* les coordonnées de chromacitéjaune/bleu.
Les deux derniersparamètres
sont la saturation(C)
etl’angle
de teinte
(H), exprimé
endegrés. L’angle typologique
individuel(ITA exprimé
endegrés)
a été calculé pourchaque
volontaire etchaque
zone(voir
Chardon et al(1991)).
L’évaluation desparamètres biophysiques
a été effectuée sur deux zones duvisage (front
etjoue)
et sur la face antérieure de l’avant-brasgauche,
sauf pour le taux de sébum mesuréuniquement
sur les deux zones duvisage.
En
résumé,
les variables d’intérêt sont au nombre de 11 sur la face antérieure de l’avant-brasgauche
et de 12 sur le front et lajoue.
La covariable estl’âge
desvolontaires.
4.2. Estimation
paramétrique
La
méthodologie
utilisée pour l’établissement de valeurs de référence desmesures
biophysiques
cutanées en fonction del’âge
dessujets
découle de celleproposée
parRoyston (1991).
Cetteméthodologie comporte
sixétapes légèrement
modifiées afin de
l’adapter
aux données. Nous les décrivons brièvement ci-dessous :-
Représentation graphique
de la variable d’intérêt en fonction del’âge :
elle per- met de déceler d’éventuelssujets extrêmes,
c’est-à-dire dessujets présentant
desvaleurs
supposées
êtretrop
élevées outrop faibles,
ainsi que desregroupements
desujets.
- Sélection du modèle par
régression polynomiale
ascendante.- Vérification de
l’ajustement
du modèle aux donnéesgrâce
aux valeursrésiduelles.
- Transformation éventuelle des données pour normaliser les valeurs résiduelles.
- Calcul des valeurs de référence et de l’intervalle de référence en tenant
compte
d’une éventuelle hétéroscédasticité de la mesure en fonction del’âge.
- Vérification de
l’acceptabilité
des courbes de référence obtenues avec le modèle final(voir
auparagraphe
4.4 les critèresd’acceptabilité
des courbes deréférence).
4.3. Estimation non
paramétrique
La covariable AGE ne
prend
que des valeurs entières allant de 20 à 80 ans.Notons
{zt, t
==1,..., T}
ces T valeurs distinctes. Pour chacun des estimateurs nonparamétriques,
lequantile
conditionnel qa(x)
a été évalué en ces valeurs. On obtient donc l’ensemble despoints {(zt,03B1(zt)), t
-1,..., T}.
Pour lareprésentation graphique
des courbes deréférence,
uneapproche basique
consiste à réaliser uneinterpolation
linéaire entre ces différentspoints. Cependant
les courbes obtenues avec cetteapproche présentent
unaspect
visuel non "lisse".Ainsi,
pourpallier
cedéfaut,
nous avons
opté
pour unlissage
par la méthode du noyau(de type Nadaraya-Watson)
de ces
points,
le noyau choisi étant le noyau normal et la fenêtre utilisée étant obtenue par validation croisée.Les trois estimateurs non
paramétriques
ont étéprogrammés
enlangage
Cpour des raisons de
temps d’exécution,
lesétapes
de minimisation(P)
ainsi qued’optimisation
des critères de validation croisée étant assez lourdes. Les différentsgraphiques,
quant à eux, sont réalisés avecSplus.
4.4. Résultats
Nous
précisons
tout d’abord les critères utilisés pouraccepter
ourejeter
a poste- riori les courbes de référence obtenues.Puis,
nous résumons les résultats obtenus par la méthodeparamétrique
et les méthodes nonparamétriques.
Nous décrivons ensuite l’étude de deux variablesparticulières
pourlesquelles
la modélisationparamétrique
aéchoué. Nous remarquons enfin que, même
lorsqu’il
existe un modèleparamétrique
etque les courbes de référence sont
acceptées, l’approche
nonparamétrique
fonctionnebien.
80 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
e Critère
d’acceptabilité
des courbes de référencesLes courbes de référence
(obtenues
par les méthodesparamétrique
ou nonparamétriques)
sont considérées commeacceptables
si elles satisfont les trois condi- tions suivantes :(a)
Elles n’incluent pas de valeursimpossibles
pour Y(i.e.
parexemple,
des valeurs nulles ounégatives
alors que la variable Y nepeut prendre
en réalité que des valeurs strictementpositives).
(b)
Elles contiennent lepourcentage
désiré d’individus à savoir100 (2a - 1)%.
(c)
Les valeurs individuellesqui
se trouvent en dehors des limites des courbes de référence sontréparties
defaçon
uniforme en fonction de la covariable AGE et aucunregroupement
de valeurs individuellesn’apparaît.
e
Synthèse
des résultats obtenus par la méthodeparamétrique
Pour un certain nombre des variables
étudiées,
nous avons pu établir des courbes de référence en fonction del’âge
par la méthodeparamétrique.
Le tableau 1 résumeles résultats ainsi obtenus.
Remarquons
que le modèleparamétrique
estacceptable lorsque
les résidus sont normalement distribués(après
transformation aupréalable
des données si
nécessaire).
Si le modèleparamétrique
n’est pasaccepté,
les courbes de référence nepeuvent
alors être construites.TABLEAU 1
Récapitulatif des
résultats obtenus avec la méthodeparamétrique
2022 Synthèse
des résultats obtenus par les méthodes nonparamétriques.
Les courbes de référence en fonction de
l’âge
ont été établies avec succès pour tous lesparamètres biophysiques analysés
par l’estimateur à noyau(méthode 1).
Pour la presque totalité desparamètres,
la méthode de la constante locale(méthode 2)
donnedes courbes de référence
acceptables.
Par contre, les courbes de référence obtenues par la méthode du noyauproduit (méthode 3)
sont moins satisfaisantes. Ilapparaît
clairement que la
règle empirique
pour le choix deh2,n
est maladaptée
et entraînedes courbes de référence sur-lissées. Pour remédier à ce
problème déjà
constaté dans lapartie
3 sur lessimulations,
d’autres méthodes de choix nereposant
pas sur unehypothèse
de normalité doivent êtreenvisagées.
Le tableau 2 résume l’ensemble des résultats obtenus avec les trois méthodes nonparamétriques.
TAB LEAU 2
Récapitulatif des
résultats obtenus avec les méthodes nonparamétriques (méthode
1 : méthode d’estimation par noyau, méthode 2 : méthode de la constantelocale,
méthode 3 : méthode d’estimation par noyauproduit)
Etude détaillée de trois variables
Nous
présentons ci-après l’investigation
relative aux variables deproduction
de sébum. Elles
correspondent
aux taux instantanés de sébum mesurés sur le front(variable
SFRONT sur lesgraphiques)
et surla joue (variable SJOUE).
Pour ces deuxvariables, l’approche paramétrique
a échoué.Dans le cas de
SJOUE,
un modèle linéaire a été estiméaprès
une transformationlogarithmique
de la formeloge (SJOUE+03BB)
avec À == 10(pour accepter
la normalité desrésidus). Cependant,
la courbe de référence estimée de niveau 5% passe sous la valeurzéro, atteignant
des valeursnégatives qui
ne sont pasphysiologiquement acceptables (voir
lafigure 4(a)).
Pour la variable
SFRONT,
en utilisant un modèlelinéaire,
les résidus sont ap- parus normalement distribuésaprès
une transformation de la formeloge (SFRONT+
A)
avec À = 12.Cependant
ces courbes de référence à 90% ne sont pas totalementsatisfaisantes,
bien que 9% des observations se trouvent à l’extérieur des courbes de référence. Eneffet,
celles-ci ne sont pasréparties
defaçon homogène
lelong
del’étendue de
l’âge.
Deplus,
la courbe de référencesupérieure
croîtbeaucoup trop rapidement
pour les faibles valeurs del’âge (voir
lafigure 4(b)).
La valeur maximaleobservée à 20 ans sur l’échantillon est de
300ygIcm 2
or la courbe de référence atteintune valeur
supérieure
à40003BCg/cm2
pour cetâge.
Les courbes de référence ne sont donc pasacceptables.
Pour établir des courbes de référence
lorsque
cesproblèmes apparaissent,
lesméthodes non
paramétriques
s’avèrent nécessaires.Les
figures
5(a)
et5 (b) représentent
les critères de validation croisée dont ont été déduites les fenêtreshn
ethmoy (utilisées respectivement
dans lepremier
et les deuxderniers
estimateurs)
pour la variable SFRONT. Les valeurspermettant
d’atteindre le minimum du critère sontrespectivement hn
=7, 9
ethmoy = 8, 6
dans ce cas. Desgraphiques
similaires sont obtenus pour les autres variables.82 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
FIGURE 4
Courbes de
référence
à 5% et 95% obtenues avec la méthodeparamétrique
pour les variables SJOUE et SFRONT
FIGURE 5
Critères de validation croisée déterminant le choix
des fenêtres
des estimateurs nonparamétriques
pour la variable SFRONT84 A. GANNOUN, S. GIRARD, C. GUINOT, J. SARACCO
FIGURE 6
Courbes de
référence
à 5% et 95% obtenues avec les méthodes nonparamétriques
pour les variables SJOUE et SFRONT
(trait
continu : méthode d’estimation par noyau,pointillés :
méthode de la constantelocale,
tirets : méthode d’estimation parnoyau
produit)
Les
graphiques 6(a)
et6(b)
montrent les courbes de référence à 90%qui
ontété construites par les trois méthodes non
paramétriques
pour les variables SJOUE et SFRONT.En ce
qui
concerne la variableSJOUE,
les courbes de référencesupérieures
obtenues avec les trois estimateurs non
paramétriques correspondent
bien à ce que l’on s’attend à observer d’unpoint
de vuebiologique (décroissance
du taux instantané de sébum avecl’âge), seul l’aspect légèrement
« ondulé » n’est pas totalement conforme.Pour « lisser » un peu
plus
cescourbes,
il seraitpossible
deprendre
une fenêtrelégèrement plus large
que celle sélectionnée par la méthode de validation croisée.Pour ce
qui
est de la variableSFRONT,
les courbes de référencesupérieures
se
comportent
de manière semblablejusqu’à l’âge
de 65 ans.Ensuite,
lepremier
estimateur décroît
plus rapidement
que les deux autres cequi correspond
bien à unediminution attendue du taux instantané de sébum avec
l’âge.
En ce sens, cette courbe de référencepourrait
êtrepréférée
aux deux autres.Notons enfin que même
lorsqu’un
modèleparamétrique
a pu être construit et que les courbes de référence ont été déclaréesacceptables, l’approche
nonparamétrique
donne des résultats semblables. Par
exemple,
sur lafigure
7 les courbes de référence obtenues avec la méthodeparamétrique peuvent
êtrecomparées
à celles obtenuesavec l’estimateur à noyau
(méthode 1)
pourl’angle typologique
individuel du front(variable ITAFRONT),
les deux séries de courbes évoluant defaçon comparable
surla fourchette
d’âges
étudiée.FIGURE 7
Courbes de