R EVUE DE STATISTIQUE APPLIQUÉE
H. A BIDI J. P ONTIER J. B ORMS W. D UQUET
Courbes de croissance : intérêt de la modélisation pour l’analyse de données longitudinales
Revue de statistique appliquée, tome 43, n
o3 (1995), p. 55-72
<http://www.numdam.org/item?id=RSA_1995__43_3_55_0>
© Société française de statistique, 1995, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
COURBES DE CROISSANCE :
INTÉRÊT DE LA MODÉLISATION
POUR L’ANALYSE DE DONNÉES LONGITUDINALES
H. Abidi
(1),
J. Pontier(2),
J. Borms et W.Duquet (3) (1)
Unitéd’Hygiène, Épidémiologie
etInformation
MédicaleCentre
Hospitalier Lyon
Sud69495 Pierre Bénite cedex, France
(2)
Centre de Recherche et d’Innovation sur leSport
UFR STAPS Université Claude Bernard
Lyon
I69622 Villeurbanne cedex France
(3)
Laboratoire de Biométrie Humaine et deBiomécanique Vrije
Universiteit Brussel,Pleinlaan 2 1050 Brussel,
Belgique
RÉSUMÉ
L’analyse
des courbes de croissance a engénéral
pourobjectif
de visualiser unetypologie
de courbes afin de déceler les groupes d’individus ayant une croissance
particulière. L’Analyse
en
Composantes Principales
(ACP), comme méthoded’analyse
factorielle, semble bienadaptée
à ce genre de
problème.
Mais cetteanalyse
n’est paspossible
si les individus ne sont pas mesurésaux mêmes
âges,
ou si des mesures sont manquantes. Dans ces conditions, nous montronscomment par l’intermédiaire de la modélisation on peut atteindre le même
objectif.
Mots-clés : Courbes de croissance, modèles non linéaires, modélisation,
analyse
en compo- santesprincipales.
ABSTRACT
In
general
a mainobjective
of thestudy of growth
curves is to show atypology
of curvesfor the detection of individuals
having
aparticular growth.
ThePrincipal Component Analysis (PCA)
isgenerally applied
in order to solve thisproblem.
When individuals are not measured at the same age or some measures aremissing,
thisanalysis
is notpossible.
Then we show thatwe can attain this
objective by
means of the modelization of thegrowth
curves.Keywords :
Growth curves, nonlinear models, modelization,principal
componentanalysis.
1. Introduction
L’évolution individuelle d’un caractère
quantitatif
variant au cours dutemps
(la taille,
lepoids, etc.)
est connue, de manière trèspartielle, grâce
à une suite finiede
couples (ti, yi)
de valeursnumériques
croissantesen t2 (l’âge,
engénéral), yi
étant la valeur mesurée à
l’instant ti
du caractère étudié sur l’individu considéré. Lareprésentation graphique
de cette suite decouples,
dans unplan
muni d’unrepère cartésien,
est une succession depoints jalonnant
la «courbe decroissance», continue,
mais inconnue faute d’unenregistrement permanent.
De tellesdonnées,
résultant deplusieurs
observations échelonnées au cours dutemps
et réalisées sur un mêmeindividu,
sontqualifiées
delongitudinales.
Généralement,
une campagned’acquisition
de telles donnéeslongitudinales
est réalisée sur
plusieurs individus, l’objectif
étant d’étudier la variabilité inter- individuelle des courbes decroissance,
parexemple
aux fins detypologie,
de détectionde
comportements
anormaux, voire deprédiction. Si,
d’un individu àl’autre,
les conditionsd’acquisition
des données sont standardisées(tous
les individus sont mesurés le même nombre defois,
et exactement aux mêmesâges),
alors les méthodes traditionnellesd’analyse
de donnéespeuvent
être utilisées directement pourrépondre
aux
questions posées :
les données d’observation sontrécapitulées
dans un tableauY de valeurs réelles yij, dont la
ligne j correspond
à l’individunuméro j,
et dontla colonne i
correspond
à la valeur du caractère y mesurée àl’âge ti.
Dèslors,
des méthodes commel’analyse
encomposantes principales
oul’analyse
discriminantepeuvent
être utilisées sansproblème (Estève
et Schifflers1976,
Pemin1986).
Dans la
pratique, s’agissant
del’acquisition
de donnéeslongitudinales
sur desenfants,
cette situation idéale est loin d’êtretoujours
réalisée. Eneffet,
même si cetteacquisition
a étésoigneusement planifiée,
c’est-à-dire si les instants d’observationprévus
sontidentiques
pour tous lesindividus,
la contrainteimposée
aux individuspar cette
planification (qui peut
s’étaler sur unevingtaine d’années,
durée totale de la croissance chezl’enfant) peut
se révélerinsupportable.
D’où des défaillancesponctuelles (ce qui
se traduit par des donnéesmanquantes)
ou définitives(abandon
en cours
d’enquête :
sériesincomplètes).
Le taux de donnéesmanquantes peut
être si élevé que lestechniques
habituelles d’estimation de ces donnéesmanquantes
sontimpuissantes
à remédier à cette situation.Ainsi,
leconcept
même d’observationlongitudinale
delongue durée,
sur la croissance de l’êtrehumain,
seprête
très mal à uneplanification.
Ce «défaut» nediminue en rien l’intérêt de réaliser une telle étude.
Aussi, renonçant
àimposer
auxindividus une standardisation
trop contraignante
des conditions de leurobservation,
nous
reportons
notre effort de standardisation sur les données une foisacquises,
c’est-à-dire
après
que les observations aient étéréalisées,
mais avant touteapplication
d’une méthode
classique d’analyse
de données. Celasignifie
que nous supposons seulement :- que
chaque
individu a été observéplusieurs
fois au cours de sacroissance,
- que les instants
(âges)
d’observation ne sont pas forcément les mêmes d’un individu àl’autre,
- que les nombres d’observations
peuvent
différer d’un individu à l’autre.Ces conditions d’observation sont
beaucoup
moinscontraignantes qu’une
planification rigide,
et tout à faitcompatibles
avec la vie habituelle des enfants.Pour réaliser la standardisation
souhaitée,
nous proposons d’utiliser la modélisation des courbes de croissance. Une telle modélisationpermet
de reconstituer une situationstandard,
c’est-à-dire un tableaucomplet lignes
xcolonnes,
de deuxfaçons :
-
chaque
courbe individuelle étantmodélisée,
le modèlecorrespondant
permet de reconstituer(approximativement)
les valeurs du caractèreàp
instants convenus, les mêmes pour tous lesindividus;
-
chaque
courbe étantmodélisée,
la liste des valeurs des qparamètres
caractérise d’une certaine manière l’ensemble de cette courbe.Dans les deux cas, on associe à
chaque
individu un«profil» numérique standard,
et par
conséquent
l’ensemble de cesprofils
constitue un tableaucomplet susceptible
d’être traité par une méthode
classique d’analyse
d’un tableau de données.Cependant,
face à deux
réponses possibles
à notreproblème
destandardisation,
nous nousinterrogeons
tout naturellement sur les relationssusceptibles
d’exister entre les deux.Plus
précisément,
ces deuxanalyses,
celle sur le tableau des donnéesreconstituées,
et celle sur le tableau des
paramètres, produisent-elles
des résultats entièrement redondants(auquel
cas l’une des deuxsuffit),
oucomplémentaires (alors
ilpeut
être intéressant de les réaliser toutes lesdeux).
C’estl’objet
du textequi suit,
de tenterd’apporter
uneréponse
à cettequestion,
à la fois sur unplan théorique
et sur unplan appliqué
à un cas concret.2. Un
problème
demétrique
Nous supposons que la modélisation
proprement
dite ne pose pasproblème.
Cela
signifie
que nousdisposons
d’un «bon»modèle,
c’est-à-dire d’une fonction continue t ~f (t, 0) (où 03B8
est un ensemble de q valeursnumériques 03B81, 03B82,..., Oq,
constantes pour un individu
donné,
mais variables d’un individu àl’autre; 0
est le«vecteur des
paramètres»),
telle que pour toutindividu j
et tout instant d’observationti,
la valeur«théorique» f(ti, 03B8j)
soit une excellenteapproximation
de la valeur observée(ou observable)
yij. Dans cesconditions,
l’identification du modèle pourchaque
individu(c’est-à-dire
la détermination duvecteur oj correspondant
à l’individuj)
nous conduit à construire deuxtableaux,
chacun de nlignes (le
nombred’individus),
l’un noté Y
ayant p
colonnes(les
valeurs du caractèreétudié y
estimées par le modèle à p instants choisisti,
i = 1 àp),
l’autre notéP ayant q
colonnes(les
valeursdes q paramètres
constituant le vecteur0).
Ayant
choisi icil’analyse
encomposantes principales (A.C.P.)
comme moyend’explorer
l’ensemble des n courbes decroissance,
notreobjectif
est alors de faire en sortequ’une
A.C.P. réalisée sur le tableauP,
et une A.C.P. réalisée sur le tableauY, produisent
des résultats «lesplus proches» possible.
Plusprécisément,
cetteproximité
des résultats devra se traduire en termes deproximité
des nuages depoints, respectivement
dansl’espace engendré
par lescomposantes principales
de l’une etde l’autre de ces deux A.C.P.
(cartes factorielles).
Lesmétriques
associées à ces deux A.C.P. sont notéesrespectivement Mp
etMq.
Notreproblème peut
alors s’énoncer ainsi : l’une des deuxmétriques
étant choisie(arbitrairement),
comment construirel’autre
métrique
pour réaliser laproximité
souhaitée?Le
problème
du choix deMq
a été soulevé par Houllier(1986),
Pemin(1986).
Houllier
(1987)
l’avait résolu dans un contextemathématique rigoureux, imposant
àla
métrique Mp
de RP(espace
des donnéesd’observation)
d’êtreégale
à l’Identité(Mp
=Ip).
Il a ainsi abouti à lamétrique
de sensibilité. Caussinus et Ferré(1989)
ontdonné une
justification
du choix deHoullier,
en considérant leproblème
comme uneapplication
intéressante du modèle à effet fixes(Caussinus 1986a, 1986b,
Besse et al.1987, 1988,
Ferré1989).
Dans ceparagraphe
nous proposons une démonstrationplus simple
etplus générale
à ceproblème.
Il est tout d’abord nécessaire depréciser quelques
notations ethypothèses.
2.1 Notations
.
yj
note la matrice colonnetransposée
de laligne j
du tableauY;
ses coefficients sont les p mesures yij del’individu j (c’est
aussi la «courbe» observéeou reconstituée de cet
individu).
.
f (t, 0)
note le modèle decroissance;
ildépend
dutemps
t, et du vecteur desparamètres 0,
de dimension q..
F(03B8)
matrice colonne dont les p coefficients sont les valeursf (ti, 0)
du modèleaux
âges (dates) ti.
.
03B8j :
matrice colonnetransposée
de laligne j
du tableauP;
ses coefficients sont les valeurs estiméesdes q paramètres
de la courbe de croissance del’individu j.
. matrice moyenne des
03B8j.
2.2
Hypothèses
Nous conviendrons que
l’espace
des variables(Rn )
est muni de lamétrique identité,
casauquel
onpeut toujours
se ramener.Hypothèse Ho :
Lesâges d’observation
sont les mêmes pour tous lesindividus,
ce
qui permet
de calculer et de noter Y le vecteur moyen desyj (courbe
moyenne des n courbes decroissance).
Hypothèse Hl :
Laqualité
del’ajustement
du modèle aux données observées estjugée
satisfaisante(par
différents moyens de validation dumodèle).
Hypothèse H2 : f (t, 03B8)
est uneapproximation acceptable
de la courbethéorique
de la courbe moyenne Y. Cela
implique
que lesparamètres
du modèle sont dans undomaine convexe.
Hypothèse H3 :
Les courbes observées ne sont pastrop dispersées
parrapport
à la courbe moyenne, ou mieux encore, lesparamètres
moyens sont suffisammentproches
deceux
de tous les individus. Cecipermettra d’approcher
laquantité
(F(03B8j) 2013 F(O))
par sondéveloppement
limité aupremier
ordre auvoisinage
desparamètres
moyens(tous
les individus sont dans un domaine où le modèle est presque linéaire parrapport
à sesparamètres).
A noter que si le modèle est linéaire par
rapport
à sesparamètres (exem- ple :
modèlespolynomiaux),
les deux dernièreshypothèses
sontautomatiquement
vérifiées.
2.3 Construction de la
métrique Mg
àpartir
de lamétrique Mp
Si
d2(Yj, Yj’)Mp
note le carré de la distance entre les individus(ou courbes) j
etj’
au sens de lamétrique Mp,
alors :On
peut
écrire la matrice(yj - y j’ )
sous la forme :d’où
(yj - Yj’) ~ (F(03B8j) - F(03B8)) - (F(03B8j’) - F(03B8)) (hypothèses Hl
etH2) L’hypothèse H3 permet l’approximation :
(F(03B8j) - F(03B8)) ~ S(03B8j - 03B8),
oùN
est la matrice à plignes
et qcolonnes
connue sous le nom de matrice de
sensibilité, d’élément
courantSik
-f (ti,
La
notation
Srappelle
que cette matrice est calculée sur le vecteur desparamètres
moyens
O. Après remplacement
etsimplification
dansl’expression précédente
ontrouve :
(yj - Yj’) ~ S(03B8j - 03B8j’)
et parconséquent :
d 2 (yj
,Yj’)Mp ~t (03B8j - 03B8j’)tSMpS(03B8j - 03B8j’) = d 2 (oj
,03B8j’)tSMpS
où
d2(03B8j, 03B8j’)tSMpS
note le carré de la distanceentre 03B8j
et03B8j’
selon lamétrique
tSMpS.
Il suffitdonc,
pourrespecter approximativement
les inter-distances desindividus,
de choisirMq = tSMpS
comme matrice de lamétrique
dansl’espace
des
paramètres.
Si le modèle est linéaire par
rapport
auxparamètres,
lesapproximations (~) figurant
dans les relations ci-dessus deviennent deségalités,
et ainsi les inter-distances des individus sontidentiques, qu’elles
soient mesurées avec l’une ou l’autre des deuxmétriques.
On s’attend alors à ce que les deux A.C.P. donnent les mêmesrésultats,
alorsqu’on peut
s’attendre à des résultatsplus
ou moins différents si le modèle n’est pas linéaire.2.4 Cas
particuliers
intéressants :Mp
=Ip
etMp
=Diag(1/Var (tri»
Un
premier
casparticulier
de la relationprécédente
est celui oùMp = Ip, métrique
identité définie dans RP(ce qui correspond
à une A.C.P.sur
matrice descovariances).
Dans ce cas lamétrique Mq
de Rq seraégale
àtS S,
notéeQ
etappelée métrique
de sensibilité. Son nom découle de celui de la matrice S définieprécédemment.
Le termegénéral
deQ
est donc :Il est somme finie du
produit
deux à deux de fonctions de sensibilité,
dérivées du modèle par
rapport
auxparamètres 03B8k(k
= 1 àq).
Ces fonctionsjouent
un rôle crucial lors de l’identification des
paramètres (Bard 1974,
Beck et Arnold1977,
Abidi1991).
Lamétrique
de sensibilité tientcompte
de l’effet de la moyenne d’unparamètre
sur la forme de lacourbe,
du nombre d’observations et surtout de leurrépartition
sur lapériode
de croissance. Caussinus et Ferré(1989)
ontpréféré
une
métrique
moyenne C(compromis)
desQj,
oùQj
est la matriceQ
définie ci- dessus mais danslaquelle
le vecteurmoyen 03B8
estremplacé
par levecteur ()j
associé à lacourbe j.
Cettemétrique
a étésignalée auparavant
par Houllier( 1987),
et Abidi( 1991 )
a obtenu sur un
exemple
les mêmes résultats en utilisant ces deuxmétriques.
Notonsque si le modèle est linéaire par
rapport
à sesparamètres,
C etQ
sontidentiques.
Un autre cas
particulier
est celui oùMp
=Diag ( 1 /Var (ti)),
où Var(ti)
est lavariance
(entre individus)
de la taille àl’âge ti.
Ce cas,classique, correspond
à uneanalyse
encomposantes principales
centréeréduite,
ou sur matrice decorrélation,
dite aussianalyse
encomposantes principales
normée(A.C.P.N.).
Notons D la matrice associée à cettemétrique. Compte
tenu dudéveloppement
duparagraphe précédent,
lamétrique Mq
à utiliser dansl’espace
desparamètres
est doncégale
àt SD S.
Cetteexpression peut
s’écrire sous laforme t(D) S)(VD S)
oùB/D =
Diag (1/Var(ti).
Sous cetteforme,
il est facile de remarquer que la réduction des variables(âge ti)
du tableauY, produit
une transformation de lamétrique
desensibilité :
pondération
des fonctions de sensibilité~f(ti, 03B8) ~03B8k
par l’inverse de l’écarttype
de la taille àl’âge ti (cf.
Abidi1991).
Dans le
paragraphe suivant,
nousappliquerons
à un cas concret d’observation deplusieurs
croissances staturalesindividuelles,
la modélisation des courbes de croissance et les deuxanalyses
encomposantes principales évoquées
ci-dessus :sur
paramètres
dumodèle,
et sur valeurs reconstituées de la stature. Nous discuterons les relations entre résultats de ces deuxanalyses.
Nous avons choisi de nousplacer
dans le
premier
des deux casparticuliers évoqués ci-dessus,
soit celui oùMq
est lamétrique
de sensibilitéQ,
et parconséquent Mp
est lamétrique
identitéIp (donc
A.C.P. sur matrice de covariances des données
reconstituées).
3.
Application
3.1. Les données
longitudinales
et leur modélisationNous avons travaillé sur un
jeu
de données concernant la croissance en taille debout(stature)
de 59 enfantsbelges,
soit 35 garçons et 24 filles. Ces enfants fontpartie
del’enquête
LEGS(Hebbelinck et
al.1980).
Ils ont été suivis au cours dutemps
entre
l’âge
de 6 ans etl’âge
de 19 ans. Les observations ne sont pas toutes effectuéesaux mêmes
âges,
et les 59 enfants n’ont pas nonplus
le même nombre de mesures, mais pour chacun ondispose
d’au moins 21 mesuresréparties
defaçon plus
au moinsrégulière
entre 6 et 19 ans.L’âge
estexprimé
en années et la taille en centimètres.Sur cette
période
de la croissance du caractèretaille, plusieurs
modèles sontdisponibles (voir Hauspie 1989,
Abidi1991).
Nous avons choisi ici lepremier
destrois modèles
proposés
par Preece et Baines(1978).
Ce modèle(noté PB 1) dépend
de 5
paramètres qu’on notera 03B81, 03B82, 03B83, 03B84, 03B85;
il a pourexpression :
où le
paramètre 03B81
estime la tailleadulte, 03B85
et03B82
estimentrespectivement l’âge
et lataille au
pic d’adolescence, 03B83
et03B84
sont desparamètres
d’échelle. Une étude détailléesur ce modèle a été effectuée par Pemin
(1986).
Le critère à
optimiser
est celui des moindres carrésordinaires,
la méthoded’identification utilisée ici
(calcul numérique
desparamètres)
est celle deMarquardt (Marquardt 1963).
Plusieurs critèrespeuvent
êtrepris
en considération pourapprécier
la
qualité
del’ajustement
d’une courbe. Nous retenonsl’Écart Quadratique Moyen (EQM)
et la Variance Résiduelle(VarR) :
Dans ces
formules,
le nombre deparamètres
est q, iciégal
à 5 pour tous lesindividus,
le nombre de valeurs observées sur l’individu est p, ici variable d’un individu àl’autre,
y2désigne
la mesure de la taille de l’individu(en cm)
àl’instant ti (en années)
etf (ti, 03B8)
la valeurthéorique
de la taille en cetinstant t2 d’après
le modèle.L’avantage
dupremier
critère estqu’il
estindépendant
du nombre deparamètres
ets’exprime
par l’unité de mesure du caractère étudié(ici
lecm). Quant
au deuxièmecritère,
il al’avantage
d’être une estimation non biaisée de la variance des résidus(03B5i)
par
rapport
au modèle :Dans la
figure
1 ci-dessous sontreprésentés
les écartsquadratiques
moyens pour tous les individus. On notera que tous ces écarts sont inférieurs à 1 cm, cequi
est l’ordre de
grandeur
de l’erreur de mesure lors de laprise
de la taille d’un enfantdebout,
et cequi
parconséquent permet
de considérer que le modèle choisi est très bon(voir hypothèse Hl ).
Le tableau 1 suivant donne une idée de la valeur moyenne des
paramètres
par sexe, et sexesconfondus,
et de leurdispersion exprimée
par l’écarttype.
Les deux dernièreslignes
sont relatives aux valeurs moyennes et auxdispersion
del’Écart Quadratique Moyen (EQM)
et de la variance résiduelle(VarR).
Les faibles valeurs de ces deuxquantités
montrent lagrande qualité
du modèle choisi dansl’ajustement
de ces courbes
observées,
que ce soit celles des filles ou celles des garçons.FIGURE 1 : En
ordonnée,
valeur de l’écartquadratique
moyen(EQM) exprimée
encm. En abscisse sont
portés
les numéros des courbes : garçons n°1 à35, filles
n°36à 59.
TABLEAU 1 :
Moyenne
et écart type(entre parenthèse)
par sexe et sexesconfondus
des 5
paramètres
du modèle PBl et desquantités EQM
(écart quadratique moyen)
et VarR(variance résiduelle).
3.2. A.CP. sur les données reconstituées
Une fois les 59 courbes
modélisées,
nous avons créé le tableau Y contenant, pour chacun des 59enfants,
lesvaleurs,
estimées par lemodèle,
de la stature à 27âges choisis,
soit tous les 6 mois del’âge
de 6 ans àl’âge
de 19 ans, inclus.Ayant choisi,
dansl’analyse
desparamètres (voir ci-après § 111.3)
de nousplacer
dans le casparticulier
oùl’espace
Rq des individus est muni de lamétrique
de sensibilitéQ,
nousdevons munir RP
(espace
des courbes decroissance)
de lamétrique
identité(Ip).
End’autres
termes, l’analyse
encomposantes principales
sur le tableau Y sera centrée seulement(A.C.P.
sur matrice descovariances).
Le résultat de cette
analyse
est schématisé par lepremier plan
factoriel des courbes de croissance(reconstituées), figure
2ci-après.
Ce dernierplan représente 96,27%
d’inertietotale,
dont80,75%
est dû aupremier
axe et15,52%
au second.FIGURE 2 : Premier
plan factoriel
de l’A.C.P. sur matrice des covariances des données reconstituées par le modèle PB1. Les garçons sont numérotés de 1 à35,
lesfilles de 36 à
59. Ceplan représente 96,27%
d’inertie totale dont80,75%
est dû aupremier
axe et15,52%
au second.Le cercle des corrélations des 27 variables
(âges
de 6 ans à 19 ans tous les 6mois)
du tableau
Y,
avec les 2premières composantes principales
de l’A.C.P. sur matrice des covariances estreprésenté figure
3. Pouralléger
ledessin,
nous n’avonsexplicité
que 5
points (correspondant
à6, 9, 13,
15 et 19ans).
Lespoints
nonreprésentés
sontsur la courbe tracée les reliant tous dans l’ordre
chronologique.
Cette courbepart
dupoint
«6 ans», montejusqu’à
«9 ans», redescend à « 13 ans», enfin montejusqu’à
« 19 ans» en passant par l’intermédiaire « 15 ans ».
L’interprétation
des deuxpremières composantes principales,
àpartir
du cercledes corrélations de la
figure 3,
neparaît
pas évidente si l’on veutl’exprimer
àpartir
des
«variables»,
c’est-à-dire en termes de valeurs de la taille aux différentsâges.
La
première composante principale
s’identifie presque(au signe près)
à la taille àl’âge
de 15 ans. La deuxièmecomposante principale
met en évidence une sorted’oscillation au cours de
laquelle
lesâges
9 ans et 13 ansparaissent jouer
des rôles de«charnières», découpant
ainsi la durée de croissance enpériodes
dontl’interprétation
ne
peut
résulter que d’un retour auxdonnées, peut-être
d’un examenplus approfondi
de la forme des courbes de croissance
(nous
pensons à despériodes
d’accélérationou de décélération par
exemple). Quoi qu’il
ensoit,
arrivés au stade de ce cercle decorrélation,
nous ne sommes pascapables
sans informationcomplémentaire
defournir une
interprétation
despositions
des individus dans la carte factorielle de lafigure
2. Tout auplus remarque-t-on
uneséparation
nette entre les deux sexes, mais ceci n’a riend’original,
cephénomène apparaissant
dans laplupart
desanalyses
decaractères
biométriques
danslesquelles figurent
des filles et des garçons.FIGURE 3 : Corrélations des variables
(âges)
du tableau Y avec les deuxpremières
composantes
principales
de l’A.C.P. sur matrice des covariances. Voir commentaire dans le texte.3.3. A.C.P. sur les 5
paramètres
du modèle PB1L’étape
de modélisation nous apermis
d’obtenir le tableau P à nlignes (ici,
les 59 courbes de
croissance)
et q colonnes(ici,
les 5paramètres
du modèle PB1).
Comme
précisé plus
haut(§ II,4 et § 111,2),
nous avons choisi pour des raisons desimplicité
de munirl’espace
Rq des individus de lamétrique
de sensibilitéQ.
Surle tableau P des valeurs des
paramètres,
nous avons donc réalisé uneanalyse
encomposantes principales
en utilisant cettemétrique.
Sur lafigure
4 on areprésenté
le
premier plan
factoriel des individus(courbes
decroissance).
Ceplan représente 97,77%
de l’inertietotale,
soit75,80%
pour lepremier
axe, et21,97%
pour le second.Comme dans
l’analyse précédente,
nous notons immédiatement uneséparation
desdeux sexes.
FIGURE 4 : Premier
plan factoriel
de l’A.C.P. sur les 5paramètres
du modèle P Blavec
métrique
de sensibilité. Les garçons sont numérotés de 1 à35,
lesfilles
de 36 à59. Ce
plan représente 97,77%
d’inertie dont75,80%
pour lepremier
axe et21,97%
pour le second.
L’enfant
n°4 sort des limites dugraphique,
avec7,5
pour ordonnée.Une
comparaison
visuelle de ladisposition
des individus(courbes
de crois-sance)
dans les deuxplans
factoriels(figures
2 et4),
nous montredéjà
que ces deuxreprésentations
sont trèsproches
l’une de l’autre. Le calcul des corrélations entre lescomposantes principales
issues des deuxanalyses
confirme cette remarque, En ef- fet si Cl et C2 notent les deuxpremières composantes principales
issues de l’A.C.P.centrée sur les courbes
reconstituées,
etC’l
etC’2
cellesqui
découlent de l’A.C.P. surles
paramètres,
on acor(Cl, Cl) = 0, 99684
etcor(C2, C’2) = 0, 96596,
valeurssuffisamment élevées pour que l’on
puisse
considérer queC’l
estapproximative-
ment
proportionnel
àCl, C’2
estapproximativement proportionnel
à C2.Ainsi,
à unéventuel facteur d’échelle
près
sur chacun des deux axes, lesconfigurations
des deuxnuages de
points
dans ces deuxplans
factoriels sont presque en coïncidence.Le cercle de corrélation
(figure 5) correspondant
à la carte factorielle de lafigure 4,
permet uneinterprétation concrète, biologique,
despositions
des individussur cette carte factorielle. En
effet,
lapremière composante principale (axe horizontal),
en corrélation
positive
élevée avec03B81 (taille adulte)
et03B82 (taille
au moment dupic d’adolescence),
est un facteur de taille. Cettecomposante
oppose les enfants depetite
taille
(à gauche
dans la cartefactorielle)
à ceux degrande
taille(à droite).
La deuxièmecomposante principale (axe vertical)
s’identifie presque auparamètre 03B85 (âge
aumoment du
pic d’adolescence).
Elle oppose les enfantsayant
unpic
d’adolescenceprécoce (en
bas dans la cartefactorielle)
à ceuxqui
l’ontplus
tardivement(en haut).
Remarque.
L’examen du cercle des corrélations de lafigure
5permet
de se rendrecompte
de la forte corrélation existant entre lesparamètres 03B81
et03B82 (cette
corrélation est
égale
à0,988).
Sur leplan
de latechnique
demodélisation,
ces deuxparamètres peuvent
être considérés commeredondants,
situationqui pourrait justifier
si besoin était une
reparamétrisation
du modèle. Sur leplan biologique,
cette fortecorrélation est intéressante dans la mesure où elle autorise une bonne estimation de la taille adulte à
partir
de la taille au moment dupic
d’adolescence.FIGURE 5 : Corrélations des 5
paramètres
du modèle PBl avec les deuxpremières composantes principales
de l’A. C.P. avecmétrique
de sensibilité.Pour illustrer notre commentaire ci-dessus sur
l’interprétation
descomposantes principales
àpartir
desparamètres,
nous donnons dans le tableau 2 les valeurs desparamètres
pourquelques
enfantsrépartis
enquatre
groupes,qui
sontopposés
d’unepart
selon lepremier
axe(groupes
A etB),
d’autrepart
selon le second(groupes
C etD).
Afin de comparer ces groupes parrapport
à l’individu moyen, nous avonsajouté
à ce même
tableau,
lesparamètres
moyens des 35 garçons et ceux des 24 filles.TABLEAU 2 :
Valeurs des
paramètres
pour certainsenfants, regroupés
selon leurposition
sur lepremière plan factoriel (voir figure 4).
Les deux dernièreslignes
contiennent lesparamètres
moyens des 35 garçons et des 24filles.
Voir commentaire dans le texte.3.4. Bilan de ces deux A. C.P.
Nous venons de réaliser deux
A.C.P.,
toutes les deuxsubséquentes
à une mêmeopération
de modélisation de 59 courbes de croissance :- l’une des deux A.C.P.
porte
sur le tableau des valeurs de la stature des 59enfants,
valeurs reconstituées à l’aide dumodèle,
à desâges
convenustoujours
les mêmes d’un enfant à
l’autre;
- l’autre A.C.P.
porte
sur le tableau desvaleurs,
enfant parenfant,
desparamètres
du modèle.
Les
métriques respectives
intervenant dans ces deux A.C.P. ont été choisies pour que les inter-distances des individus soient aussiproches
quepossible
dansles deux
analyses.
Defait,
les cartes factorielles concernant les deuxpremières composantes principales
issues de ces deuxanalyses
montrent peu de différences dans lesconfigurations
des deux nuages depoints (figures
2 et4).
Bien que les différences entre les deux cartes factorielles soient
faibles,
onpeut
tenter de les
expliquer. Ainsi,
il estimportant
de noter que ne sont pasrigoureusement respectées
leshypothèses qui
ontpermis
dejustifier
le choix ducouple
demétriques,
aboutissant à cette
proximité
aussigrande
quepossible
des résultats des deux A.C.P.Si
Ho
etHl
sont vérifiées parconstruction, puisque
les données constituant le tableau Y sont calculées àpartir
dumodèle,
leshypothèses H2
etH3
ne le sont pas, commeen
témoigne
legraphique
de lafigure
6 ci-dessous.L’hypothèse H2
estlégèrement
en
défaut,
à cause de la non linéarité du modèle. Ceci se traduit par le fait que la courbethéorique
desparamètres
moyens(Para Moy)
et la moyenne des courbes modélisées(Moy Cb)
ne coïncident pas tout à fait.Quant
àl’hypothèse H3,
elle n’estpas
vérifiée,
comme le montrent les cas individuelschoisis,
dont les courbes diffèrent nettement de la courbe moyenne.Remarquons
que,malgré
un écartimportant
entrela courbe n° 31 et la courbe moyenne, la
position
dupoint
31 estpratiquement
lamême sur les deux cartes factorielles
(figures
2 et4); peut-être
cette stabilité est-elle due au fait que la courbe n° 31 reste constamment à peuprès parallèle
à la courbemoyenne? Quant
aux courbes n° 4 etn° 32, qui
sont des casextrêmes,
leurs écarts parrapport
à la courbe moyennepeuvent expliquer
les différences deposition
absolue despoints correspondants,
dans les deux cartesfactorielles,
mais lespositions
relativesde ces
points
ne sont toutefois pas bouleversées. Ces constatations nouspermettent
de supposer que la méthodeproposée possède
une certaine robustesse vis à vis des écarts parrapport
àl’hypothèse H3.
L’interprétation
despositions
des individus dans la carte factorielle résulteclassiquement
del’interprétation, grâce
au cercle descorrélations,
des relations existant entrechaque composante principale
et l’ensemble des «variables actives».Or ici la
première A.C.P.,
réalisée sur 27 variablesactives,
montre un cercle des corrélations sansinterprétation
immédiate évidente descomposantes principales.
Parcontre, la deuxième
A.C.P.,
réalisée sur 5 variablesactives,
bénéficie immédiatement d’uneinterprétation biologique claire, grâce
à lasignification
concrète et connue paravance des
paramètres
du modèle utilisé.Nous pouvons donc dire que nous sommes en
présence
- d’une
unique
cartefactorielle,
issue indifféremment de l’une ou l’autre des deuxA.C.P.,
- et de deux cercles des
corrélations,
dont l’un estd’interprétation
non évi-dente sans
analyse plus approfondie
de lasituation,
alors que l’autre est d’in-terprétation
immédiatecompte
tenu des informationsdisponibles.
Ainsi,
pourrépondre
auproblème posé initialement,
nous pouvons dire queces deux
analyses
sont très liées entre elles : sur leplan
des cartesfactorielles,
leurs résultats sont presque
identiques,
cequi permet
de conclure à une redon- dance trèsforte;
sur leplan
des cercles decorrélation,
elles sontremarquablement
complémentaires,
ladifficulté,
voirel’impossibilité, d’interprétation
descomposantes
principales
de l’une étantcompensée
par la facilitéd’interprétation
descomposantes principales
de l’autre.FIGURE 6 : Courbes de croissance staturale des
enfants n° 4,
31 et 32(garçons),
courbe
théorique
desparamètres
moyens(Par Moy)
et moyenne des courbesthéoriques (Moy Cb).
4. Conclusion
Une étude
longitudinale
de la croissance se heurtepresqu’inévitablement,
aumoins
lorsqu’il s’agit
de l’enfant et del’adolescent,
à deux défautsmajeurs
interdisant l’utilisation directe des méthodesd’analyse
des données :l’hétérogénéité,
entreindividus,
du nombre d’observations et desâges auxquels
sont effectuées celles-ci.La modélisation
préalable
des courbes de croissance individuellespermet
dese ramener au cas standard d’un tableau
complet lignes
x colonnes seprêtant
àl’analyse.
Enfait,
nous obtenons àpartir
de la modélisation deux tableaux : l’un(Y)
contenant les valeurs reconstituées de la stature à desâges choisis,
l’autre(P)
contenant les valeurs des
paramètres
du modèle. Nous nous sommes doncinterrogés
sur les relations
susceptibles
d’exister entre résultats d’une même méthoded’analyse
des données
pratiquée
sur l’un et sur l’autre de ces deux tableaux. Plusprécisément,
nous avons ici choisi comme méthode
l’analyse
encomposantes principales.
Les deux tableaux Y et
P,
bien que relatifs aux mêmesindividus,
et bienque
tous les deux issus de la même
modélisation,
sont de naturecomplètement
différente.Le
premier contient,
pourchaque individu,
les valeurs d’un même caractère estiméesà des
âges
successifs choisis(données longitudinales).
Le second associe àchaque
individu une liste de valeurs de
paramètres
d’unmodèle,
valeurs résultant d’un calculnumérique (processus
d’identification dumodèle,
àpartir
des donnéesd’observation) qui
tientcompte
de la sensibilité du modèle parrapport
à chacun de sesparamètres,
du nombre d’observations et surtout de leur
répartition
sur lapériode
de croissance.De ce
fait,
cesparamètres
ne sont pas calculés avec la mêmeprécision,
ni entre eux,ni d’un individu à l’autre. Ces circonstances font que, si le choix de la
métrique
pour
l’analyse
du tableau Y est assez naturelle(en
fait onanalysera
la matrice decovariance,
ou la matrice decorrélation),
il n’en est pas de même de lamétrique
pourl’analyse
du tableau P. Nous avons vu que,moyennant
un choixjudicieux
ducouple
de
métriques,
choixjustifié
parquelques hypothèses,
l’A.C.P. de l’un et l’A.C.P. de l’autre de ces tableaux aboutissent à deux nuages depoints ayant
à peuprès
la mêmeconfiguration.
Si ce résultat met en évidence une certaine redondance entre les deuxA.C.P.,
enpermettant
de conclurequ’on peut
se livrer indifféremment à l’une oul’autre,
il reste que, sur leplan
des cercles decorrélations,
donc del’interprétabilité
des
composantes principales,
les résultats sont sans lien évident.Comme
exemple numérique,
nous avons réalisé ces deux A.C.P. sur des données de croissance staturale d’enfantsbelges.
Pourajuster
les courbes decroissance,
nousavons choisi le modèle PBl de Preece et Baines
(1978).
Nous avons vérifié que les résultats de la modélisation sont trèssatisfaisants,
l’écart entre le modèle et les observations étant inférieur à l’erreur de mesure de la taille debout d’un enfant.Comme
attendu,
les cartes factorielles obtenuesrespectivement
à l’issue de l’A.C.P.centrée sur les données
reconstituées,
et de l’A.C.P. avecmétrique
de sensibilité surles
paramètres
dumodèle,
se sont révélées trèssimilaires,
et ceci bien que deux deshypothèses
ne soient pasrigoureusement respectées.
S’il ne nous a pas étépossible d’interpréter,
àpartir
du cercle descorrélations,
lescomposantes principales
issuesde la
première A.C.P.,
en revanchel’interprétation
descomposantes principales
de ladeuxième A.C.P. à
partir
du cercle des corrélationscorrespondant
a été immédiate.A
partir
delà,
il serait hasardeux deconclure,
àpartir
de ce seulexemple numérique, qu’il
suffit dans tous les cas de nepratiquer
que l’ A.C.P. sur lesparamètres
du modèle. Si dans cet
exemple
l’A.C.P. sur données reconstituéespeut apparaître superflue, puisque
l’A.C.P. surparamètres
a donnépratiquement
les mêmesrésultats,
avec en
plus
une facilitéd’interprétation biologique
descomposantes principales,
ce fait ne
peut
être tenu pour une loigénérale :
nous avons ici bénéficié del’interprétabilité biologique
desparamètres
du modèle choisi. Or lesparamètres
d’unmodèle de croissance
(en général
une fonctiondéterministe),
n’ont pas forcément uneinterprétation biologique claire,
et dans ces conditions la considération du seul cercle des corrélations relatif à l’A.C.P. sur lesparamètres peut
n’être d’aucun secours dansl’interprétation
descomposantes principales.
Onpeut
mêmeimaginer
que, à l’inverse du cas concret examinéici,
la considération simultanée des deux cercles de corrélationpuisse
être un moyen d’obtenir uneinterprétation biologique
desparamètres
d’unmodèle.
Tous les calculs et
graphiques
duprésent
article ont été réalisésgrâce
au lo-giciel ACCTM (Analyse
des Courbes deCroissance),
créé par HassaneAbidi,
per- fectionnégrâce
auxsuggestions
des membres du laboratoire de Biométrie Humaineet de