R EVUE DE STATISTIQUE APPLIQUÉE
W. I MAM
E. M ATZNER -L ØBER A.-S. A IFOUTE
Choix de l’ordre des modèles autorégressifs fonctionnels additifs
Revue de statistique appliquée, tome 47, n
o1 (1999), p. 63-80
<http://www.numdam.org/item?id=RSA_1999__47_1_63_0>
© Société française de statistique, 1999, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CHOIX DE L’ORDRE DES MODÈLES AUTORÉGRESSIFS
FONCTIONNELS ADDITIFS
W.
Imam1,
E.Matzner-Løber2
et A.-S.Aifoute3
1 Université de Damas, Faculté de
génie électrique
etmécanique,
Dépt
degénie
médical, Damas,Syrie
2 Unité de Biométrie, ENSA.M, INRA, Université
Montpellier
II, 2 Place Viala, 34060Montpellier
Cedex 1, FranceTéléphone :
+33-99-61-24223 Faculté de Médecine, Université de
Montpellier
I, 2, rue Ecole de médecine, 34060Montpellier
Cedex 1, FranceRÉSUMÉ
Dans cet article, nous considérons une classe de modèles additifs non linéaires avec
variables
exogènes
dans le cadre del’analyse
non linéaire des sérieschronologiques.
Nousproposons deux
procédures
pour caractériser ces modèles. Lapremière
utilise une méthoded’analyse
des données,l’analyse
en composantesprincipales
avec variables instrumentales (ACPVI)spline
additive. La seconde utilise les fonctionssplines
derégression. Après
avoirdéterminé l’ordre du modèle, nous sélectionnons les variables influentes et nous identifions les
fonctions, linéaires ou non,
impliquées.
Nousprésentons
ensuite des résultats de simulations ainsiqu’un exemple
pour illustrer cetteanalyse.
Pour terminer, nousappliquons
lapremière procédure
à unexemple
médical concret.Mots-clés : ACPVI
spline
additive, Choix de modèle,Identification,
Sérieschronologiques.
ABSTRACT
In this article, we consider a class of nonlinear additive models with exogenous variables for nonlinear times series
analysis
and propose twoprocedures
fordetecting
such models. Thefirst one uses a data
analysis
method called additivespline principal
componentsanalysis
with respect to instrumental variables (PCAIV). The second one uses theregression splines.
Oncethe variable selection is done, we
identify
the linear and nonlinear functions involved. Hence,we present the results of a simulation
study
and use a simulatedexample
to illustrate theanalysis.
Then, we use the firstprocedure
in a real medicalexample.
Keywords :
Additivespline,
PCAIV, Time series, Variable selection.1. Introduction
Ces dernières
années,
l’étude non linéaire des sérieschronologiques
a connu unessor
important.
Cetengouement
peuts’expliquer
par diversesraisons,
comme parexemple
la limitation des modélisations linéaires dans ungrand
nombred’applications
réelles ou encore
l’apparition
d’ordinateurspuissants qui permettent
d’effectuerrapidement
les nombreux calculs nécessaires àl’analyse
non linéaire de ces séries.Une troisième raison à cet essor est le
développement
des méthodes derégression
non
paramétriques qui
ont donné une basethéorique
solide à l’étude non linéaire des sériestemporelles.
Dans ce
travail,
nous nous intéressonsplus particulièrement
aux méthodes nonparamétriques
utilisées dans l’étude des sérieschronologiques.
Il existe de nombreux modèles non linéaires dans la littérature(bilinéaire, ARCH, EXPAR...),
mais ce n’estpas
l’objet
de cet article de les détailler et de les étudier. Nous renvoyons les lecteurs intéressés àTong (1995).
Lespremières applications
des méthodes nonparamétriques
aux séries
chronologiques
étaient consacrées à laprévision.
Elles sont dues àBosq (1979)
et Collomb(1980) qui
ont étudié lerégressogramme.
Ils ont été suivis parCollomb,
Hardie et Hassani(1987) (étude
du modeconditionnel),
Gannoun(1989) (étude
de la médianeconditionnelle).
Lesprédicteurs
nonparamétriques
basés surl’estimation non
paramétrique
de la moyenne, de la médiane et du mode conditionnels ont ensuite étérepris
sous diverses formes et étudiés sous différenteshypothèses
demélange.
Lespremières applications supposaient
la sériek-Markovienne,
c’est-à-dire des modèles de la forme suivanteoù
(et)
est une suite de variables aléatoiresindépendantes
etidentiquement
distribuées(i.i.d.),
de moyenne 0 et de variancea 2 indépendante
dupassé
du processus. Les modèles(1)
sont des processusautorégressifs
non linéaires(ANL)
d’ordre k.Pour ce
qui
est del’analyse
des sérieselle-même,
Robinson(1983)
a étudiédes estimateurs non
paramétriques
de la densitéjointe
de la série stationnaireZt
pour différentes valeurs
de t,
des densités conditionnelles etégalement
des courbes derégression.
Considérant cetteapproche
nonparamétrique
pourl’analyse
desséries
chronologiques,
ilproposait
ces méthodes afind’analyser
les distributions des processus stationnaires. Ainsi dans sonintroduction,
Robinsonsignalait
que ces méthodespouvaient permettre
dedégager
la naturegaussienne
ou non de la sériechronologique étudiée,
ou encore de détecter son caractère linéaire ou non linéaire.Ce n’est
qu’en
1990 que Auestad etTjøstheim
ontappliqué
les méthodes nonparamétriques
derégression
pour estimer la moyenne et la variance conditionnelles d’un processusautorégressif
non linéaire. Ils ontégalement proposé quelques pistes
pour déterminer l’ordre k d’un ANL. La
première
consistait à remarquer que l’esti- mateur de la variance résiduelled’ordre j ( j
variant de 1 à une valeurprédéterminée K)
devait se stabiliserpour j plus grand
que k. L’estimateur de la variance résiduelle2j
était de la forme suivante :où rn est un estimateur non
paramétrique
de larégression.
Ilsproposaient également
un estimateur du critère FPE
(Final
PredictionError)
pour déterminer cet ordre. Ils ontensuite
repris
cetteapproche
en 1994(Tjøstheim
etAuestad, 1994b).
Entretemps, Cheng
etTong (1992)
ontproposé
d’utiliser un critère de validation croisée. Vieu(1995)
aégalement proposé
un critère de validation croiséepénalisée.
Ses simulations confirment les résultatsthéoriques qu’il
a obtenus.Comme
l’approche
nonparamétrique
engénéral
souffre de la «malédiction de ladimension»,
mêmequand k
estpetit,
des restrictions sur la fonctionf
ont étéproposées.
Laplus
utilisée estl’additivité ;
le modèle(1) peut
alors s’écrire sous la forme suivanteoù
(Et)
est une suite de variables aléatoiresi.i.d.,
lesfi(.)
sont des fonctions réellesappelées
fonctions coordonnées. Ces ANL additifs seront dorénavant notés ANLAou NAAR en
anglais.
Lesavantages
de cette restriction sont nombreux : meilleure vitesse de convergence, facilitéd’interprétation...
Enrégression,
les modèles additifs ont été très étudiés(voir
parexemple
Hastie etTibshirani, 1990).
Les ANLA sont unesimple généralisation
des modèlesautorégressifs
non linéaires depremier
ordre deJones
( 1978).
Ils sont suffisamment flexibles pourenglober
des modèlesautorégressifs
linéaires mais
également beaucoup
de modèles non linéaires intéressants. Pour uneprésentation plus approfondie
desANLA,
nous renvoyons à l’article de Chen etTsay (1993).
Si une variableexogène
X estdisponible,
le modèle(2) peut
segénéraliser
de la
façon
suivanteoù les
gi(.)
sont des fonctions réellesmesurables,
1 est un entierpositif
et les variablesexogènes xt
sontindépendantes
du bruit de la série(03B5t).
Chen et
Tsay (1993)
ont utilisé un«Backfitting algorithm»
commel’Altemating
Conditional
Expectation (ACE)
introduit par Breiman et Friedman(1985)
et leBRUTO
algorithme
de Hastie et Tibshirani(1990),
pourajuster
ces modèles additifs(3). L’algorithme
AVAS de Tibshirani(1988) pourrait également
être utilisé. Leproblème
rencontré par Chen etTsay (1993)
est unproblème
inhérent auxalgorithmes
de
backfitting,
c’est-à-dire quelorsque
les observations sont trèscorrélées,
la vitesse de convergence desalgorithmes
est très lente.Une autre méthode pour estimer les fonctions dans les ANLA est de considérer
un estimateur par
intégration.
Nous renvoyons pour deplus amples
détails aux articlesde
Tj0stheim
et Auestad(1994a)
ou encore deMasry
etTjøstheim (1995).
Dans ce
travail,
nous allons utiliser une méthoded’analyse
desdonnées, l’analyse
encomposantes principales
sur variables instrumentalesspline
additive(ACPVI spline additive),
introduite par Durand(1993),
pour déterminer l’ordre d’un ANLA. L’ACPVIspline
additive et lessplines
derégression
sontprésentées
dansles sections 2 et 3. La section 4
présente
laprocédure
d’estimation de l’ordre des ANLA en utilisant l’ACPVIspline
additive ainsi que les résultats des simulations.Pour terminer ce
travail,
nousprésentons
une étude concernant unproblème
médical.2.
Rappels
sur l’ACPVIspline
additiveL’analyse
linéaire encomposantes principales
sur variables instrumentales(ACPVI)
est une méthodeayant
pourobjectif l’analyse
des relations linéaires entre deux groupes de variables X et Y.X,
matrice de taille(n
xp), représente les mesures
de p variablesexplicatives
sur n individus etY,
matrice de taille(n
xq), représente
les mesures
de q
variables àexpliquer
sur les mêmes n individus. Cette méthode a été introduite pour lapremière
fois par Rao(1964). L’approche proposée
par Escoufier(1987)
réside en l’introduction desmétriques (matrices
définiespositives) permettant
de calculer les distances entre individus et entre variables.Les
métriques Q
et D sontrespectivement
définiespositives
sur les espaces des individus et des variables de Y.L’objectif
de l’ACPVI est de trouver unemétrique
R sur
l’espace
des individus de X telle que la norme de HilbertSchmidt, (norme
surl’espace
des matricesD-symétriques)
de la différence entre lesopérateurs YQY’D
et
XRX’D,
soit minimale. Cela revient à chercher des combinaisons linéaires des variablesexplicatives qui expliquent
le mieux les variablesréponses
dansl’espace engendré
par les variablesexplicatives.
2.1.
Transformations splines
desprédicteurs
L’hypothèse implicite
de liaison linéaire entre les variablesexplicatives
n’est pastoujours
vérifiée dans de nombreuses situationsbiologique,
médicale etécologique.
L’ACPVI ne
prend
pas encompte
le caractère non linéaire des liaisons entre les variablesexplicatives,
Durand(1993)
aproposé
l’ACPVIspline
additive. Cette méthode cherche des transformations des variablesexplicatives
par des fonctionssplines
pour améliorer la corrélation entre les variablesexplicatives
et les variablesréponses.
Ces fonctions sont despolynômes
par morceaux d’ordre m(de degré m -1 ) qui
se raccordent ainsi que certaines de leurs dérivées en hpoints appelés
noeudsintérieurs,
voirSchumaker, (1981). L’espace
des fonctionssplines
est de dimensionr = m + h. Une fonction
spline s(z)
est une combinaison linéaire de fonctions de baseappelées B-splines
notéesBl(.)
où 1 varie de 1 à r. La fonctionspline
s’écrit dela
façon
suivante :où z E R et
les sl
sont les coefficientssplines. Chaque élément xji
dela jeme
variable
explicative (jème
colonne deX)
est codé par(BI (xi ), B2(xji),
...,Br(xji)).
La transformation de
la jème
variableexplicative Xj
s’écrit de lafaçon
suivante :où
Bj
est la matrice decodage
deXj
etsj = [sj1,
...,sjr]’
le vecteur des coefficientssplines.
Ces coefficients seront estimés en minimisant une fonctionobjectif
détailléeplus
loin.2.2. La méthode
L’Analyse
enComposantes Principales (ACP)
a été utilisée parCiuperca ( 1997)
sur les variables
exogènes
du modèle(3)
pour rechercher les variables influant sur la variableréponse (la
sériezt) qui
est considérée comme une variablesupplémentaire.
Cette méthode ne tient pas
compte
de la corrélation entre les variablesexogènes
et la(les) variable(s) réponse(s)
et de lapossible
non-linéarité des variablesexogènes.
L’objectif
de l’ACPVIspline
additive est de chercher des combinaisons linéaires des variables instrumentales(explicatives)
transformées par des fonctionssplines qui expliquent
le mieux les variablesréponses
dansl’espace engendré
par les variables instrumentales transformées. Cela revient à effectuer uneanalyse
encomposantes principales
de laprojection
de Y dansl’espace engendré
par les variables instrumen- tales transformées par lessplines.
L’ACPVI
spline
additive cherche une matriceX(s)
et unemétrique
Rqui
minimisent la distance entre les
opérateurs YQ Y’D
etX(s)RX’(s)D.
où
X(n p)(S) = B(n pr)S(pr p)
avecB(n pr) = [B1| ... |Bp]
la matrice ducodage, Bj(n r) étant, rappelons-le,
la matrice ducodage
de lajeme
variableexplicative (1 j p),
etest la matrice des coefficients
splines, sl (1 j
p,1 l r)
étant le coefficient deBl(Xj)
dans la transformationXj(sj).
Le vecteur s ==snp
deIRpr,
oùI1P
estle vecteur colonne de
1,
contient lesparamètres splines
pour tous lesprédicteurs.
Leséquations
normales parrapport
àR,
s étantfixé,
ont une solutionexplicite optimale
calculée par
Pour R
fixé,
leséquations
normales n’ont pas de solutionexplicite;
pour obtenir s, il faut donc utiliser une méthode itérative comme celleproposée
parDurand, (1993)
etImam et
Durand, (1997).
La condition n > > p estimportante
pour ne pas avoir unproblème
de sensibiliténumérique
desalgorithmes
utilisés.Une fois la transformation
optimale effectuée,
nous réalisons l’ACP dutriplet (X(s), R, D).
L’ACP considérée estéquivalente
à celle dutriplet (Px(s) Y, Q, D),
où
PX(s)
est leprojecteur D-orthogonal
surl’espace
des colonnes deX(s).
Ceci meten évidence le lien avec les lisseurs additifs
multiréponses
où M =
(S’ B’ DBS)+S’ B’ DY
est la matrice des coefficients de larégression
deY sur la matrice
X(s).
Le modèle additifmultiréponses
associé à l’ACPVIspline
additive
s’exprime
parOn
peut alors,
pourchaque
variableréponse Yh,
tracerBjsjMjh
en fonction deX j,
cequi
conduit aux fonctions coordonnées reconstruisant le modèle additif. La variance des valeurs d’une fonction coordonnée est un critèrepermettant de juger
del’influence de cette variable
explicative
sur la variableréponse.
Dans la suite de ce
travail,
nous ne considérerons que des sériestemporelles univariées,
Y sera donc de taille(n 1).
Nousexpliquerons
en détail auparagraphe 4,
la manière de construire X et Y àpartir
d’une sériechronologique.
Dans cetteconfiguration,
l’ACPVIspline
additive entre X et Y revient àprojeter
laréponse
Ydans
l’espace engendré
par les colonnes deX
Leséquations (5)
et(6)
deviennentoù S est calculée
grâce
à(4).
Une autre
approche
ditecodage, permettant
de considérer. l’influence des variables X surY,
utilise lessplines
derégression.
Cette méthode cherche àexpliquer
la
réponse
Y dansl’espace engendré
par les colonnes de la matrice ducodage
B.3.
Rappels
sur lessplines
derégression
Le
principe
de cette méthode consiste à estimer lesfonctions
du modèlechoisi par des fonctions
splines.
Lesfonctions fi
s’écrivent comme une somme des fonctionssplines exprimées
dans la base desB-splines
normalisées. Pour des noeudsfixés,
on obtientLe modèle des
splines
derégression
est donné parl’expression
où
e’ - [03B51,
...,03B5n],
A est le vecteur desparamètres splines
et B la matrice ducodage
de dimension n x pr. L’estimation des
paramètres splines
repose sur la minimisation des moindres carrésLa solution de ce
problème d’optimisation
est laprojection
de Y surl’espace engendré
par les colonnes de la matrice du
codage B,
où M =
(B’DB)+B’DY.
Dans le cas
où q
=1,
la différence entre l’ ACPVIspline
additive et lessplines
de
régression provient
de la matrice S. La condition n > > pr estplus contraignante
que celle
imposée
par l’ACPVIspline
additive. D’unpoint
de vuealgébrique,
cettecondition
permet
d’éviter lesproblèmes
de sensibiliténumérique
desalgorithmes
utilisés. D’un
point
de vuestatistique,
pr est la dimension del’espace
danslequelle
on
projette la réponse
de taille n. Si cet espace esttrop grand,
le modèlepossède
alors un mauvais
pouvoir prédictif.
Nous verrons dans lapartie
simulations que cette condition n’est pasrespectée
pour les séries de taille T = 50. Même pour des séries de taillesupérieure,
cette condition n’est pasrespectée lorsque
le nombre p de variablesexplicatives
est élevé. C’est une des raisons pourlaquelle
les résultats dessplines
derégression
sont de moindrequalité
que ceux de l’ ACPVIspline
additive.4.
Méthodologie
et simulationsSoit
(Zt), t
EN,
un processus ANLAunivarié,
dont on observe un échantillon de taille T.À partir
de ce processus, nous construisons un processus associé de lafaçon
suivante :où K est assez
grand
pour détecter desphénomènes
saisonnierséloignés,
mais pas trop afin de conserver suffisamment de données pourpouvoir
étudier la série. Afin derespecter
les notations desparagraphes précédents,
posons n = T -K,
les matrices X et Y sont donc de taillerespective
n x K et n x 1.La
première étape
consiste à déterminer unestimateur k
de la valeur k du modèle(2).
Nous effectuons une ACPVIspline
additive entre X et Y définies ci-dessus. Les résultats de cette ACPVIspline
additive sont résumés de la manière suivante :e La variance résiduelle pour
chaque variable, â2 = 1 n - 1 03A3 (zt - j(zt-j))2;
ces
premiers
résultats donnent une idée del’importance
des variablesexplicatives.
j(zt-j)
est soit la transformée de la variableXj
dans le cas de l’ACPVIspline additive,
soit estimée par dessplines
dans le cas dessplines
derégression.
2022 La variance résiduelle d’ordre
j, â2 = 1 n - 1 03A3 (zt - 1(zt-1) -
··· -fi (zt-j))2, c’est-à-dire
que l’onprend
encompte
toutes les variablesjusqu’à
lajème.
Cette variance résiduelle d’ordre
j,
donne une indication de l’ordre k de l’ANLA.Nous cherchons à la manière d’Auestad et
Tjøstheim (1990),
la valeurde k ( K)
pour
laquelle
cette variance se stabilise. On calcule la variance résiduelle21,...,j
pourj
variant de 1 à K et on choisit lavaleur k
telle quepour l >
la variance résiduellene diminue pas ou peu.
Exemple :
Considérons le modèleautorégressif
non linéaire suivantzt = 1.5sin(03C0 2zt-2) - sin(03C0 2zt-3) + 03B5t
où03B5t ~ N(0,1)
et T=50.Nous choisissons K -
5,
n vaut 45. Nousappliquons
l’ACPVIspline
additive entreX =
[Zt-1,···, Zt - 51
et Y =[Zt].
Les résultats seprésentent
de lafaçon
suivante :On remarque que la deuxième variable est très influente. Pour des valeurs de
j
>3,
nous remarquonségalement
que la variance résiduelle21,···,j
ne varie presqueplus
àpartir de j
> 3 et nous choisissonsdonc
= 3.Dans un deuxième
temps,
nous proposons uneprocédure
d’identification du modèlesous-jacent.
Nous refaisons une ACPVIspline
additiveavec k variables, où
a été sélectionné lors de la
première phase (dans
lapartie simulations k
pourra donc être la vraie valeur du modèle simulé maiségalement
une valeurerronée),
c’est-à-direune ACPVI
spline
additive entre X =[Zt-1,···, Zt-]
et Y =[ut] (en général
k K, si k - K,
onpeut
penser que la valeur de K initialement choisie esttrop
petite).
Posons maintenant n’ == T -k.
Nous choisissons ensuite commepremière
variable
il,
laplus influente,
cellequi minimise,
pour1 j k,
puis i2,
la seconde variablequi minimise,
pour1 j et j ~ i1,
et ainsi de suite. Nous observons à nouveau l’évolution de
2i1,···,iJ
et nous choisissons les variablesil, ..., i kt
enutilisant,
commeprécédemment,
le critère de la variance résiduelle.Une fois que nous avons sélectionné les variables
il, ..., i k,,
nous effectuons une dernière ACPVIspline
additive avec ces variablesexplicatives
choisies. Nous pouvons ensuite visionner les estimateurs des fonctionscoordonnées, grâce
àl’équation (7).
Exemple (suite),
nous avonssélectionné
=3,
n’ vaut donc 47. Nous réalisonsune nouvelle ACPVI
spline
additive entre X =[Zt-1, Zt-2, Zt-3]
et Y =[Zt].
Lesrésultats sont résumés dans le tableau suivant
Nous choisissons le modèle
(2, 3)
pour cettesérie,
cequi
est le vrai modèle simulé.Nous avons
également
calculé les critères usuels de choix de modèles(AIC, BIC, FPE)
pour ces K valeurs. Les résultats sont résumés dans le tableau suivant :TABLEAU 1
Résultats des
différentes
ACPVIEn utilisant ces derniers
critères,
nous retrouvons le vrai modèle mais pour ce faire nous avons effectué 12 ACPVIspline
additive.Pour terminer cette
phase d’identification,
nous réalisons une ACPVIspline
additive avec les variables sélectionnées
(2, 3)
et nousreprésentons graphiquement
les fonctions
fi (zt-j)
àpartir
du modèle(7).
Cettereprésentation graphique
est unebonne indication de la vraie
fonction,
nous obtenons lafigure
1.FIGURE 1
f2 (Zt - 2) et 3(zt-3)
obtenues avec 50 données.Les courbes en trait
plein
sont les vraiesfonctions,
c’est-à-dire 1.5 sin(x7r/2)
et -sin
(x7r/2)
où xprend
ses valeurs entre le minimum et le maximum de zt. Les fonctions coordonnéesestimées,
calculées par la formule(7)
sont tracées enpointillé.
Le tracé
point-tiré représente
les résultats obtenus par la méthode ACE de Breiman- Friedmanévoquée
à la fin de l’introduction. Les résultats obtenus par l’ ACPVIspline
additive sont
plus proches
des vraies courbes que celles tracées avec la méthode ACE. Les fonctions coordonnées estimées détectent les deux sinusoïdes.Ainsi,
avec 50observations,
l’ACPVIspline
additivepermet
d’identifier le modèle non linéairequi
agénéré
la série. Nous avons suivi les mêmes démarches pour estimer l’ordre et le modèle par lessplines
derégression, mais,
comme nous le verrons dans lapartie suivante,
si la condition n > > pr n’est pasrespectée
les résultats sontmauvais, (dans
cet
exemple
n = 45 et pr =25).
5. Simulations
Nous avons décidé de tester ces nouvelles
procédures
sur 10 sériessimulées,
la
longueur
de ces séries variant de 50 à 200 données. Nous avons considéré 5 sérieslinéaires et 5 séries non linéaires définies comme suit :
où
(et)
est une suite de variables aléatoires i.i.d. de loi normale centrée réduite.Pour
chaque modèle,
nous avonsgénéré
20 réalisations de taille50, 75,
100 et 200. Pourpouvoir appliquer
lapremière étape
de laméthode,
il faut déterminerK ;
il doit être suffisammentgrand
pour détecter des variableséloignées,
mais pastrop
afin de conserver assez de données pourpouvoir
étudier la série. Nous avons donc choisi K=5(respectivement 7, 10, 20)
pour les séries de taille 50(respectivement 75, 100, 200).
Dans un
premier temps,
nous avons effectué une ACPVIspline
additive et lessplines
derégression.
Pour les valeurs élevées de K(10, 20),
nous avonsremarqué
très
fréquemment
que les dernières variables(zt-10,···,
zt-20 ouX10,···, X20)
n’avaient pas d’influence. Nous refaisons alors une ACPVI
spline
additive avec Kplus petit
valant entre 5 et 10. Il n’en est pas de même avec lessplines
derégression.
Ainsi,
si K vaut 10 ou20,
les résultats sont trèsmauvais;
on ne retrouvejamais
lemodèle simulé.
Les tableaux 2 et 3 suivants
récapitulent
les résultats obtenus par lesprocédures
que nous avons
indiquées. À
la fin de lapremière étape,
on détermine une valeur pourk.
Nous comparons cette valeur à la vraie valeur du modèle. Lapremière
colonneindique
le nombre de fois où la méthode utilisée détecte le bon ordre de la sériesur les 20 réalisations. Une fois l’ordre
sélectionné,
nousappliquons l’étape
2 pour déterminer le modèle(résultats
donnés dans la deuxièmecolonne).
Nous effectuonsdonc une nouvelle ACPVI
spline
additive et unerégression spline
avec la valeur de sélectionné à laphase précédente.
Si la valeur sélectionnée est
plus petite
que lavraie
valeur dek,
nous ne pouvonsen aucun cas retrouver le bon modèle. Par contre,
si k
estplus grand
que la vraievaleur,
il estquand
mêmepossible
de retrouver le vrai modèle. Ceciexplique
que nous avonsparfois
des meilleurs résultats dans le choix du modèle que dans la détermination de l’ordre.Ces résultats sont intéressants de
plusieurs points
de vue. Ilspermettent
devoir le
comportement
des deuxprocédures
que nous avonsexplicitées. Remarquons
que ces deux méthodes donnent en
général,
pour un nombre de donnéessupérieur
à
100,
des résultats sensiblementidentiques,
à condition que lors de l’utilisation de larégression spline,
le K fixé au début de l’étude soit suffisammentpetit.
Cetterestriction sur K ne
permettra
pas d’étudier avec cetteméthode,
des sériesayant
unTABLEAU 2
Résultats de l’ACPVI
spline
additiveTABLEAU 3
Résultats des
splines
derégression
comportement
saisonnier. Ainsi parexemple,
une série mensuelle(nous
supposonsque k
vaut12)
de taille T = 150 ne pourra pas être étudiée avec larégression spline.
Cette restriction sur K ne se retrouve pas dans l’ACPVI
spline
additive. Une autre différence decomportement correspond
aux études concernant les sériesS4, S5
etS8. Ces séries ont pour coefficients des valeurs
proches
dezéro,
elles sont doncplus
difficiles àanalyser. Cependant
l’ACPVIspline
additive donne encore de bons résultats.Pour des séries de taille
plus petites (T 75),
les résultats obtenus par l’ACPVIspline
additive sont corrects(conformes
au modèlesimulé)
tant au niveau de l’ordre que de l’identification. A contrario lessplines
derégression
ne donnent pas de résultats satisfaisants. Nous conseillons donc d’utiliserplutôt
l’ACPVIspline
additiveque les
splines
derégression,
surtout si le nombre d’observations est faible ou si le nombre de variablesexplicatives
est élevé. C’est donc cetteapproche
que nous allonsutiliser dans l’étude des données des urgences de
l’hôpital
de Nîmes.6.
Application
sur des données médicalesLe service des urgences est un service à
part
dans lecomplexe hospitaliser.
En
effet,
c’est d’abord une voie d’entrée del’hôpital
accessible 24 heures sur24 heures à tous,
permettant
derépondre rapidement
à un besoinurgent
ou non. Ce besoinpouvant
êtremédical, chirurgical, psychiatrique
ouparfois
même social. Cettespécificité explique
lelarge
éventail despathologies
trouvées ainsi que le nombreimportant
d’admissionsenregistrées.
L’information recueillie pour l’ensemble de tous lespatients
est, parconséquent,
considérable en volume. L’outilinformatique
pour la recueillir
s’impose
et cela pourplusieurs
raisons. Ilpermet
dans unpremier temps
deréguler
heure par heure le service.Deuxièmement,
le recueil minutieux derenseignements
doit faciliterl’analyse
aposteriori
de l’activité des urgences sur unepériode
donnée. C’est dans cetesprit
que le service des urgences du centrehospitalier
de Nîmes s’est informatisé
depuis
1994.Les
diagnostics
se divisent enplusieurs
classes etchaque
classe depathologies
médicales
présente plusieurs
sous-classes comme les maladiesinfectieuses, allergi-
ques,
pneumologiques, cardiologiques, dermatologiques,
etc.Avant d’étudier le flux
médical,
faisons une mise aupoint terminologique.
Toutd’abord,
le flux d’unepathologie
donnée est défini par le nombre de personnes admisesaux urgences
par jour,
pour cettepathologie.
Ensuite le terme médicalenglobe
toutesles
pathologies appartenant
à unespécialité
médicale(par opposition
àchirurgicale).
L’étude
permettra
dedégager
un facteur influant sur le flux enquestion.
Cefacteur devra être chiffrable. En
l’occurrence,
les facteursqui
sont mis à notredispo-
sition sont les facteurs
climatiques.
Ils sont mesurables et relevésquotidiennement
comme la
température
moyenne, le taux d’humidité dans l’air et la force du vent.Ces
éléments,
avec lejour
de lasemaine,
sont les seules variables chiffrables quenous avons pu obtenir pour réaliser cette étude. Nous admettons que la variation de la
fréquence
d’une maladie au cours d’unepériode
donnéepeut
êtreinterprétée
pardes éléments médicaux ou non. C’est ainsi que l’on
peut comprendre
pour certaines maladies infectieuses unepériodicité
sur uneannée,
en fonction des saisons. Nous sa-vons aussi que certaines
pathologies
latentespeuvent
êtredécompensées1
à des dates bienprécises.
Le cas de certainespneumopathies
telles l’asthme et les insuffisancesrespiratoires chroniques
esttypique.
1 Décompensation : rupture de l’équilibre des mécanismes régulateurs qui empêchait une affection de
provoquer des troubles fonctionnels, métaboliques ou physiques. Décompenser : faire une décompen-
sation.
De
façon intuitive,
nous savons que le climatpeut
avoir une influence directeou indirecte sur le flux médical car il
peut agir
sur certains fluxpathologiques
leconstituant. Le
temps
de latence entre le facteur causal et la maladiequ’il engendre (ou
lejour
de consultation auxurgences) peut-être logiquement compris.
Le flux médicalest mesuré sur l’année
1996,
nous avons donc T = 366 données. Nousdisposons
devariables
exogènes (température, vent...)
malheureusement trèscorrélées;
nous allons donc étudier un modèle detype (3).
Dans unepremière étude,
nous considérons 26 variablesexplicatives :
Nous réalisons une ACPVI
spline
additive entre X et Y =[ut]
oùTt
est latempérature
àl’instant t, Ht l’humidité, Vt
la force du vent,Ft
le flux médical et J lejour
de la semaine. Pourreprendre
les notationsprécédentes,
n vaut359,
K vaut7 et posons L = 19 variables
exogènes.
FIGURE 2
Le flux
médical comme un modèleadditif.
L’ACPVI
spline
additive a déterminé comme variablesexplicatives {Ft-7,Tt-5, Tt-2, Ht Yt-4, Jt}.
Lareprésentation graphique
de ces variables transformées est donnée dans lafigure
2. Notons que les variables sont centrées.Il
apparaît
ainsi queparmi
les facteursclimatiques,
latempérature
a l’influence laplus significative
sur la variation du flux despatients
consultant aux urgences pourune
pathologie
médicale. Ce n’est pas latempérature
dujour
de l’admissionqui
influe le
plus,
mais celles desjours qui
laprécédent.
Nous remarquons queplus
latempérature
estélevée, plus
le flux médical estimportant
deuxjours plus
tard. Alors queplus
latempérature
est basse etplus
ce flux estimportant cinq jours plus
tard.Le flux médical
dépend
dujour
de la semaine. Cephénomène
hebdomadairese retrouve dans la sélection de la variable
Ft-7.
Le flux médicalaugmente
le week-end etlundi, puis
il diminue du mardi au vendredi. Cetteaugmentation
estinterprétable
par le fait que les gens durant le week-end exercent des activités àrisques : sport, jardinage,
sorties... Suite à unaccident,
unegrande partie
de cespersonnes se
présentent
directement aux urgences, car les médecins libéraux ne sont pas tousdisponibles.
Pour ce
qui
est de l’influence du vent ou del’humidité,
lesgraphiques (d)
et
(e)
montrent une très faible influence directe de ces deux variablesexplicatives
sur le flux médical mais ces variables sont évidemment très corrélées avec la
température.
Notonscependant
que l’humiditépeut
avoir desconséquences
pour certainespathologies pneumologiques
ourhumathologiques
enparticulier.
Or laproportion
de cespathologies
est très faible parrapport
à la classepathologie
médicaleoù elles sont incluses. Leur variation n’aura donc que très peu d’influence sur le flux médical
global.
Les données ainsi
exposées, quelle
relationpeut-il
y avoir avec la réalité médi- cale ? Tout d’abordquels
sont lesproblèmes
quepeuvent
entraîner lestempératures
élevées sur la santé? La
déshydratation qui
est une desconséquences
despériodes chaudes,
aura uneexpression clinique
chez les individus lesplus fragiles,
enparti-
culier les personnes
âgées
dont l’étatgénéral
estprécaire,
les enfants en basâge
etles
patients présentant déjà
une tare. Cettedéshydratation peut
aussidécompenser
denombreuses autres
pathologies
telles les insuffisancescardiaques
et les insuffisances rénaleschroniques.
Certains troubles se déclenchent
plus fréquemment quand
il faitplus chaud,
comme les infections et lithiases urinaires. Nîmes est une ville très ensoleillée. L’été y connaît donc une recrudescence de soucis
dermatologiques
àtype
de lucites(ou
urticaire
solaire),
coups de soleil et autres tracas infectieux. Cettepériode correspond
aussi à
l’époque
des vacancesscolaires; période
où les touristes sont très nombreux dans cetterégion.
Pour desproblèmes
de médecinegénérale
ils iront consulterplus
facilement aux urgences
qu’un
médecin en ville.L’apparition
despathologies
que nous venons deciter, décompensations
dues àla
déshydratation
oudermatologiques,
est souventrapide après
le facteurclimatique
déclenchant
pris
encompte.
En fait la latence entre ce facteur et la consultation auxurgences est due essentiellement à la
prise
de décision tardive pourconsulter,
voir legraphique (c).
L’hiver,
par contre,plus
lestempératures
sont basses etplus
l’influence estsignificative
sur les admissions despathologies
médicales dans le sens del’augmentation
aujour
J +5,
voir legraphique (b).
Cette influence n’est pas directe.L’hiver est la saison où les maladies infectieuses sont
plus importantes.
Eneffet,
c’estla
période
des infections de lasphère Oto-Rhino-Laryngée (ORL)
etpulmonaires,
d’origine
virale ou bactérienne. Le froid en est souvent le facteur déclenchant.Cependant
ce ne sont pas ces infectionsqui
sont les motifs d’admissions maisplutôt
leursconséquences
sur les personnes là aussi lesplus fragiles;
ceux dontl’état
général
est altéré parl’âge
ou par unepneumopathie chronique déjà
existant.Ici la latence est
plus grande
entre le facteur déclenchant et lejour
de l’admissionaux urgences. Ceci
peut
secomprendre
par l’évolution en crescendo des maladies infectieuses surplusieurs jours puis
ladégradation clinique
dupatient
entraînant sonpassage aux urgences.
De ces
facteurs,
seule latempérature
semble avoir une influencesignificative.
Nous avons vu que lors des
périodes chaudes,
le flux médicalaugmente
surtout deuxjours après
une élévation de latempérature
etcinq jours plus
tard l’hiverquand
latempérature
baisse.Les résultats étaient en
partie prévisibles.
Eneffet,
lespériodes
très chaudes et lespériodes
très froides entraînentobligatoirement
unefragilité
du corpshumain,
d’oùune recrudescence des
problèmes
médicaux. Par contre, la latence chiffrée entre lefacteur déclenchant prise
encompte
et l’admission aux urgences est unrenseignement
nouveau.
Il faudra
cependant
pour une meilleureinterprétation
descourbes,
avoir ce fluxsur
plusieurs
années et les confirmer par unesuperposition.
7. Conclusion
L’ACPVI
spline
additive est une méthodeperformante
dans l’étude des relations entre deux groupes de variables. Ellepermet,
mêmelorsque
les variablesexplicatives
sont très
corrélées,
de déterminer les variables influant sur lesréponses. L’application
de cette méthode à l’étude des séries
chronologiques n’a,
à notreconnaissance, jamais
été
proposée.
Les résultats des simulationspermettent
depréconiser
cette méthode nonparamétrique
mêmelorsque
le nombre des données est faible oulorsque
le nombredes variables
explicatives
est élevé.Nous avons vu
également
l’intérêt de cette méthode pour l’identification des modèles. Ainsi outre que l’ACPVIspline
additive est trèsperformante
pour uncertain nombre de données
(tout dépend
évidemment des variablesexplicatives),
la reconstruction des fonctions
coordonnées,
même pour npetit, permet
de donnerplusieurs pistes.
Pour
terminer,
notons que cette méthode estégalement applicable
aux sériestemporelles
multivariées.Remerciements
Nous remercions P.A. Comillon pour toutes les discussions
passionnées
quenous avons eues ensemble. Nous remercions