R EVUE DE STATISTIQUE APPLIQUÉE
S. M ONCAUP P. S ARDA P. V IEU
Une mise en œuvre d’estimateurs non paramétriques d’une fonction d’intensité sur des données météorologiques
Revue de statistique appliquée, tome 43, n
o4 (1995), p. 77-88
<http://www.numdam.org/item?id=RSA_1995__43_4_77_0>
© Société française de statistique, 1995, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE MISE EN 0152UVRE D’ESTIMATEURS NON PARAMÉTRIQUES
D’UNE FONCTION D’INTENSITÉ
SUR DES DONNÉES MÉTÉOROLOGIQUES
S.
Moncaup,
P.Sarda,
P. VieuLaboratoire de
Statistique
et Probabilités U.A. CN.R.S 745 Université Paul Sabatier 118 route de Narbonne 31062 Toulouse cedexRÉSUMÉ
Nous nous intéressons à l’estimation non
paramétrique
de la fonction d’intensité d’un processus de Poisson doublementstochastique.
Une méthode de sélection duparamètre
delissage
basée sur la minimisation d’un critère local de validation croisée estproposée,
ainsiqu’une application
à unproblème météorologique.
Mots-clés : Intensité, Processus de Cox, Estimation non
paramétrique, Degré
delissage,
Données
météorologiques.
ABSTRACT
This paper deals with the
nonparametric
estimation of theintensity
function of adoubly
stochastic Poisson process. A data-driven
smoothing
parameter based on the minimization ofa local cross-validation criterion is
proposed,
as well as anapplication
tometeorological
data.Keywords : Intensity,
Cox processes,Nonparametric
estimation, Bandwidth choice, Meteoro-logical
data.1. Introduction
Le travail
présenté
iciporte
sur l’estimation nonparamétrique
de la fonction d’intensité d’un processusponctuel.
Lepoint
dedépart
de cette étude est unproblème météorologique
concernant lesphénomènes
de formation desgouttes
dans les nuages.Ainsi,
on est amené à déterminer l’évolution de la concentration desparticules
d’eaudans un nuage afin
d’analyser
son effet sur lesdéveloppements
desprécipitations
etles
propriétés
radiatives de ce nuage. Pourcela,
onanalyse
les mesures effectuées dansce nuage avec des instruments
embarqués
sur avion. Plusprécisément,
ondispose,
àl’intérieur d’un même nuage, d’une série de
temps
d’arrivée degouttes
d’eau dansun
spectromètre permettant
decompter
et de dimensionner lesparticules
lelong
dela
trajectoire
de l’avion. On veut donc décrire unphénomène
aléatoire pourlequel
78 S. MONCAUP, P. SARDA, P. VIEU
plusieurs hypothèses
sur sespropriétés statistiques
sontposées.
Lecomptage
des.
gouttes
estsupposé
être un processus de Poisson nonhomogène
de fonction d’intensité À. Bien quel’indépendance
du nombre degouttes
dans deuxrégions disjointes
dunuage semble
plausible,
une étude ultérieure serait souhaitable pour confirmer ou infirmer cettehypothèse. Généralement, lorsque
latrajectoire
de l’avion dans le nuage est suffisamentlongue
pour avoir ungrand
nombre departicules,
on suppose que les variations observées de la concentration de cesparticules
nedependent
pas de latrajectoire :
la nature aléatoire ducomptage
est ainsigommée. Cependant, depuis quelques années,
on s’intéresse à desrégions
du nuage deplus
enplus petites
et doncon doit considérer que l’intensité 03BB est elle-même aléatoire. Les données dont on
dispose
sont ainsisupposées
être la réalisation d’un processus de Poisson doublementstochastique (encore appelé
processus de Cox : cf section2).
Déterminer la concentration en eau du nuage revient à estimer la fonction
À,
et on est en
particulier
intéressé à la détection d’éventuellesruptures
dans l’intensité de la concentration en eau.Toutefois,
dans la méthode d’estimation choisie pour la fonction d’intensité on ne faitpas à priori d’hypothèse
sur l’existence de tellesruptures.
On ne faitdonc,
audépart,
aucunehypothèse
sur la forme de la fonctionÀ,
et l’estimateur utilisé est un estimateur non
paramétrique,
au sens où il ne suppose pasl’appartenance
de la fonction d’intensité à une classe de fonctions indexée parun nombre fini de
paramètres
réels. Nous utilisons ici l’estimateur à noyau défini dans la section suivante. Ilprésente
l’intérêt d’une mise en oeuvre trèsrapide
parrapport
à des méthodes alternatives detype paramétrique (reposant
parexemple
sur unestimateur de maximum de
vraisemblance) qui
nécessitent par ailleurs deshypothèses supplémentaires
dans le modèlegénéral.
Dans la
pratique,
l’utilisation d’un estimateur nonparamétrique conduit,
entreautres, au
problème
de choix d’unparamètre
delissage.
Lespremiers
résultats établis parDiggle (1985) puis Diggle
et Marron(1988)
concernant desexpressions
d’erreursquadratiques
montrent que leproblème
du choix duparamètre
delissage
est crucialdans la
qualité
de l’estimateur à noyau. Ces résultats sontrappelés
dans la section 2.La
bibliographie
en matière de choix deparamètre
delissage
seraprésentée
dans lasection 3 dans
laquelle
une nouvelleméthode,
basée sur les idées de validation croiséelocale,
seraprésentée.
La mise en oeuvre sur les donnéesmétéorologiques présentées
ci-dessus fait
l’objet
de la section 4.2. Le modèle de Cox et l’estimateur à noyau
On
dispose
de Npoints Xi
sur un intervalle[0, T].
On veut déterminer«l’intensité
locale» 03BB(x)
de cespoints
auvoisinage
detout point x
de[0, T].
Le modèleintroduit consiste à supposer que ces
points
constituent une réalisationpartielle
d’unprocessus de Cox
stationnaire,
de processus d’intensité{^(x), x
ERI.
Ces processus sontégalement appelés
«processus de Poisson doublementstochastiques» (Cox
etIsham, 1980).
Ainsi les deux conditions suivantes sontsupposées
être vérifiées :2022
1 A (x),
x eRI
est un processus aléatoire réelstationnaire,
à valeurspositives,
de moyenne J-l et on notera
2022 conditionnellement à la réalisation
À (x)
de1B(x),
lespoints Xi
sontgénérés
selon un processus de Poisson non
homogène,
de fonction d’intensité03BB(x).
Le cadre choisi pour estimer l’intensité 03BB est celui de l’estimation non pa-
ramétrique :
aucunehypothèse
n’est faite concernantl’appartenance
de lafonction À
à une classe
paramétrée
de fonctions. Un estimateur nonparamétrique
de l’intensité03BB(x),
dutype
estimateur à noyau(Rosenblatt, 1956, Diggle, 1985),
est alors donné paroù h est un
paramètre
delissage
strictementpositif,
encoreappelé largeur
defenêtre,
et
bh(.)
=h-103B4(./h), 03B4
étant une densité deprobabilité symétrique
encoreappelée
noyau. Des résultats
théoriques
concernant l’estimateur à noyau d’une fonction d’intensité sont obtenus par Ramlau-Hansen(1983) et Diggle (1985).
Onse rapportera
aussi à Crétois(1994)
pour unebibliographie plus large
sur ces estimateurs ainsi que pour des méthodes alternatives.Le
comportement
de l’estimateurprésenté
en(2.1)
est enparticulier
lié au choixdu
paramètre
delissage
h. Plus onprend h grand plus
le biais de l’estimateuraugmente
avec pour
conséquence
unsurlissage,
tandis que si l’on utilise htrop petit
c’est lavariance
qui
se détériore. Cet effet delargeur
de fenêtre est bien connu dans tous lesproblèmes
d’estimation fonctionnelle. Ici ilapparaît
à la fois dans lesexpressions asymptotiques
d’erreurs d’estimation(voir
parexemple (2.5) ci-dessous)
et dansl’étude réelle
qui
nous intéresse(voir figures 1,3
et4).
Si l’on considère l’erreurquadratique
moyenne(EQM)
comme une mesure de laqualité
de l’estimateuralors la meilleure
largeur
de fenêtreho
est définie de la manière suivanteLe
problème
du choix de lalargeur
de fenêtre revient donc à estimerho. Diggle (1985)
établit sous des conditions
générales
queavec
et
80 S. MONCAUP, P SARDA, P. VIEU
Dans le cas
particulier
d’une fonction v de la formev(x) = 03BC2v0(x)
et sousdes
hypothèses
de dérivabilitéde v, Diggle
et Marron(1988) précisent l’expression (2.4)
et obtiennentOn obtient ainsi la
décomposition classique
deEQM(h)
en un terme lié àla variance et un terme de biais au carré. Des
expressions
dutype (2.4)
et(2.5) permettent
d’avoir uneexpression simple
de la fenêtreoptimale ho
définie en(2.3).
Malheureusement
ho dépend
dequantités
inconnues. La section 3 est centrée sur laquestion
de choixoptimaux
etautomatiques
de fenêtre.Malgré l’importance
de laquestion,
labibliographie
sur cesujet
est peuabondante,
bien moins en tout cas que dans d’autresproblèmes
d’estimation fonctionnelle. Dans la section3,
nous nous attarderonsplus particulièrement
sur la méthode de validation croisée(Brooks
etMarron, 1990),
et nous en proposerons une version nouvellequi permet
de faire évoluer ceparamètre
delissage
avec letemps.
3. Méthode de validation croisée
Les
techniques
de validation croisée sont couramment utilisées pour les ques- tions de choix d’estimateurs nonparamétriques (voir Marron, 1988, Vieu, 1993,
etBroniatowsky, 1993,
pour des revuesbibliographiques).
Cestechniques
sont sur-tout
développées
en estimation derégression
ou dedensité,
et elles ont étéadaptées
récemment par Brooks et Marron
(1990)
à notreproblème.
En se fixant comme ob-jectif
la minimisation de l’erreurquadratique intégrée,
ces auteurs
proposent
d’estimer la fenêtreoptimale hl = Argmin EQI(h),
h
en utilisant le critère
suivant,
La fenêtre sélectionnée par validation croisée est celle
qui
minimise ce critère :De manière
intuitive,
ce critèrese justifie
par le fait que chacun de ses termes estun estimateur des deux
premiers
termes que l’on obtient endéveloppant l’expression
de
EQI(h) (le
troisième terme deEQI(h)
nedépendant
pas deh).
Plusprécisément,
des résultats
d’optimalité asymptotique
duparamètre
sont obtenus par Brooks et Marron(1990)
pour un processus de Poisson nonhomogène
à intensitémultiplicative 03BB(x) =
c·03B1(x)
où c est une constantepositive
et a une fonction déterministe. Dansce
cadre,
Brooks et Marron ont en effet démontré que :Des résultats concernant la vitesse de convergence dans
(3.5)
sontégalement
obtenuspar
Grégoire (1993)
dans un cadrelégèrement
différent. Concernant le modèle de Coxqui
nous intéresseici, Diggle
et Marron(1988)
ont montré(dans
le casparticulier
d’un noyau
uniforme) l’équivalence
entre ce critère et un estimateur direct del’EQM
construit à
partir
del’expression (2.4)
et d’estimateursdey
etK8.
Nous renvoyons àDiggle (1985)
pour des détails sur cet estimateur del’EQM.
Ce
paramètre hCV
est unparamètre global.
Il minimise(du
moinsasymptoti- quement)
l’erreurglobale EQI(h)
et il est le même en toutpoint
de[0, T].
Onpeut cependant envisager
de choisir unelargeur
de fenêtrelocale,
c’est-à-diredépendant
du
point
x où la courbe À est estimée. Eneffet,
en unpoint
x où la courbeprésente
une forte
pente (par exemple près
d’unerupture),
un choix de fenêtre«petite»
devraitconduire à une meilleure estimation alors
qu’une
fenêtreplus large
seraitpréférable
dans une zone où la courbe est
plus «plate».
On cherche ainsi à minimiser enchaque point x
de[0, T]
une version locale deEQI(h)
où 03B5
(dépendant
deN)
est un réelpositif
fixé. Iciaussi, EQIx (h) dépendant
del’intensité réelle
A,
cesparamètres
locaux(c’est-à-dire hl (x)
minimisantEQIx(h))
sont
impossibles
à calculer. L’idée est donc d’utiliser dans l’ estimateur à noyau desparamètres
locaux choisis comme minimisant un estimateur des termes deEQIx(h) dépendant
de h. La fonction de validation croisée locale est alors construite sur le mêmeprincipe
que le critère(3.3)
En
chaque point
x, nous proposons de choisir unparamètre
local défini par82 S. MONCAUP, P SARDA, P. VIEU
Le critère
(3.7)
estanalogue
à celui introduit par Mielniczuk et al.(1989)
en estimation de densité. Dans lapratique,
l’utilisation deCVx (h) impose
le choix de 03B5(qui
fixe un intervalle autour dupoint x,
danslequel
le critère de validation croisée estcalculé).
Hall etSchucany (1989) discutent, également
pour l’estimateur à noyau de la densité(avec
un noyauuniforme),
le choix de c . Ces auteurs montrent à l’aide de simulations que le choix de E n’est pas unproblème critique (en regard
duproblème
du choix de la
largeur
defenêtre)
etsuggèrent qu’un
choixpertinent
serait celui d’unelargeur
de fenêtre«pilote».
4.
Application
4.1. Présentation de l’étude
L’application pratique
concerne le traitement des données décrites dans l’intro- duction etqui
nous ont été fournies par le centremétéorologique
de Toulouse(voir Brenguier, 1993,
pour unedescription détaillée).
On s’intéresse ici à uneportion
de latrajectoire (rectiligne)
de l’avion : ondispose
ainsi dans l’intervalle[46940, 47100]
d’une série
(Xi)i=i,...,10229 représentant
laposition
de 10229gouttes (l’échelle
étantexprimée
enmm). D’après
cequi
a été vu enintroduction, (Xi)i=1,...,10229
estconsidérée comme étant la réalisation
partielle
d’un processus de Cox. La concentra- tion en eau est mesurée à l’aide de l’intensitéÀ(x)
de ce processus.Nous avons utilisé pour estimer
03BB(x),
l’estimateur à noyauprésenté
à la section 2en sélectionnant le
paramètre
delissage
par la méthode de validation croisée introduite dans la sectionprécédente.
L’idée d’utiliser l’estimateurÀh
sejustifie
par lasimplicité
de son écriture ainsi que par le
grand
nombre de données dont ondispose (puisque
lesméthodes non
paramétriques
à cause de leur caractère local nécessitentgénéralement
des échantillons
importants).
Parailleurs, n’ayant
pas d’information apriori
surla forme de l’intensité
À,
il est naturel de l’estimer en neposant
pasd’hypothèses
restrictives sur celle-ci.
Bien que les résultats de
type (2.5)
montrent que la forme du noyau influe moins que leparamètre h
sur laqualité
de l’ estimateur(du
moinsasymptotiquement),
il seraitintéressant dans un futur travail d’en étudier les effets sur des échantillons finis. Ici
nous avons utilisé pour des commodités de calcul le noyau uniforme
largement
utilisédans la littérature
4.2. Construction d’un estimateur
globalement optimal
Nous avons tout d’abord utilisé un
paramètre
delissage global,
obtenu par la méthode de validation croisée définie par(3.3)
et(3.4).
La minimisation dans(3.4)
est effectuée en considérant 80 valeurs de h
comprises
entre 0 et 5. La fonction de validation croiséeCV(h) représente
un estimateur de l’erreurquadratique intégrée
EQI(h).
On remarque bien sur sontracé (figure 1) que CV(h) augmente quand
hprend
des valeurs
trop petites,
et queCV (h)
croîtégalement quand h prend
des valeurstrop grandes.
FIGURE 1 :
Fonction de validation croisée
globale (pour
h variant de 0 à5.)
Ceci est conforme aux
expressions asymptotiques précédentes (voir (2.5)
parexemple).
On sélectionne donc comme valeur de h celle pourlaquelle
la fonction CV atteint son minimum :1,335.
L’estimateur
optimal
de l’intensité sera doncAi.335.
Lafigure
2 en est le tracé.FIGURE 2 :
Fonction d’intensité estimée
(h = 1.335)
84 S. MONCAUP, P. SARDA, P. VIEU
L’importance
du choix deh, qui apparaissait
nettement surl’expression
del’erreur
quadratique
moyenne en(2.5)
ainsi que sur la courbe de la fonction de validationcroisée, peut
aussi être directement observée sur lesfigures
3 et 4qui représentent
l’estimateurXh
pour deux autres valeurs duparamètre
h. On remarqueen effet de
grands changements
dans l’allure de l’estimateur pour des valeurs de h très différentes. Comme on le voit sur lafigure 3,
pour unegrande
valeur de h(ici
h =
20)
la fonctionÀh
est lisse et les variationsimportantes
de l’intensité observéessur la
figure
2 ont étégommées.
Al’inverse,
pour unepetite
valeur deh ( h
=0,1),
la courbe 4 oscille
beaucoup trop.
Le bon choix duparamètre h
doitpermettre
detrouver un
«compromis»
entre ces deuxphénomènes :
la courbe de l’estimateur doit être suffisamment lisse aux endroits où l’intensité réelle varie peu, sans pour autant fairedisparaître
leschangements
d’intensitéplus importants qui peuvent
être lesruptures qui
nous intéressent.FIGURE 3 :
Fonction d’intensité estimée
(h
=20)
FIGURE 4 :
Fonction d’intensité estimée
(h
=0.1)
Sur la
figure 2, représentant
le tracé de l’estimateuroptimal,
onobserve,
auniveau des
points
d’abscisses 46995 à47015,
debrusques changements
dans lavaleur de l’intensité estimée
qui
semblent révéler unerupture
dans l’intensité réelle.On
passerait
d’un endroit du nuage fortement concentré en eau, à un endroit où la concentration est trèsfaible,
avant de revenir à une concentrationplus importante.
Ailleurs,
les valeurs sontbeaucoup
moinschangeantes,
les variations ont moinsd’amplitude,
cequi
laisse supposer uneplus grande
constance de l’intensité de la concentration en eau dans les autres endroits du nuage. L’étude de cette courbe soulève tout de même desquestions :
si unerupture
assez nette dans l’intensité est détectéeau niveau des
points
d’abscisses 46995 à47015, qu’en
est-il au niveau despoints
d’abscisses 47045 et 47082 ? Ces deux
«pics»
sont-ils dûs seulement à dubruit,
ou bienreprésentent-ils
de réelles variations de l’intensité? Onpeut
alors se demander si le choix de fenêtres localespermettrait
une meilleureprécision
de l’estimateur àces endroits-là.
4.3. Construction d’un estimateur localement
optimal
Le tracé de l’ estimateur
Ah
utilisant unparamètre h
variant localement a été réalisé sur lafigure
5. Les différentes valeurs duparamètre
ont été sélectionnées par la méthode de validation croisée locale définie en(3.7).
Comme nous l’avons vuplus
haut,
la valeur de c influe peu sur laqualité
de l’estimateurah (voir
Hall etSchucany,
86 S. MONCAUP, P. SARDA, P. VIEU
1989).
Nous avonspris
pour 6- une valeur de l’ordre de la fenêtreglobale
obtenue par validation croisée : 03B5 =1, 5.
L’allure de cette courbe est très similaire à celle obtenue pour leparamètre h global (figure 2).
Laprésence
d’unerupture
au niveau despoints
d’abscisses 46995 à 47015 est confirmée. Le peu de différence entre les courbes 2 et 5 tient ici essentiellement au fait que le nombre de données est très
grand.
FIGURE 5 :
Fonction d’intensité estimée
(fenêtres locales) (03B5
=1, 5)
5. Conclusion
Cette étude a
permis
de mettre en évidence le boncomportement
destechniques
de validation croisée pour le choix d’estimateurs non
paramétriques
de fonctions d’intensité. Biensûr,
ce boncomportement
est lié au nombreimportant
de donnéesdont nous
disposons.
Parailleurs,
la nature même duproblème physique qui
nousintéresse dans cette étude a mis en relief la nécessité de
développer
des méthodes nonparamétriqùes
de détection derupture.
Dans le cadre d’estimation d’intensité nous ne connaissons aucun travail sur cesujet,
mais les méthodes récentesdéveloppées
dans d’autres contextes
(nous
pensons enparticulier
au travail de Wu et Chu1993,
enrégression)
devraientpouvoir inspirer
de futursdéveloppements
dans cette direction.Il est clair que les méthodes locales
développées
dans cepapier
devraient constituerun outil intéressant pour l’étude de
ruptures.
Par ailleurs cela nous a
permis
de faire lepoint
sur les divers résultatsmathématiques
existant dans ledomaine,
et de mettre en évidence la nécessitéd’apporter
desréponses théoriques
à certainsproblèmes importants
non encorerésolus. En
particulier,
dans unpremier temps
il serait intéressant de s’attacher à démontrer des résultats detype (3.5)
pour des mesures depertes
locales dans le cadre du processus de Cox.Remerciements
Les discussions que nous avons eues avec Jean-Louis BRENGUIER et Anna PAWLOVSKA du Centre National de la Recherche
Météorologique
deToulouse,
nous ont
permis
de nous familiariser avec les données traitées dans cepapier.
Leursconnaissances,
tant sur lesphénomènes physiques
liés à cejeu
de données que sur les méthodesstatistiques paramétriques
habituellement utilisées dans cesproblèmes,
ontété
précieuses
pour nous tout aulong
de ce travail et nous tenons à les en remercier.Bibliographie
BRENGUIER,
J.L.(1993),
Observations of cloud microstructure at the centimeterscale,
J.of Applied Meteorology, 32,
783-793.BRONIATOWSKI,
M.(1993),
Cross validation in kernelnonparametric density
estimation : a survey, Publi. de l’I.S.
U.P.,
volXXXVII, 3, 3-28.
BROOKS,
M.M. andMARRON,
J.S.(1990), Asymptotic optimality
of the least- squares cross- validation bandwidth for kernel estimatesof intensity functions,
Stochastic Processes and their
Applications, 38, 157-165,
North-Holland.COX,
D.R. andISHAM,
V.(1980),
Point processes, London :Chapman
and Hall.CRETOIS,
E.(1994),
Utilisation de la méthode des pas aléatoires en estimation dans les processusponctuels,
Thèse de doctorat3ème cycle,
Université de Rouen.DIGGLE,
P.(1985),
A kernel method forsmoothing point
processdata, Appl. Statist, 34,
138- 147.DIGGLE,
P. andMARRON,
J.S.(1988), Equivalence
ofsmoothing parameters
selectors indensity
andintensity estimation,
J. Amer. Statist.Assoc., 83,
793- 800.GREGOIRE,
G.(1993),
LeastSquares
Cross Validation forCounting
ProcessIntensities,
Scand. J.Statist., 20,
343-360.HALL,
P. andSCHUCANY,
W.(1989),
A local Cross-Validationalgorithm.
Statist.and Prob.
Letters, 8,
109-117.MARRON,
J.S.(1988),
Automaticsmoothing parameter
selection : a survey,Empi-
rical
Economics, 13,
187-208.MIELNICZUK, J., SARDA,
P. andVIEU,
P.(1989),
Local data-driven bandwidth choice fordensity estimation,
J.Statist.,
Plann.and Inf., 23,
53-69.88 S. MONCAUP, P. SARDA, P. VIEU
RAMLAU-HANSEN,
H.(1983), Smoothing counting
process intensitiesby
meansof kernel
functions, Ann.Statist., 11,
453-466.ROSENBLATT,
M.(1956),
Remarks on somenonparametric
estimates of adensity function,
Ann. Math.Statist., 27,
832-835.VIEU,
P.(1993),
Bandwidth selection for kernelregression :
a survey. In«Computer
Intensive Methods in Statistics». Ed.
W.HÄRDLE
andL.SIMAR,
Statistics andComputing, Physica Verlag, 1,
134-149.WU,
J.S. andCHU,
C.K.(1993),
Kerneltype
estimatorsof jump points
and valuesof a