R EVUE DE STATISTIQUE APPLIQUÉE
L ISE B ELLANGER
Une analyse globale de la tendance dans les hautes valeurs d’ozone mesurées en région parisienne
Revue de statistique appliquée, tome 49, n
o3 (2001), p. 73-92
<http://www.numdam.org/item?id=RSA_2001__49_3_73_0>
© Société française de statistique, 2001, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE ANALYSE GLOBALE DE LA TENDANCE DANS LES HAUTES VALEURS D’OZONE
MESURÉES EN RÉGION PARISIENNE
Lise BELLANGER
CNRS UMR 8628, Probabilités,
Statistique
et Modélisation, Université Paris-Sud, 91405Orsay
Cédex. email :lise.bellanger@math.u-psud.fr
RÉSUMÉ
Dans cet article, nous
complétons l’analyse
des valeurs extrêmes sur les niveaux d’ozoneenregistrés
enrégion parisienne,
décrite dans unprécédent
article 1 . Un processus de Poissonnon-homogène,
àparamètres dépendant
de covariables, est utilisé pour modéliser lesjours
etles tailles de
dépassement
d’un niveau d’ozone très élevé. Nousappliquons
cetteapproche
à quatre stations de mesures. Nous construisons ensuite un modèle
global
regroupant les différentes stations étudiées, en introduisant des variables indicatrices lesreprésentant.
Enfin,nous comparons la modélisation par station à la modélisation
globale.
Mots-clés : Ozone,
Dépassements
de seuil, Tendance,Application
de la théorie des valeurs extrêmes, Processus de Poissonnon-homogène, Régression logistique,
Distribution de Paretogénéralisée.
ABSTRACT
In this paper, we
complete
the extrem valueanalysis
of ozone level exceedancesregistred
in Paris area described in a
previously
one. Anon-homogeneous
Poisson process, which parametersdepend
on covariables, is used to model the occurences and sizes of exceedancesover a very
high
level threshold. Thisapproach
isapplied
to four available sites. Then, weconstruct a
global
modelgathering
these sites,by introducing dummy
variablesrepresenting
sites.
Finally,
we compare station model andglobal
model.Keywords :
Ozone, Level exceedance, Trend, Extreme valueanalysis, Non-homogeneous
Poisson process,
Logistic regression,
Generalized Pareto distribution.1. Introduction
La théorie des valeurs extrêmes s’est très
largement développée
ces dernièresannées;
de nombreux ouvrages desynthèse
ont étépubliés
comme Leadbetter et al.(1983),
Falk et al.(1994)
etplus
récemment Embrechts et al.(1999).
Ceci a conduit1 BELLANGER L., TOMASSONE R. (2000), La pollution de l’air dans la région parisienne : étude de
la tendance dans les hautes valeurs d’ozone. Revue de
Statistiques Appliquées
XLVIII (1), 5-24.à de nombreuses
applications
dans les domaines lesplus
variées :finance,
assurance,hydrologie, météorologie, océanographie, pollution
del’air,
etc.Il existe un nombre
important d’approches possibles permettant
de modéliser les extrêmes de suites de données. Ellesdépendent
de la structure et de lacomplexité
des
données ;
nous pouvons les classer de la manière suivante :a Etude et modélisation du maximum annuel ou d’une
statistique
d’ordre : si les suites sont assezlongues,
une méthodeclassique
consiste à modéliser le maximum annuel depériodes
consécutives de tailleégale (par exemple
lesannées,
mois oujours)
des séries(supposées iid)
par une des distributions de valeur extrême commedans Gumbel
(1958).
Mais cette méthodeprésente
un défautmajeur :
elle demandeun nombre
important
de données difficiles àobtenir, puisque caractéristiques
dephénomènes
rares. Une autre méthoded’analyse
est basée sur un nombre fixé destatistiques
d’ordre. L’estimation desparamètres
estplus complexe, puisque
lesdensités doivent
prendre
en compte ladépendance
entre observations.a Etude des
pics dépassant
un seuil : la méthode POT("Peaks
OverThreshold"),
très
utilisée,
a étédéveloppée
pour lapremière
fois dans le Flood StudiesReport (NERC, (1975)) ;
elle a été décrite dans Leadbetter M.R.(1991)
et Smith R.L.(1984),
elle est basée sur l’estimation des
paramètres
d’un modèlestochastique représentant,
soit des
dépassements,
soit despics
au-dessus d’un seuil.e Etude et modélisation des
jours
et des tailles dedépassement
de très haut niveau par un processus de Poisson nonhomogène :
les suites d’observations étudiéespeuvent
êtreindépendantes
ouprésenter
unetendance,
unphénomène
desaisonnalité,
une
dépendance
àlong
ou à court terme, ceci ne fera quecompliquer l’analyse.
Dans cet
article,
nous reprenons laméthodologie développée
dansBellanger
etTomassone
(2000)
pour étudier la tendance dans les hautes valeurs d’ozone enreg- istrées enrégion parisienne.
Les valeurs d’ozone fournies parAIRPARIF,
correspon- dent à celles mesurées sur les sites deNeuilly/Seine, Aubervilliers, Champs/Marne
et
Créteil,
pour les mois de mai àseptembre
de lapériode
1988-1997. Le processus bi-dimensionnel desjours
et des tailles dedépassement
est modélisé par un processusde Poisson
non-homogène,
dont lesparamètres peuvent dépendre
de l’année et des variablesmétéorologiques disponibles suivantes 2 : température maximale, amplitude
des vitesses de vent, vitesse du vent et
amplitude
des vitesses de vent.Dans la deuxième
partie,
nousrappelons
brièvement le modèle mis en oeuvre.Dans la troisième
partie,
nouscomplétons
les résultats obtenus pour lesquatre
stations étudiées et nousjustifions
l’utilisation d’une loiexponentielle
pourapprocher
la loi des tailles de
dépassement,
sachantqu’un dépassement
a eu lieu.Enfin,
dans laquatrième partie,
nous construisons un modèleglobal regroupant
les différentes stations étudiées. Leur faible nombre ne nouspermettait
pas d’utiliser des méthodes destatistique spatiale (comme
celledéveloppée
par Coles et Tawn(1996)
pour des donnéespluviométriques),
nous nepouvions
pasespérer
obtenir unvéritable modèle
régional,
avec lapossibilité
d’estimer des valeurs sur des stations de mesures sans observations. Nousemployons
donc unetechnique,
consistant à introduire des variablesindicatrices, représentant
lesstations; puis
à lesprendre
2 Fournies par le mât du Commissariat à l’Energie Atomique de Saclay.
comme covariables dans les
paramètres
du processus de Poissonnon-homogène.
Nous comparons ensuite la modélisation par station à la modélisation
globale.
2. Processus de Poisson
non-homogènes (PPNH)
dans leplan
Nous
rappelons
ici ce que nous avonsdéjà développé
dans unprécédent
article(Bellanger
etTomassone, 2000),
à savoir que lesjours
dedépassement
d’un seuil uélevé et les tailles de ce
dépassement
peuvent êtreapprochées
par un processus de Poissonnon-homogène (PPNH).
Pourdévelopper
cemodèle,
nous avionsposé :
La distribution de la variable aléatoire Y
(maximum
d’ozonejournalier)
lejour i,
s’écrit donc 1 -03A8i (y),
et on notera03C8i (y) = - d [03A8i (y)],
sa densité.Si le processus est observé sur une
période
detemps ]0, T[
et si lespics
d’ozonedépassant
le seuil fixé u sontreprésentés
par(Ti; Yi), 1 ~
i ~N,
oùTi
etYi
sontsupposées indépendantes
Vi,
leleme pic
seproduit
lejour Ti
et le maximum d’ozoneYi
estsupérieur
ouégal
à u. Le nombre total des Npics
étant lui aussi une variablealéatoire,
la densitéconjointe
despics
observéspeut
êtreapprochée
par :où la
signification
de chacun des termes ci-dessus est décrite dansBellanger
etTomassone
(2000).
2.1. Modèle associé
aux jours
dedépassement
Il existe de nombreuses
façons
de modéliser l’intensitéWi (u)
du processus de Poisson en tenantcompte
de la relation entre très hautes valeurs d’ozone et conditionsmétéorologiques (Shively (1991),
Smith etShively (1995), Vaquera-Huerta
et al( 1997), Bellanger
et Tomassone(2000)).
Nous avons choisi de conserver le modèle derégression logistique (Hosmer
etLemeshow, 1989; Bellanger
et Tomassone,2000),
à cause de sa
flexibilité,
del’interprétation
relativementsimple
des estimations desparamètres
et de sonimplantation
dans de nombreuxlogiciels
destatistiques
tel SAS(proc
LOGISTIC dont ladescription
se trouve dans SAS Institute Inc. SAS/STAT User’s Guide(1994)).
L’intensité 03BB du PPNH s’écrit donc :
où
03B1(i)
s’écrit :t(i)
est un terme de tendanceprenant
la valeur k sile jour
iappartient
à l’année k(dans
notre
cas, k ~ {1,2,...,10}), Wj (i) représente la
valeur de la variablemétéorologique j
lejour
i. L’écriture decx(i)
tient donccompte
des interactionspossibles
entrecovariables.
2.2. Modèle associé aux tailles de
dépassement
Les résultats
théoriques
dus à Pickands(1975)
et Davison et Smith(1990)
surla distribution de la taille des
dépassements
d’un seuil élevé u(notée,
X = Y -u),
nous
permettent d’approcher
la distribution de X = Y - u sachant queY >
u, parune distribution de Pareto
généralisée
notée G :avec x = y - u où
03B2(i)
> 0Vi, Yi
étant la variable aléatoire maximum d’ozone lej our i .
La densité limite de X le
jour
i sachantqu’un dépassement
du seuil u a eu lieuce
jour-là,
s’écrit donc :Pour u suffisamment
grand (2.5)
permetd’approcher
la densité de X. Par souci desimplification
nous avons deplus supposé
que leparamètre 03BE
nedépendait
pas de i et que03B2(i),
commea(i)
dans(2.3), prenait
la formeanalytique
suivante :afin d’étudier la
dépendance
des tailles avec des variablesmétéorologiques,
latendance à
long
termet(i)
et depossibles
interactions. Si u est suffisammentgrand,
la densité de X
peut
donc êtreapprochée
par :où
03B2(i) prend
la forme(2.6).
Remarque : :
obtient la densité
exponentielle
deparamètre 1 03B2(i).
Pour chacun de ces deux
modèles,
la méthode du maximum de vraisemblance permet d’estimer lesparamètres
de(2.3)
et(2.6), puis
uneprocédure
"backward"permet de ne conserver que les variables
significatives.
Les calculs ont été effectuésavec le
logiciel
SAS pour lesjours
dedépassement
et avec lelogiciel
SPLUS(Venables
etRipley (1997))
pour les tailles dedépassement.
Nous avons aussiadapté
certaines fonctions
développées
sousSplus (Coles (1999))
etdisponibles
sur Internet(http
://maths.lancs.ac.uk/col).
3. Choix a
priori
des seuils raisonnables et tests de validation du modèle 3.1 Choix apriori
des seuils raisonnablesLe choix du seuil u est
complexe : trop
faible nous ne pourrons pas utiliser les résultatsasymptotiques,
trop élevé nous aurons peu d’observations et unegrande
variabilité.
L’analyse
de la vraisemblance est unepremière approche permettant
de choisir les seuils raisonnables : les résultatsasymptotiques suggèrent
que le modèle est valide pour tous les seuilssupérieurs
à une certaine valeur inconnue !Donc,
le calcul des estimations desparamètres
du modèle pourplusieurs
seuils doit nous conduire à observer une stabilité de ces estimations. Il suffit d’examiner lesgraphes respectifs
de
chaque
estimation deparamètre
avec son intervalle de confiancecorrespondant (±1.96 écart-type)
parrapport
au seuil.Une autre méthode
graphique permet
de sélectionner les seuils pourlesquels
ilest
possible
d’utiliser une distribution de Paretogénéralisée
àparamètres
constants.En
effet,
si la distribution de X = Y - u conditionnellement au seuil u,peut
êtreapprochée
par distribution de Paretogénéralisée
définie en(2.4),
sonespérance prend
la forme :
De
plus,
si le modèle GPD est valide pour un certain seuil u, alors il devra l’être pour tout seuilsupérieur.
Parconséquent,
legraphe
de la taille moyenne observée desdépassements
du seuil u parrapport
à u devra être linéaire au-dessus d’une valeur du seuil pourlaquelle
les résultatsasymptotiques
sont valides. Cegraphe
est
généralement appelé
meanresidual life plot (Yang, 1978,
Hall etWellner , 1981).
D’après (3.1),
sapente
et son ordonnée àl’origine
fournissent des estimationssimples de 03BE/1 -03BE et 03B20/1 - 03BE.
Naturellement,
cestechniques
ne nous fournissentqu’une
estimationgraphique
de
/30
et03BE,
indications insuffisantes dans la mesure où/3 dépend
de i(2.6).
Deplus,
il faut naturellement ensuite vérifier les
hypothèses d’indépendance
des dates et destailles
respectivement,
pourpouvoir
utiliser un processus de Poissonnon-homogène.
Nous avons
déjà
montré(Bellanger
etTomassone, 2000) qu’elle pouvait
se faire entout début d’étude.
3.2 Validation du modèle 3.2.1 Tests
Après
avoir estimé lesparamètres
dumodèle,
il est nécessaire de s’assurer que leshypothèses
distributionnelles effectuées sur lesjours
et les tailles dedépassement,
sachant
qu’un dépassement
de seuil u a eulieu,
sontrespectées.
Un test deKolmogorov-Smimov,
ainsiqu’un
test d’une distributionexponentielle d’espérance
inconnue
(ou
testd’exponentialité)
décrit dans Pearson etHartley (1976),
per- mettent de vérifier que la distributionexponentielle
est la distributionappropriée
pour modéliser les intervalles de
temps
entre deuxdépassements
et les tailles dedépassement.
Nous avons aussi utilisé des
Percentage-percentage (P-P) probability Plots, graphiques fréquemment employés
pour valider unehypothèse
distributionnelle.Ces
graphes
sont décrits dans de nombreux ouvrages destatistiques appliquées
comme ceux de Snedecor et Cochran
(1971),
Lawless(1982), Draper
et Smith(1981). Supposons
que Y soit une variable aléatoire de distributionF(y)
et que X =03C3Y + 03BC, où 03BC est
leparamètre
deposition
et03C3(03C3
>0)
est leparamètre
d’échelle.La variable aléatoire X
possède
donc la distributionG(x)
=F((x - 03BC)/03C3)
et lavariable U =
F((x - M)lu)
est uniformément distribuée sur]0, 1].
Parconséquent,
si x(1), ...,
x(n) représentent
les observations ordonnées d’un échantillon aléatoire de taille n de distributionG,
un P-Pprobability plot
standardisé est donc obtenu entraçant F((x(i) - M)lu)
par rapport ài/(n + 1).
Sil’hypothèse
distributionnelle estraisonnable,
legraphe correspondra approximativement
à lapremière
bissectrice.Les
paramètres
J-L et a sontgénéralement
inconnus et peuvent êtreremplacés
par leurs estimations obtenues enappliquant
la méthode du maximum de vraisemblance.Gan et Koehler
(1990)
et Gan et Koehler(1992)
ont ainsidéveloppé
un test basésur le carré du coefficient de corrélation entre les
points
d’un P-Pprobability plot
standardisé
(k 2),
dont ils calculent laprobabilité
observée pour tester laqualité
des estimations en fonction de
l’hypothèse
distributionnelle choisie(Lois Normale,
Gumbel ouexponentielle).
Nous ne pouvons pasappliquer
ce test. Eneffet,
dans notrecas, les
paramètres
J-L et cr ne sont pas constants.3.2.2
Influence
des observations individuellesL’étude des résidus
permet
dediagnostiquer
les observations influentes. Dans le cadre de la modélisation desjours
dedépassement
d’un seuilélevé,
nous avons utiliséun modèle de
régression logistique
pourapprocher
l’intensité du processus de Poisson.Puis nous avons
supprimé
les observationstrop
influentes en utilisant lesdiagnostics
de
régression développés
parPregibon (1981).
L’étude des observations influentes dans le cadre de larégression logistique
ne pose aucunproblème, puisqu’elle
estimplantée
dans laprocédure
LOGISTIC dulogiciel
SAS(option INFLUENCE).
4.
Application
aux données d’ozone mesurées enrégion parisienne
Comme dans
Bellanger (1999),
nous n’avons conservé que les seuils u allant de 110 à 140pgm- 3
pour modéliser lesjours
et les tailles dedépassement.
Nous allonsd’abord donner les résultats par
station, puis
ceux fournis par un modèleglobal.
Lesstations seront notées
NE, AU,
CH etCR;
ainsi parexemple
le modèlecorrespondant
à la station de
Neuilly/Seine
pour le seuil 13003BCgm-3
s’écrira NE 130.4.1 Modèle par station
Dans toute la
suite,
leparamètre 03B1(i) prend
donc la forme(2.3).
Dans la mesureoù notre but est de comparer les résultats obtenus pour les différentes stations de mesures, nous avons utilisé un modèle commun aux
quatre
stations. Le modèle derégression logistique
retenudépend
de l’année(t),
de la vitesse moyenne du vent(Vent)
et de l’interactionannée*température
maximale(ttmax).
Il s’écrit :03B1(i)
= ao +alt(i)
+ o;2vent(i)
+03B13tt max(i)
4.1.1 Modélisation des
jours
dedépassement
En utilisant les résultats de
Prégibon (1981)
pourdiagnostiquer
les observa-tions influentes dans une
régression logistique,
nous avonssupprimé
13(respective-
ment
15,
15 et24)
observations pourNeuilly/Seine (respectivement Aubervilliers, Champs/Marne
etCréteil).
Les résultats du test de
Kolmogorov-Smimov (Tab 4.1)
et les P-Pprobability plot (Fig 4.1) permettent
de validerl’hypothèse
distributionnelle. Les résultats(Tab.4.1)
montrent que l’effet du vent entraînetoujours
une diminutionsignificative
dela
probabilité
d’observer undépassement (coefficient négatif
de cettevariable).
Pour latempérature,
nous sommes confrontés à la difficulté del’interprétation
de l’interactionttmax : le calcul de la
température critique
dansBellanger
et Tomassone(2000)
fournit
toujours
les valeurs lesplus
élevées pourNeuilly
et, àl’opposé,
lesplus
faiblespour
Champs/Marne.
Cette constance des résultats traduit des différences localespouvant
laisser supposer que lerisque
d’observer undépassement
aaugmenté
sur unensemble de
jours
de lapériode
d’étudeplus grand
àChamps/Marne qu’à Neuilly. :
ces
jours correspondant
à ceuxoù,
undépassement
est observé et latempérature
estsupérieure
à latempérature critique rp.
Cetteconjecture devrait,
biensûr,
être validée par lesspécialistes
de l’étude de lapollution
de l’air.4.1.2 Modélisation des tailles de
dépassement
Pour les
tailles,
nous devons d’abord nous assurer que leur distribution est bienexponentielle, puis
faire des calculsanalogues
à ceux duparagraphe précédent.
FIGURE 4.1
P-P
probability plot :
modélisation desjours
dedépassement
pour les quatre stations
(seuil
13003BCmg-3)
- Ln
s
4.1.2.1 Distribution de Pareto
généralisée
ou distributionexponentielle ? Supposons
que la taille dedépassement, quand
undépassement
a eulieu,
suiveune loi de Pareto
généralisée
deparamètres constants {3
et03BE.
On constate
(Tab 4.2)
que seule la station deChamps/Marne possède
une esti-mation du
paramètre 03BE significative. Cependant,
le test durapport
des vraisemblances maximales del’hypothèse 03BE = 0,
pour les différents seuilsétudiés, suggère qu’on
nepeut
pasrejeter
cettehypothèse.
Parconséquent,
la distribution de Paretogénéralisée peut
être réduite à la distributionexponentielle (03BE
=0).
Parexemple,
pour le seuil130,
lastatistique
de déviance(à
comparer à unXI)
est :TABLEAU 4.3
Calcul de la déviance
-2[Log(L(03B2, 0)) - Log(L(03B2, pour
le seuil 130Où
Log(L(,)) représente
laLog-vraisemblance
du modèle pour03B2 et 03BE
estimés par la méthode du maximum de
vraisemblance; Log(L(,0))
celle sousl’hypothèse
nulle.Par souci
d’homogénéité,
nous supposerons donc dans toute la suite que, pour toutes lesstations,
la taille dedépassement, quand
undépassement
a eu lieu lejour i,
suit une loi
exponentielle
deparamètre (3( i)
prenant la forme(2.6).
4.1.2.2 Modèle
exponentiel
Le tableau 4.4
synthétise
les résultats de la modélisation des tailles dedépassement
par une loiexponentielle
deparamètre 1/03B2(i).
En outre, à l’instar de la modélisationdes jours
dedépassement,
nous avons décidé deprendre
un modèle com-mun aux
quatre
stations étudiées defaçon
àpouvoir
comparer et mieuxappréhender
les relations entre les stations. Le
paramètre (3 (i)
retenu nedépend
que de la vitesse du vent, il s’écrit donc : .03B2(i) = 03B20 + 03B21 vent(i).
Les résultats du test de
Kolmogorov-Smimov (Tab 4.4)
et les P-Pprobability plot (Fig 4.2) permettent
de validerl’hypothèse
distributionnelle. Le modèle ne per- met pas de déceler de tendance à moyen terme dans les tailles dedépassement.
Ilsemble en effet que le seul facteur influent commun aux
quatre stations,
soit de naturemétéorologique (Tab 4.4) :
la vitesse du vent. Le modèle commun obtenu estplus simple
que celuidéveloppé
dansBellanger
& Tomassone(2000) :
nous retrouvons unphénomène
bien connu desexperts : plus
la vitesse du vent augmente,plus
la taillemoyenne d’un
dépassement diminue, quand
undépassement
a eu lieu. Nous observonsFIGURE 4.2
P-P
probability plot :
modélisation des tailles dedépassement
pour les quatre stations
(seuil
13003BCmg-3)
aussi une certaine instabilité entre les estimations du
paramètre correspondant
à lavitesse du vent, pour les seuils strictement inférieurs à 130
03BCmg-3
et les seuils 130et 140
03BCmg-3 :
2022 pour
NE120,03B21 =
-4.897 avec un écarttype
de 0.779 etw pour
NE 130, 1
= -12. 253 avec un écarttype
biensupérieur
2.377Le rôle
particulier
du seuil 130pmg- 3dans
le domaine de la surveillance dequalité
de l’air enIle-de-France, pourrait peut-être expliquer
cephénomène
derupture
observéprincipalement
pour les stations deNeuilly/Seine,
Aubervilliers et Créteil.Il est
cependant important
de noter que les estimations obtenues pour le seuil 140paraissent
peu fiables au vu du faible nombre d’observations surlequel
elles se basent.En dernier
lieu,
au vu de l’ensemble des estimations de/30
et/31 obtenues,
les tailles dedépassements
d’un seuil fixé mesurées sur chacun des quatre stations semblentprésenter
des différences assez notables.4.2 Modèle
global
Les modèles
développés
auparagraphe précédent
fournissent des résultats parstation;
ilpeut
être intéressant de les regrouper en un modèleglobal qui
pourra
s’appuyer
sur l’ensemble desobservations,
donc augmenter le nombre dedépassements pris
encompte
dans un modèleunique.
Latechnique employée
esttout à fait courante dans les
applications
du modèle linéaire : nous introduisons trois variables indicatricesDl,
D2 et D3. PourNeuilly
nous avons letriplet {0, 0, 0},
etpour trois autres
respectivement {1,0,0}
pourAubervilliers, {0,1,0}
pourChamps
sur Marne
et {0,0,1}
pour Créteil.4.2.1 Modélisation
des jours
dedépassement
4.2.1.1 Premier essai : modèle
global
pour les quatre stationsParmi tous les modèles
essayés,
le suivant aboutit à des coefficients toussignificatifs (Tab 4.5) :
Les modèles pour
Neuilly
et Créteil sont sans coefficient constant, le coefficient de D3 étant nul. Ils ont le même coefficient pour le vent; la valeurnégative
ducoefficient de
plus
enplus
élevée en valeur absoluepourrait suggérer
que lepoids
de laforce du vent tend à croître
quand
le seuilaugmente.
L’interactionannée*température
maximale est la même pour les
quatre
stations(Tab 4.5).
Le modèle
global
traduit bien aussi les valeurs différentes de l’estimation de latempérature critique (0)
dues à l’interaction ttmax, mais aussi aux deux termes -qui
sont aussi des interactions - tD 1 et tD2
(Tab 4.5).
Les modèles par station nous
permettent
de calculer lesstatistiques
du testde
Kolmogorov-Smimov
et du test d’une distributionexponentielle d’espérance
inconnue Tableau 4.7.
TABLEAU 4.5
Estimation des
paramètres
du modèleglobal
(après
élimination desjours influents
des modèles parstation)
TABLEAU 4.6
Estimation des
paramètres
variant suivant les stations dans le modèleglobal après
éliminationdes jours influents
TAB LEAU 4.7
Validation distributionnelle du modèle
global
pour le seuil 130Après
avoir déduit du tableau 4.5 le modèlecorrespondant
àchaque
station(Tab 4.6),
lesstatistiques
du test deKolmogorov-Smimov
et du test d’une distributionexponentielle d’espérance
inconnue sont calculées pourchaque
station(Tab 4.7).
Cette
phase
de validation distributionnellepermet
de mettre en évidence le fait que le modèle n’est pasadapté
à la station deNeuilly/Seine.
Le modèleglobal
n’est donc pas validé. Au vu des résultatsprécédents,
il semblait intéressant de conserver le modèle par station pourNeuilly/Seine
et de tenter de construire un modèlepartiel
pour les stationsd’Aubervilliers, Champs/Marne
et Créteil.4.2.1.2 Modèle
partiel pour
les stationsAubervilliers, Champs/Marne
et CréteilPar une
approche
strictementidentique
sur ces trois stations(deux
variables indicatrices P 1 et P2. : pourAubervilliers {0,0},
pourChamps
surMarne {1,0}
etpour Créteil
{0,1})
nous avons abouti au modèle :Les tests
permettent
de valider leshypothèses distributionnelles;
nous nedonnons que les résultats pour le seuil 130
(Tab
4.8).
TABLEAU 4.8
Seuil 130 :
comparaison
modèles par station et modèlepartiel
L’hypothèse
d’un modèlepartiel représentant
les trois stations nepeut
pas êtrerejetée
face àl’hypothèse
d’une modélisation par station. Pour lesjours
dedépassement,
nous avons donc un modèle pourNeuilly
et un modèleglobal
pour les trois stations.Il n’est donc pas
possible
d’obtenir un modèleunique représentant
toutes lesstations.
Cependant,
ceproblème peut
êtrecontourné,
en conservant le modèle par station obtenu pourNeuilly/Seine (cf. §4.1.1)
et en en construisant un autreregroupant
les stations restantes.Il est
important
de noter que la variablejour
dedépassement
contient moins d’informations que la variable taille dedépassement.
Elle nepermet
pastoujours
dedistinguer
lecomportement
des stations d’observation(Créteil
etChamps/Marne)
decelui des stations
appartenant
au réseau de mesures de fond(réseau permettant
dequantifier géographiquement
lapollution atmosphérique; Neuilly/Seine
et Aubervil-liers) :
lors d’unépisode
depollution aigu,
il est fortprobable
que toutes ces sta- tionsdépassent
le seuil130;
mais cedépassement
aura une durée et uneamplitude
différente suivant le
type
de stations. Lesexperts
ont ainsi pu observer que la station deNeuilly/Seine
était laplus chargée
en NOx dansl’agglomération parisienne depuis
denombreuses années et que la station de Créteil avait souvent tendance à se
comporter
comme une station de
fond,
même si ce n’en est pas une.4.2.2 Modélisation des tailles de
dépassement
Le modèle
global
choisi estidentique
à celui duparagraphe 4.2.1.2,
seul le ventprésente
un effetsignificatif;
seuls les seuils 120 et 130 révèlent uneffet,
et mêmepour 120 il
n’y
a aucun effet dû aux stations. Lecodage
des effets du vent sur la taille estidentique
à celui de la tendanceTABLEAU 4.9
Synthèse
de la modélisationglobale
des tailles dedépassement
Cette modélisation
globale
des tailles dedépassement
ne permet pas de mettreen évidence des
particularités spatiales
notables au seuil120;
pour le seuil130, Neuilly/Seine
et Aubervilliers ont uncomportement
similaire(Dl
1 et vD 1 nonsignificatifs), Champs/Marne
et Créteilprésentent
desparticularités
locales(Tab 4.9).
Nous retrouvons donc ici le même
"phénomène
derupture"
entre les seuils 120 et 130 mis en évidence dans le cadre de la modélisation par station(§4.1.2.2).
Pour le seuil
130,
les modèles obtenus pourNeuilly/Seine
et Aubervilliersprésentent
donc le même coefficient constant et le même coefficient pour le vent(Tab 4.10).
Les tests de
Kolmogorov-Smimov
etd’exponentialité permettent
de valider leshypothèses
distributionnelles(Tab 4.11).
Pour le seuil130,
lastatistique
du test durapport
des vraisemblances maximales s’écrit :-2[LogL(global) - [LogL(sta)]]
(à
comparer àx2(PLx2
>5.991] - 5%))
et vaut 2.414.L(global) représente
lavraisemblance du modèle
global
à 6 ddl etL(sta)
celle du modèle de la station sta à 2ddl,
d’où(2*4)
ddl pour lesquatre
stations. Le nombre dedegrés
de liberté(2 ddl)
estTABLEAU 4.10
Déductions des estimations des
paramètres
locauxdu modèle
global
des tailles dedépassement
TABLEAU 4.11
Validation du modèle
global
des tailles dedépassement
pour le seuil 130égal
à leur différence. Parconséquent, l’hypothèse
d’une modélisationglobale
destailles de
dépassement
du seuil 130 nepeut
pas êtrerejetée
contrel’hypothèse
d’unemodélisation par station.
Dans cette
étude,
le choix des stations repose sur ladisponibilité
desdonnées,
et non sur leur
représentativité.
Le modèle obtenu pour les tailles dedépassement
du seuil 130 traduit
principalement
la différence decomportement
entre les stations d’observation et stations de fond. Parmi lesquatre
stationsétudiées,
deux sont des sitesd’observation,
dont lecomportement
est difficile àprévoir
du fait de l’influenceponctuelle,
donc nonsystématique,
d’axes routiers voisins et deparkings placés juste
à côté du
prélèvement.
Ilparaît
donc raisonnable que les stations deChamps/Marne (av.
J.Jaurès)
etCréteil-Eglise
sedistinguent
des deux stations urbaines de fondNeuilly/Seine
et Aubervilliers. Les stations deChamps/Marne
et de Créteil sont des stations d’observation et non des stations defond,
telles que définies par la classification nationale desstations,
en tant que telles les valeursenregistrées
surces sites
correspondent ponctuellement
à lapollution
de fond : parexemple lorsque
le vent
place
la station hors d’influence de l’axe routier enquestion.
5. Conclusions
Le
présent
travailpermet
decompléter
les résultats obtenus dans un arti- cleprécédent (Bellanger
etTomassone, 2000).
Pour étudier la tendance dans les hautes valeurs d’ozoneenregistrées
enrégion parisienne,
nous utilisons un PPNH àparamètres dépendant
des conditionsmétéorologiques
et del’année,
pour modéliser lesjours
et les tailles dedépassement
d’un seuil élevé. Nous montrons ainsi que la distribution des tailles dedépassement peut
êtreapprochée
par une loiexponentielle,
puisque 1 ’hypothèse ç ==
0 dans(2.7)
ne peut pas êtrerejetée.
Parconséquent,
la dis-tribution de Pareto peut être réduite à la distribution
exponentielle.
Le modèle obtenune permet pas de déceler de tendance à moyen terme dans les tailles de
dépassement;
la seule variable influent sur celles-ci étant la vitesse du vent.
Ensuite,
nous avons construit un modèleunique
pour lesquatre
stations. Dans notre contexte les méthodes destatistiques spatiales paraissent inappropriée,
vu lefaible nombre de stations dont nous
disposons.
Nous contournons donc cette difficultéen utilisant une
technique
courante dans lesapplications
du modèle linéaire : nous introduisons des variables indicatricesreprésentant
les stations dans lesparamètres
du PPNH. Les résultats obtenus ne
permettent
pas d’obtenir un modèleunique
pour lesjours
dedépassement
du seuil 130.Cependant l’hypothèse
d’un modèlepartiel représentant
les trois stationsAubervilliers, Champs/Marne
et Créteil nepeut
pas êtrerejetée. Neuilly/Seine paraît
donc avoir uncomportement
trèsparticulier,
nousobligeant
à conserver le modèle par station luicorrespondant.
Le modèlepartiel
permet d’observer le caractère
particulier
de la station deChamps/Marne.
Dans lecadre de la modélisation des tailles de
dépassement
du seuil130, l’hypothèse
d’unmodèle
unique
nepeut
pas êtrerejetée.
Ce modèle met en évidence lescomportements
similaires des stations deNeuilly/Seine
et d’Aubervilliers. Les résultats de cettemodélisation traduisent bien la
complexité
des relations entre cesquatre stations;
relations
qui
diffèrent suivant que l’on étudie le processus desjours
dedépassement
ou celui des tailles de
dépassement.
Remerciements : l’auteur remercie vivement Richard Tomassone pour ses
précieux conseils,
sa relecture attentive et sesencouragements ; Véronique
Bonneau etChristian Renaudot
d’AIRPARIF,
pour leurexpertise
des résultats ainsiqu’AIRPARIF
pour la nouvelle utilisation des données
Références
BELLANGER L.
( 1999). Statistique
de la Pollution de l’air. MéthodesMathématiques.
Applications
au cas de laRégion
Parisienne.Thèse,
UniversitéParis-Sud,
Or-say, 235p.
BELLANGER
L.,
TOMASSONE R.(2000).
Lapollution
de l’air dans larégion parisienne :
étude de la tendance dans les hautes valeurs d’ozone. Revue deStatistiques Appliquées XLVIII(1),
5-24.COLES S.
(1999).
Extreme valuetheory
andapplications,
notes de coursprésentées
lors de la 44ième Reuniâo Annual da RBRAS e 8th SEAGRO à
Bucato,
SãoPaulo, Brasil,
26-30 Juillet 1999.COLES S. and TAWN J.
(1996). Modelling
Extremesof
the AreaRainfall
Process. J.R. Statist. Soc.
B, 2,
329-347.COX
D.R.,
LEWIS P.A.(1966).
The StatisticalAnalysis of
Seriesof
Events. JohnWiley,
New York.DAVIDSON A .C.
(1984). Modelling
excesses overhigh thresholds,
with an ap-plication
In Statistical extremes andapplications (ed.
J.Tiago
deOliveira),
Dordrecht, Reidel,
424-434.DAVIDSON
A.C.,
SMITH R.L.(1990).
Models for exceedancesover high
thersholds(with discussion).
J.R. Statist.Soc., 52,
393-442.DRAPER N.R. and SMITH H.
(1981). Applied Regression Analysis.
JohnWiley
&Sons,
NewYork, NY,
pp. 177-183.EMBRECHTS
P., KLÜPPELBERG C.,
MIKOSCH T.(1999). Modelling
ExtremalEvents for
Insurance and Finance.Springer Verlag,
NewYork,
2ième éd.FALK
M.,
HUSLERJ.,
REISS R-D.(1994).
Lawof Small
Numbers : Extremes and Rare Events. DMV Seminar23, Birkhäuser-Verlag.
GAN
F .F.,
KOEHLER K.J.(1990).
Goodness-of-Fit Tests Based on P-PProbability
Plots. Technometrics.
32(3),
289-303.GAN
F .F.,
KOEHLER K.J.(1992).
Goodness-of-Fit Tests Based on P-PProbability
Plots
(Computer Programs
editedby
Jack C.Ming Wang).
Journalof Quality Technology. 24(2),
96-102.GUMBEL,
E.J.(1958).
Statisticsof Extremes.
Columbia Univ.Press,
New York.HALL,
W .J. andWELLNER,
J.(1981).
Mean residual life. In Statistics and RelatedTopics, (eds
M.Csörgo,
D. A.Dawson,
J. N. K. Rao and A. K. Md E.Saleh),
pp. 169-184.
North-Holland,
Amsterdam.HOSMER
D.W.,
LEMESHOW S.(1989). Applied Logistic Regression.
JohnWiley,
New York.
LAWLESS J.F.
(1982).
Statistical Models andMethodsfor Lifetime
Data. JohnWiley
&
Sons,
NewYork, NY,
pp. 84-88.LEADBETTER M.R.
(1991).
On a basis for "Peaks over Threshold"modeling.
Statistics and
Probability Letters, 12,
357-362.LEADBETTER
M.R.,
LINDGRENG.,
ROOTZ...NH.( 1983).
Extremes and RelatedProperties of Random Sequences
and Series.Springer Verlag,
New York.PEARSON,
E. S. andHARTLEY,
H. O.(eds) (1976).
BiometrikaTables for
Statis-cians,
Vol. II.High Wycombe :
Griffin.PICKANDS J.
(1971).
The two-dimensional Poisson process and extremal processes.J.
Appl.
Prob.8,
745-756.PICKANDS J.
( 1975).
Statistical inferenceusing
extreme order statistics. Ann. Statist.3, 119-131.
PREGIBON,
D.(1981). Logistic regression diagnostics.
Ann.Statist., 9,
705-724.MATH WORKS INC.
(1995a).
MATLAB RéférenceGuide, Cary,
The Math WorksInc.,
1995.MATH WORKS INC.
(1995b).
MATLAB User’sGuide, Cary,
The Math WorksInc.,
1995.NERC
(1975).
Flood StudiesReports,
Vol 1. National Environmental ResearchCouncil,
London.SAS Institute Inc.
(1994).
SAS/STAT User’s Guide : Version6,
FourthEdition,
Vol. 1and 2.
Cary,
NC : SAS Institute Inc.SAPORTA G.
(1990).
ProbabilitésAnalyse
des données etStatistique,
EditionsTechnip,
Paris.SHIVELY T.S.
(1991).
Ananalysis
of the trend inground-level
ozoneusing
nonho-mogneous Poisson processes.
Atmospheric Environment, 25B(4),
387-396.SMITH R.L.
(1984).
Threshold methods forsample
extremes. In Statistical extremesand
applications (ed.
J.Tiago
deOliveira), Dordrecht, Reidel,
621-638.SMITH R.L.
(1989).
Extreme valuesanalysis
of environmental time series : An ap-plication
to trend detection inground-level
ozone(with discussion).
StatisticalSciences, 4,
367-393.SMITH
R.L.,
SHIVELY T.S.(1995).
Point processapproach
tomodelling
trendsin
tropospheric
ozone based on exceedances of ahigh
threshold.Atmospheric
Environment,29(3),
3489-3499.SNEDECOR
G.W.,
COCHRAN W.G.(1971).
Méthodesstatistiques.
Association de CoordinationTechnique Agricole,
Paris.VAQUERA-HUERTA H.,
VILLASENORJ.A.,
HUGHES J.(1997).
Statistical anal-ysis
of trends in urban ozone. In Statisticsfor
the Environment 3 : Pollution Assessment and Control(ed.
Barnett V. and TurkmanK.F.),
JohnWiley,
NewYork,
175-183.VENABLE