R EVUE DE STATISTIQUE APPLIQUÉE
L. B EL
L. B ELLANGER V. B ONNEAU
G. C IUPERCA
D. D ACUNHA -C ASTELLE
C. D ENIAU
B. G HATTAS M. M ISITI Y. M ISITI
G. O PPENHEIM J. M. P OGGI
R. T OMASSONE
Éléments de comparaison de prévisions statistiques des pics d’ozone
Revue de statistique appliquée, tome 47, n
o3 (1999), p. 7-25
<http://www.numdam.org/item?id=RSA_1999__47_3_7_0>
© Société française de statistique, 1999, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ÉLÉMENTS DE COMPARAISON DE PRÉVISIONS
STATISTIQUES DES PICS D’OZONE
L.
Bel1,
L.Bellanger1,
V.Bonneau2,
G.Ciuperca1,
D.Dacunha-Castelle1,
C.
Deniau3,
B.Ghattas3,
M.Misiti1,
Y.Misiti1,
G.Oppenheim1
J.M.
Poggi1,
R.Tomassone4
1 Modélisation
Stochastique
etStatistique,
Université Paris Sud, bât. 425,
Mathématique,
91405Orsay
2
Airparif
3 GREQAM, Université de la Méditerranée
4
Mathématique
etInformatique,
INA ParisRÉSUMÉ
Cet article porte sur la
prévision
despics
depollution
par l’ozone sur Paris et sarégion.
Onexpose brièvement les quatre modèles de
prévision
issus de méthodes variées : non linéaire nonparamétrique générale
et unespécialisation
additive, la méthodeclassique
dans le domaine, declassification-discrimination-régression
et enfin la méthode CART derégression
par arbre.On insiste sur l’intérêt
méthodologique
de confronter et de combinerplusieurs
méthodescomplémentaires.
Onprésente
la manière de comparer ces différents modèles deprévision
afin de fournir à
Airparif (organisme chargé
de la surveillance et de laprévision
de laqualité
de l’air en Ile de France) un modèle
opérationnel
deprévision
des concentrations de l’ozone pour l’été 1997. Cesprévisions
ont été fournies en temps réel et les résultats obtenus durant cettepériode
sont commentés.Mots-clés : Pollution de l’air,
statistique appliquée, prévision,
méthodescomparatives.
ABSTRACT
This paper deals with the
forecasting
of ozoneepisodes
in the Paris area. We presentbriefly
the fourforecasting
models obtained from different methods: ageneral
nonparame- tric method and an additivespecialization,
the classical method used in this areaclustering- discrimination-regression
andlastly
CART aregression
tree method. We focus onmethodologi-
cal interest
of comparing
andcombining
severalcomplementary
methods. We present the wayto compare these different
foracasting
models in order to deliver toAirparif
(the airpollution
agency for Paris area) a real-time
forecasting
model for ozoneepisodes during
summer 1997.Finally
the results obtainedduring
thisperiod
are commented.Keywords :
Airpollution, applied
statistics,forecasting,
comparative methods.1. Introduction
Ce travail
portant
sur laprévision
des concentrations maximales d’ozone surParis et sa
région,
a été effectué dans le cadre d’une collaboration entre l’Universitéd’Orsay
etAirparif, organisme chargé
de la surveillance et de laprévision
de laqualité
de l’air en Ile de France. Laprévision
du maximum d’ozone de lajournée, qui
a lieu engénéral l’après-midi,
est effectuée à 6h T.U.(c’est-à-dire
8h enété).
Ils’agit
deprévoir
lespics
depollution
sur un ensemble de sitesrépartis
sur Paris et sabanlieue,
constituant le réseau d’alerte. Pour l’ozone celui-cicomprend
huit stations situées àAubervilliers, Champs-sur-Marne, Créteil, Montgeron, Neuilly,
Paris13,
Tour Eiffel et Tour
Saint-Jacques.
Les mesures effectuées sur ce réseaupermettent
de déclencher lesprocédures
d’information des autorités administratives et dupublic qui
sont désormais bien connues de la
population.
Plusprécisément,
pour chacune des stations on détermine le niveau : niveau 0 si le maximum depollution
est inférieur à130
J-Lg/m3,
niveau 1 s’il estcompris
entre 130 et 180J-Lg/m3,
niveau 2 s’il estcompris
entre 180 et 360
J-Lg/m3et
niveau 3 s’il estsupérieur
à 360J-Lg/m3.
Puis onagrège
ces niveaux en disant
qu’il
y a alerte(nous adoptons
ici uneterminologie
différentede celle
d’Airparif, qui distingue
alerte etalarme)
dèsqu’au
moins deux stations de mesuredépassent
130J-Lg/m3.
Plusprécisément,
il y a alerte de niveau i si deux stations au moins sont de niveausupérieur
ouégal
à i. Les niveaux 0 sont de loin lesplus nombreux,
les autres étant rares et laplupart
de niveau 1.Bien
sûr, Airparif
souhaitedisposer
dans lefutur,
d’un outil deprévision permettant d’adopter
des mesurespréventives
afin d’éviter lesépisodes
de fortepollution (niveau
2 ouplus). L’objectif
final est deprévoir
la veille àmidi,
lesconcentrations maximales et l’alerte du lendemain. Le
premier
pas dans cette direction consiste àprévoir
le matin l’alerte del’après-midi.
Prévoir est par nature un art difficile
quel
que soit le domained’application
et la
prévision
despics
depollution
nedéroge
pas à cetterègle.
Eneffet,
lapollution
est la résultante de nombreuxphénomènes complexes
avec desdescriptions physiques riches,
à différentes échelles entemps
et en espace offrant des visions différentes :météorologiques, physico-chimiques, topographiques (cf. Toupance 88, Jin, Demerjian 93,
Vautard et al.97, Walcek,
Yuan 95 et[13]).
Il existe de nombreux travaux dans cette direction consistant à modéliser ladynamique
de fond dusystème engendrant
lapollution,
onpeut
citer parexemple Poulos,
Pielke 94. Ces modèles sont très lourds à mettre en oeuvre mais demeurentindispensables
parexemple
pourpermettre
deprévoir
etd’analyser
les situations depollution importée
d’une sourced’émission lointaine par le
déplacement
des masses d’air. Onpeut
d’ailleurss’inspirer
de la
simplification
de l’un de ces modèles pour donner une idée de lapollution
de l’air.Les voitures et les industries émettent des
précurseurs
de l’ozone dans une boîte dont la base est larégion parisienne
et la hauteur est celle de la couche demélange.
Pluscette hauteur est
grande, plus
les émissions se diluent facilement et meilleure est laqualité
de l’air. Cette hauteur varie suivant l’heure dela journée,
lapériode
de l’annéeet les conditions
météorologiques.
Les variationspeuvent
être énormes vis à vis des fluctuations des émissions. L’air contenu dans cette boîte estagité
horizontalement par le vent et verticalement par des turbulences.Par
opposition
à cetype
demodélisation, l’approche statistique, quant
àelle,
est
plus
flexible et lesprocédures
deprévision plus légères,
mais elle est restreinteà
l’analyse
et laprévision
de lapollution
à court terme sur unepetite
échelle enespace et nécessite un
historique
suffisammentlong.
Parmi les nombreux travaux antérieurs utilisant cetteapproche
onpeut
citer Seinfeld88,
Eder et al.94, Ryan 95, Milionis,
Davies94, Sheifinger et
al.96, Wipij, Sally
Liu 94. Un seul travail avancésur un thème très voisin est effectué en
France,
par D. Brion(Météo-France)
et E.Gilibert
(Airparif)
dans[3]. Après
un trèsimportant (en qualité
et envolume)
travail de validation desdonnées,
les auteursprévoient
les événements : le niveau 1 seraatteint ou le niveau 1 ne sera pas atteint. La
technique
est detype prévision parfaite (cf. plus bas)
d’unjour
pour le lendemain.Une
approche
unifiéeintriquant
les diversesdescriptions
des mêmesphénomènes
aux diverses échelles de
temps
etd’espace
constituerait une modélisationplus
fine etefficace.
Les données utilisées sont d’une
part
des données depollution :
concentrationsd’ozone,
demonoxyde
etdioxyde d’azote, qui proviennent
des huit stations du réseau d’alerted’Airparif
et d’autrepart
de donnéesmétéorologiques : température
ausol, températures
à 40 m et à 100 m, les intensités et directions du vent à 58 m et à 110 mqui proviennent
du seul mât deSaclay.
Lapériode
de l’étudecomprend
lesjours
d’étéde 1992 à
1996,
pourlesquels
nousdisposons
de données considérées comme fiables.Notons que dans le travail
exposé
nous nedisposons
pas entemps réel,
des mesuresou des
prévisions
de Météo France.Quels
sont lesenjeux
de ce travail? Ils sont doublementméthodologiques : méthodologie
d’unproblème
en vraiegrandeur
etméthodologie statistique.
Sans être extraordinairement
volumineuses,
les données ontposé
desproblèmes
variés.
Qualité
etreprésentativité
sont deuxparmi
les nombreuxaspects qui
incluentle traitement de données
manquantes (environ
15%),
l’évaluation des incertitudes des mesures horaires.Les
études,
devant déboucher sur unproduit opérationnel implanté
sur un cal-culateur travaillant tous les
jours, peuvent
recourir à toutes lestechniques statistiques
de
réglage
desparamètres,
mais doiventêtre,
infine,
suffisammentsimples
pour êtreprogrammées
de manière à être maintenues. Les destinataires finaux du travail veulent desprocédures,
sinonoptimales,
du moins aussi bonnes quepossible.
C’est une desraisons de l’introduction de
plusieurs
méthodes et de lacomparaison systématique,
certainement lourde mais nécessaire.
Le
point
de vuestatistique
est essentiel. D’autrestechniques
deprévision
faisantappel
à des modèles déterministesphysico-chimiques partent
des mêmesapproches
que les
prévisions météorologiques.
Cesapproches
sedéveloppent bien,
mais serontopérationnelles
à l’échelle decinq
àsept
ans. Pour le moment les méthodesstatistiques
sont les
plus
fiables pour laprévision
à court terme de l’ozone(cf.
Seinfeld 88 etSheifinger et
al.96).
Parmi lesquestions
quepeut
se poser un statisticien on trouve les suivantes. Surquels
critères se base lacomparaison
des méthodes? Comment construire un critèresynthétique, permettant
d’ordonner totalement desprocédures?
Les
comparaisons
sont souvent faites sur des résultats en moyenne sur ungrand
nombre de
jours,
fournissant une information trèsglobale.
Cetteétape
est nécessaireet
classique.
Nous avons été conduit àcompléter
ces travaux de masse par desanalyses cliniques
dejours
associés à de grosses erreurs deprévision.
Elles servent àcomprendre
les causes dedysfonctionnement
desprévisions.
Le
plan
de l’article est le suivant.Après
cetteintroduction,
on expose lesquatre
modèlesqui
ont été construits en insistant sur l’intérêt de confronter et combinerplusieurs
méthodescomplémentaires.
Dans leparagraphe 3,
onprésente
latechnique
de
comparaison
de ces différents modèles deprévision.
Enfin un bilan de la campagne de l’été 1997 et uneanalyse clinique
dequelques jours complètent
cet article.2. Les modèles
Quatre
modèles ont été étudiés. Ils sont estimés en utilisant des méthodesdifférentes;
modèles et méthodes d’estimationcorrespondantes
seront ainsibaptisés
du même nom :
classification-discrimination-régression (abrégée parfois
dans la suiteC.D.R.), régression
par arbre(appelée
dans la suiteCART),
non linéairegénéral
et nonlinéaire additif. Nous les
présentons
brièvement avant de confronter ces différentesattaques
duproblème
etd’esquisser quelques
remarquesméthodologiques.
Dans un
premier temps,
il estpossible
depréciser
l’ensemble de ces modèles d’une manièreunifiée,
sans entrer dans les détails. Le modèlegénéral
est un modèlede
régression
non linéaire de la forme :où j désigne
l’indice dujour,
les variablesXji)
sont des variablesendogènes
ouexogènes
etZj
le maximum de l’ozone. Cetteforme générale
est celle du modèleappelé
non linéairegénéral.
L’estimation consiste alors à estimerf.
Les trois autresmodèles
peuvent
être vus comme desspécialisations.
Ainsi le modèle non linéaire additif est une
adaptation
de(1)
au cas oùf
estadditive et
séparable,
c’est-à-dire que les effets des variables sontsupposés
additifset
qu’il n’y
a pas d’interaction :L’estimation consiste à estimer les
f(i).
Les modèles CART et
classification-discrimination-régression
sont de formestrès voisines.
Commençons
par le modèle CDRqui s’exprime
ainsi :où nc est le nombre inconnu de classes. Estimer le modèle consiste à construire les
Ci qui
sont définis par lesétapes
de classification et de discrimination et à estimer les 03B1k,i par unerégression
à l’intérieur de chacune des classes.Le modèle CART s’écrit :
où
n f
est le nombre inconnu de feuilles de l’arbresous-jacent
à la méthode. Estimer le modèle consiste à construire les classesCi qui
sont despavés explicites
del’espace
des variables
explicatives
et à estimer les cei par les moyennes, dans lesclasses,
de la variableexpliquée.
2.1. La méthode
classification-discrimination-régression
Cette méthode utilise les
techniques classiques,
à savoir laclassification,
la discrimination et larégression
linéaire(cf.
Tomassone et al.93).
Cetype
deprocédure
est
largement
utilisé dans le domaine de laprévision
de lapollution,
onpeut
citer parexemple Ryan
95 et Eder et al. 94.L’originalité, importante
à notre avis etqui
aséduit les
équipes
de surveillance de laqualité
del’air,
réside ici dans l’utilisation desprofils
d’ozone pour construire la classification desjours,
au lieu d’utiliser destypes
detemps
déduits des variablesmétéorologiques.
Pour chacune des huit
stations,
onprocède
de lafaçon
suivante : classification enfonction des
profils d’ozone;
discrimination en fonction descomposantes principales
calculées à
partir
de l’ensemble initial d’une centaine de variablesdisponibles
à6 h
T.U.;
classement desjours
suivant laprobabilité d’appartenance
àchaque
classe(déterminée
dansl’étape précédente); puis régression
linéaire danschaque
classe :ACP par classe sur les mêmes variables
qui
sont utilisées dans la discrimination et choix des meilleursrégresseurs parmi
lescomposantes principales.
Laprévision
estobtenue à
partir
des résultats de la discrimination et de larégression.
2.2. La méthode CART
Cette méthode non
paramétrique
construit unepartition
enpavés
de baserectangulaires
del’espace
des variablesexplicatives,
et attribue une valeur de la variableexpliquée
àchaque
ensemble de lapartition.
Elle estprésentée
dans Breimanet al. 84 et
Venables, Ripley
94. La méthode CART construit unepartition
visualiséeà l’aide d’un arbre
binaire, optimale
pour un critère de somme des carrés des erreursintra-classe. L’erreur commise sur la
prévision
unjour
donné est mesurée par l’écart de lapollution
réalisée dujour
à la moyenne despollutions
desjours
de la classe.L’algorithme
de constructionprocède
enplusieurs étapes :
construction d’unpremier arbre,
souventtrop grand,
suivie d’uneétape d’élagage qui
choisit le meilleur arbreayant
un nombre de feuilles donné. Cette méthode estsimple
et facile àcomprendre
par son
principe
dedécoupage
en arbre derégression.
Ellepermet
ainsil’analyse
descauses de mauvaises
prévisions
et uneapproche clinique
desjours atypiques.
2.3. La méthode non linéaire
générale
C’est une méthode de
prévision
nonparamétrique
à noyau(cf.
Hardie90)
basée sur l’estimation de
f
dans(1)
fonction de variablesendogènes
etexogènes.
L’estimateur
peut
s’écrire sous la forme :où
En d’autres termes
Zj
s’obtient comme lebarycentre
des(Zk) k
affectésdes
poids
wk. Le coefficient Wks’interprète (cf. Poggi 94)
comme un indice desimilarité
du jour
dupassé repéré
par(Xk1), ...,X(l)k) au jour
témoin caractérisé par(X(1)j,...,X(l)j) représentant
leprésent.
La similarité est mesurée parl’image
d’une
distance entre
les deux vecteursprécédents
par un noyau deprobabilité,
desorte que
plus
la distance entre unjour
dupassé
et lejour présent
estgrande (resp.
petite)
etplus
la valeur de Wk serapetite (resp. grande).
Laprévision Zj
s’obtientdonc comme le
barycentre
des concentrations d’ozoneZk
de tous lesjours
dupassé
affectés des coefficients de similarité cl de ces blocs au bloc témoin. Cette remarque
implique
donc que le calcul de laprévision
passe par uneétape
de sélection desjours
les
plus
ressemblants à la situationprésente, permettant
ainsil’analyse
des causes demauvaises
prévisions
et uneapproche clinique
desjours atypiques.
2.4. La méthode non linéaire additive
Cette méthode est
présentée
dansHastie,
Tibshirani 90 et Hardie 90. Elle propose uncompromis
entre le modèle non linéairegénéral présenté
ci-dessus etle modèle additif le
plus simple qui
est le modèle linéaire. Les effets des variablesexplicatives
sont non linéaires mais sontsupposés
additifs. Cette méthodeprésente l’avantage
d’être flexible et de conduire à un modèleexplicite,
facile àinterpréter.
La méthode d’estimation non
paramétrique
des fonctionsf(i)
dans(2) adoptée
est basée sur l’estimateur dit par
intégration marginale (cf. Linton,
Hardie96).
2.5. Les
stratégies
deprévision
La
bibliographie
de laprévision statistique
dans les sciences del’atmosphère,
telle
qu’elle apparaît
dans le livre de Wilks95, présente plusieurs techniques.
Ladistinction
majeure
se fait entre lestechniques
tirant bénéfice des «sorties de modèles»et les autres. On
désigne
sous le vocable «sortie de modèle» laprévision
d’unegrandeur
faite par unetechnique déterministe,
souvent construite par discrétisation deséquations
demécanique
des fluides. Lestechniques s’appellent
Prévision Parfaite(Perfect Prognosis,
onpeut
citer parexemple
Karl79),
MOS(Model Output Statitics,
on
peut
citer parexemple Clark,
Karl82, Brion,
Gilibert97)
ou méthodesclassiques.
Dans la mise en oeuvre des
procédures,
on doitdistinguer l’étape
deconstruction, appelée
dans d’autres contextesétape d’identification,
del’étape
deprévision.
Les
prévisions
sont faites à 06 h T.U. lejour j
et l’onprévoit l’après-midi
dujour j.
- Méthode 1 : Prévision
parfaite (notée
PP dans lasuite).
-
L’étape
de construction utilise les observations de variablesmétéorologiques
du
jour j (donc
nondisponibles)
ainsi que d’autres observationsqui
sont quant àelles, disponibles
avant 06hT.U. ;
-
L’étape
deprévision
utilise laprévision
faite par Météo-France de ces variablesmétéorologiques
non observées.- Méthode 2 notée OBS dans la suite. Cette méthode utilise seulement des observa- tions
disponibles
à 06hT.U.;
- Méthode 3 notée MOS dans la suite. Elle construit le modèle et
prévoit
en utilisantdes
prévisions
des variablesmétéorologiques
de Météo-France.Les
techniques employées
dans lesprocédures
nonlinéaires,
sont dutype
PP alors que celles utilisés par CART et la CDR sont detype
OBS.Plus
précisément
les variables utilisées dans lesprocédures
nonlinéaires,
pour laprévision
dujour j
sont latempérature
maximale dujour j,
le vent moyen à 58 m dansl’après-midi
dujour j
et la concentration maximale d’ozone dujour j -
1(la veille).
Les
prévisions
de latempérature
maximale et du vent moyen à 58 m dansl’après-
midi du
jour j peuvent provenir
de deux sources, soit de Météo-France(l’historique disponible
n’est que de deux ans et ce sont desprévisions
données la veille ausoir),
mais les données ne sont pas
disponibles
entemps réel,
soit par unetechnique
deprévision
non linéaire similaire à celle utilisée pourprévoir
l’ozone.Les variables utilisées par CART et la CDR sont les variables de
pollution
etde climat effectivement mesurées et listées dans
l’introduction,
à différentesheures,
ainsi que des variables calculées àpartir
de cesdernières,
comme lesgradients
detempératures
aux diverses altitudes.Habituellement les
prédicteurs
deMOS,
enmétéo,
sont desprévisions (appelées
sorties de
modèle)
calculées par des méthodes déterministes. Nous n’avons pu pour le moment,expérimenter l’approche
MOS en raison del’indisponibilité
desprévisions.
Les
avantages
et les inconvénients desapproches
sont difficiles à évaluer serei- nement.Quelques points
sont souventcités,
parexemple
dans Wilks 95.Rappelons
que ces méthodes incluent un
prédicteur
detempérature
et de vent que nousappelle-
rons ici
prédicteur
intermédiaire.- En faveur de MOS. La
phase
de construction et laphase
deprévision
utilisentdes informations
homogènes
entre elles. Un biaissystématique
duprédicteur
intermédiaire ne
perturbe
pas laprévision.
- En défaveur de MOS. Dans sa
phase
deconstruction,
MOS a besoin del’historique
des
prévisions, parfois
difficile à obtenir. EnFrance,
parexemple,
lestechniques de prévision
destempératures changent régulièrement.
Desadaptations
de cestechniques
se font tous les ans. Lesprévisions,
s’améliorent engénéral,
biensûr,
mais les modifications introduisent souvent des discontinuités dans les
prévisions.
- En faveur de PP.
- Dans sa
phase
deconstruction,
PP a besoin del’historique
desobservations,
assez facile à obtenir. Dans sa
phase
deprévision
de lapollution,
PP a seulementbesoin des
prévisions
detempérature
et de la vitesse du vent pour ce mêmejour;
- La
technique
utilisée pour assurer laprévision climatique,
pourvuqu’elle
soitde bonne
qualité
est indifférente. Ellepeut
mêmechanger
avec letemps.
C’estun second
avantage.
- En défaveur de PP. Pour que PP
fonctionne,
leprédicteur
intermédiaire doit être de bonnequalité.
S’il introduit un biais rien nepeut
lerectifier,
comme lesouligne
Wilks.
2.6.
Pourquoi
utiliserplusieurs
modèles ?La
principale
raison est l’absence d’éléments de référence. De cepoint
devue, une redondance de modèles issus de méthodes
variées,
utilisant desstratégies complémentaires
conduit à une sorte de robustesse.On
peut distinguer
deux familles en examinant les modèles actuellementimplémentés
àAirparif :
- les modèles non
linéaires, généraux
etadditifs, qui
ont été construits en utilisant latechnique
dite de«prévision parfaite».
Les variables utilisées pour caler le modèle sont issus d’uneprocédure
de sélection de variables et confirmées par CARTqui peut
donner de bons indices pour l’identification de tels modèles non linéaires. En outre, des relationsstatistiques
désormais bien connues(cf. Sheifinger et
al.96)
existent entre l’ozone et
quelques
variablesmétéorologiques
dont latempérature,
la radiation
UV,
la radiationglobale,
la vitesse du vent. Latempérature
est un desprédicteurs
lesplus
corrélés et leplus
facilementprévisible.
Le terme depersistance (l’ozone
de laveille)
est une sorte de variable auxiliaire pour laprise
encompte
d’autres variables nondisponibles
ou nonidentifiées;
- les modèles CART et CDR se
placent
à 06 h T.U. et ne considèrent que les variables dont les mesures sontdisponibles.
C’est une des raisons pourlesquelles
le nombrede variables utilisées par ces deux autres méthodes est
beaucoup plus important.
Eneffet,
l’introduction de peu de variablesclimatiques
réalisées cachent en un certainsens de très nombreuses variables
disponibles
à 06 h T.U. Latempérature
réaliséeest dans le cas de
l’ozone,
une variable très fortement liée à un ensembleimportant
de variables
explicatives.
Evidemment l’intérêt de laprévision parfaite, suspecte
si laprévision
des variablesclimatiques
est basée sur les mesuresdisponibles
à06 h
T.U.,
est manifeste dans le cas pourlequel
les variablesmétéorologiques
sontà la fois faciles à mesurer et à
prévoir
et que le travail deprévision
est effectuépar Météo-France sur la base de mesures
auxquelles
nous n’avons pas accès et de modèles àgrande
échelle en espace.En outre d’autres
aspects distinguent
les deux groupes de méthodes :- tout d’abord dans chacun des groupes :
- les
avantages
deprincipe
de CART sont clairs : la méthode est à la foisplus automatique
et le modèlereprésenté
par un arbre dont les noeuds sontétiquetés
par des conditionsportant
sur les variablesinitiales,
estplus
facile àinterpréter
que laprocédure classification-discrimination-régression qui
utilisedes composantes
principales.
Enrevanche,
lastratégie
deconception
de CARTest
plus figée.
Les deuxprocédures
secomplètent
et CARTpeut
aussi être utilisé dans un contexted’analyse
des données pour lacompréhension
desphénomènes;
- le non linéaire additif est une
spécialisation
du non linéairegénéral.
Il sedémarque
de celui-ci par deux inconvénients : l’absence de termes d’interaction entre variables dans le modèle et l’absenced’interprétation
en termes deressemblance des
jours
dupassé
aujour présent.
Ilprésente
deuxavantages :
on souffre moins du «fléau» de la dimension(surtout
dans les zones del’espace
d’état de faible
densité) puisque
les vitesses de convergence des estimateurs sous deshypothèses
habituelles dans un contexte derégression,
sont les vitesses non-paramétriques
unidimensionnelles(cf. Linton,
Hardie96)
et le modèle estplus explicite. Après estimation, qui peut
être vue comme une estimationpréliminaire qui capture
la forme desfonctions,
onpeut post-traiter
les estimateurs pour instiller de l’informationparamétrique.
- la modélisation additive a
permis
depréciser
ou confirmer lesaspects
statisti- ques suivants concernant le modèle non linéairegénéral :
l’effet de latempéra-
ture est le
plus important,
l’effet de la variableendogène (terme
depersistance,
influence de la
pollution
d’unjour
sur celle dulendemain)
est le moins im-portant,
les effets du climat varient peugéographiquement (deux
groupes de stations sedégagent,
ilsdistinguent
«ville» et«campagne»)
et les effets d’in- teraction ne sont pasimportants puisque
lesperformances
des deux modèlesnon linéaires sont très
comparables.
- les méthodes non linéaires ont tendance à délivrer des
prévisions
dont la variabilitéspatiale
est engénéral
moinsimportante
que celles des mesures. Contrairement à la méthode declassification-discrimination-régression (et
dans une moindre mesureCART)
dont la tendance estplutôt
de bien suivre cette variabilitéspatiale.
Cecivient du fait que les modèles sont
ajustés
finement station par station dans le derniercas et sans utiliser les informations sur le climat
réalisé,
alors que dans lepremier
l’effet du climat réalisé est très fort et gomme
plus
la variabilitégéographique.
3.
Comparaison
des résultats des divers modèles3.1.
Approche globale
et décisionnelle 3.1.1. Schéma desplans
d’essaisLes
paramètres
dechaque
méthode sontréglés indépendamment
sur un en-semble de
jours appelé
ensembled’apprentissage,
par desoptimisations qui
ne sontpas
présentées
ici. Lesréglages
sontparfois longs
à conduire etdépendent
du critèred’optimisation.
Une fois les
paramètres ajustés,
on fait pourchaque méthode,
uneprévision
surun ensemble
dejours identique
pour toutes lesméthodes, appelé
échantillon test.Les
comparaisons
des méthodes sont faites par un outil dedépouillement
multi-critères commun.
- Ensemble
d’apprentissage
L’ensemble
d’apprentissage,
pour toutes lesméthodes, correspond
à lapériode
du 01.01.92 au 31.12.96. Les ensembles
d’apprentissage
et de test sontdisjoints.
Ce choix
classique
nousplace
dans une situation réaliste : en effet lesjours,
où lemaximum de la concentration d’ozone est
prévu,
n’interviennent pas dans leréglage
des modèles de
prévision.
- Echantillon test
Sept
échantillons tests sont définis : trois sont des étésentiers,
trois sont desquinzaines
et le dernier est un échantillon stratifié construit par untirage
au sort :- étés entiers :
- été 1994
(pollué : 6
alertes2,
15 alertes1);
- été 1995
(pollué : 4
alertes2,
22 alertes1);
- été 1996
(peu pollué : 0
alerte2,
17 alertes1).
-
quinzaines
- 01-07-94 au 15-07-94
(polluée : 3
alertes2, 3
alertes1);
- 01-08-95 au 15-08-95
(polluée :
1 alerte2,
8 alertes1);
- 01-08-96 au 15-08-96
(peu polluée :
0 alerte2, 1
alerte1).
- échantillon stratifié de 33
jours (2
alertes2,
11 alertes1).
- Critères de
comparaison
En dehors des critères
classiques portant
sur la validation et l’évaluation des résultats deprévision (comme
parexemple
la moyenne et lesquantiles
des erreursabsolues),
des critèresadaptés
auproblème
décisionnelqui
nous intéresse sont déduitsdu tableau d’alertes suivant :
On trouve en
ligne
les niveaux(si
l’on raisonne station parstation)
ou lesalertes réalisés et en colonne les niveaux
(ou alertes) prévus.
Onrépartit
ainsi lesjours
considérés dans ce tableau. Le tableau idéal estdiagonal.
Le bloc au dessusde la
diagonale représente
les fausses alertes tandis que le bloc sous ladiagonale
concerne les alertes non faites. L’écrasante
majorité
desjours
sont dans la case 0-0.Partant de la
répartition
desjours
dans cetableau,
onpeut
considérer des indicateurs scalaires de deuxtypes.
Lepremier
fournit un coûtglobal
et il est calculécomme la somme des
produits
terme à terme du tableau d’alertes et d’un tableau de coefficients reflétant le coût associé à chacune desconfigurations.
Le second consiste àcomptabiliser
les occurences de certains événementspertinents.
Deux
types
de critères ont donc été retenus :- un
type
de critère sur les tableaux d’alertes. On se donne trois matrices de coûtssymétriques.
Le critère de coût uniforme
pénalise,
àpoids égal,
les fausses alertes ou les alertesnon faites et
n’avantage
pas les bonnes alertes. Le critère de coût « santé »pénalise davantage
les fausses alertes et les alertes non faites au niveau 2 parrapport
au niveau 0 etavantage
les alertes bienprévues
de niveaux 1 et 2. Le critère de coût«préfecture» pénalise,
comme pour le coût«santé»,
les fausses alertes et les alertesnon faites mais sans
privilégier
les bonnes alertes.- un
type
de critère sur descomposites synthétiques :
cescritères, comparant
les valeurs de la concentration d’ozoneprévue
etréalisée,
sont calculés àpartir
d’untableau de
contingence
binaire de la forme suivante :- un critère
représente
le taux de nondétection,
c’est-à-dire le nombre d’alertes nonfaites sur le nombre d’alertes :
- un critère
représente
le taux de faussesalertes,
c’est-à-dire le nombre de faussesalertes
sur le nombre d’alertes :- mentionnons un autre critère
appelé
le threat scorelargement
utilisé en météoro-logie
et enpollution,
défini par le nombres d’alertes faites sur le nombre d’alertesprévues
ou réalisées :Plus les valeurs des deux
premiers
critères sontpetites
et meilleure est laprévision.
C’est l’inverse pour le dernier critère. Aucun de ces critères ne tient
compte
de la case0-0,
cequi
est naturelpuisque
son introductiongonflerait
artificiellement lesperformances
enmasquant
l’évaluation de lacapacité
à minimiser les fausses alertes et les alertes non faites.3.1.2. Ensemble des modèles
Chacune des méthodes a été utilisée pour
prévoir
le maximum d’ozone sur lessept
échantillons tests en calant le modèle sur l’ensembled’apprentissage exempté
dela
période
testcorrespondante.
Pour chacune de cespériodes,
nous avons déterminé lesjours
deprévision
communs à toutes lesméthodes,
ceci est nécessaire à cause de laprésence
de donnéesmanquantes (non interpolées) qui
a desimpacts
différentssur les méthodes. Puis nous avons calculé pour chacun les critères de
comparaison
etoctroyé
unpoint
par meilleur critère obtenu(le
nombre depoints
maximumpouvant
être atteint par une méthode étant de63).
Les résultats sont détaillés dans lerapport
Bel et al. 97 etpeuvent
être résumés comme suit.Les méthodes sont assez
proches
pour les critères de coûtsd’alertes, exceptée
CART assez nettement distancée. En
revanche,
pour les critères de mesuresd’erreurs,
la méthodeclassification-discrimination-régression
domineplus
nettement, ainsi que pour lacomparaison
des taux tl et t2, basés eux aussi sur les tableaux d’alertes.Cependant
la méthode additive occupe une secondeplace générale.
Observons sur des
périodes polluées,
les tableaux des alertesprévues/réalisées :
- été 1994
(6
alertes2,
15 alertes1);
nombre dejours
communs à toutes lesméthodes : 43.
Sur cette
première période,
seule la méthode additiveprévoit
une alerte de niveau 2 mais on observe deux sous-estimations de niveau 2 en niveau 0. Il en est de même pour les méthodes non linéairegénérale
et CARTqui, elles,
en sous-estiment 3 en niveau 0.La méthode
CDR,
si elleprévoit
unplus grand
nombre de niveau1,
neprévoit
aucun niveau 2. Ces niveaux 2 réalisés sont
cependant
tousprévus
en niveau 1.- échantillon stratifié de 33
jours (2
alertes2,
11 alertes1);
nombre dejours
communs à toutes les méthodes : 24.
Sur la seconde
période,
aucune méthode neprévoit
le niveau2;
seule la méthodeCDR le sous-estime en niveau
1,
les autres en niveau 0. Demême, malgré quatre
fausses alertes de niveau 0 en niveau1,
c’est la méthode CDRqui prévoit
leplus grand
nombre de niveau 1.3.1.3.
Comparaison
avec la méthode depersistance
Adopter
lapersistance
comme méthode deprévision
consiste àprévoir
lemaximum d’ozone
d’un jour j
par le maximum d’ozone réaliséau jour j - 1.
La
comparaison
avec une telle méthodepeut surprendre,
mais elle est néanmoinsclassique
dans ce domaine difficile. Elle donne des résultats dont laqualité
estmédiocre mais pas
catastrophique
à cause de la relative stabilité des conditionsmétéorologiques
enrégion parisienne.
Regardons,
sur les deux mêmespériodes
et sur lesjours
en commun, les tableaux des alertesprévues/réalisées :
Les défauts de cette
prévision
sont de faire des fausses alertes de niveaux 2 surdes niveaux 0 de
pollution
et de sous-estimer des niveaux 2 en niveaux 0. Fortlogiquement,
toutes les méthodesexposées précédemment
sont nettement meilleures que laprévision
parpersistance.
3.1.4. Les modèles
opérationnels
Pour conclure sur cette
comparaison
surlaquelle
sont basés les modèlesopérationnels,
onpeut
noter que le threat score est environ de 35 à 40 %. Cesperformances, apparemment modestes,
sontcomparables
aux résultats desprévisions qui
sepratiquent
ailleurs dans le monde pour ce mêmepolluant.
L’ordre degrandeur
des moyennes des erreurs absolues est de 20 à 27
J-Lg/m3;
aucune des méthodes neprévoit
laplupart
des alertes de niveau 2. Globalement toutes ces méthodes sontéquivalentes
au vu de ceprotocole
decomparaison.
3.2. Les résultats sur l’été 1997
Examinons enfin les résultats sur l’été 1997. Cette
période
a été assezpolluée :
16 alertes de niveau 1 et 4 de niveau 2 ont été relevées sur 138
jours
étudiés. Ce dernier été a constitué unepériode
de validation en vraiegrandeur
des méthodes mises aupoint
et desprocédures opérationnelles
associées. Lesprévisions
que nousavons élaborées ont été utilisées pour informer la
population
par le biais du service minitel 3614Airparif.
-
Disponibilité
de laprévision
La
période
durantlaquelle
les modèles ont étéopérationnels, comporte
en tout 138jours.
Sur ces 138jours,
la méthode additive en aprévu
136 et la méthodenon linéaire 131. Les méthodes
classification-discrimination-régression
etCART,
utilisant
beaucoup plus
devariables,
en ontprévu respectivement
124 et122;
lesjours
de donnéesmanquantes
étant malheureusement desjours
où des niveaux 2ont été atteints.