R EVUE DE STATISTIQUE APPLIQUÉE
S. B OTTARD
Application de la méthode du Bootstrap pour
l’estimation des valeurs extrêmes dans les distributions de l’intensité des séismes
Revue de statistique appliquée, tome 44, n
o4 (1996), p. 5-17
<http://www.numdam.org/item?id=RSA_1996__44_4_5_0>
© Société française de statistique, 1996, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
APPLICATION DE LA MÉTHODE DU BOOTSTRAP POUR
L’ESTIMATION DES VALEURS EXTRÊMES DANS LES
DISTRIBUTIONS DE L’INTENSITÉ DES SÉISMES
S. Bottard*
Institut de Protection et de Sûreté Nucléaire,
Département
de Protection de la santé de l’Homme et de Dosimétrie, Service d’Evaluation et de Gestion desRisques,
IPSN, BP6, F-92265
Fontenay-aux-Roses
CedexRÉSUMÉ
Dans la
plupart
des méthodesd’analyse probabiliste
durisque sismique,
le modèlequi
décrit la sismicité d’une source suppose que l’intensité des séismes est une variable aléatoire de distributionexponentielle. Cependant,
laqualité
del’ajustement
d’une distributionexponentielle
repose sur l’exhaustivité des observations,qui
n’est pas assurée sur la totalité del’historique
des données de sismicité concernant lespetits
événements et les événementsmajeurs.
Les distributions issues de la théorie des valeurs extrêmes de Gumbel ontl’avantage
dereposer exclusivement sur les valeurs maximales
prises
par l’intensité des séismes,plus
fiablesur la
majeure partie
del’historique
que l’information concernant tout le spectre d’intensités et notamment lesplus
faibles. Deplus,
la théorie des valeurs extrêmes permet d’obtenir directement des estimations fiables desgrands
événements, pourlesquels
lepetit
nombrede réalisations induit de fortes incertitudes dans
l’analyse probabiliste
de l’aléasismique.
Uneméthode
originale
d’inférencestatistique semiparamétrique,
fondée sur la théorie des valeurs extrêmes et uneprocédure Bootstrap
estproposée,
afin de déterminer les intensités maximalessusceptibles
de seproduire
sur le territoirefrançais.
Mots-clés : Théorie des valeurs extrêmes,
statistique
nonparamétrique
duBootstrap, analyse probabiliste
de l’aléasismique,
France.ABSTRACT
In most of the
probabilistic analysis
of seismic hazard the modeldescribing
theseismicity
of the source assumes that the
earthquake intensity
behaves like a random variable withexponential
distribution. But the fitdepends
on theexhaustivity
of the observations which is not achieved on the whole historicalseismicity
data,especially
for small andmajor
events.The distributions issued from Gumbels’s
theory
for extreme values have theadvantage
torely only
on the maximum values of theearthquake intensity.
These values are more reliable onthe greater part of the historical data than the information
concerning
the whole spectrum of* Adresse actuelle : Laboratoire de Détection et de Géophysique, Commissariat à l’Energie Atomique, B.P.
12, 91680 Bruyères-le-Châtel.
6 S. B07TARD
intensities and
especially
the small ones. Thetheory
of extreme valuesprovides straight
accurateestimates of great events for which the low number of observations entails
high
uncertainties in theprobabilistic analysis
of seismic hazard. A convenient statistical method isproposed
todetermine maximum intensities
likely
to occur in the Frenchterritory.
Thissemiparametric
method associates the
theory
of extreme values and aBootstrap procedure.
Keywords : Theory of extreme
values,Bootstrap nonparametric
statistic,probabilistic analysis of
seismic hazard, France.1. Introduction
L’évaluation de l’aléa
sismique
pour les installations àrisque
pose aux sta- tisticiens un certain nombre deproblèmes spécifiques
nécessitant le recours à destypes
de résolutionparticuliers.
L’une des difficultésmajeures
dans cetype
d’étudesprovient
du fait que les événements considérés sont souvent «rares» et souvent àconséquences
«graves». Ces événements ne s’étantpratiquement jamais produits,
il est
impossible
de les étudier enappliquant
directement les méthodesstatistiques classiques.
Dans le domaine de l’évaluation de l’aléasismique,
leproblème
consisteà estimer les
probabilités
d’occurrence associées aux séismesmajeurs auxquels
lesstructures doivent résister. Du fait du caractère modéré de la sismicité en
France,
ilest difficile de déterminer l’intensité
(ou
lamagnitude)
maximalesusceptible
de seproduire
sur un site. Le séisme maximalpeut,
nejamais
avoir eu lieu par lepassé,
oubien ne pas avoir eu lieu
pendant
lapériode historique
d’observation. EnFrance,
les données de sismicitéhistorique
concernent le derniermillénaire;
leproblème
consistedonc à estimer de
façon
fiable l’aléasismique
lié aux événements dont lespériodes
de retour sont
supérieures
à 1 000 ans(c’est-à-dire
deprobabilité
inférieure à10-3).
Dans
l’analyse
de l’aléasismique,
l’intensité estgénéralement supposée
sui-vre une loi
exponentielle.
Dans lapratique,
lesingénieurs
introduisent une borne inférieure et une bornesupérieure
dans la distribution(Cornell, 1968),
ceci pour deux raisons distinctes :1)
les événements de faible intensité ne sont pasreprésentés
defaçon
exhaustive dans les données de sismicitéhistorique
surlesquelles
sont réa-lisés les
ajustements; 2)
dans des contextessismotectoniques
comme celui de laFrance,
caractérisés par une sismicitéintraplaque
diffuse et relativementmodérée,
il estgénéralement
admisqu’il
existe un maximum aupotentiel sismique. Cepen- dant,
la discontinuitéabrupte qui
caractérise une distributiontronquée
ne reflète pas forcément laréalité,
et il demeure nécessaire d’estimer l’intensitémaximale,
si l’on neveut pas considérer par défaut une borne
supérieure
à l’échelle desintensités,
comme ledegré
XII de l’échelleMSK1 .
Laprécision
des estimations obtenues reste soumise à lapertinence
de la bornesupérieure
choisie.1 L’intensité est un indice qualitatif de la sévérité des secousses subies en un point donné lors d’un séisme.
L’échelle des intensités MSK, mise au point par V. Medvedev, W. Sponheuer et V. Karnik en 1964, est
une échelle discrète qui s’étend du degré 1 au degré XII. Elle classifie les séismes de façon hiérarchique
selon les effets ressentis par les personnes, les dommages causés aux bâtiments et à l’environnement naturel. La magnitude est une mesure quantitative de la taille d’un séisme, liée à l’amplitude maximale
du mouvement du sol par une relation log-linéaire. La magnitude se mesure sur l’échelle établie par C.F. Richter en 1935, qui compte neuf degrés en pratique, mais qui n’est a priori pas bornée. Sur cette
échelle, un saut de un degré de magnitude équivaut à une énergie libérée à la source 30 fois supérieure.
Bien que des méthodes de recherche de limites
physiques
fondées sur le momentsismique
ou le cumul des déformations estimées àpartir
des donnéeshistoriques
aient été
proposées,
le choix d’une intensité maximale absolue reste assez arbitraire(généralement
onmajore
l’intensité maximaleobservée),
surtout en France où le caractère modéré et diffus de la sismicité nepermet
pas d’estimer avec certitude untel
paramètre.
C’estpourquoi
il estpréférable
de considérer l’intensitémaximale,
nonplus
comme unparamètre
de la distribution desintensités,
mais directement comme une variable aléatoire. Cechoix, qui permet
de tenircompte
de l’incertitude due aumanque de données sur les événements
majeurs,
estégalement
leplus approprié
àl’analyse
de l’incertitude liée à ceparamètre.
Les données concernant lesgrandes
intensités sont
généralement
insuffisantes pourjustifier
avec certitudel’hypothèse
d’une loi
paramétrique particulière.
Plutôt que de choisirparmi
les distributions deprobabilité classiques
cellequi ajuste
le mieux les valeurs maximalesobservées,
on s’intéresse aux lois issues de la théorie des valeursextrêmes, qui
permettent d’obtenir directement desprévisions
des intensités maximales.2. La théorie des valeurs extrêmes 2.1. Les distributions des valeurs extrêmes
La théorie des valeurs extrêmes a pour but d’étudier la distribution du maximum d’une suite de variables aléatoires même
si,
etspécialement si,
la distribution duphénomène
n’est pas connue.Formellement,
si n est le nombre de séismesqui
se sontproduits pendant
unepériode
donnée etXi... Xn
les variables aléatoiresreprésentant
leurs
intensités,
la variable aléatoire dont on cherche à déterminer la distribution est l’intensité maximale X =max(Xl ... Xn ) .
Les intensités étantsupposées
êtredes variables aléatoires
indépendantes
etidentiquement distribuées,
de fonction derépartition FM,
la distribution F de l’intensité maximale est définie par :L’étude de la distribution
asymptotique
de Xquand
n tend vers l’infini(Gumbel, 1967)
conduit à troistypes
de lois limites :2. 1. 1. Distribution de type 1
où la valeur
caractéristique u
estégale
à m -1/ Q (m désignant
la moyenne de la distribution et ’Y la constanted’Euler)
et où leparamètre
d’échelle a estégal
à
7r/((TB/6) (cr
étantl’écart-type
de ladistribution).
La distribution detype
I estgénéralement appelée
loi de Gumbel ou doubleexponentielle.
8 s. B07TARD
En effectuant le
changement
de variable Y =a(X - u),
où Y estappelée
variable de Gumbel
standard,
la distribution de type I a pourexpression :
Cette distribution a pour
espérance mathématique,
et pour variance7r2 /6.
2.1.2. Distribution de type II
Le domaine de définition de la distribution de
type
II est borné àgauche.
Cetteloi est
parfois
associée au nom de Fréchet etplus
rarement à ceux de Fischer etTipett.
Les moments de la distribution de
type
II n’ont pasd’expression analytique simple,
mais la distribution
peut
se ramener à la loi de Gumbel standard en effectuant lechangement
de variable Y =2013ln(03BD/X)k.
2.1.3. Distribution de
type
IIILe domaine de définition de la distribution de
type
III admet 0 pour bornesupérieure.
Cette distribution peut se ramener à la loi de Gumbel standard en effectuant lechangement
de variable Y =-ln(X/v)k.
Le mode de la distribution detype III, qui
a pour valeurv((k 2013 1)/k)1/k, k
> 1, estproche
duparamètre caractéristique v
dès
que k
> 3.Les conditions
théoriques d’application
des lois des valeurs extrêmes sont très rarement satisfaites lors desapplications pratiques. Malgré
ces conditionsd’applica-
tion très restrictives
(l’indépendance
des événementsnotamment),
les distributions des valeurs extrêmes fournissent souvent de bonsajustements
aux donnéesexpéri-
mentales. Un certain nombre d’auteurs ont utilisé une distribution de
type
1 ou II des valeurs extrêmes pour décrire le processus d’occurrence des séismes degrande
intensité dans une
région
à forte sismicité comme la Californie(Kijko, 1987).
Au-cune étude des lois des valeurs extrêmes pour l’évaluation de l’aléa
sismique
n’a étéréalisée en France
jusqu’à présent.
2.2. Modélisation de la sismicité
régionale française
estimation
paramétrique
de la distribution detype
IIILes données de sismicité
régionales
sont extraites du fichier SIRENEqui
recense
plus
de 5 000 séismes caractérisés par leurépicentre
et leur intensitémacrosismique. L’ajustement
des lois des valeurs extrêmes a été effectué sur la série des intensitéshistoriques
maximales annuelles observées dans lesrégions
duzonage
sismotectonique français
élaboré par Grellet et al.(Grellet,1993) (figure 1 ).
Ledegré
d’intensité minimal considéré est de V(MSK),
pour des raisons d’exhaustivité.Les
ajustements
ont été réalisés surl’historique
1343-1993. Lapériode
d’une année d’observation semble être lapériode
laplus appropriée
pourl’analyse
de la série des intensités maximales selon des études réalisées par Schenkova et Karnik sur lapériode
d’observation(Schenkova, 1970).
Unepériode plus petite
introduit ungrand
nombre de données
manquantes.
FIGURE 1
Zonage sismotectonique français
On
peut
d’abord s’intéresser à la distribution detype
1qui extrapole
lesprobabilités
associées aux intensitéssupérieures
à l’intensité maximale observée.Mais avec un tel
type
dedistribution,
il reste leproblème
de la définition d’une intensité maximale. Certains auteurs définissent l’intensité maximalepotentielle
comme lavaleur Xmax dont la
probabilité
dedépassement
soitégale
à1 %,
c’est-à-dire telle queF (xmaX ) - 0,99.
L’autre alternative estl’ajustement
de la distribution de type III des valeurs extrêmesqui
estime une bornesupérieure
à la distribution des intensités àpartir
de la distribution observée.10 S. B01TARD
La loi limite de
type
III a étéajustée
par la méthode d’estimation non linéaire de Gauss-Newton. Cette méthode consiste à linéariser la fonction derépartition
enutilisant son
développement
deTaylor
aupremier ordre, puis
à minimiser la sommedes carrés des erreurs du
problème
linéarisé(c’est-à-dire régresser
les résidus surl’espace
vectorielengendré
par les dérivéespartielles
dupremier
ordre du modèlelinéarisé).
On utilisera la forme suivante de la distribution :où w
désigne
la bornesupérieure
de ladistribution, k
leparamètre
d’échelle et ula valeur
caractéristique.
Le domaine de définition de ladistribution,
associe une contrainte àchaque paramètre :
- une contrainte de
positivité
en cequi
concerne leparamètre k;
- une contrainte de
positivité
et une limitesupérieure imposée
par son domaine de définition pour leparamètre
u : 0 u w;- une contrainte double pour le
paramètre
w :Imax
w 12; la limite inférieure étantimposée
pardéfinition,
car w doit être strictementsupérieur
àl’intensité maximale observée
Imax
=n1ax(xl ... xn).
L’introduction de la limitesupérieure, qui
est celle de l’échelleMSK, provient
du fait que l’estimation de la bornesupérieure
de ladistribution,
w, doit avoir un sens dupoint
de vue de laphysique,
c’est-à-dire doit être
interprétable
en termes d’intensité maximale.Il
s’agit
donc d’effectuer larégression
duproblème
linéarisé sous contrainte.Soient
0*
l’estimateur duproblème
de Gauss-Newton linéarisé non contraint oùf3
=(k,
u,w),
etC/3
le domaine défini par les contraintesur /3.
Deux cas seprésentent : 1)
si{3* appartient
àC/3,
alors la solution de larégression
sous contrainte est/3*
lui-même ; 2) sinon,
la solution de larégression
sous contrainte est laprojection
de/3*
sur la frontière de
C {3.
Autrementdit,
si(3*
satisfait lacontrainte,
il est solution duproblème contraint,
sinon la solutionoptimale
sature une des contraintes.En
pratique,
les contraintes depositivité
neposent
pas de réelproblème,
lesdonnées
permettant
aux estimateurs de les satisfaire sansqu’elles
soientintégrées explicitement
auproblème d’optimisation (cas 1).
Il en est de même pour la contraintesur u
qui
s’écrit finalement uImax. Remarquons
que les estimations de u sontcomprises
entre4,60
et6,07 (tableau 1),
et que uprend
une valeur pro- che du mode de la distribution desintensités, égal
àu((k 2013 1)/k)1/k + w[1 2013 ((k - 1)/k)1/k],
k >1,
dès que k > 3(si
k tend vers1,
le mode estplus proche
de la borne
supérieure w).
On aurait puimposer
une contrainte inférieureplus
forteque celle de
positivité
sur ceparamètre
enposant 5
u,puisque
seules les intensitéssupérieures
audegré
V sont considérées. Mais on observe que, d’unepart
relâchercette contrainte fait diminuer les
écarts-types,
et d’autre par les estimations de u restent trèsproches
de5,0,
cequi
est réalistepuisque
la distribution detype
IIIextrapole
les
petites
intensités nonprises
encompte.
Par contre la contrainte7max
w12,
doit être introduiteexplicitement
dans le critère. Ons’aperçoit
en effet que les estimateurs de ceparamètre
viennentsystématiquement
saturer la contrainte, soit par limiteinférieure,
soit par limitesupérieure (cas 2).
12 S. B07TARD
Les estimations obtenues
après
convergence de laprocédure
de Gauss-Newton sont résumées dans le tableau 1. Onpeut juger graphiquement
laqualité
desajuste-
ments de la loi des valeurs extrêmes
majorée,
comme sur lafigure
2 pour larégion
des
Alpes.
On constate que les estimations desparamètres
de la distribution des valeurs extrêmesrespectent
bien les valeurscaractéristiques
des distributions ob- servées. Toutefois lesécarts-types
desparamètres
w et k sont élevés dans certainesrégions. L’analyse
des matrices des corrélationsasymptotiques
révèle que le coeffi- cient de corrélation entre ces deuxparamètres
estpratiquement égal
à 1. Si leparamètre
u est donc bien
déterminé,
l’estimation desparamètres
w et k est moinsprécise,
cetteinstabilité
provenant
de leur forte corrélation.intensité
FIGURE 2
Probabilité de
dépassement
de l’intensité maximale annuelle dans larégion
desAlpes -
Distribution de type IIIEn
fait,
lesécarts-types
sontparticulièrement
élevéslorsque
l’estimation duparamètre w
tend vers une borne de son domaine de définition. Eneffet,
ondistingue
deux cas :
1)
Danssept régions (Bassin Aquitain Nord,
Massif Armoricain Nord etSud,
MassifCentral, Poitou,
Provence etPyrénées),
la valeur estimée de w estégale
à 12.Ces
régions
sont donc caractérisées par une distribution de l’intensitéépicentrale qui
s’étend entièrement sur l’échelle des intensités du
degré
V audegré
XII. La queue de distribution estextrapolée
pour cequi
concerne les événements d’intensitésupérieure
à l’intensité maximale
observée,
c’est-à-dire caractérisés par despériodes
de retourne
permettant
pas leur observation. Ce résultat est intéressant pour lesrégions
à fortpotentiel sismique concernées,
comme lesPyrénées.
Le fait que la distributionatteigne
la borne
supérieure
de l’échelle MSK contraint laprobabilité
dedépassement
à tendrevers zéro en cette limite.
2)
Pour les autresrégions,
la bornesupérieure
de la distribution w tend versl’intensité maximale observée
(Alpes,
Bassin Parisien Est etSud,
Fossé Rhénan Nord et Rhininférieur, Lion-Ligurie
etMaures)
ou reste dans sonvoisinage (comme
pour le Jura Souabe où
Imax = 8,5
et w =8,51 ).
Dans cesrégions,
où la sismicité est faible à modérée(excepté
lesAlpes),
onpeut
donc admettre que l’intensité maximale observée définit effectivement la limitesupérieure
dupotentiel sismique
de larégion.
Donc,
dans la moitié desrégions
du zonage, la contrainte sur leparamètre
w est saturée soit par limite
supérieure,
soit par limite inférieure. Ceci est la causedes
écart-types parfois
anormalement élevés desparamètres
w et k. Afin d’obtenirun estimateur de la borne
supérieure
de la distributionplus fiable,
on propose uneméthode d’inférence
semiparamétrique
fondée sur latechnique
nonparamétrique
duBootstrap.
3. Une méthode
semiparamétrique
pour l’estimation des valeurs extrêmes 3.1. Méthode nonparamétrique
duBootstrap
Dans les situations où l’on ne
peut
pas fairel’hypothèse
que la distribution des observations ou de certainsparamètres appartient
à une famille connue, il existedes méthodes d’inférence
statistique adaptées,
dites nonparamétriques
ou «libresde distribution ». Ces méthodes reposent sur des
postulats
moinscontraignants
queceux des méthodes
paramétriques qui dépendent
defaçon
cruciale deshypothèses
émises sur la distribution de l’échantillon de base. On
peut appliquer
les méthodesnon
paramétriques
à desproblèmes
d’estimation deparamètres caractéristiques
ou detests
d’hypothèses.
La
technique
duBootstrap
a été introduite par B. Efron(Efron, 1979).
C’estla méthode de
réplication
des échantillons la mieux fondéethéoriquement.
Elleconsiste à
créer,
àpartir
d’un échantillon debase,
ungrand
nombre d’échantillons partirage
aléatoire avec remise. Surchaque échantillon,
lesstatistiques auxquelles
on s’intéresse sont
calculées,
cequi permet d’approcher
leurdispersion.
Onpeut
ainsi estimer la variance ou la loi desparamètres caractéristiques
de la distribution de l’échantillon et construire des intervalles deconfiance, lorsque
la distribution desparamètres
estanalytiquement complexe.
Cette méthode semble donc êtreadéquate
14 S. B07TARD
pour la résolution du
problème
de l’intensité maximale pourlequel
les méthodesparamétriques
restent insatisfaisantes.La méthode du
Bootstrap
se déroule de la manière suivante :Première
étape :
Soient X une variable aléatoire de fonction derépartition
Fdépendant
duparamètre 3,
et l’échantillon c =(x1... xn).
SoitFn
la distributionempirique
associée à e(i.e.
la loiqui
à tout xi de e associe la masse1/n); e
muni dela loi
Fn
sert depopulation
de base.Seconde
étape :
Onprocède
à ntirages équiprobables
dans e, avec remise.On obtient le
pseudo-échantillon
e* =(x i ... x*n)
tel que Vi = 1... n,3j
e(1... n)lxi
= xj; c’est-à-dire que, danse*,
certaines valeurs initiales sontprésentes
avec
répétition
et que d’autres ne sont pasreprésentées. Puis,
on calcule(3*
issu dee* et
F*n
la distributionempirique
associée à e*.Troisième
étape :
Onapproche
la distribution de0
par la distributionempirique
de
03B2*,
obtenue parsimulation,
en itérant N foisl’étape précédente
pour obtenir(03B2*p(03B5*p, F*n))p=1....N, à partir
des N réalisationsindépendantes
etidentiquement
distribuées
(e;)p=1...N.
Onpeut
donc estimer la varianceBootstrap
duparamètre
et son intervalle de confiance.
Efron propose une
méthode, appelée
defaçon
assez naturelle «méthode desfractiles»,
pour construire des intervalles de confiance sur lesparamètres (Efron, 1987).
Les fractiles 5% et 95% de la distribution duBootstrap
donnent l’intervalle de confiance à 90% duparamètre (3* .
Il est clair que cette méthode conduit à l’obtention d’intervalles de confianceasymétriques,
cequi
estparticulièrement pertinent
dans lecas de
petits
échantillons.Le nombre N d’échantillons détermine la
précision
de latechnique
du Boots-trap.
Efron a observé que, dans un certain nombred’applications
où les vraies valeurs desparamètres
sont connues, les estimations obtenues pour Ncompris
entre 100 et1 000 sont suffisamment
précises
et que les intervalles de confiance sontégalement proches
des valeurs exactes, si les extrémités de la distribution simulée sont assezprécises.
3.2. Une
application semiparamétrique
pour les valeurs extrêmesDans le cas où l’on cherche à
approcher
la distribution du maximum d’un échan-tillon,
il est clair que latechnique
usuelle duBootstrap
pour lerééchantillonnage
desdonnées ne convient pas,
puisqu’il
estimpossible
d’obtenir despseudo-échantillons comportant
des valeurssupérieures
à la valeur maximale observée. On aurait donc ceproblème
pour l’estimation de la bornesupérieure
d’une distribution enappliquant
directement la méthode du
Bootstrap.
C’estpourquoi,
on utilisera une méthode déve-loppée
par D. Zelterman afind’approximer
la distributiondes q
+ 1plus grandes statistiques
des valeurs extrêmes d’une distribution F inconnue àpartir
d’un échan- tillon ordonnéXl
> ... >Xn
où n » q(Zelterman, 1993).
L’auteur propose derééchantillonner,
nonplus
les valeurselles-mêmes,
mais les intervalles entre les va-leurs
adjacentes
de l’échantillon. Ils’appuie
pour cela sur le théorème de Weissman(1978, cf (Zelterman, 1993)) :
Pour q
fixé, quand
nu oo, les intervalles desplus grandes statistiques
des valeurs extrêmes normalisés
dj = ja-1n(Xj - Xj+l), j = (1... q),
sontindépendants
etidentiquement
distribués selon une loiexponentielle.
L’exponentialité
est valable pour laplupart
des distributions communément utilisés. L’auteur suppose de manièregénérale
que an =1,
cettehypothèse
nesemblant pas très restrictive. Les valeurs
bootstrap (di ... de)
des intervalles sont ensuite «dénormalisées»puis sommées,
afin de simuler la série desplus grandes statistiques
des valeurs extrêmes définies par :Remarquons
que la méthode duBootstrap
n’utilise pas le résultatd’exponentia-
lité du théorème mais seulement celui
d’indépendance
et d’identité de distribution des intervalles. Cette méthode est ditesemiparamétrique
car la forme de la distribution F n’est passpécifiée,
mais sa queue de distribution estsupposée
suivre une loi detype exponentiel.
Leproblème
restant est l’estimation de q, cequi équivaut
à déterminer où la queue de distribution de F commence. L’auteur propose un testséquentiel
sur lesintervalles normalisés
dl ... dq
fondé surl’hypothèse d’exponentialité
et lastatistique
de Gini ou la distance de
Kolmogorow-Smirnov.
Dans le
problème
des intensitésmaximales,
la variable aléatoire Xreprésente
l’intensité maximale. On fait
l’hypothèse
que la fonction derépartition théorique
F est la distribution du
type
III des valeurs extrêmes(de type exponentiel),
c’estpourquoi
on vaappliquer
la méthode derééchantillonnage
des intervalles successifs à toute l’étendue des échantillons(q = n).
Lesparamètres
estimés pour chacun des N échantillons parl’algorithme
de Newton sont le facteur d’échellek*,
la valeurcaractéristique
u* et la bornesupérieure
w* de la distribution detype
III.Les estimateurs
bootstrap (k B, u B, WB)
de ces troisparamètres
sont les moyennes de leurs distributions simuléesrespectives.
Dans leparagraphe
suivant on s’intéresseraparticulièrement
auparamètre
WB, laprécision ajoutée
à l’estimation des deux autresparamètres
par la méthode duBootstrap
n’étant pas suffisammentsignificative.
3.3. Estimation des intensités maximales
régionales
La méthode
semiparamétrique précédente
a étéappliquée
aux 20régions
définies par le zonage
sismotectonique français.
Pourchaque région,
1 000 séries d’intensités maximales annuelles ont étésimulées,
les unes étant caractérisées par une valeur maximale inférieure à l’intensité maximaleobservée,
les autres par une valeur maximalesupérieure.
Les estimations des intensités maximales obtenues et arrondies(notées WB) accompagnées
de leurécart-type
et de leur intervalle de confiance à 90%(notées
I.C.90%)
sontprésentées
dans le tableau 2 etcomparées
aux intensitésmaximales observées
(Imax).
Les intervalles de confiance sont relativement
larges.
En dehors decela,
lesrésultats obtenus sont satisfaisants
puisque,
dans lamajorité
desrégions,
l’intensité maximale estimées par la méthode duBootstrap
est de0,5 degré
à1,5 degré supérieure
à l’intensité maximale observée. Seule la
région
desPyrénées
a une intensité maximale estiméeégale
à l’intensité maximale observée. En moyenne, la valeurbootstrap
del’intensité maximale en France est de un
degré supérieure
à l’intensité maximale observée.16 S. B01TARD
4. Conclusion
Si on émet
l’hypothèse
que l’intensité des séismessusceptibles
de seproduire
dans une
région
donnée est limitéephysiquement,
cequi
semble être le cas notamment dans lesrégions
à faiblesismicité,
l’utilisation d’une distributionmajorée
telle la loi detype
III de la théorie des valeurs extrêmesse justifie
etpermet
de respecter au mieux la queue de distribution des intensités observées. Deplus, l’approche semiparamétrique proposée
pour la détermination des intensités maximalesrégionales,
montre que l’onpeut extrapoler
lesprobabilités
d’occurrence des séismessupérieurs
à l’événementhistorique majeur,
dans un intervalle de0,5 degré
à1,5 degré (selon
larégion).
Cettedémarche est fiable dans la mesure où la distribution de
type
III des valeurs extrêmes reste très fidèle aux donnéesdisponibles
concernant les événementsmajeurs,
et dansla mesure où l’on pourra, par la
suite,
évaluer l’influence des événements extrêmes surl’estimation de l’aléa
sismique
pour lespériodes
de retouren jeu
danschaque
étude.L’inférence
statistique
nonparamétrique
constitue un bon outil d’aide à la décision dans le choix de certaines lois et de certainsparamètres
del’analyse probabiliste.
TABLEAU 2
Intensités maximales
régionales bootstrap
Remerciements : Je tiens à remercier le Professeur P. Cazes pour les conseils
qu’ il
m’aapportés pendant
la réalisation et la rédaction de cette étude. Je remercieégalement
le Professeur E.
Diday
pour les orientationsbibliographiques qu’il
m’asuggérées
aucours des recherches.
Références
bibliographiques
[1]
CORNELL C.A.(1968). Engineering
seismic riskanalysis.
Bulletinof
theSeismological Society of America.
Vol.58,
No.5,
p. 1583-1606.[2]
EFRON B.(1979). Bootstrap
methods : another look at the Jackknife. The Annalsof
Statistics. Vol.7,
No.1,
p. 1-26.[3]
EFRON B.(1987).
BetterBootstrap
confidence intervals. Journalof the
AmericanStatistical Association.
Theory
andMethods,
Vol.76,
No.374,
p. 312-319.[4]
GUMBEL E.J.(1967).
Statistics of extremes. New York and London : ColumbiaUniversity
Press. FourthPrinting.
[5]
GRELLET B. et al.(1993). Sismotectonique
de la Francemétropolitaine
dansson cadre
géologique
etgéophysique.
Mémoires de la SociétéGéologique
deFrance. Mémoires N.S. No.
164,
Vol. 1 et 2.[6]
KIJKOA.,
DESSOKEY M.M.(1987). Application
of the extrememagnitude
distributions to
incomplete earthquake
files. Bulletinof
theSeismological Society of America.
Vol.77,
No.4,
p. 1429-1436.[7]
SCHENKOVAZ.,
KARNIK V.(1970).
Theprobability
of occurrence oflargest earthquakes
in the european area. Pure andApplied Geophysics.
Vol.80,
No.3, p. 152-161.
[8]
ZELTERMAN D.(1993).
Asemiparametric Bootstrap technique
forsimulating
extreme order statistics. Journal
of the
American Statitical Association.Theory
and