R EVUE DE STATISTIQUE APPLIQUÉE
Y VES E SCOUFIER
Calculs de probabilités par une méthode de Monte- Carlo pour une variable p-normale
Revue de statistique appliquée, tome 15, n
o4 (1967), p. 5-15
<
http://www.numdam.org/item?id=RSA_1967__15_4_5_0>
© Société française de statistique, 1967, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
5
CALCULS DE PROBABILITÉS
PAR UNE MÉTHODE DE MONTE-CARLO POUR UNE VARIABLE p-NORMALE
Yves ESCOUFIER
M. A. à
l’Institut Universitaire de Technologie de Montpellier
Soit X =
(Xl , X2 ,
1 ...,Xp)
une variable vectorielledistribuée
selon latoi 9’"C (M , A).
Notre but est de calculerProb(X E 6D ) où .1)
est un domainedé fini
par lesinéaeal i tés
de1 a
forme
en nom bre
qiàelconque.
Leproblème
estposé à part i r
de deuxexemples puis développé
defaçon théorique.
Les solutions
numériques desdeuxexemples
sontfournies.
I - Considérons un bassin fluvial
équipé
sur la rivièreprincipale
etsur ses affluents de stations de
jaugeage
où sontrelevées,
enpartivulier ,
les valeurs des
étiages annuels,
c’est-à-dire desplus
faibles débits del’année.
Il estimportant
dès que l’on veut utiliser l’eaudisponible
dansle
bassin,
à des fins industrielles ouagricoles,
depouvoir
donner laprobabilité
de la concomittance deplusieurs étiages,
en ces différentesstations.
Intéressons-nous maintenant à une seule station de
jaugeage.
Nousy notons les débits mensuels moyens et nous pouvons pour différentes
applications
avoir besoin de laprobabilité
de l’évènement suivant : les 12 débits mensuels moyens sont inférieurs à une valeur donnée.L’intérêt de ces
calculs, (mais
aussi leurdifficulté)
vient de ceque les variables aléatoires de ces
exemples
ne sont certainement pasindépendantes :
il en résulte que des déficits en eaupeuvent apparaître
avec des
probabilités
nonnégligeables
enplusieurs points
ou surplusieurs
mois successifs.
Nous allons exposer, comment sous certaines
hypothèses,
nousavons résolu ces deux
problèmes.
II - La
première parenté
de ces deuxproblèmes,
réside dans le fait que la variable aléatoire étudiée est vectorielle.Revue de Statistique Appliquée, 1967 - vol XV - N 4
6
Dans le
premier problème,
en retenant parexemple
8stations,
nous devons trouver laprobabilité
aveclaquelle
la variableX = (X 1 ’ x 2
... ,Xg)
appartient
à un domaine défini par desinégalités
de la formeXi Ci (i
=1 , 2 ,
... ,8)
oùX
i est la valeur del’étiage
à la station i etCi
une valeur que
peut prendre
cetétiage.
Dans le second
problème,
si nousappelons Xi(i
=1 , 2 , ... , 12)
le débit mensuel moyen du mois
i,
nous avons à calculer laprobabilité
avec
laquelle
le vecteur X =(Xl , X2,
... ,X12) appartient
au domainedéfini par des
inégalités
de la formeXi
C où C est une valeur donnée pour le débit mensuel moyen.La deuxième
parenté
de ces deuxproblèmes,
vient de cequ’il
estpossible
de passer du vecteur X des observations à un vecteur X dont la loi de distribution soit une loip-Normale.
Eneffet,
des étudespré-
cédentes ontpermis
dejustifier l’hypothèse
selonlaquelle
les variables"étiage
annuel en unestation"
et"débit
moyen pour un moisdonné"
sont distribuées suivant une loi de Galton ou loi
lognormale.
Nous ferons deshypothèses plus
fortes en disant que le vecteur constitué par leslogarithmes
des huitétiages
annuels suit une loi normale de dimension huit et que le vecteur constitué par leslogarithmes
des douze débits mensuels moyens, suit une loi normale de dimension douze.Le
principe
de la méthode est alorssimple :
àpartir
des donnéesdisponibles
nous estimons la matrice des covariances A et le vecteur moyen M de la distribution. Engénérant
ensuite par une méthode ap-propriée
des vecteurs distribués selon laloi,% (M , A),
nous obtenonsune estimation de la
probabilité
attachée aux domainesqui
nous intéres-sent. Une remarque sur cette manière de faire
permettra
d’obtenir le résultat defaçon plus économique.
III - RAPPELS
Soit
f(X 1 , X 2
J .. , , JXp)
la fonction de densité du vecteur colonne X . Si f est la fonction de densité d’une loigaussiènne :
où M est le vecteur
espérance mathématique
deX ,
A la matrice descovariances, lA
le déterminant de A. Nous supposons dans cequi
suitque la distribution de X n’est pas
singulière.
Soit V une matrice p x p
orthogonale.
On sait que tout vecteurY,
Jtel que Y =
VX,
suit une loip-normale
de moyenne VM et de matrice des covariancesVAVt. (voir
parexemple [2]).
Toute matricesymétrique
étant congrue à une matrice
diagonale,
Vpeut
être choisie de telle sorte queVAVT
t soitdiagonale.
Alors Y est un vecteurp-normal
tel que sescomposantes soient deux
à deuxindépendantes.
Nous choisirons la ma-trice V de telle sorte que
Y
1 soit la combinaison linéaire normée desXi
iqui
ait laplus grande
variance etYk (k = 2,... , p)
la combinaison li- néaire normée desXi qui
ait laplus grande
variance sous réserve d’êtreorthogonale
à tous lesYj (j k).
LesYk qui
satisfont à ses conditions sont les vecteurs propres de A etYk
a pour variance03BBk,
valeur propre de rang k dans la suite des valeurs propres de Asupposées rangées
par ordre décroissant. LesYk
sont courammentappelés composantes prin- cipales [1 ].
Revue de Statistique Appliquée, 1967 - vol XV - N 4
7
IV - PRINCIPE DE LA METHODE DE CALCUL
Soit à calculer Prob(X~03C9)=~03C9 ...~f(X1, X2,..., Xp) dX1... dX p où
(D est un domaine défini par m
inégalités
m étant
quelconque
etf(X1 ,
... ,Xp)
étant la fonction de densité de la loiN(M , A).
Nous nous proposons de
générer
n vecteursXi
selon la loiSZ (M, A).
Soit
Pi
lepoint image
deXi
dansl’espace
de dimension p etgi
une va-p
riable
prenant
la valeur 1 siPiE/=. D,
la valeur 0 siPi
E O. g =V
gii =1
est le nombre de
points
P éléments de 6Det g
est connu pour être unn
estimateur non biaisé de
Prob(X
E6D),
de variance inférieureà -2013[3].
4nSoit Z un vecteur dont les
composantes
sontindépendantes,
nor-males,
centrées et réduites. Un tel vecteurpeut-être généré
par un pro- cédénumérique approprié
ou par consultation de tables.Si nous conservons à
Y , V ,
J M etÀ-i leur signification
duparagraphe précédent
et si nousappelons
B la matricediagonale
telle quebu = vr:i ,
alors :
Ceci
permet
degénérer
facilement Y et donc X =VtY.
En
résumé,
pourcalculer K,
nous avons donc àgénérer
n vecteursn
Z
à calculer lesyi
et lesXi correspondants,
à donner à gla
valeur1 si les m
inégalités qui
définissent 6D sontvérifiées,
et la valeur 0 siune au moins des
inégalités
n’est pas vérifiée.Vl -
METHODE DE CALCUL SIMPLIFIEELa remarque suivante
permet
de gagner dutemps
de calcul sanspour autant
perdre trop
deprécisions.
Nous avons utilisé la
propriété d’indépendance
desYk ;
utilisons maintenant le fait que les variances despremiers Yk
sontfortes,
alorsque celles des derniers sont faibles.
VI - Supposons
que nous ayons à calculer laprobabilité
attachée à undomaine 6D défini par une seule
inégalité
Appelons ViJ
les éléments de la matriceV ;
de X =VY
nous tirons :Revue de Statistique Appliquée, 1967 - vol XV - N 4
8 et donc
On a immédiatement :
Supposons
que les(p-1)
dernièrescomposantes principales
aient une va-riance très
petite
et calculons l’erreurcommise,
en admettant que cescomposantes
restentégales
à leur moyenne.Au lieu de
générer
lesX i ,
nousgénérons :
On constate aisément que :
Au lieu d’un estimateur non biaisé de :
Nous allons donc calculer un estimateur non biaisé de :
Si la différence entre
12et Il
estnégligeable,
nous pourrons considérer l’estimateur deI2
comme une estimation deIl.
Posons :
alors :
Or :
0 T} 1
implique
expRevue de Statistique Appliquée, 1967 - vol XV - N 4
9 d’où
En raisonnant sur le
complémentaire
du domainequi
nousintéresse,
onobtiendrait de même :
si
bien, qu’en
définitive :V2 -
Pourgénéraliser
la démonstration au cas d’un domaine défini parun nombre
quelconque d’inégalités,
il faudrait comparer àProb(X
E1) ) )
laquantité Prob(X*
E0 ) )
oùX*
est le vecteur decomposantes X*i .
Mais par construction
X*
suit une loi normalesingulière
et l’extensionne
peut
pas être faite directement.Considérons le domaine E défini par
Soit E
A laprojection
de E dansl’espace
de dimension p-mrapporté
aux axes
Ym+1 ,
1Ym+2 ’
...Y
et Y laprojection
de Y dans cet espace . Il découle des définitions que nous venons de poser, que :Appelons À-m+l’ À-m+2’
1 ... ,03BBp,
les valeurs propres associées aux compo- santesYm+1 ,
1Ym+2 ,
... ,y. (c’est-à-dire
les variances de ces com-posantes).
En utilisant un résultat de Guelfand et Vilenkin sur la mesurede la boule de rayon R dans un espace vectoriel
topologique
muni d’unemesure
gaussiènne [4 ],
on obtient :Proposons-nous
alors de calculerz
=Prob(X
ED/Y~ E)
en fonction deIl
=Prob(X ~D )
Prob(X
E (i)/Y
EE)
xProb(Y
EE)
=Prob(X
~ D et Y EE) Prob(XE(Ï))
d’où :
En utilisant
l’inégalité V2.1’
on a :Revue de Statistique Appliquée, 1967 - vol. XV - N 4
10
et
si,
commeprécédemment,
nous raisonnons sur lecomplémentaire
de(D nous avons :
Dans
l’application
surordinateur,
nous avonsimposé
aux com-posantes principales
de faible variance de resterégales
à leur valeur moyenne. Ceci ne revient pas à considérer queR2 est
nul mais queles quantités 1 Yi - Yi 1
sont inférieures au dernier chiffresignificatif
deYi .
VI -
Reprenons
les deuxproblèmes proposés
auparagraphe
I.La résolution du
premier,
c’est-à-dire le calcul de laprobabilité
de la concomittance de huit
étiages donnés,
sera l’occasion de comparer les résultats obtenus suivantqu’on
utilise ou non lasimplification
pro-posée.
Le vecteur moyen M et la matrice A des covariances sont estimés à
partir
des donnéesdisponibles (tableau 1). Rappelons
que nous travail- lons sur leslogarithmes népériens
des valeurs observées.TABLEAU I
Les données sont les
logarithmes
desétiages
Demi-matrice des variances et covariances estimées à
partir
deLe tableau 2 fournit les valeurs propres et les vecteurs propres de la matrice
A.
Revue de Statistique Appliquée, 1967 - vol XV - N 4
11 Tableau 2
Valeurs propres et vecteurs propres de la matrice A
Le programme de calcul
permet
d’obtenir simultanément les pro- babilités attachées àcinq
domaines définis par desinégalités
de la formeXi Ci.
Le tableau 3 fournit les valeurs des constantesCi
définissentcinq
domainesparticuliers.
-Tableau 3
Valeurs des constantes définissant les différents domaines
Les calculs ont été faits pour chacune des
quatre
méthodes suivantes :1/
engénérant
les huitcomposantes.
2/
engardant
la huitièmecomposante égale
à sa valeur moyenne.3/
engardant
la huitième et laseptième composantes égales
à leursvaleurs moyennes.
4/
engardant
les trois dernièrescomposantes (8.,
7, J6) égales
àleurs valeurs moyennes.
Chaque
fois nous avonsgénéré
625 vecteurs aléatoires àpartir
destables fournies par
[5].
On trouvera dans le tableau 4 lestemps
de calcul nécessaires à la détermination desprobabilités
attachées auxcinq
Revue de Statistique Appliqtjée, 1967 - vol XV - N 4
12
domaines pour chacune des méthodes et dans le tableau 5 les résultats obtenus pour chacun des domaines. Notons que les calculs ont été ef- fectués à
partir
de programmes écrits en FORTRAN I sur l’ordinateur I.B.M. 1620 à cartes, de la faculté des Sciences deMontpellier.
Tableau 4 Durée du calcul
Tableau 5
Sur la base du test
X 2pour
comparer deuxprobabilités [6]
nousavons testé à
partir
desfréquences
données par les différentesméthodes , l’égalité
desprobabilités
attachées à chacun des domaines. En aucun casl’hypothèse
del’égalité
desprobabilités
n’a étérejetée.
Certes unplus grand
nombre de vecteurs aléatoiresgénérés
conduiraitpeut-être
àséparer
cesprobabilités.
Ongardera cependant
de cetteapplication
que les différentes méthodes donnent des résultatscomparables
si lapré-
cision demandée est de l’ordre de 1
%.
VII - Abordons le calcul de la
probabilité
aveclaquelle
les douze débits mensuels moyens sont inférieurs à une valeur donnée.Remarquons
que leproblème
revient à la détermination de la loi du maximum annuel des douze débits moyens. Les tableaux 6 et 7 contiennent la matrice descorrélations,
lesécarts-types
et le vecteur moyen estimés àpartir
deslogarithmes népériens
des donnéesdisponibles.
A condition de réduireau
préalable
lesvariables,
les calculspeuvent
être menés avec la ma-trice des corrélations exactement de la même manière
qu’avec
la matrice des covariances. 500 vecteurs aléatoires ont étégénérés
et les onzième et douzièmecomposantes principales
ont été conservéeségales
à leurvaleur moyenne.
Revue de Statistique Appliquée, 1967 - vol XV - N 4
13 Tableau 6
Tableau 7
Matrice des corrélations
Les résultats obtenus sont
consignés
dans le tableau8,
sous forme desprobabilités
attachées aux domaines définis par les iné-galités Xi
C(i
=1 , 2 ,
... ,12)
pour des valeurs de C allant deLog
C =1,
2 àLog
C =2,
15 avec un pas de0, 05
pour lelogarithme .
On trouvera dans la
figure
9 lareprésentation
de la courbeJe tiens à remercier Monsieur
BERNIER,
C. R. E. C. de l’E. D. F.à Chatou
qui
m’a fourni les données relatives au secondproblème
ets’est intéressé à mon
travail ;
Monsieur le ProfesseurMARTINEAU, qui
atoujours
étédisponible
etprêt
àrépondre
à mesquestions ;
tousRevue de Statistique Appliquée, 1967 - vol. XV N 4
14
les membres du bureau
hydrométéorologique
de l’E.D.F. àMontpellier
et en
particulier
MonsieurLOBERT, qui
a bien voulu lire ces pages etqui
m’a fait des remarques très utiles.Tableau 8
Revue de Statistique Appliquée, 1967 - vol XV - N 4
15
BIBLIOGRAPHIE
[1]
T. W.ANDERSON - An
Introduction to Multivariate statisticalAnalysis . New-York,
JohnWiley
and sons, 1958.[2]
H. CRAMER - Mathematical methods of statistics. Princeton Uni-versity Press,
1946.[3]
J. M. HAMMERSLEY and D. C. HANDSCOMB - Monte-Carlo Methods - Menhuen’smonographs
onapplied probability
andstatistics,
1964.[4]
L. M. GUELFAND and N. Y. VILENKIN - Les distributions. Tome 4 :applications
del’analyse harmonique.
Dunod1967,
p. 332.[5]
Handbook of tables forprobability
and statistics - William H.Beyer.
The Chemical Rubber
Co,
1966.[6]
B.L. VAN DER WEARDEN -Statique mathématique. Dunod, 1967,
p. 38.Revue de Statistique Appliquée, 1967 - vol. XV - N 4