J OURNAL DE LA SOCIÉTÉ STATISTIQUE DE P ARIS
J. M EYRIGNAC
Étude statistique des températures « quotidiennes »
Journal de la société statistique de Paris, tome 112, no1 (1971), p. 23-36
<http://www.numdam.org/item?id=JSFS_1971__112_1_23_1>
© Société de statistique de Paris, 1971, tous droits réservés.
L’accès aux archives de la revue « Journal de la société statistique de Paris » (http://publications-sfds.math.cnrs.fr/index.php/J-SFdS) implique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une infrac- tion pénale. Toute copie ou impression de ce fichier doit contenir la pré- sente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ÉTUDE STATISTIQUE DES TEMPÉRATURES «QUOTIDIENNES»
L'importance du chauffage au gaz conduit le Gaz de France à étudier les températures quotidiennes, définies le plus souvent comme la moyenne de 8 relevés effectués toutes les 3 heures, parfois comme celle des températures minimales et maximales de la journée. Pour caractériser les consommations de l'ensemble de ses exploitations, le Gaz de France se réfère aux températures de 74 stations météorologiques, pour lesquelles on doit établir les résultats de quelques études, nécessaires partout : le travail est alors exécuté en ordinateur, après un ou deux essais à la main. Certains autres, qui répondent à des besoins plus localisés, doivent être établis rapidement avec les éléments déjà disponibles.
Nous avons donc pris le parti de définir un modèle probabiliste des températures pour ces stations. Une dizaine d'entre elles ont été traitées à partir des séries existantes de températures quotidiennes. Pour les autres nous disposions de moyennes mensuelles.
Dans la suite, nous allons voir :
1. Le modèle adopté pour représenter les températures quotidiennes avec :
1. 1. Normalité des températures et leurs liaisons, contrôlées sur Nantes et Paris.
1. 2. Estimation des paramètres pour les stations traitées à partir de données quoti- diennes.
1. 3. Estimation des paramètres pour les stations traitées à partir de données mensuelles.
2. Une étude du nombre de jours donc la température est inférieure à T, exemple de pro- blème traité avec ce modèle.
2 4 É T U D E S T A T I S T I Q U E D E S T E M P É R A T U R E S « Q U O T I D I E N N E S »
1 . M O D È L E A D O P T É POUR R E P R É S E N T E R LES T E M P É R A T U R E S Q U O T I D I E N N E S
1. 1. La normalité des températures et leurs liaisons
Les données de base sont les températures quotidiennes enregistrées à Nantes de 1924 à 1959, à Paris de 1896 à 1961. On notera ty la température du jour i de l'année j (i = 1 pour le 1e r janvier, 365 pour le 31 décembre), n% le nombre d'observations pour la date i.
On calcule
1 v
4-ï^ï?«.-
m,)2la variable centrée réduite correspondante à chaque observation ty — mi
xy =
Si
et les coefficients de corrélation entre les températures à n jours d'intervalle
1 V
r*,*_» = — 2 , XU *i-n,j
Après vérification graphique, on a admis en première approximation :
a) Pour chaque date i, les températures ty suivent une loi normale. Les xy suivent alors approximativement une loi normale centrée réduite, propriété vérifiée sur les 10, 20 et 30 de chaque mois à Nantes, tous les jours à Paris (graphique 1. 1).
b) Les coefficients de corrélation rtti-.n à n jours d'intervalle sont indépendants de i.
Dans ce cas, leurs transformées de Fisher 1
Zi,i_n = 2 [L°g (1 + ri.i-n) + Lo-g (1 — r<,«_n)]
suivent une loi approximativement normale de moyenne zn = 2 [Log (1 + r1 w) + Log (1 — rn)]
et de variance l/n< — 3. A Nantes et Paris, on a vérifié cette propriété pour les coefficients entre deux jours consécutifs, puis, à Nantes seul, pour les coefficients à 2, 3 et 10 jours d'inter- valle (graphique 1. 2).
Cependant, un graphique chronologique faisait soupçonner une légère baisse en octobre et novembre. A Nantes, le coefficient de corrélation moyen, calculé d'après les trans- formées de Fisher des coefficients quotidiens, était égal à 0,742 en octobre et 0,760 en novembre, alors que la moyenne estimée sur l'ensemble de l'année était 0,78. L'écart n'a pas paru suffisant pour en tenir compte dans le modèle.
c) Les températures ty suivent un processus de Markoff, c'est-à-dire que pour déter- miner la loi de probabilité de la température d'un jour î, toute l'information du passé est contenue dans celle du jour i — 1, ou du dernier jour connu. On a alors
Xij = r«f !_!«!_!,/ + Bij
= ri9i_2Xi_2,j + e'ij xi-i,i = n^i^xi^j + «f_lf|
É T U D E S T A T I S T I Q U E D E S T E M P É R A T U R E S « Q U O T I D I E N N E S » 25
Graphique 1.1.
TEMPERATURES DE NANTES
DISTRIBUTION DES VARIABLES CENTREES REDUITES
« -
«1 -c M M - 3 - O) ".
M - .C -M - u . M
UJ "
1U -
- 1 .
3 - Z - D "
«•> :
(/) _
ni . u z ui : 3 :
S: K - U. -
" W
- 9 9
:a
J U
50
00
1
- 9800 -9700 -9600 -9500
- 9 0
• 7 0
• 6 0
-5J0
• 3 0
- 2 0
10
oc
00
oc
0C
00
00
oc
- 500
• 4 0 0
• s o o - 2 0 0
- 100
- H - - 1
• SO
- 1
•3
) •
—
—
—
—
—
—
i h
(
-2
A\
l
/E
_ i
C
*- M
•
0\
L-
rE
a
NI
•
NE
-
•S
*• •
E
- i
T EC
- J
A RT
• S
—«
• •
T
—«
— YF
«
>E
-J
S OBSERVES
-^ •—
-(
—
) ••
•—
—< —*
•—
• i
POUR CHAQUE
•
»
• *
• i -i :—
1
•
DATE)
•
- i -
i »
—<
• 2 !
—« *—
- H
• a VALEURS DE LA VARIABLE CENTREE REDUITE
(échelle arfthmétique)
t - t j
6 É T U D E S T A T I S T I Q U E D E S T E M P É R A T U R E S « Q U O T I D I E N N E S »
Graphique 1.2.
COEFFICIENT DE CORRELATION ENTRE LES TEMPERATURES DE DEUX JOURS SUCCESSIFS A NANTES
DISTRIBUTION DE Z ff ;_«
V c c
M 3 ai
«»
« •
iii iii - i 3 • Z . 3 • U - w> - m -u .
3 =
n : o :LU . ( g •
u. -
C
•91 9(
•9950
m
-990C1
l
•980(
— 1 — -97
- 9 !
-90
-70
-60
.31
30 y— OC O C
D0
loo
00
00
uu
00
-4-2Û0G u
-L
500 4()0 300 ..T i 200
1
10 1
0
__
5
10
>,5
J
- \
—
i
<l
•
6 _d l y
o. 7
M
«
a
^
8
J
Q
»
3
^ r
1 '•+
t*
i
1 r' 1 ,2
fc
«1
\ fi
•
V
•
4 r « r
—
-
1,5 VALEURS DE Z jfj - i (échelle arithmétique)
É T U D E S T A T I S T I Q U E D E S T E M P É R A T U R E S « Q U O T I D I E N N E S »
d'où
et par récurrence
27
r«f«_2= r«. <-i r«-i. «-a r«f4_*= H r<f<_*
t - i
Ici, les ri,t-n sont indépendants de i, donc '„ = *?
On a vérifié cette relation pour n = 2, 3, 4, 5, 10 à Nantes, tous les n entre 1 et 20 à Paris. Les résultats obtenus sont les suivants :
n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nantes
fn
0.78 0.58 0.42 0.32 0.24
0.084
r»
0.78 0.61 0.47 0.37 0.29
0.0835
Parle rn
0.798 0.575 0.426 0.326 0.254 0.201 0.163 0.137 0.120 0.106 0.090 0.076 0.066 0.060 0.057 0.056 0.053 0.049 0.047 0.047
Tm
0.798 0.687 0.508 0.406 0.324 0.258 0.206 0.164 0.131 0.105 0.084 0.067 0.058 0.042 0.034 0.027 0.022 0.017 0.014 0.011
Des calculs analogues ont été effectués dans les quelques villes traitées à partir de données quotidiennes. On a ensuite représenté graphiquement rn en fonction de n. On a obtenu, comme à Paris, une courbe à concavité tournée vers le haut qui coupe la droite
Log rn = n Log r
au point n = 10. Le modèle de Markoff n'est donc pas parfaitement conforme à la réalité.
On estime cependant qu'il s'en rapproche suffisamment pour l'utiliser lorsqu'il allège sensi- blement les calculs.
1.2. Estimation des paramètres pour les stations traitées à partir de données quotidiennes 1.2.1. Ajustement des moyennes
a) Forme adoptée : Compte tenu de la dissymétrie de la courbe observée graphiquement, on a ajusté aux moyennes 2 arcs de sinusoïdes avec passage de l'un à l'autre aux jours le plus froid (i = i3) et le plus chaud (i = î4), en moyenne sur longue période.
On a en outre imposé à la courbe globale d'être périodique de période 365 jours, continue, sans point anguleux. Les moyennes ajustées s'écrivent alors
mi = m0 -f- a sin hx (î—îj) pour ï3 < i < î4 mi = m0 + a sin ht (£—i2) pour i < i3 et i > i4
a.
Q
<N>
O
a
cO LU CL ZD OC CL LU
= =
= ^
-- gp__-—--
Izzzzz^zzzzMt^EE^
*<§w
1 1 1
EEEEEEEEEEEEEEE^pEEEEEE
_ «4 -^S^r
l l l l l
c e »
"•Se
===4— M
EEEEEEEEEEEEEEEE2ÉEEEEE
S3NN3A0N S3artlVa3dW3i S
en
LU i -
<
Q
04
¢4
•S"
.
ej\
LU
V— -y h!
2 = = - = _ = - _ = _ _ = _=_ _ = ^t_= -<rf?
I I I * 2 5 LU .¾^
Q _ =_ _ _ 2 ^ 1
tn «-J3p w / ^ T
LU 4 :
Z z z - - - ri-
fc -«-A. •
m ^ .
^ ^ ' 1 * -
>" .nL^
O 3C
^ " ^ A - J r -
^ ^k
</) S
I l 1 - 4 1 - ^ LU * i * .
CE " " * * ^
~-% 5!^,-*
— ' X V
•— ^¾¾
< >3j
^s J
LU
ce
• u
EL
2
m =========================
ULJ
H-
93NN3A0N S3UfUVa3dH3i £ £
: : _
J-1 t[/ TTT
^
- *t*
I 2 L !• i P *
^ : :
^2?
>"
^ ï - » - - ^ -
§ S * v
^ 2 k ^
-¾
4? | r
*' *$i N *
Is»
^ V\-Z' 3¾
^ J Î '^K\1
* 2 $ -
'ï* ït
r- " L
-ï!î- _ j : is
o m o
30 É T U D E S T A T I S T I Q U E D E S T E M P É R A T U R E S « Q U O T I D I E N N E S »
avec
* 1 = 7C/(Î4—£3)
*2 = */(*3 + 365 — î4)
h = ih + î*)/
2î2 = (½ + 365 + î4)/2 6) Estimation de m0 et a
Si Ton applique la méthode des moindres carrés
m
0= 2 ™</365
a =
365 2
m'
s i nM ^ ~ *i) + 2 ™< sin A
a(* - î«)J
cette estimation a été retenue pour m0. Pour a, on remarque que
^ ^ X . . .
2 {mi — ^0)2 = 2 [mt — mo "" a s m *i (* "" h)]1 + a 2 2 s m* ^1 (l ~" *i)+ 2 a 2 [ ^ — wio — o sin Ax (î — ix)] sin Ax (£ — ix) or
E [m< — m0 — a sin /¾ (î — 4 ) ]1 = Var m Var m étant la variance résiduelle des ra<, qui paraît négligeable.
E [m* — m0 — a sin Ax (î — it)] = 0 par définition.
| s i n » M i ' - * \ ) = 5 ½ [1 - 2 c o s 2 M i - h)] = ^ £ ^ donc
de même
d'où
E [ 2 O * - "o)2] = ( û - * • + !) (Var m + ^
E [^2
4(
m< - ^o)
2] = (4 +
364~ W (
V a r m+ ï)
E [ 2 (™< - ™o)
2] = 182,5 a*
et une estimation de a.
A Nantes et Paris, on a appliqué les deux méthodes d'estimation. Les résultats sont les suivants :
Estimation de a
par les moindres carrés para?
Nantes
6.02 6.96
Parle
7.8«
7.89
Les deux résultats ont paru suffisamment voisins pour traiter les autres stations par la 2e méthode, plus légère et indépendante de i3 et î4.
É T U D E S T A T I S T I Q U E D E S T E M P E R A T U R E S « Q U O T I D I E N N E S » 3 1
c) Estimation de î3 et iA
En ajustant deux arcs de sinusoïde aux moyennes observées, on admet qu'elles ont pour espérance mathématique
m0 + a sin h± (i — 4) pour i3 < i < î4 m0 + a sin h2 (i — i2) pour i > î4 et i < î8
Donc si l'on ajuste deux droites à ces moyennes par la méthode des moindres carrés, la 1e r Dx entre iz et i4, la 2e D2 entre £4 et i3 + 364, les pentes obtenues auront pour espérance mathématique
a 2 (* •" fi )s i n Ai (* ~~ £i ) / 2 (* ~~ l^2
is+864 /«,+864
« 2 (* — i
2)sinA
2(î- i
2)/ 2 ( i ~ 4 )
2Si l'on assimile ces sommes à des intégrales, ces expressions deviennent 24 a\i? (î4 - y
- 24 a/7c2 (i, + 355 — î4)
Par ailleurs, les points de Dx et D2 d'abscisses respectives ix et i2 ont pour ordonnée moyenne m0. Ce sont donc des estimations de
h = (¾ + û)/2 4 = (4 + 365 + 4)/2
Chacune de ces droites, construite à partir d'une première évaluation de i3 et £4 donne donc une estimation de î3 + 4 et i4 — £3, donc de î3 et î4. A Paris et à Nantes, l'écart entre les deux estimations obtenues restait inférieur à 2 jours. Nous avons retenu l'entier le plus proche de la moyenne de ces deux estimations.
1.2.2. Ajustement des écarts-types
La forme du nuage incite à ajuster aux écarts-types une courbe de la forme Si = s0 -+- a1 sin h (i — i±) + a2 sin 2 h (i — i2)
avec
* - 3 6 5
L'estimation des coefficients par la méthode des moindres carrés donne
*o == 2 */
365o
a
i = 365 2
st s i n* (* "" W
o
a
2 = 365 2
Si s i n 2* (* ~~ W
tg Ai
x= — V s< cos Aï / 2 *« sin fcî
tg 2 Aî
a= — 2
Si c o s^ *
l72 *'
s*
n^ **
en
i / >
• LU
S ^
S- ^
I a
>3 n i
L U H - U^
L U O cO LU Û_
> - H - t O I— CL
<
3 . N3 S3dAl S1MV33 S
\f>
o
l/>
S LU
S mD
•? •—
t. <
Ci LU Û_
cO
L U Û .
> -
cO
<£
en
S a
CM
. l A - *1 5 in
• "r;! S
_É - , - i ^ • i_ J^ . S- Ê- <•.
« = = - = = = -^-± = ^ p ==- = = - - = - = - . ¾
- 5 : 5 E , r _ = - = = g
» * I ^ i -
^ ^ L
S ^ ^ «
- c - ' ^ î s " 2
- * • * - • * * — «n SL.^J IL.
> *
J T ^ " * n r - F V
- - - 5 ^ È= - = " = = = = = = = = = _ = _ = = ^ = =lfe = = = = = = = _ = = = = - £ m-
- ^ i '
- ^ ^
• U
— — — — — — — fe__l *
i_ • L"1 ""
' • : > , > • * -
• <Z ^
*-4 ** * * *
_ _ ^ 7» 2 •*
— — — — — — — — — — — — — — — — ^ . - ^ - g — — _ — — — — — — — — — ^
T 1 •'-•*
i " -*ï i* ^*t - U
r-
_ . _j__ . . J_;UCI - s
- ^1 1 " t - - - — ~ 8
X t-^v
>- 4 , «^'t ^
- , r - « - J ^ » *
I _ •; !G _. ,_ _ _ _ m
• r7 $_,"• - " • - ~ ~ — s ' , V - . » -*
..*__!
r^ J « I ,^ t
•J -<4* -, -
: :1 ,;•
T— — — — — _ _ - 4 = * - s - —g
^ j ^ . ^
• i — ^ _ L _ I l - 5 « • - / X
l ^ '
- î ? ^ -1 È= ^
, _ .. _ . ! | ^ ~ - « - ! . --• . - - J * *
X *,/ *
„ / »ît r^ ^ • •
• ' n> - ^ - - ^
= = = — = - = = = - = = = —?- a d * = = l ! — = = = - = = = = . 3
I ^ - . r - F S =
,-^ v *
<r
^' .v ,
I ! ^ *-.-
I ,l_..J -itZr, _ -.
— -* *i * « H 7 ^
*~ 3*,J
£ • L *
£ -i'
L.___± '-J2 ±
3* N3 S3dAl S1UV03 m
3 4 ÉTUDE STATISTIQUE DES TEMPÉRATURES « QUOTIDIENNES »
1.3. Estimation des paramètres pour les stations traitées avec des séries de températures mensuelles Les données de base étaient ici les températures moyennes mensuelles Qmj du mois m de l'année j . On a calculé leur moyenne
et leur variance
Nous avons reconduit à ces stations le modèle admis pour celles que nous avions traitées à partir de données quotidiennes.
Les 0m sont les moyennes mensuelles de températures moyennes quotidiennes
« observées ». Mais la variance mensuelle s'écrit, en fonction des écarts-types quotidiens
« observés »
4 - ^ 2 4 + 222^^1
"« Liem Uem J i<1 nm étant le nombre de jours du mois m.
Si l'on assimile tous les Si à leur moyenne sm du mois m cette relation devient
"«
al
= 4 A(nj
avec
flm—1 flm
nm—1 flm 2 T / 1 \
A(n
m) = n» + 2 2
^ ' # » » + T — ;U» —i ;)
Sur les stations traitées avec des données quotidiennes les coefficients de corrélation à 1 jour d'intervalle r varient de 0,75 à 0,80. Pour celles que nous traitions en mensuel, on a admis
r = 0,77
A {nm) = 7,70 nm - 66,92
La moyenne mensuelle des écarts-types de températures quotidiennes s'écrit alors
&m = (5m Wm/vA- {nm)
Pour estimer les paramètres des moyennes et écarts-types ajustés, on a affecté à tous les jours du mois m la température 0» et l'écart-type quotidien sm et utilisé les programmes établis pour les stations traitées avec des données quotidiennes.
2 . ÉTUDE DU NOMBRE DE JOURS DONT LA TEMPÉRATURE EST INFÉRIEURE A T
2.1. Forme de la distribution adoptée
Pour une période donnée (hiver de septembre à juin, mois ou quinzaine), on notera n (T) le nombre de jours plus froids que la température T fixée. Lorsqu'on considère les diverses années, ce nombre est une variable aléatoire. Pour répartir au mieux ses investissements entre équipements de base et de pointe, le Gaz de France s'est intéressé à la distribution de ces n (T) pour tout T et en particulier
— à leur moyenne N (T),
— aux valeurs N2 (T), N6 0 (T), N98 (T) telles que n (T) a respectivement une proba- bilité 2 %, 50 % et 98 % d'être inférieur à Na (T), N6 0 (T) et NM (T).
ÉTUDE STATISTIQUE DES TEMPÉRATURES « QUOTIDIENNES » 3 5
A première vue, la distribution des n (T) paraît comparable à une loi binomiale (forme en J pour les températures très froides, puis glissement du mode de gauche à droite quand les températures T se réchauffent). La définition serait effectivement celle d'une loi bino- miale si les lois quotidiennes de températures étaient toutes identiques et les températures quotidiennes indépendantes les unes des autres.
Elle pourrait sans doute être encore approchée par une loi de Poisson pour les tem- pératures T très froides, une loi normale pour les températures moyennes, malgré les lois quotidiennes de températures variables avec la date. Mais, en accroissant la variance de ces n (T) à moyenne donnée, les liaisons entre températures de 2 jours consécutifs ne permettent pas de représenter la distribution par une loi de Poisson.
On doit donc rechercher une forme de distribution :
— dont l'histogramme évolue comme celui d'une loi binomiale lorsque les températures étudiées varient des plus froides aux plus courantes,
— dont la variance V [n(T)] puisse différer de la moyenne.
Une loi T généralisée
n (T) = a Tp répond à cette double condition.
Dans une pré-étude effectuée sur Nantes, on a simulé 500 années de températures suivant un modèle voisin de celui qui est retenu ici. Sur cet échantillon, on a effectué 2 tests Xs =
— le 1e r avec T = — 2 a donné
X2 = 19,27 avec 13 degrés de liberté
c'est à-dire une valeur qui a plus de 10 chances sur 100 d'être dépassée.
— le 2e avec T = 3 a donné
y* -_ 39^70 avec 41 degrés de liberté.
Nous avons donc retenu, au moins provisoirement, cette forme de distribution.
2.2. Exécution des calculs 2.2.1. Calcul de la moyenne N (T) et de la variance V [n(T)]
L'établissement de ces formules est calqué sur l'étude d'une loi binomiale. On associe à chaque jour i une variable
Zi = 0 si U > T
= 1 si U < T on a alors
n(T) = 2*«
i
la somme étant étendue à tous les jours de la période étudiée (quinzaine, mois, ou hiver de septembre à juin).
D'où
N(T) = 2
F(*)
i Xi étant la variable centrée réduite
T — mi
Xi = Si
3 6 ÉTUDE STATISTIQUE DES TEMPÉRATURES « QUOTIDIENNES »
et F la fonction de répartition de la loi normale centrée réduite
V [n
(T)]
= 2 F(xi)
[1 - F(«,)]
+ 2 2 2 [p(*«>
***ï-«)
~ F(*»)
F(*»)]
P(#i,aty,rj_*) étant la fonction de répartition de la loi normale à 2 variables Xi et Xj.
Le coût de ces calculs était trop élevé pour les 74 stations. Nous avons donc divisé la France en 7 zones climatiques, et exécuté intégralement les calculs dans la « station prin- cipale » de chaque zone. Pour les autres, on a recherché, au niveau de chaque quinzaine, la température T0 telle que n (T0) ait à peu près la même distribution, dans la station prin- cipale, que n (T) dans la station secondaire étudiée. Pour cela, on a évalué, par quinzaine,
mqo = température moyenne de la quinzaine q dans la station principale, sQ9 = moyenne des écarts-types ajustés de la quinzaine q dans la station prin-
cipale,
mq = température moyenne de la quinzaine q dans la station à étudier,
sq = moyenne des écarts-types ajustés de la quinzaine q dans la station à étudier, et égalé les variables centrées réduites.
T0 — mg> _ T — mq On admet alors, au niveau de chaque quinzaine
N (T) = N0 (T0)
= moyenne de n (T0) pour la station principale V[n(T)] = V0[ » ( T J ]
= variance de n (T0) pour la station principale
et on en déduit les totaux mensuels et annuel. Les couples de jours (<, j) qui chevauchent 2 quin- zaines ont été intégrés dans la variance totale avec le T0 du jour L
2.2.2. Calcul de N2 (T), N5 0 (T), N98 (T) On rappelle que
n ( T ) = aTp
Fp suivant une loi T de paramètre p dont la moyenne p + 1 est égale à la variance. Par suite, fl(p + l) = N ( T )
a«(p + l) = V [ » ( T ) ] , , , V [n (T)]
d où a = .A . 1 , / P =
N ( T ) Na( T )
V[»(T)1
une table de loi T associe pour chaque p, la fonction de répartition à la variable réduite n(T)
" » [ » ( T ) ] on en déduit
N , (T) = «a( p ) a [ n ( T ) ] NM(T) = u6, ( p ) a [ n ( T ) ] N , . ( T ) - " » ( P ) « [ » ( T ) ]
J. MEYRIGNAC
(Gaz de France)