• Aucun résultat trouvé

Caractérisation des données et incidence sur la rationalisation .1 Influence de la dépendance des observations

On a fréquemment fait en 15.2 1’hypothèse que les observations des échantillons considérés étaient indépendantes, ce qui en pratique signifie qu’il n’y a pas redondance d’information. Il arrive souvent, cependant, que les observations successives d’un échantillon ne soient pas indépendantes; les débits moyens journaliers d’une rivière par exemple sont dépendants, ce qui signifie que le débit du jour i est en partie dépendant de celui du jour (i - 1).

La dépendance est mesurée par le coefficient d’autocorrélation; pour une série stationnaire de taille n (c’est-à-dire dont les caractéristiques, moyenne et variance en particulier, sont indépendantes du temps) composée d’observations yi éga1emen t espacées, le coefficient d’autocorrélation d‘ordre k est rk te1 que:

𝑟𝑘= ∑𝑛−𝑘𝑖=1(𝑦𝑖− 𝑦̅)(𝑦𝑖+𝑘− 𝑦̅)

∑(𝑦𝑖 − 𝑦̅)2

En pratique, l’autocorrélation est généralement une fonction décroissante de k, c’est pourquoi on s’intéresse au coefficient d’autocorrélation d’ordre 1, r1. On peut montrer [Anderson, 1941] que r1 est distribué approximativement selon une loi normale de:

𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝜌1 = − 1 𝑛 − 1 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑣𝑎𝑟(𝜌1) = 𝑛 − 2

(𝑛 − 1)2

En considérant la statistique

𝑈 = 𝑟1− 𝜌1

√𝑣𝑎𝑟(𝑟1)

Il est possible de tester si le coefficient d’autocorrélation est significativement différent de 0, c’est-à-dire de mettre en évidence la dépendance des observations, puisque U suit une loi normale centrée réduite.

Exemple 15.9

On reprend les données ut1lisées en 15.4 (exemple 15.7) pour la conductivité. On a (station A) r1 = 0,35 avec n = 20. On déduit :

𝜌1 = − 1

19 𝑒𝑡 𝑣𝑎𝑟(𝜌1) = 18 192

Le calcul de la variable U donne U = 1,80; cette valeur est inférieure au seuil à 5%, U = 1,96. Le coefficient d’autocorrélation n’est donc pas significativement différent de 0.

Lorsqu’il y a autocorrélation significative d’ordre 1, on peut souvent représenter le phénomène étudié par un processus de Markov d »ordre 1 (fiche E ) tel que:

𝑦𝑖 = 𝜌1𝑦𝑖−&+ 𝜀𝑖

εi étant une variable normale de moyenne [ 𝑦̅ (1 − 𝜌1) ] et de variance 𝜎2√1 − 𝜌12 . Si 𝑦̅ et σ2

sont respectivement la moyenne et la variance de la série des yi 1’autocorrélation d’ordre k est tel1e que ρk = ρ1k. De manière générale, la variance de la moyenne pour une série autocorrélée est donnée par :

𝑣𝑎𝑟(𝑦̅) =𝜎2

𝑛2 [𝑛 + 2 ∑(𝑛 − 𝑘)𝜌𝑘

𝑁

𝑖=1

]

Lorsque ρk = 0 pour k = 1 ... (n-1), on retrouve la formule usuelle pour une population de taille infinie : var (𝑦̅) = σ2/n. En pratique, quand on détermine la taille d’un échantillon (paragraphe 15.3.5), on vise à obtenir des observations indépendantes, si cependant la taille de 1’échantlllon calculée implique une fréquence trop grande donc une dépendance, on doit en tenir compte.

Exemple 15.10

A une station d’observation pour laquelle on dispose de données hebdomadaires, la concentration moyenne annuelle en sulfates vaut y = 19,5 mg/1, 1’écart-type s = 9,8 mg/1, et le coefficient d’autocorre1ation d ‘ordre 1 est r1 = 0,50. On cherche à déterminer le nombre d’observations à effectuer pendant une année, afin d’estimer la moyenne annuelle de sulfates avec une précision L = 4,7 mg/1 à un niveau de confiance de 95%. On admet que la structure de dépendance est markovienne d ‘ordre 1.

Si 1’on ne tient pas compte de la dépendance possible des observations, on a (exemple 15.5):

𝑛 = [9,8 ∗ 1,96 4,7 ]

2

= 17

On devrait donc obtenir un échantillon de 17 observations indépendantes, ce qui correspond pour une période annuelle à un prélèvement toutes les 3 semaines. Si 1’on veut prendre en compte la dépendance des observations, on devra échantillonner plus fréquemment pour obtenir la même précision et chaque information contribuera moins fortement à l’information globale en raison de la dépendance. En admettant une structure markovienne d’ordre 1, 1’autocorrélation d’ordre 1 pour des observations hebdomadaires r1' correspond pour des observations journalières à un coefficient d'autocorrélation d'ordre 1, r1 tel que :

𝑟1 = (𝑟1)17 = 0,91

• si l'on effectue un échantillonnage toutes les 2 semaines, c'est-à-dire chaque 14 jours, on a n = 26 observations annuelles et l'on a (r1)14j = (r1')14, (r2)14j = (r12)14j = (r1’)28, … donc ;

𝑣𝑎𝑟(𝑦̅) = 9,82

262 [26 + 2(0,9114∗ 25 + 0,9128∗ 24 + 0,9142∗ 23 + ⋯ )]

𝑣𝑎𝑟(𝑦̅) = 6,02 𝑒𝑡 𝐿 = 1,96√6,02 = 4,81

• de la même manière si l'on échantillonne tous les 10 jours

𝑣𝑎𝑟(𝑦̅) = 9,82

362 [36 + 2(0,9110∗ 35 + 0,9120∗ 34 + ⋯ )]

𝑣𝑎𝑟(𝑦̅) = 5,66 𝑒𝑡 𝐿 = 1,96√5,66 = 4,7

• par interpolation on déduit que l'échantillonnage devrait se faire tous les 11 jours, on peut vérifier que l'on obtient alors:

𝑣𝑎𝑟(𝑦̅) = 5,72 𝑒𝑡 𝐿 = 4,7 15.4.2 Contenu en information

Le contenu en information du moment d'ordre k est de manière générale : I = 1/var (mk)

où rnk est le moment d 'ordre k de l'échantillon de taille n.

En pratique, on considère fréquemment le contenu en information de la moyenne; dans le cas d'un échantillon composé de n observations indépendantes, on a pour une série de variance σ2 et de moyenne 𝑦 ̅:

𝐼1 = 1

𝑣𝑎𝑟(𝑦̅)= 1 𝜎2

⁄𝑛

Dans une autre série (2) composée de n observations dépendantes, pour laquelle la variance de la moyenne est σm2, le contenu en information vaut:

𝐼2 = 1

𝑣𝑎𝑟(𝑦̅)= 1 𝜎𝑚2

Si l'on considère comme série de référence la série indépendante, le contenu en information relatif de la série dépendante est :

𝐼𝑟 =𝐼2 𝐼1 =

𝜎2

⁄𝑛 𝜎𝑚2

Lorsque la structure de dépendance est un modèle de Markov d'ordre 1 (paragraphe 15.5.1), on a, pour un échantillon de taille n et de variance σ2 [Matalas et Langbein,1962]:

𝜎𝑚2 =𝜎2

𝑛 [1 + 𝜌1 1 − 1 𝜌1

−2𝜌1(1 − 𝜌1𝑛)

𝑛 1

(1 − 𝜌1)2 ]

et

𝐼𝑟 = [1 + 𝜌1 1 − 𝜌1−2

𝑛

𝜌1(1 − 𝜌1𝑛) (1 − 𝜌1)2 ]

−1

En première approximation, on a Ir = (1 - ρ1)/(1 + ρ1). Pratiquement, on peut montrer que la série dépendante de taille n correspondant à un nombre équivalent n' de valeurs indépendantes tel que:

n’ = n Ir

Si ρ1= 0, on retrouve n ' = n et l'on a Ir = 0.

En reprenant les données de l'exemple 15.9, on a r1 = 0,35, n = 20. On en déduit Ir = 0,50, ce qui signifie que les 20 observations dépendantes correspondent à 10 observations indépendantes (dans l'hypothèse d'une dépendance markovienne d'ordre 1). On peut également dire qu'en moyenne, chaque observation de la série dépendante contribue à donner 2 fois moins d’information qu'une série indépendante de même taille.

Il est également possible de définir le contenu en information d'une moyenne régionale dans le cas d'une grandeur mesurée à p stations. Si pour chaque station i on dispose d'un échantillon de taille n, de moyenne Y;, la moyenne régionale est y telle que:

𝑦̅ =1 𝑝∑ 𝑦̅𝑖

𝑝

𝑖=1

Si 𝜌̅ est la moyenne des coefficients de corrélation entre stations et si l'on admet que chaque série est composée d'observations indépendantes et a une variance commune σ2, on a [Matalas et Langbein, 1962] :

𝑣𝑎𝑟(𝑦̅) =𝜎2

𝑛𝑝[1 + 𝜌̅(𝑝 − 1)]

Si toutes les stations sont indépendantes entre elles, on a ρ = 0 et [(var(y)0] = σ2/np. En adoptant cette quantité comme valeur de référence, le contenu en information de la moyenne régionale est:

𝐼𝑟 =[var(𝑦̅)]0

𝑣𝑎𝑟(𝑦̅) = [1 + 𝜌̅(𝑝 − 1)]−1

et les p stations d’observations correspondent en réalité à p’ stations équivalentes qui seraient indépendantes avec:

p’ = Ir p

Cette relation permet donc, dans une région donnée, de déterminer le nombre de stations indépendantes nécessaires pour la détermination de la moyenne régionale d’une grandeur donnée (par exemple, moyenne annuelle de précipitation).

Exemple 15.12

On dispose sur un bassin de 5 stations permettant la mesure de la conductivité. Les moyennes et écarts-types sont (en μmhos/cm):

𝑦̅1 = 270 𝑦̅2 = 223 𝑦̅3 = 188 𝑦̅4 = 167 𝑦̅5 = 222 𝑠1 = 62 𝑠2 = 60 𝑠3 = 65 𝑠4 = 56 𝑠5 = 3 La matrice symétrique des corre1ations entre stations est:

𝑅 = (∑ 𝑠𝑖2)/5 = 3755. Le coefficient de corrélation moyen 𝜌̅ est obtenu en prenant la moyenne des 10 paires de corrélations entre les stations, on a :

𝜌̅ = 1

10[0,85 + 0,46 + ⋯ + 0,64] = 0,57

On en déduit Ir = (1 + 0,57*4)-1 = 0,3, ce qui correspond à p’= 5*0,3 = 1,5 stations indépendantes.

On peut donc, en considérant seulement 2 stations « indépendantes », obtenir la même information; le choix des stations doit être tel qu’i1 n’y ait pratiquement aucune corrélation entre elles. Certaines méthodes (krigeage, analyse multivariée) peuvent faciliter ce choix lors d’analyse de données existantes et contribuer à 1’optimisation de l’acquisition de l’information.

15.4.3 Homogénéité des observations

Dans la pratique courante, on suppose que les observations de 1’échantl1lon proviennent d’une même population; on peut cependant envisager plusieurs cas où cette hypothèse peut ne pas être respectée, par exemple:

- Pour les mesures de débit lors de la modification de la section de mesure, donc de la courbe de tarage, pour des mesures météorologiques en raison de la modification de 1‘environnement ou du léger déplacement d’une station, ou en raison de la construction d’un barrage qui introduit une régularisation des débits, dans l’analyse des crues si 1’on considère, dans un même échantillon des crues de printemps dues à la fonte de neige et celles d’automne dues à des pluies abondantes.

Dans la majorité des cas où 1’on soupçonne une hétérogénéité, on peut séparer la série d’étude en 2 sous-séries que 1’on peut comparer au moyen de tests statistiques. A cette fin, on utilise parfois le test non paramétrique de Mann-Whitney (fiche A), ou encore le test t de Student.

Exemple 15.13

N.B.: Cet exemple est effectué sur un nombre limité de données et a seulement pour but d’illustrer l’utilisation pratique du test de Mann-Whitney (fiche A).

On considère, 1’échantillon des n = 10 débits maximum de crue classés par ordre croissant; les crues observées 1’automne sont soulignées; les autres crues ont été observées au printemps.

5240, 5580, 6170, 6440, 6900, 7020, 7740, 8750, 9500, 9700 On a : p = 3 q = 7 T = 1 + 2 + 6 = 9

On en déduit: V = 3; W = 18; 𝑉̅ = 𝑊̅ =21

2 ; 𝑣𝑎𝑟 𝑉 =21

12∗ 11 =77

4

On teste l’hypothèse d’homogénéité en calculant la variable U

𝑈 = |3 − 21/2

√77/4 | = 1,71

Cette valeur est inférieure à la variate normale de probab1lité au dépassement 2,5%;

on en conclut que les 2 types de crues peuvent provenir de la même population statistique (au niveau de signification de 5%).

Notons pour conclure que la détection des hétérogénéités sur une base régionale peut être effectuée en utilisant la technique des doubles masses (cf. chapitre ??).