• Aucun résultat trouvé

VÉRIFICATION D’HYPOTHÈSES

Dans le document www.wmo.int Guide des pratiques hydrologiques (Page 175-178)

ANAlYSe DeS vAleuRS eXTRÊmeS

5.4 VÉRIFICATION D’HYPOTHÈSES

Pour que les résultats d’une analyse fréquentielle soient valables sur le plan théorique, la série de données doit satisfaire un certain nombre de critères statistiques, dont le caractère aléatoire, l’indépendance, l’homogénéité et la stationna-rité. L’explication de ces critères statistiques est fournie dans le tableau II.5.3, où sont présentés les tests statistiques appropriés. On trouvera dans Helsel et Hirsch (1992) une description plus détaillée de nombre de ces tests. Les tests statis-tiques paramétriques classiques tels que les tests t et F n’ont pas été inclus dans ce tableau, car les séries de données hydrologiques ne satisfont généralement pas à certaines conditions – en particulier l’hypothèse de normalité – nécessaires à la stricte applicabilité de ces tests, ce qui peut nuire gravement à leur efficacité (Yue et Pilon, 2004). Les tests regroupés dans le tableau sont de type non paramétrique, ce qui évite les hypo-thèses relatives à la distribution paramétrique sous-jacente des données. Il faut soigneusement vérifier les hypothèses sur lesquelles reposent les tests, car le non-respect de cette condition peut

aboutir à des résultats sujets à caution (Yue et al., 2002a).

Les tests statistiques renseignent seulement sur la signification des résultats des tests observés et ne fournissent pas de résultats univoques. Il est donc important de bien maîtriser l’interprétation des résultats et de les confirmer par une preuve tangible des causes, comme par exemple des changements d’affectation des sols. Lorsque les données ne satis-font pas les hypothèses, il est souvent possible d’opérer une transformation de façon que les données d’observation transformées répondent aux critères requis pour l’analyse. La prudence est conseillée pour l’interpolation et l’extrapolation lorsque les données ne satisfont pas les hypothèses.

5.4.1 Test de Wald-Wolfowitz sur

l’indépendance et la stationnarité Étant donné un échantillon de taille N (x1,....,xN), le test de Wald-Wolfowitz considère la variable statistique R telle que:

R = xixi+1+ x1xN

i=1

N−1

(5.8)

Lorsque les éléments de l’échantillon sont indépen-dants, R suit asymptotiquement une distribution normale dont la moyenne et la variance peuvent être déduites des équations suivantes:

R_

= (s21 – s2) / (N – 1) (5.9) Var (R) = (s22 – s4) / (N – 1) – R_

2 (5.10)

+ (s14 – 4s12s2 + 4s1 s3 + s22 – 2s4) / (N – 1) (N – 2) où sr = Nm, m’r étant le rième moment de l’échan-tillon autour de l’origine.

La quantité (R – R_

) / (Var (R))1/2 suit une distribution normale standardisée (de moyenne 0 et de variance 1) et peut être utilisée pour tester au niveau α l’hypothèse d’indépendance en comparant |n| avec la variable normale standard uα/2 correspondant à la probabilité de dépassement α/2.

5.4.2 Test de Mann-Kendall pour la

détection de tendance

Le test de Mann-Kendall est un test de rang non paramétrique permettant d’évaluer l’importance d’une tendance. Dans l’hypothèse nulle H0, un échantillon de données classées par ordre

chronologique est indépendant et identiquement distribué. La statistique S est définie comme suit (Yue et al., 2002b):

S =

i=1

n−1

sgn( xjxi)

j=i+1

n (5.11)

avec

1 si x > 0

sgn (x) =

{

–1 0 si x = 0 si x < 0 (5.12) Lorsque n ≥ 40, la statistique S est distribuée asymptotiquement selon une loi normale avec une moyenne nulle et une variance donnée par l’équation suivante:

Var S

{ }

= 1

18 n (n1)(2 n+ 5 )− t (t1)(2 t+5 )

t

⎡ ⎣ ⎤

(5.13) t étant la taille d’un groupe lié donné et

t la sommation sur tous les groupes liés de l’échan-tillon. La statistique de test normalisée K est calculée au moyen de l’équation suivante:

K = 0 S −1

Var (S) Si S > 0 Si S = 0 Si S < 0

⎨ ⎪

⎩ ⎪

S +1 Var (s)

(5.14)

La statistique normalisée K suit une distribution normale standard avec une moyenne nulle et une variance de un. La valeur de probabilité P de la statistique K des données de l’échantillon peut être estimée au moyen de la fonction de distribution cumulative normale telle que:

P= 1

−∞z e−t2/2dt (5.15)

Pour des données d’échantillon indépendantes sans tendance, la valeur de P devrait être égale à 0,5.

Pour des données d’échantillon présentant une forte tendance positive, la valeur de P devrait être proche de 1, alors qu’en cas de forte tendance néga-tive, cette valeur devrait être proche de 0. Si les données d’échantillon sont autocorrélées, elles doivent être préalablement décorrélées, et une correction doit être appliquée au calcul de la variance (Yue et al., 2002b).

La pente d’une tendance est estimée comme suit:

β=médiane xi xj ij

⎛ ⎝ ⎞

,j<i

− (5.16)

b étant l’estimation de la pente de la tendance et xj la jième observation. À une tendance à la hausse correspond une valeur positive de b et à une tendance à la baisse, une valeur négative de b.

5.4.3 Test de Mann-Whitney pour

l’homogénéité et la stationnarité (sauts)

Soit deux échantillons de tailles p et q (avec p ≤ q), dont l’ensemble combiné de taille N = p + q est classé par ordre croissant. Le test de Mann-Whitney porte sur les quantités suivantes:

V = R – p(p + 1) / 2 (5.17)

W = pq – V (5.18)

où R est la somme des rangs des éléments du premier échantillon de taille p dans la série combinée et V et W sont calculés à partir de R, p et q. V représente le nombre de fois où un élément du premier échan-tillon suit un élément du second échanéchan-tillon dans le classement; W peut être calculé de la même façon, le second échantillon suivant alors le premier.

U, la statistique du test, est défini comme la valeur minimum de V et de W. Lorsque N > 20 et que p, q > 3, et dans l’hypothèse nulle selon laquelle les deux échantillons sont extraits de la même population, U est approximativement distribué normalement avec la moyenne suivante:

U–

= pq/2 (5.19)

et la variance:

V ar (U ) = pq N ( N−1)

⎡ ⎣ ⎤

N3N 12 −

T

⎡ ⎣ ⎤

(5.20)

avec T = (J3 – J) / 12, J étant le nombre d’observa-tions liées à un rang donné. Le total ΣT est calculé sur tous les groupes d’observations liées dans les deux échantillons de tailles p et q. Pour un test à un niveau de signification α, on compare la quan-tité au quantile de la variable normale standardisée uα/2 correspondant à la probabilité de dépassement α/2.

5.4.4 Taille de l’échantillon

La définition d’une distribution stable pour estimer les probabilités futures d’occurrence d’un mène hydrologique exige que la durée du phéno-mène faisant l’objet des relevés, c’est-à-dire la taille de l’échantillon, soit suffisamment grande. En ce qui concerne l’estimation de la pluviométrie jour-nalière extrême, Sevruk et Geiger (1981) indiquent que la durée de la période de relevé nécessaire à l’obtention d’une distribution stable dépend de la pluviométrie générale de la région et de ses caracté-ristiques physiographiques, qui déterminent la variabilité du total pluviométrique journalier.

Comme il est indiqué dans le tableau II.5.3, lorsque la variabilité du phénomène hydrologique est trop importante, on peut rencontrer des difficultés pour tester l’homogénéité des séries hydrologiques.

Lorsque le coefficient de variation d’un échantillon extrait d’une distribution asymétrique est impor-tant (grande variabilité), l’écart-type du coefficient d’asymétrie de l’échantillon, qui sert à ajuster ce dernier à la distribution supposée, sera également important. Selon Sevruk et Geiger (1981), pour analyser la fréquence des précipitations extrêmes, une période de relevé de 25 ans pourrait être suffi-sante dans les régions bien arrosées comme le nord de la Fédération de Russie; en revanche, une période de 50 ans pourrait être insuffisante dans d’autres régions où l’on constate une fluctuation périodique très nette des précipitations. D’après ces auteurs, une période de relevé de 40 à 50 ans est en général satisfaisante pour l’analyse de fréquence des préci-pitations extrêmes. Yue et al. (2002a) et Yue et Pilon (2004) montrent comment les caractéristiques statistiques de l’échantillon et la durée de la période des relevés peuvent influer sur la puissance des tests statistiques les plus courants.

5.4.5 Test de Grubbs et Beck pour

la détection des points aberrants

Un point aberrant est une donnée d’une valeur très différente de celle de l’essentiel des autres données.

La présence de points aberrants dans un échantillon peut entraîner des difficultés lorsque l’on tente d’ajuster une distribution à cet échantillon. Il peut y avoir des points aberrants de valeur particulière-ment grande ou faible, voire les deux à la fois, dans un échantillon, et ceux-ci peuvent avoir des inci-dences différentes sur l’analyse de fréquence. Si le problème du traitement des points aberrants fait encore débat, certaines procédures ont été utilisées en hydrologie pour déceler et traiter ces données, comme celles décrite par l’United States Water Resources Council (1981) pour l’analyse de fréquence

des crues ou par Sevruk et Geiger (1981) pour les précipitations extrêmes.

Le test de Grubbs et Beck pour la détection des points aberrants est recommandé par l’United States Water Resources Council (1981). Pour réaliser ce test, il faut retenir l’hypothèse d’une distribution normale des logarithmes ou de toute autre transfor-mation de la série hydrologique, car le test ne peut s’appliquer qu’à des échantillons d’une population normale. Pour réaliser le test de Grubbs et Beck, on calcule les deux quantiles suivants:

XH = exp (x_

+ KNs) (5.21)

XL = exp (x_

+ KNs) (5.22)

x_

et s étant respectivement la moyenne et l’écart-type des logarithmes naturels des éléments de la série, et KN la statistique de Grubbs et Beck calculée pour différentes tailles d’échantillon et différents niveaux de signification. Au niveau de signification de 10 %, on peut utiliser l’approximation polyno-miale proposée par Pilon et Harvey (1992) pour estimer les valeurs tabulées, à savoir:

K(N) = –3,62201 + 6,2844N¼

–2,49835N½ + 0,491436N¾ – 0,037911N (5.23) N étant la taille de l’échantillon. Dans l’application du test de Grubbs et Beck, toutes les valeurs de l’échantillon supérieures à XH sont considérées comme des points aberrants hauts et toutes les valeurs inférieures à XL comme des points aberrants bas. Pour 5 ≤ N ≤ 150, K(N) peut être calculé grâce à l’équation suivante (Stedinger et al., 1993):

K(N) = –0,9043 + 3,345

log (N)

–0,4046 log (N) (5.24)

5.4.6 Procédures bayésiennes

Alors que l’approche fréquentielle des probabilités repose sur la notion de reproductibilité d’une expé-rience, l’approche bayésienne est fondée sur une évaluation subjective de la probabilité et offre la possibilité de prendre en compte n’importe quelle information disponible au moyen de la distribution a priori. Contrairement aux modèles classiques, les modèles bayésiens considèrent les paramètres du problème comme des variables aléatoires plutôt que comme des valeurs fixes. Par exemple, dans le cas de la détection de sauts de la moyenne d’une série chronologique, les méthodes statistiques classiques supposent que la date du saut éventuel est connue.

En revanche, l’approche bayésienne ne fait aucune hypothèse concernant la date du saut. Cela permet

d’en induire les caractéristiques de ce dernier, telles que le point d’inflexion et l’amplitude du saut.

Perreault et al. (1999c) ainsi que d’autres auteurs ont présenté des procédures bayésiennes pour la détection d’un saut unique de la moyenne. Perreault et al. (2000) ont en outre présenté une méthode relative à une modification de la variabilité et l’ont appliquée à des données hydrologiques, tandis que Asselin et al. (1999) ont présenté un modèle bayé-sien bivarié pour la détection d’un changement systématique de la moyenne. Une description complète de la théorie de l’inférence statistique bayésienne est présentée dans Box et Tiao (1973).

5.5 STATISTIQUES DE POPULATIONS ET

Dans le document www.wmo.int Guide des pratiques hydrologiques (Page 175-178)