• Aucun résultat trouvé

STATISTIQUES DE POPULATIONS ET ESTIMATION DES PARAMÈTRES

Dans le document www.wmo.int Guide des pratiques hydrologiques (Page 178-181)

ANAlYSe DeS vAleuRS eXTRÊmeS

5.5 STATISTIQUES DE POPULATIONS ET ESTIMATION DES PARAMÈTRES

En supposant qu’une certaine famille de distribu-tions décrive convenablement des événements extrêmes, la tâche de l’hydrologue consiste à estimer les paramètres de la distribution, de manière à pouvoir calculer les quantiles et les espérances requis à partir du modèle ajusté. La littérature statis-tique et hydrologique présente de nombreuses approches et méthodes pour l’estimation des para-mètres de différentes distributions; les plus utilisées sont décrites ci-dessous.

5.5.1 Méthodes de calcul des paramètres

La méthode la plus simple est sans doute la méthode des moments, qui calcule les valeurs estimées des paramètres de telle sorte que les moments théoriques d’une distribution concordent avec les moments calculés de l’échantillon. La procédure recommandée pour les agences fédérales aux États-Unis (Thomas, 1985; Interagency Advisory Committee on Water Data, 1982) utilise les moments des logarithmes des débits de crue X = log Q.

Une variante de la méthode des moments qui s’est révélée efficace en hydrologie pour la distribution des valeurs extrêmes généralisée est la méthode des moments pondérés en fonction des probabilités ou méthode des L-moments (Hosking et al., 1985;

Hosking et Wallis, 1997). Il s’agit d’une méthode différente permettant de synthétiser les propriétés statistiques des jeux de données hydrologiques (Hosking, 1990). Un avantage des estimateurs des L-moments est qu’il s’agit de combinaisons linéaires des observations et que l’on ne doit donc pas calculer le carré ou le cube de ces observations. Par conséquent, le L-coefficient de variation et le L-coefficient d’asymétrie ne sont pratiquement pas

biaisés, alors que les estimateurs du coefficient de variation et du coefficient d’asymétrie obtenus au moyen de la méthode des moments mixtes sont fortement biaisés et extrêmement variables (Vogel et Fennessey, 1993). Ceci est particulièrement utile pour les procédures de régionalisation, qui sont abordées à la section 5.9.

Les L-moments permettent aussi de synthétiser les propriétés statistiques des données hydrologiques en partant des combinaisons linéaires des données originales (Hosking, 1990). Récemment, des hydro-logues ont montré que les méthodes de régionalisa-tion utilisant les L-moments donnent de meilleurs résultats que les méthodes utilisant les moments classiques. Elles ont aussi permis de faire concorder certaines distributions avec des données en station (Hosking et al., 1985). Le premier L-moment est la moyenne arithmétique suivante:

l1 = E[X] (5.25)

Soit X(i|n) la iième plus grande observation dans un échantillon de taille n (i = 1 correspond à la plus grande de toutes). Pour toute distribution, le deuxième L-moment est une description d’échelle basée sur la différence attendue entre deux observa-tions choisies au hasard.

l2 = (1/2) E[X(1|2) – X(2|2)] (5.26) De même, les L-moments mesurant l’asymétrie et l’aplatissement utilisent:

l3 = (1/3) E[X(1|3) – 2 X(2|3) + X(3|3)] (5.27) l4 = (1/4) E[X(1|4) – 3 X(2|4) + 3 X(3|4) – X(4|4)] (5.28) De même que les moments classiques peuvent être utilisés pour définir des coefficients de variation et d’asymétrie sans dimension, les L-moments peuvent servir à définir un L-coefficient de variation et un L-coefficient d’asymétrie sans dimension (tableau II.5.4). Les estimateurs des L-moments ont souvent été calculés sur la base de statistiques inter-médiaires appelées moments pondérés par les probabilités (Hosking, 1990; Hosking et Wallis, 1997; Stedinger et al., 1993). Bon nombre des premières études ont utilisé des estimateurs de moments pondérés par des probabilités empiriques (Hosking et al., 1985); on a trouvé plus tard que ces dernières n’offraient pas la cohérence et l’inva-riance que l’on était en droit d’attendre de tels esti-mateurs (Hosking et Wallis, 1995; Fill et Stedinger, 1995). Par conséquent, les travaux ultérieurs se sont orientés vers l’utilisation d’estimateurs de moments pondérés par les probabilités non biaisés.

L’estimation directe des L-moments non biaisés à partir d’un échantillon est décrite dans Wang (1996).

La méthode du maximum de vraisemblance a des fondements statistiques très solides. Elle permet de choisir les paramètres qui rendent la distribution ajustée aussi cohérente que possible (au sens statis-tique) avec l’échantillon observé. Les estimateurs du maximum de vraisemblance sont exposés dans les manuels généraux de statistiques, et on recom-mande leur utilisation pour les relevés de données historiques et relatives aux paléocrues en raison de leur capacité de faire usage au mieux des jeux de données tronqués ou catégoriels.

Les méthodes non paramétriques peuvent servir à estimer la relation entre débit de crue et fréquence, qui présentent l’avantage de ne pas nécessiter de supposer que les crues sont tirées d’une famille paramétrique particulière de distributions. Ces méthodes ont été adaptées au Canada (Pilon et Harvey, 1992).

5.5.2 Transformations logarithmiques

Quand les données présentent des valeurs très variables, ce qui est fréquemment le cas des données relatives à la qualité de l’eau, les moments mixtes des logarithmes des données pour l’échantillon servent souvent à synthétiser les caractéristiques d’un jeu de données ou à estimer les paramètres de distribution. La transformation logarithmique est un moyen efficace de normaliser des valeurs qui varient de plusieurs ordres de grandeur et d’éviter

que des données de valeur exceptionnellement grande faussent le calcul des estimateurs des moments. Mais elle n’écarte toutefois pas le risque que des données de valeur particulièrement faible ou des points aberrants bas ne prennent trop d’importance. Cela concerne en particulier les cas où l’on se préoccupe des événements de grande ampleur et où l’on néglige la mesure des petites valeurs. Celles-ci peuvent aussi faire l’objet d’erreurs d’arrondi ou être considérées comme nulles si elles sont inférieures à un certain seuil.

5.5.3 Données historiques

En dehors de la période relativement courte ayant donné lieu à des relevés systématiques, on dispose parfois d’informations historiques supplémentaires qui ont trait, par exemple, à l’ampleur des crues avant que ces dernières ne soient mesurées par des instruments. Ainsi, on peut ne disposer que de 20 ans de relevés effectués à une station de jaugeage depuis 1992, mais savoir cependant qu’il s’est produit en 1900 une crue dont le débit de pointe non seulement dépasse toutes les crues mesurées à la station, mais est en outre le plus important depuis l’occupation du site en 1860. L’ampleur de cette crue et le fait de savoir que les autres crues, entre 1860 et 1992, ont été de moindre ampleur que la crue de 1900 peuvent et doivent être utilisés dans l’analyse de fréquence. Dans d’autres cas, il se peut qu’on sache seulement qu’un certain nombre de crues survenues entre 1860 et 1972 ont dépassé un certain seuil. Il s’agit aussi d’une information histo-rique dont il faut tenir compte dans l’analyse de fréquence. Différents processus produisent des relevés historiques et physiques de paléocrues. Les laisses de crues donnent le niveau des plus hautes eaux atteintes durant une période, tandis que les sédiments déposés dans des zones protégées lorsque le courant est à l’étale fournissent parfois des infor-mations sur l’ampleur d’un certain nombre de grandes crues.

En dehors de la surveillance régulière des débits, certaines crues sont simplement enregistrées parce qu’elles ont dépassé un certain niveau de percep-tion et qu’elles ont suffisamment perturbé les activités humaines pour que leur survenue ait été documentée ou que leurs conséquences physiques ou botaniques les plus dommageables aient été bien observées (Stedinger et Baker, 1987; Wohl, 2000).

Plusieurs méthodes permettent d’intégrer l’infor-mation historique au processus d’estil’infor-mation des paramètres de la fonction mathématique de distri-bution. Il s’agit des moments pondérés ajustés historiquement, du maximum de vraisemblance, de l’algorithme des moments prévus ou de la Tableau II.5.4. Statistiques adimensionnelles

utilisées pour décrire les distributions (coefficients moments mixtes et l-moments)

Nom Notation Définition

Coefficients moments mixtes

Coefficient de variation CVX sXX

Coefficient d’asymétriea gX E[(X – µX)3] / sX3 Coefficient d’aplatissementb E[(X – µX)4] / sX4 Coefficients L–momentsc

L–coefficient de variation L–CV, τ2 l2/l1 L–coefficient d’asymétrie L–coefficient l3/l2

d’asymétrie, τ3 L–coefficient d’aplatissement L–aplatisse- l4/l2

ment, τ4

aCertains textes définissent b 1 = [g

x]2 comme une mesure de l’asymétrie.

bCertains textes définissent l’aplatissement (kurtosis) comme {E[(X – mx)4]/s4 x – 3};

d’autres utilisent le terme «excès d’aplatissement» pour cette différence du fait que, pour la distribution normale, l’aplatissement est égal à 3.

chosking (1990) utilise τ au lieu de τ2 pour représenter le coefficient L–CV.

méthode non paramétrique (Cohn et al., 2001;

England et al., 2003; Griffis et al., 2004). Comme on l’a vu, la méthode du maximum de vraisemblance utilise l’information historique de façon plus efficace que celle des moments pondérés histori-quement. Les estimateurs du maximum de vraisem-blance et les algorithmes des moments prévus sont très flexibles et sont également efficaces pour la distribution LP3, pour laquelle des algorithmes des moments prévus ont été développés. À noter toutefois que les estimateurs du maximum de vrai-semblance présentent souvent des problèmes de convergence avec ces distributions.

5.5.4 Augmentation des relevés

Il est souvent possible d’allonger efficacement un relevé de courte durée en utilisant un relevé de plus longue durée provenant d’une station voisine avec lequel les observations du relevé de courte durée sont fortement corrélées. En particulier, une série d’observations effectuées sur une longue période dans une station voisine peut permettre d’améliorer les valeurs estimées de la moyenne et de la variance des événements qui se produisent à la station où l’on dispose d’un relevé de courte durée. Pour ce faire, il n’est pas nécessaire de reconstituer réelle-ment la série augréelle-mentée; il suffit de calculer les estimations améliorées des moments. La notion d’augmentation des relevés a été introduite par Matalas et Jacobs (1964); voir aussi Interagency Committee on Water Data (1982), annexe 7. Vogel et Stedinger (1985) ont apporté récemment de nouvelles améliorations et traité du gain d’informa-tion. Dans d’autres cas, il est possible de créer une série plus longue à des fins de simulation ou d’archivage. L’idée de recourir à l’allongement des relevés pour veiller à ce que les débits calculés possèdent la moyenne, la variance et les corréla-tions désirées a été développée par Hirsch (1982), Vogel et Stedinger (1985) et, pour ce qui concerne les variables multiples, par Grygier et al. (1989).

5.5.5 Analyse de populations mixtes

Dans le domaine de l’hydrologie, les séries de maximums annuels sont souvent composées d’évé-nements issus de processus tout à fait différents, ce qui pose problème. Les précipitations, par exemple, peuvent être liées à différents types de perturbations selon les saisons – orages d’été, fronts hivernaux ou queues de cyclones tropicaux. L’eau peut aussi provenir de la fonte des neiges. Les crues provo-quées par ces différents événements peuvent avoir des distributions très différentes. Waylen et Woo (1982) ont examiné à part les écoulements estivaux et les crues dues à la fonte des neiges. Vogel et

Stedinger (1984) ont étudié séparément les crues dues aux précipitations estivales et celles d’hiver liées aux embâcles. Hirschboeck et al. (2000) ont classé les crues d’une ampleur supérieure à un seuil donné en fonction des conditions météorologiques synoptiques prédominantes; cela a abouti à l’ana-lyse d’une population mixte de crues au moyen d’un contexte de série de dépassement incomplète.

Dans les petits bassins de certaines régions monta-gneuses, les orages estivaux sont à l’origine des plus fortes crues relevées, tandis que les épisodes de fonte des neiges produisent la majorité des événe-ments annuels maximaux. Dans de tels cas, comme l’ont montré Waylen et Woo (1982), on obtient une meilleure estimation de la probabilité d’événements extrêmes en séparant les relevés de crue en diffé-rentes séries, car les données décrivant les phéno-mènes qui produisent ces événements de grande ampleur sont mieux représentées dans l’analyse.

Supposons que la série des maximums annuels Mt soit composée du maximum de l’événement estival maximal St et de l’événement hivernal maximal Wt:

Mt = max {St, Wt} (5.29)

St et Wt peuvent être définis par une période calen-daire strictement fixée, une période climatique approximativement définie ou les caractéristiques physiques et météorologiques entre les phéno-mènes à l’origine des observations.

Si les intensités des événements estivaux et hiver-naux sont statistiquement indépendantes, c’est-à-dire que la connaissance de l’un n’affecte pas la distribution de probabilité conditionnelle de l’autre, la distribution de probabilité de l’événe-ment maximal annuel M est donnée par la formule suivante (Stedinger et al., 1993):

FM (m) = P[M = max(S, W) ≤ m] = FS(m) FW (m) (5.30) Pour deux ou plusieurs séries indépendantes d’évé-nements contribuant à un maximum annuel, la distribution du maximum est facile à calculer. Si plusieurs processus statistiquement liés participent au maximum annuel, il devient beaucoup plus difficile de calculer la distribution du maximum à partir des distributions des diverses séries. Un point important est de décider s’il est opportun de modé-liser séparément plusieurs séries de crues compo-santes différentes ou si l’on peut se contenter de modéliser directement la série annuelle maximale composite. Dans la première hypothèse, il faut estimer davantage de paramètres, mais les données seront également plus nombreuses si la série des maximums annuels ou la série de dépassement

incomplète pour chaque type d’événement est disponible.

L’idée de combiner deux distributions a mené Rossi et al. (1984) à élaborer une distribution ß des valeurs extrêmes à deux composantes correspondant au maximum de deux distributions EV1 indépendantes.

Cette distribution peut être considérée comme le maximum de deux processus de crue dans une série de dépassement incomplète, chacun présentant des occurrences de Poisson et des pointes de crue distri-buées exponentiellement. Généralement, l’une des deux distributions est sensée représenter la plus grande partie des données et l’autre, les points aber-rants. Comme le modèle possède quatre paramètres, il est très souple (Beran et al., 1986). Par conséquent, si seules les séries de maximums annuels sont utilisées, les méthodes d’estimation régionales deviennent essentielles pour déterminer les valeurs des quatre paramètres, les estimateurs régionaux des valeurs extrêmes à deux composantes présentant en ce cas un grand intérêt. La distribution des valeurs extrêmes à deux composantes a été utilisée avec succès pour la définition d’indices de crue (Frances, 1988; Gabriele et Villani, 2002). La distribution non paramétrique (Adamowski, 1985) et la distribution de Wakeby (Pilon et Harvey, 1992) peuvent égale-ment être utilisées pour modéliser une distribution mixte.

5.5.6 Analyse de fréquence et valeurs

nulles

Les séries d’étiage contiennent souvent des années pour lesquelles les valeurs sont nulles, ce qui peut aussi être le cas des séries de maximums pour certains sites. Dans certaines régions arides, les valeurs nulles du débit peuvent même être plus nombreuses que les valeurs non nulles. Un débit enregistré comme nul signifie soit que le cours d’eau était effectivement à sec, soit que le débit réel était inférieur à une limite de détection. Cela signifie que certaines séries d’étiage correspondent à des jeux de données tronqués. On ne peut se contenter de laisser de côté les valeurs nulles, qui ne corres-pondent pas nécessairement à un relevé précis du débit minimal dans le chenal. En se fondant sur la configuration hydraulique de l’appareil de mesure et en connaissant la courbe d’étalonnage et les procédures d’enregistrement, on peut déterminer le plus petit débit qui peut être estimé avec précision et qui ne sera donc pas considéré comme nul. La méthode des probabilités empiriques et le modèle de la probabilité conditionnelle sont des procédures acceptables pour ajuster une distribution de proba-bilité à des ensembles de données contenant des valeurs nulles. L’approche par tracé des probabilités

empiriques sans modèle statistique formel est souvent suffisante pour l’analyse de fréquence des étiages. La courbe de fréquence des étiages peut être définie visuellement, et les paramètres d’une distri-bution paramétrique peuvent être estimés au moyen d’une régression du diagramme de probabi-lités, telle qu’elle est décrite par Kroll et Stedinger (1996) et Stedinger et al. (1993), ou grâce à des méthodes non paramétriques.

5.6 DIAGRAMMES DE PROBABILITÉ ET

Dans le document www.wmo.int Guide des pratiques hydrologiques (Page 178-181)