• Aucun résultat trouvé

4.4 Confrontation de distributions statistiques aux séries reconstituées

4.4.2 Ajustement des distributions

4.4.2.1 Choix d’une méthode d’estimation : le maximum de vraisemblance

L’utilisation de données historiques pour l’estimation des paramètres d’une distribution candi- date, pose le problème de la nature particulière de ces données. Les données historiques sont en effet incomplètes (ou censurées) : elles concernent les seuls événements ayant dépassé le(s) seuil(s) de perception, sans que le débit des crues soit systématiquement connu. De plus, les seuils de perception peuvent s’avérer variables dans le temps. Ceci implique une adaptation des méthodes d’estimation classiquement utilisées pour l’étude de séries d’enregistrements systématiques, telles que la méthode des moments, ou la méthode du maximum de vraisemblance.

Frances et al. [1994] puis Naulet [2002] résument la nature particulière des données histo- riques, par le graphique présenté sur la figure 4.7, distinguant trois cas de figure :

– seule les occurrences de dépassement du seuil de perception sont connues – le débit des crues ayant dépassé le seuil de perception a pu être reconstitué

– le débit des k plus fortes crues a pu être reconstitué, le seuil de perception étant alors fixé au niveau de la plus faible d’entre elles.

En pratique la situation rencontrée peut souvent être constituée d’une combinaison de ces trois cas de figure, sur différentes parties de la période historique considérée. Comme le re- marque Naulet [2002], les échantillons historiques censurés sont finalement constitués, dans le cas le plus général :

– de crues yi dont le débit de pointe est connu.

– de crues dont le débit n’est pas connu, et qui peuvent être soit supérieures à un seuil yiinf, soit inférieures à un seuil yisup, soit comprises dans un intervalle [yiinf, yisup].

Fig. 4.7 – Différents types de données historiques censurées concernant les crues, pouvant être rencontrées (tiré de Frances et al. [1994])

D’assez nombreuses références existent au sujet de l’utilisation de ces données censurées pour l’ajustement de distributions statistiques. Ouarda et al. [1998], puis Naulet [2002] font une revue bibliographique complète de ces méthodes. On peut remarquer que les différentes techniques développées s’adaptent plus ou moins facilement au contexte rencontré, certaines d’entre elles nécessitant un type bien précis d’information historique pour pouvoir être appliquées.

Dans le cas de l’exploitation d’échantillons constitués de crues maximales annuelles, les mé- thodes dérivées de la méthode des moments, telles que la méthode des “Historically Weighted Moments”, présentée par le bulletin 17 de l’United States Water Resources Council [Uni, 1976], ou encore la méthode des “Partial Probability Weighted Moments”, proposée par Wang [1990a,b], apparaissent d’une façon générale assez limitantes car nécessitant un seuil de perception unique au cours du temps, ainsi que la connaissance du débit pour les crues historiques ayant franchi ce seuil. Seul l’algorithme des moments espérés (“Expected Moments Algorithm”), proposé par Cohn et al. [1997], toujours dérivé de la méthode des moments, permet la prise en compte de n’importe quel type d’information censurée.

Par comparaison, la méthode du maximum de vraisemblance [Leese, 1973, Condie and Lee, 1982, Stedinger and Cohn, 1986, Cohn, 1986, Naulet, 2002], semble s’adapter beaucoup plus facilement à l’utilisation de données censurées : quel que soit le type de données (valeurs de débit, intervalles, dépassements ou non dépassements de seuils, etc..), pouvant s’avérer variables au cours du temps, celles-ci s’intègrent en effet assez naturellement dans la fonction de vraisem- blance, comme nous allons le voir ci-après. Cette méthode nous a par conséquent semblé la plus intéressante à mettre en oeuvre. Seule la méthode des moments espérés présente une flexibilité équivalente en termes de données utilisables, mais cette méthode, itérative, et nécessitant l’in- tégration de la fonction densité de probabilité à chaque itération, reste plus lourde à mettre en oeuvre. Son utilisation ne se justifie que dans les rares cas où l’application de la méthode du maximum de vraisemblance pose des difficultés, par exemple pour l’ajustement de la distribu- tion Log-Pearson III [Reis and Stedinger, 2005]. Mais en dehors de ces quelques cas particuliers, plusieurs travaux [Stedinger and Cohn, 1986, Cohn and Stedinger, 1987] ont mis en évidence l’ef- ficacité du maximum de vraisemblance pour l’ajustement de distributions statistiques à partir de données censurées.

Nous allons maintenant détailler les différentes variantes de la méthode du maximum de vrai- semblance, qui ont été utilisées pour l’étude des cours d’eau Audois. La plupart d’entre elles sont directement issues des travaux antérieurs. Auparavant, il peut être utile de rappeler que la méthode du maximum de vraisemblance consiste à calculer, à partir de la distribution dont les paramètres doivent être estimés, la vraisemblance de l’échantillon observé, puis à choisir le jeu de paramètres qui maximise cette vraisemblance. Les variantes de la méthode diffèrent donc simplement par le mode de calcul de la vraisemblance adopté, qui est lui-même directement lié à la nature des données à valoriser.

4.4.2.2 Expressions de vraisemblance utilisées

Si l’on considère le cas le plus simple, dans lequel l’échantillon observé est constitué d’une chro- nique de Ns années de mesures systématiques de débits x = (x1, . . . , xNs), et d’une chronique

de h crues historiques dont les débits connus y = (y1, . . . , yh) ont dépassé un seuil de perception YP sur une période historique de durée NH, la fonction de vraisemblance prend la forme suivante :

– Vraisemblance n˚1 L(X, Y, YP, NH) = F (YP)NH−h. h Y i=1 f (yi). Ns Y j=1 f (xj) (4.11)

où f est la fonction densité de probabilité de la distribution à ajuster et F sa fonction de répartition

Cette fonction correspond à des données historiques supposées “parfaites” : toutes les crues ayant dépassé le seuil de perception sont connues et leur débit peut être évalué précisément. Ce mode de calcul de la vraisemblance est notamment utilisé par Leese [1973], puis par Cohn [1986], Cohn and Stedinger [1987] et Stedinger and Cohn [1986]. D’après ces deux derniers articles, les estimations de quantiles, pour des périodes de retour importantes, obtenues avec cette expression de la vraisemblance, sont nettement plus précises qu’avec la méthode des moments historiquement pondérés (Historically Weighted Moments). Mais comme nous l’avons vu, dans la pratique les données historiques se présentent rarement sous une forme aussi simple. L’expression de la vraisemblance doit alors être adaptée, en particulier lorsque les débits yides crues historiques ayant dépassé le seuil de perception ne sont pas ou mal connus. Ceci est le cas pour les cours d’eau de l’Aude que nous étudions, les débits des crues historiques étant estimés sous forme d’intervalles.

En partant de l’expression précédente, on peut par conséquent définir plusieurs variantes de la méthode, qui sont applicables dans le cas d’une information historique “dégradée” :

– Vraisemblance n˚2 :

Cette variante suppose que l’échantillon historique est de type binomial, c’est à dire que seules les dates de dépassement du seuil de perception sont connues, sans qu’il soit possible de déterminer les débits correspondants. Le calcul de la vraisemblance est alors uniquement réalisé à partir de la fonction de répartition, selon la formule suivante :

L(X, Y, YP, NH) = F (YP)NH−h.(1 − F (YP))h. Ns Y

i=1

f (xi) (4.12)

Cette expression est également utilisée par Cohn [1986], Cohn and Stedinger [1987] et Ste- dinger and Cohn [1986]. Elle s’avère moins précise que la précédente pour l’estimation de quantiles de crues, mais permet malgré tout une amélioration par rapport à la simple uti-

lisation d’échantillons systématiques. Cette variante présente de plus l’avantage de ne pas nécessiter d’estimation précise des débits de pointe puisqu’elle ne valorise que le nombre de dépassements du seuil de perception.

– Vraisemblance n˚3 :

Cette variante suppose que seuls les débits y1 > y2 > . . . > yh des h plus fortes crues historiques sont connus, le seuil de perception étant égal au débit de la plus faible de ces crues (YP = yh). Cette approche est celle adoptée par Hosking and Wallis [1986a,b], avec h=1 (une seule crue connue). L’expression de la vraisemblance devient alors :

L(X, Y, YP, NH) = F (yh)NH−h. h Y i=1 f (yi). Ns Y j=1 f (xj) (4.13)

Cette expression a été reprise ici, toujours avec h=1, ce qui signifie que l’on ne valorise que l’information concernant la plus forte crue connue. Mais cette expression suppose une nouvelle fois que le débit de la crue historique utilisée est connu avec précision, ce qui n’est pas véritablement le cas dans les séries historiques qui ont été reconstituées sur les cours d’eau Audois.

– Vraisemblance n˚4 :

Cette variante est celle qui correspond le mieux à la nature des données historiques dont nous disposons. Elle peut être considérée comme intermédiaire entre les fonctions de vrai- semblance n˚1 (equation (4.11)) et n˚2 (équation (4.12)). Le calcul de la vraisemblance est effectué ici en tenant compte uniquement des bornes inférieures yiinf et supérieures ysupi d’estimation du débit de chaque crue historique yi, bornes qui sont considérées comme des seuils atteints ou non par la crue. L’expression de la vraisemblance devient alors :

L(X, Y, YP, Yinf, Ysup, NH) = F (YP)NH−h. h Y i=1 (F (ysupi ) − F (yiinf)). Ns Y j=1 f (xj) (4.14)

Cette expression a déjà été utilisée par Sutcliffe [1987], qui considérait le cas de crues cen- surées dans un intervalle. Le fait de définir cet intervalle à partir des bornes supérieures et inférieures d’estimation de débit revient à tenir compte, dans la fonction de vraisemblance, de l’incertitude inhérente à ces estimations. A ce sujet, les références bibliographiques res- tent relativement rares. Kuczera [1992, 1996] a développé des expressions de vraisemblance tenant compte de la distribution statistique des erreurs d’évaluation des débits. Il montre notamment que des erreurs directement corrélées au débit peuvent avoir une répercussion importante sur les résultats de l’ajustement, et qu’il est alors important de tenir compte de ces erreurs dans la fonction de vraisemblance. Toutefois, l’approche qu’il développe néces- site de pouvoir caractériser la distribution statistique des erreurs (qu’elles soient corrélées au débit ou non). O’Connel et al. [2002], confrontés à ce problème, proposent des densités de probabilité des erreurs d’estimation des débits de forme triangulaire, le sommet du tri-

angle correspondant au débit le plus probable, et les bornes de l’intervalle d’estimation du débit ayant des densités de probabilité relatives de 0.05 à 0.8 par rapport à cette densité maximale. Mais dans les cas que nous étudions, il nous parait difficile d’évaluer la dis- tribution des erreurs d’estimation des débits des crues historiques reconstituées. A défaut, l’expression de vraisemblance retenue suppose que l’ensemble des débits sont équiprobables au sein de l’intervalle défini. Cette expression est plus pénalisante en termes de perte d’in- formation, mais correspondant plus à la réalité de la connaissance des crues historiques que nous possédons.

Nous avons finalement défini ci-dessus quatre variantes de la méthode du maximum de vrai- semblance, permettant de représenter des données historiques plus ou moins complètes. Indépen- damment de la nature réelle des données que nous possédons dans nos cas d’étude, ces différentes expressions vont constituer par la suite un moyen de “simuler” différents niveaux de qualité de l’information historique (absence d’estimations de débits avec l’expression (4.12), diminution du nombre de crues historiques connues avec l’expression (4.13), incertitude sur l’estimation des débits dans l’expression (4.14)), et d’analyser l’impact de cette dégradation sur les résultats, par rapport à une situation correspondant à des données “parfaites” (expression (4.11)). Rappe- lons que l’expression (4.14) de la vraisemblance est celle qui correspond le mieux à la nature de l’information que nous avons pu reconstituer sur les cours d’eau Audois.

A ces quatre fonctions de vraisemblance, valorisant les données historiques, on peut ajouter une cinquième fonction, qui correspond au cas où seule l’information systématique est utilisée. Dans ce cas l’expression de la vraisemblance devient :

– Vraisemblance n˚5 : L(X, Y, YP, NH) = Ns Y i=1 f (xi) (4.15)

Enfin, on peut remarquer que les quatre fonctions de vraisemblance intégrant l’information his- torique, définies précédemment, ne concernent que les cas où la nature des données historiques est homogène sur l’ensemble de la période considérée. Nous l’avons vu, le cas le plus général correspond en réalité à une combinaison de ces situations, avec des seuils de perception variables au cours de la période historique. Mais même dans ce cas il est possible d’adapter facilement la fonction de vraisemblance à l’échantillon de données observé. En effet, la forme de la fonction de vraisemblance fait que chaque crue peut y être représentée selon des conditions spécifiques, en reprenant généralement l’une des expressions présentées ci dessus. Ainsi, Naulet [2002], propose une expression généralisée de la fonction de vraisemblance. Il suffit pour aboutir à cette expres- sion de remarquer que l’ensemble des NH crues maximales annuelles de la période historique se répartissent en quatre catégories :

– les NH crues pour lesquelles le débit est connu

– les NH<>crues pour lesquelles le débit est compris dans un intervalle [yiinf, yisup] – les NH> crues supérieures à un seuil yiinf

– les NH< crues inférieures à un seuil ysupi (valeur qui correspond en général au seuil de perception, lorsque aucune information n’est disponible sur la crue)

L’expression générale de la fonction de vraisemblance peut alors s’écrire :

L(X, Y, Yinf, Ysup, NH•, NH<>, N > H, N < H) = NH• Y i=1 f (yi). NH<> Y i=1 (F (ysupi ) − F (yiinf)). NH> Y i=1 (1 − F (yiinf)). NH< Y i=1 F (ysupi ). s Y j=1 f (xj) (4.16)

Par ailleurs, les crues systématiques, si elles comportent des information censurées, peuvent éventuellement être représentées en utilisant cette expression.

Dans le cas des quatre cours d’eau Audois que nous étudions, les données historiques recons- tituées sont cependant suffisament homogènes pour pouvoir utiliser l’une des quatre expressions (4.11) à (4.12) (éventuellement adaptées en cas de présence de plusieurs seuils de perception distincts).