• Aucun résultat trouvé

Dans la partie précédente, les éléments de méthodologie communs à toutes les évaluations ont été présentés. Une analyse des résultats selon différents angles va maintenant être menée pour laquelle, à chaque fois, les spécificités méthodologiques et les principaux résultats seront présentés.

5.2.1 Évaluation des performances avec les NSE

5.2.1.1 Méthodologie

Une première comparaison des modèles est effectuée à partir des critères NSE (Nash & Sutcliffe, 1970) pour différentes échéances de prévisions en pluie future « parfaitement connue ». Ceci devrait permettre de traduire la capacité des modèles à simuler les débits sur ces bassins et à valoriser l’information qui leur est fournie quand les horizons de prévisions augmentent.

Les résultats sont présentés graphiquement (FIG.5.2). Pour chaque type de modèle, l’histogramme représente les performances médianes obtenues, alors que les barres d’erreurs permettent de vi- sualiser les meilleures et moins bonnes performances. Pour les modèles conceptuels, les résultats médians sont évalués parmi l’ensemble des résultats obtenues lors de simulations d’ensemble pre- nant en compte l’incertitude sur les paramètres de chaque type de modèle1. Pour chaque type de

1. Parmi tous les jeux de paramètres utilisés pour un modèle donné, ont donc été conservés ceux donnant les résultats médians, minimaux et maximaux.

0,5 0,6 0,7 0,8 0,9 1,0 Rieu NSE RNA n=1 RNA n=2 RNA n=3 RNA n=4 lineaire persistance conceptuel

Intervalle de variation des

performances médianes

sur cette période selon le modèle conceptuel choisi Performance médiane du modèle conceptuel GR4J

Nom du bassin Légende :

type de modèle évalué

Intervalle de variations des performances des 10 RNA (n fixé) Performance médiane des RNA (n fixé)

FIG. 5.2 – Représentation des performances des différents modèles.

RNA (i.e. chaque nombre de neurones cachés testé), dix réseaux ont été calés puis évalués en va- lidation et ce sont également les performances minimales, médianes et maximales qui sont donc ici représentées.

Les modèles qui sont comparés sont les suivants :

RNA Des réseaux de neurones artificiels avec 1 à 4 neurones sur la couche cachée1. Les per-

formances indiquées en histogrammes sont les performances médianes sur l’ensemble des réseaux testés, et les barres d’erreurs permettent de visualiser les performances du meilleur et du moins bon réseau.

lineaire Il s’agit du modèle linéaire avec des données de pluies et de débits (ARX) tel qu’il a été défini dans la partie B.4.

persistance Ce modèle consiste à décaler la chronique de L pas de temps, où L est l’horizon de prévision désiré ; cela revient à dire que le débit que l’on prévoit dans L heures, est le même que celui qui est actuellement observé. Pour de courts horizons de prévision (par rapport aux temps caractéristiques de variation des débits), ce modèle a en général de bonnes performances du point de crue de critères d’erreurs en moindres carrés (RMSE, critère de Nash & Sutcliffe (1970)).

modèles conceptuels Sont représentées en histogramme les performances médianes du modèle GR4J et en barre d’erreurs, les performances maximales et minimales (obtenues avec d’autres jeux de paramètres, cf. B.6).

5.2.1.2 Présentation des résultats

Sur la figure FIG.5.3 ont été représentées les performances des différents modèles pour des pré- visions2à 1 heure sur chacun des bassins et pour différentes utilisations : en calage sur la période

1. Malgré les conclusions à l’issue de la partie B.5 sur le manque de robustesse des solutions à plus d’un neurone sur la couche cachée, ces 4 possibilités ont été conservées afin de ne pas défavoriser les RNA lorsque les performances sont bonnes en les simplifiant excessivement et également parce qu’une utilisation comportant 2 à 4 neurones sur la couche cachée est assez fréquemment rencontrée dans la littérature.

2. Les modèles conceptuels sont utilisés avec une mise à jour (report de la dernière erreur) mais sont calés sans la procédure de mise à jour, i.e. leurs performances en calage ne sont pas optimales mais cela permet de conserver le même modèle quelle que soit l’échéance de prévision.

1, en validation sur les périodes 2 et 3. Sur la figure FIG.5.4, le même type d’analyse a été mené, mais pour un horizon de 3 heures.

Calibration sur la période 1 ; L = 1 heure

0,8 0,9 1,0

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Bas moy

RNA n=1 RNA n=2 RNA n=3 RNA n=4 lineaire persistance conceptuel

Validation sur la période 2 ; L = 1 heure

0,8 0,9 1,0

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Bas moy

Validation sur la période 3 ; L = 1 heure

0,8 0,9 1,0

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Bas moy

FIG. 5.3 – Comparaison des performances (NSE) de différents types de modèles dans le cas de la prévision à 1 heure en scénario de « pluie future parfaitement connue ». Pour les modèles conceptuels, les performances de GR4J sont tracées et les barres d’erreur indiquent la variabilité inter modèle. La dernière colonne indique les résultats moyens sur les 11 bassins.

* en calage :

– Les modèles les plus performants sont indéniablement les réseaux de neurones artifi- ciels tant pour des prévisions à une heure qu’à trois heures.

– Les modèles linéaires et les réseaux de neurones ont de meilleures performances que le modèle de persistance.

– Les réseaux de neurones, même ceux ne comportant qu’un seul neurone sur la couche cachée, obtiennent de meilleures performances que les modèles linéaires. Ceci peut être interprété de plusieurs façons. La première, et la plus positive, consiste à conclure que la prise en compte de non linéarités pour modéliser une relation typiquement non

Calibration sur la période 1 ; L = 3 heures 0,5 0,6 0,7 0,8 0,9 1,0

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Bas moy

RNA n=1 RNA n=2 RNA n=3 RNA n=4 lineaire persistance conceptuel

Validation sur la période 2 ; L = 3 heures

0,5 0,6 0,7 0,8 0,9 1,0

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Bas moy

Validation sur la période 3 ; L = 3 heures

0,5 0,6 0,7 0,8 0,9 1,0

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Bas moy

FIG. 5.4 – Comparaison des performances (NSE) de différents types de modèles dans le cas de la prévision à 3 heures en scénario de « pluie future parfaitement connue ». Pour les modèles conceptuels, les performances de GR4J sont tracées et les barres d’erreur indiquent la variabilité inter modèle. La dernière colonne indique les résultats moyens sur les 11 bassins.

linéaire – la relation pluie-débit – permet logiquement d’améliorer la qualité de la modélisation. Cela rejoint la propriété d’approximateur universel des RNA : en théorie, si l’objectif était réellement de reproduire la relation entre les entrées et les sorties lors du calage sur la première période, alors on pourrait atteindre, n’importe quel degré de précision en augmentant le nombre de neurones (cf. également §b page 444). Une autre explication, moins positive, est que les RNA ont davantage de paramètres libres par rapport au modèle linéaire (le RNA à un neurone caché : un paramètre en plus ; le RNA à deux neurones cachées : le double de paramètres plus deux ; à trois neurones cachées : le triple plus trois, etc).

– Parmi les RNA, ceux qui permettent d’atteindre les meilleurs performances (en calage) sont assez logiquement, ceux comportant quatre neurones sur la couche cachée, un plus grand nombre de paramètres, permettant une plus grande souplesse en calage.

– Le modèle dont les performances sont les plus faibles est logiquement le modèle de persistance. Néanmoins, dans quelques cas, ce dernier surpasse le modèle conceptuel ou le modèle linéaire.

– Les modèles linéaires atteignent dans la plupart des cas des performances légèrement supérieures à la persistance.

– Les modèles conceptuels utilisés avec une technique de mise à jour basique ont, quant à eux, des performances moins bonnes que les réseaux de neurones. Elles sont su- périeures à celles des modèles linéaires sur un peu plus de la moitié des bassins en prévision à 1 heure et sur un tiers des bassins en prévision à 3 heures. Elles sont su- périeures à celles du modèle de persistance dans 7 cas sur 111 (resp. 6 sur 11) en prévision à 1 heure (resp. 3 heures). Ces performances moyennes peuvent être expli- quées par le fait que toutes les composantes des modèles de réseaux neuronaux et des modèles linéaires ont été calées sur cette période, alors que les modèles conceptuels ont été calés sur cette période sans technique de mise à jour, puis sont évalués (même en calage) avec une technique de mise à jour (le report de la dernière erreur).

– Les écarts les plus importants entre les RNA et les autres modèles sont observés sur les bassins de Cros de Géorand et de Rieutord, c’est-à-dire pour les bassins sur lesquels les performances sont les moins élevées : les RNA tendent vers des performances équi- valentes à celles des autres bassins, alors que les autres modèles (linéaire, persitance et conceptuel) ont davantage de mal à prévoir les débits à 1 heure et à 3 heures. * en contrôle :

– Les performances en contrôle sont inférieures à celles du calage. Elles sont par ailleurs totalement différentes, la hiérarchie entre les modèles qui était apparue en calage n’est plus aussi claire. Ces performances semblent dépendre non seulement du choix du modèle ou du bassin sur lequel les modèles sont évalués mais également, et dans une moindre mesure, de la période d’évaluation. Il faut vraisemblablement y voir un ef- fet du choix de l’horizon de prévision par rapport aux temps caractéristiques de la dynamique des bassins.

– Les performances semblent également dépendre de l’horizon de prévision même si dans l’ensemble, les tendances identifiées pour un horizon de 1 heure sont conservées. – Le principal élément marquant est que la supériorité des RNA disparaît. Les perfor- mances des réseaux de neurones médians décroissent fortement par rapport au calage, essentiellement en raison d’un manque de robustesse : les réseaux qui obtenaient de bons résultats en calage, n’en fournissent pas toujours en validation (cf. B.5, page 443). Néanmoins, le meilleur (a posteriori) des 10 réseaux testés conserve en général des performances équivalentes à celles des autres modèles. Ceci est plus particulièrement vrai pour les réseaux comportant davantage de neurones sur la couche cachée. Afin de tenter de remédier à ce problème de robustesse, une procédure simplifiée de va- lidation croisée a été testée par ailleurs (cf. annexe B.5.4.2, page 456). Elle permet d’éviter de choisir a prioriun réseau de neurones peu robuste (i.e. un RNA qui serait déjà mauvais sur la deuxième période), mais n’est pas toujours complètement effi- cace : des exemples pour lesquels elle n’apporte pas de bons résultats (c’est-à-dire que le meilleur RNA identifié sur la seconde période obtient de piètres résultats sur la troi- sième période) ont été trouvés, traduisant ainsi le fait qu’un RNA peut être performant sur deux périodes (une de calage et une de sélection) et ne pas l’être sur une troisième

0,70 0,75 0,80 0,85 0,90 0,95 1,00

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Bas

0,70 0,75 0,80 0,85 0,90 0,95 1,00

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Bas

FIG. 5.5 – Critère NSE (troisième sous-période, prévision à 3 heures en pluie parfaite) pour l’ensemble des RNA utilisés (en haut, avec les barres d’erreurs reflétant la variabilité des performances selon le RNA choix parmi les dix utilisés) et pour un d’entre eux seulement sélectionné sur la seconde sous-période par une technique de validation croisée.

période d’évaluation (cf. FIG.5.5). Ceci, ainsi que les faibles écarts de performances entre les différentes tailles de RNA, conduit à préférer dans la suite de cette étude des RNA comportant peu de neurones sur la couche cachée (un ou deux).

– Sur certains bassins, le modèle de persistance est parfois difficile à battre, les autres modèles obtenant soit des performances équivalentes, soit des performances inférieures. C’est le cas notamment du bassin de la Dunière à Vaubarlet mais aussi, dans une moindre mesure, de la Loire à Coubon et à Bas-en-Basset.

– En moyenne sur tous les bassins, il est possible d’observer les bonnes performances du modèle conceptuel avec mise à jour qui dépasse à la fois le modèle de persistance pour les deux horizons de prévisions concernés mais également les autres modèles (modèles linéaires ou RNA).

5.2.1.3 Synthèse

Les performances, tant en calage, qu’en contrôle, sont les moins élevées pour les plus petits des bassins. L’origine de cela pourrait être des processus plus difficiles à représenter sur de petits bassins (car plus variables, ou différents de ceux pris en compte) ainsi que des débits moins auto- corrélés au pas de temps horaire. Par ailleurs, le passage d’un horizon de prévision de une heure à trois heures, s’accompagne par une diminution généralisée des performances, tant en calage qu’en contrôle.

S’il est possible de dégager quelques tendances sur les comportements relatifs des différents mo- dèles lors du calage, interpréter les résultats en validation est plus périlleux, tant ceux-ci fluctuent selon le bassin, la période d’évaluation, l’horizon de prévision. Ceci peut expliquer les résultats parfois contradictoires rencontrés dans la littérature (ex : les modèles linéaires sont/ne sont pas équivalents aux RNA, les RNA sont meilleurs/moins bons que les modèles conceptuels utilisés avec une technique de mise à jour, etc.). Ceci amène logiquement à essayer de proposer d’autres modes d’évaluation afin de vérifier si les performances des différents modèles sont également équivalentes en prévision des crues.

5.2.2 Impact de la méconnaissance de la pluie future

Si l’hypothèse de connaissance parfaite de la pluie future1est utile afin de n’évaluer que ce qui dépend du modèle pluie-débit – et non des prévisions de pluie –, elle n’est pas vraiment réaliste. Un autre scénario classique, concernant les pluies futures, consiste à supposer un arrêt de celles-ci juste après les dernières observations réalisées (c’est-à-dire à partir de l’instant où est réalisée la prévision). Ce scénario fournit une limite inférieure de l’évolution des débits futurs, correspondant à ceux liés à la pluie déjà précipitée. Ce scénario est donc plus proche de la réalité lorsque la prévision est émise au cours de la décrue ou lorsque la fin de l’épisode pluvieux approche. Il peut permettre d’utiliser les modèles sans faire de prévisions de pluie explicite.

5.2.2.1 Méthodologie

Pour évaluer l’impact de cette méconnaissance de la pluie future sur la prévision des débits, les tests effectués précédemment ont été refaits, en utilisant cette fois soit un scénario de pluie future nulle (cas des modèles conceptuels), soit en ne prenant en compte aucune information sur la pluie future (cas des modèles ARX et des réseaux de neurones artificiels).

Les résultats ont été synthétisés sous la forme de graphiques (par exemple, FIG.5.6 et 5.7) per- mettant de visualiser pour chacun des bassins, l’évolution des critères NSE de Nash & Sutcliffe (1970) en fonction de l’horizon de prévision (de 1 à 8 heures) et de la prise en compte ou non, de la connaissance de la pluie future.

Le trait plein, représentant les performances du modèle conceptuel, en simulation2, permet de fournir une première référence. Le modèle de persistance (trait clair en pointillé) permet quant à lui de fournir une seconde référence.

5.2.2.2 Présentation des résultats

Le premier élément intéressant est que les résultats varient d’un bassin à l’autre (FIG.5.6 et 5.7).

Un comportement différencié apparaît selon le temps caractéristique des bassins : les bassins ont été classés approximativement selon leur temps caractéristique, les bassins aux temps caractéris- tiques les plus courts sont représentés en FIG.5.6 et ceux aux temps plus longs en FIG.5.7.

Pour un horizon de prévision faible Lorsque les performances sont évaluées pour un horizon de prévision très inférieur (au maximum strictement inférieur) au temps caractéristique du bassin3, la prise en compte ou non de la pluie future ne semble pas avoir d’impact sur le classement des

1. C’est la seule hypothèse qui a été utilisée jusqu’à présent.

2. C’est-à-dire avec une prise en compte de la pluie future à chacun des pas de temps, sans mise à jour.

3. A titre d’exemple, dans le cas d’un horizon de prévision de six heures, les bassins concernés par ce cas sont Vaubarlet, Coubon, Espaly, Chadrac, et Bas-en-Basset.

modèles et ce classement entre les différents modèles varie selon les bassins. Il est toutefois pos- sible de noter, que le modèle conceptuel fournit quasiment toujours les meilleures performances et que pour chacun de ces bassins, il est possible de trouver un modèle moins performant que la persistance.

Pour un horizon de prévision plus élevé Lorsque les performances sont évaluées pour un hori- zon de prévision supérieur (ou du même ordre de grandeur) que le temps caractéristique du bassin1 alors, la prise en compte de la pluie future joue un rôle déterminant, en particulier pour le modèle conceptuel. En effet, si la pluie future est supposée connue, alors ce modèle fournit les meilleures performances. Au contraire, si elle est supposée nulle, alors ce modèle fournit les moins bonnes performances (mis à part le modèle de persistance). En ce qui concerne les autres modèles (ARX et RNA), l’effet de la méconnaissance de la pluie future est moins sensible et varie selon les bassins.

Classement Dans le cas d’un horizon de prévision élevé par rapport au temps de réaction du bassin, le classement entre les différents types de prévision est sensiblement le suivant (du meilleur au moins bon, cf. TAB.5.1) :

– prévision avec le modèle conceptuel GR4J avec mise à jour, avec prise en compte des pluies futures ;

– prévision avec les RNA avec pluie future ;

– prévision avec le modèle linéaire ARX avec pluie future ; – prévision avec les RNA sans pluie future ;

– prévision avec le modèle linéaire ARX sans pluie future ;

– prévision avec le modèle conceptuel GR4J (avec mise à jour, scénario de pluie future nulle). Il arrive cependant que le modèle conceptuel sans pluie future donne de meilleurs résultats que les modèles linéaires et les réseaux neuronaux : c’est le cas pour les bassins pour lesquels l’horizon de prévision est inférieur au temps caractéristique du bassin (Bas-en-Basset, Coubon, Chadrac, Espaly et Vaubarlet).

Cros Rieu Bess Pand Cham Goud Vaub Coub Espa Chad Basb

GR4J+P GR4J+P GR4J+P GR4J+P GR4J+P GR4J+P GR4J+P GR4J+P GR4J+P GR4J+P GR4J+P

RNA+P RNA+P ARX-P RNA+P RNA+P RNA+P GR4J-P GR4J-P GR4J-P GR4J-P GR4J-P

ARX+P ARX+P ARX+P RNA-P RNA-P RNA-P ARX+P ARX-P persist. ARX-P RNA

RNA-P RNA-P RNA-P ARX+P ARX-P ARX-P ARX-P persist. RNA+P ARX+P RNA

ARX-P ARX-P RNA+P ARX-P ARX+P ARX+P persist. RNA+P RNA-P persist. ARX+P

GR4J-P GR4J-P persist. GR4J-P GR4J-P GR4J-P RNA+P RNA-P ARX-P ARX persist.

persist. persist. GR4J-P persist. persist. persist. RNA-P ARX+P ARX+P ARX ARX-P

TAB. 5.1 – Classement des différentes modélisations à une échéance de 6 heures. +P indique une prise en compte des pluies futures ; -P indique soit un scénario de pluies futures nulles dans le cas des modèles conceptuels, soit une non prise en compte des pluies futures dans le cas des autres modèles.GR4J est le modèle conceptuel, RNA le réseau de neurone artificiel, ARX le modèle linéaire,persist. le modèle de persistance. Les bassins sont classés de gauche à droite par temps caractéristiques croissants.

Intérêt des mises à jour Par rapport à la référence de la simulation, sur un certain nombre de pas de temps, il est particulièrement profitable d’effectuer des mises à jour du modèle conceptuel avec scénario de pluie future connue. Ce nombre de pas de temps dépend du bassin, mais est supérieur ou égal à 8 heures dans la majorité des cas (7 heures à Pandraux, 4 heures à Chadrac).

1. Toujours pour un horizon de prévision de six heures, les bassins concernés sont Cros de Géorand, Rieutord, Chambon, Besseyre, Goudet et Pandraux.

Cros de Géorand Rieutord 1 2 3 4 5 6 7 8 0.0 0.2 0.4 0.6 0.8 1.0 Echéance de prévision (h) NSE ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

conceptuel sans mise à jour (pluie future connue) conceptuel avec mise à jour (pluie future connue) conceptuel avec mise à jour (pluie future nulle) réseaux de neurones (pluie future connue)

réseaux de neurones (pluie future non prise en compte) modèle linéaire (pluie future connue)

modèle linéaire (pluie future non prise en compte) modèle de persistance 1 2 3 4 5 6 7 8 0.0 0.2 0.4 0.6 0.8 1.0 Echéance de prévision (h) NSE ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

conceptuel sans mise à jour (pluie future connue) conceptuel avec mise à jour (pluie future connue) conceptuel avec mise à jour (pluie future nulle) réseaux de neurones (pluie future connue)

réseaux de neurones (pluie future non prise en compte) modèle linéaire (pluie future connue)

modèle linéaire (pluie future non prise en compte) modèle de persistance Chambon Besseyre 1 2 3 4 5 6 7 8 0.0 0.2 0.4 0.6 0.8 1.0 Echéance de prévision (h) NSE ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

conceptuel sans mise à jour (pluie future connue) conceptuel avec mise à jour (pluie future connue) conceptuel avec mise à jour (pluie future nulle) réseaux de neurones (pluie future connue)

réseaux de neurones (pluie future non prise en compte) modèle linéaire (pluie future connue)

modèle linéaire (pluie future non prise en compte) modèle de persistance 1 2 3 4 5 6 7 8 0.0 0.2 0.4 0.6 0.8 1.0 Echéance de prévision (h) NSE ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

conceptuel sans mise à jour (pluie future connue) conceptuel avec mise à jour (pluie future connue) conceptuel avec mise à jour (pluie future nulle) réseaux de neurones (pluie future connue)

réseaux de neurones (pluie future non prise en compte) modèle linéaire (pluie future connue)

Documents relatifs