• Aucun résultat trouvé

4.3 Application pour la prévision hydrologique : un exemple

4.3.1 Etude de cas et méthodologie

4.3.1.1 Les données utilisées

Le processus pluie-débit est généralement décrit comme un processus fortement non li-néaire, en particulier dans le cas de bassins versants de petites surfaces (Bras, 1990). La prévision des débits de cours d’eau à partir des données pluviographiques semble donc être un type d’application pour lequel les réseaux de neurones devraient être particulièrement adaptés et donc indiqué pour tester l’efficacité de ce type de modèles. L’étude de cas traitée dans ce qui suit, vise à développer un modèle de prévision à 1 jour du débit moyen

jour-4.3 Application pour la prévision hydrologique : un exemple 57 nalier d’un cours d’eau, en fonction des débits moyens mesurés les jours précédents et des données météorologiques (cumuls de pluie journaliers, évapotranspiration potentielle). Les données mesurées durant la période 1986-1995 sur le Sauzay, un petit cours d’eau du bassin parisien (bassin versant de 81 km2), ont été utilisées : mesures des débits, cumuls pluvio-métriques journaliers (appareil de mesure situé sur le bassin versant) et évapotranspiration potentielle journalière issue de la station météorologique la plus proche. Les données de la période 1986-1990 ont été utilisées pour le calage des modèles et les données de la période 1991-1995 pour leur validation (figure 4.3). Ces deux jeux de données ont des caractéris-tiques proches comme l’indique le tableau 4.1. Si les modèles testés sont adaptés, leurs performances ne devraient pas trop se dégrader entre le calage et la validation.

Fig. 4.3 – Série des débits moyens journaliers et des cumuls de pluie mesurés sur le Sauzay, période 1986-1995 : jeu de calage (lignes noires) et jeu de validation (lignes de grises).

4.3.1.2 Les modèles

Afin de pouvoir évaluer les performances des réseaux de neurones, deux modèles alterna-tifs ont été testés : le classique modèle linéaire et un modèle conceptuel pluie-débit à 4 paramètres GR4J (Edijatno et al., 1999).

La variable de sortie y du modèle linéaire est la somme pondérée des variables de forçage (x1, x2, ..., xn) :

Jeu de Jeu de calage validation

Pluie moyenne annuelle 792 mm 798 mm Ecoulement moyen annuel 356 mm 348 mm Nombre moyen de jours pluvieux 188 189 Pluie maximale journalière 44 mm/j 44 mm/j Ecoulement moyen journalier 7.1 mm/j 7.4 mm/j Ecoulement minimum journalier 0.19 mm/j 0.23 mm/j

Tab. 4.1 – Statistiques descriptives des jeux de données de calage et de validation dispo-nibles sur le Sauzay (Gaume & Gosset, 2003).

y = f (x1, x2, ..., xn) = w0+

n

X

i=1

wi.xi (4.3)

Remarquons que les équations 4.3 et 4.1 sont équivalentes si la fonction d’activation A est une fonction linéaire. Le modèle linéaire peut-être considéré comme un réseau de neurones dont toutes les fonctions d’activation sont linéaires.

La figure 4.4 présente l’organigramme du modèle GR4j. Les quatre paramètres du mo-dèles sont X1 et X2 (capacités des réservoirs superficiels et souterrains), X3 (contrôle des échanges profonds) et X4(constante de temps des hydrogrammes unitaires) (Rakem, 1999). Contrairement au modèle linéaire et aux réseaux de neurones, le modèle GR4j et les autres modèles conceptuels n’intègrent pas les dernières valeurs de débits mesurées dans leurs prévisions. L’écart-type de l’erreur de prévision de ces modèles fondés uniquement sur les pluies et l’ETP précédentes est bien souvent supérieur à l’écart-type des variation de débits sur un ou quelques jours. Ils doivent donc être adaptés pour être utilisés pour effectuer des prévisions à court terme. Diverses méthodes d’assimilation des dernières valeurs de débits mesurés ont été proposées, parmi lesquels le recalage en temps réel des paramètres du modèle ou le couplage du modèle pluie-débit et d’un modèle linéaire autorégressif (AR) de ses erreurs de prévision. Après ajustement, la procédure de recalage semble conduire à des résultats légèrement meilleurs que le couplage avec un modèle AR (Yang & Michel, 2000). Cette deuxième solution, plus simple à mettre en oeuvre et plus robuste, a été cependant retenue. Le modèle AR comporte aussi des paramètres à caler (2 dans le cas présent ou seules les deux erreurs précédentes ont été considérées). L’ensemble GR4j combiné avec le modèle AR de prévision des erreurs comporte donc 6 paramètres.

4.3 Application pour la prévision hydrologique : un exemple 59

Fig. 4.4 – Organigramme du modèle GR4j. 4.3.1.3 La démarche

C’est la somme des écarts quadratiques entre données simulées yi et observations Qi (i étant l’indice de temps) qui est utilisée comme critère de performance lors du calage et de la validation des différents modèles. Pour faciliter l’interprétation des résultats, cette somme est normée par la somme des carrés des fluctuations inter-journalières des débits, fluctuations que l’on cherche à prévoir. Finalement, le critère retenu CRIT , généralement appelé critère de persistance, a pour expression :

CRIT = 1 − P

i(yi− Qi)2 P

i(Qi− Qi−1)2 (4.4)

Lorsque la prévision est parfaite, le critère retenu prend la valeur 1. Une valeur négative du critère indique que la reconduction du débit observé Qi−1 au pas de temps précédent est préférable à l’utilisation de la valeur yi prévue par le modèle au sens des moindres carrés. Concernant les réseaux de neurones et le choix du nombre de neurones, une approche constructive a été retenue (Kwok & Yeung, 1997). Différents réseaux sont mis en oeuvre en incrémentant progressivement le nombre de neurones du réseau. Le modèle retenu est celui

qui obtient les meilleurs résultats de validation. L’algorithme d’optimisation de Levenberg-Marquardt, considéré comme le mieux adapté au calage des réseaux de neurones (Hagan & Menhaj, 1994), a été utilisé. Le calage des réseaux de neurones présente une dernière difficulté. La fonction ”critère de calage” n’a généralement pas un optimum bien localisé dès que le réseau comporte plus d’un neurone. Différentes optimisations avec différentes valeurs initiales conduisent à des optimums locaux aux valeurs de fonction critère voisines. L’utilisateur est alors confronté à un choix : sélectionner l’un de ces optimums (Zealand et al., 1999b; Imrie et al., 2000; Coulibaly et al., 2000) sachant que ce choix et donc les performances du réseau de neurones seront en partie le fait du hasard (Shamseldin, 1997), ou bien considérer un ensemble de ces optimums pour limiter l’effet du hasard. C’est cette deuxième solution qui a été retenue ici. Pour chaque réseau de neurones, une série de 20 calages a été réalisée et les résultats de calage et de validation de ces 20 réseaux calés analysés. Dans les figures, les résultats de ces vingt réseaux seront synthétisés sous la forme de ”diagrammes à moustaches” (figure 4.5).

Fig. 4.5 – Interprétation d’un diagramme à moustaches.

La ligne centrale du diagramme représente la valeur médiane de l’échantillon des vingt valeurs. Le rectangle délimite les quartiles de l’échantillon (50% des valeurs sont situées dans les limites du rectangle). Les moustaches s’étendent jusqu’aux valeurs maximales dans la limite de 2.5 fois la distance entre la valeur médiane et le quartile. Les valeurs qui s’écartent de ces limites, si elles existent, sont considérées comme des ”horsains” et représentées par des ronds. Les performances des réseaux de neurones seront essentiellement

4.3 Application pour la prévision hydrologique : un exemple 61 jugées sur les valeurs médianes des échantillons, mais il est intéressant de conserver la vision de la dispersion des résultats, en particulier en phase de validation.

Notons enfin que des données redondantes ou non informatives peuvent réduire les perfor-mances des réseaux de neurones selon certains auteurs (Shamseldin, 1997). Le nombre de neurones de la couche d’entrée du réseau (i.e. le nombre de données d’entrée) peut aussi faire l’objet d’une optimisation (Abrahart et al., 1999). Afin de tester l’effet éventuelle-ment perturbateur des données d’entrée, deux configurations sont testées : des réseaux ayant pour données d’entrées les 5 valeurs précédentes de pluie, ETP et débits, et des réseaux ayant un jeu réduit de données d’entrées (i.e. les 6 valeurs qui sont affectées des poids les plus élevés lors du calage du modèle linéaire, à savoir les trois valeurs précédentes de pluie, les deux valeurs précédentes de débit et la valeur précédente d’ETP).