• Aucun résultat trouvé

3.2.1 Un comportement face aux données douteuses

Quel comportement adopter face à des données « douteuses » ou « erronées » ou même (plus simplement) « inadaptées » ?

Différentes attitudes possibles Ce problème est fréquemment rencontré, en particulier dans les travaux de modélisation, et des comportements différents sont observés. Il est possible de consi- dérer qu’il n’y a pas de réalité en dehors des observations, qu’on ne sera jamais à même de fournir au modèle des données « parfaites ». On se base alors sur toutes les données, cohérentes ou non, sans les modifier. Une autre attitude, la plus couramment utilisée, consiste à essayer d’obtenir les meilleurs jeux de données possibles, de manière à ce qu’ils soient cohérents avec, (i) les obser- vations, (ii) le comportement des autres points de mesure et (iii) le comportement passé du point de mesure en question ou (iv) les représentations mentales que l’on a des processus. Entre ces deux attitudes, un certain nombre d’intermédiaires existent, avec plus ou moins de « foi » dans les données.

Une étape capitale Malgré l’importance de cette étape2, la partie « critique et traitement des données » est souvent atrophiée - ou occultée - dans les thèses et articles : on passe la plupart du temps directement de la collecte des données à leur utilisation — par exemple ici leur application

1. Les résultats obtenus sont très sensibles aux fortes valeurs.

2. D’après Duband (1997), « On peut affirmer sans exagération que 30 à 50% du travail consiste à critiquer les séries de données que l’on utilisera dans le calcul ». Il parle aussi de « partie ingrate [. . . ], fastidieuse ou rebutante » et ajoute « ce n’est pas un travail “noble” ».

en modélisation. Or, cette étape intermédiaire existe, et peut influencer de manière déterminante les incertitudes de modélisation.

Peu de repères possibles Il n’est bien sûr pas possible de savoir quelle a été la réalité, et les jeux de données constituent la seule information (forcément partielle tant dans l’espace que dans le temps) qui soit disponible sur cette réalité. Il n’existe donc pas de « référence » à laquelle se comparer et qui pourrait permettre de valider ou, au contraire, d’invalider certaines données.

Soit un jeu de données, les seules informations complémentaires dont il serait possible de disposer sont, soit un témoignage qui a été noté (observation d’une échelle, hauteur par rapport à une référence, heures et dates, etc.), soit un autre jeu de données dont une partie de l’information est conjointe : par exemple, pour contrôler les données d’un pluviographe, celles d’un ou plusieurs pluviographes ou pluviomètres voisins, sur les mêmes intervalles de temps ou avec une résolution temporelle moins fine. Pour contrôler des pluies de bassin ou des données de débits, il est possible de comparer entre eux les pluviogrammes et les hydrogrammes, mais ceci ne peut conduire qu’à identifier des situations étranges ou des comportements anormaux. La vérification et la critique des données consistent donc essentiellement en des tests de cohérence entre différentes sources d’informations.

Notre choix Les manuels d’hydrologie de l’ingénieur apprennent à utiliser des outils statistiques pour : (i) détecter des données défaillantes, non homogènes, etc. ; (ii) reconstituer des données. Dans le cas présent, les données vont être utilisées pour évaluer des outils de prévision de débit, c’est-à-dire évaluer des modèles. Il nous a semblé délicat d’évaluer ces modèles de transformation pluie-débit sur des données reconstituées à partir d’autres modèles (avec lesquels on a ajouté une information artificielle) : modèle de forme pour la reconstitution de crues à partir de données jour- nalières, modèle de corrélation entre pluviomètres, etc. Il a donc été choisi de suivre la démarche suivante quand des données douteuses sont détectées :

– vérifier s’il n’existe pas d’autres enregistrements ou d’autres sources de données ; – si c’est le cas : essayer à partir de là, de retrouver les données qui ont pu être observées. – si ce n’est pas le cas : les données sur lesquelles on a un doute, mais dont on ne sait pas si

elles sont fausses, ont été conservées ; les données dont on se doute qu’elles n’ont pas pu être observées (300 mm de pluie sur un poste, un jour où sur les autres postes une faible pluie a été observée ; les débits moyens journaliers ; etc.), ces données ont été mises en lacune, c’est-à-dire qu’on les a comptées comme absentes du jeu de données.

3.2.2 Le choix du pas de temps

A des fins de simulation hydrologique sur un bassin versant, il est nécessaire de choisir un pas de temps suffisamment faible pour que la dynamique de la montée de crue soit correctement repré- sentée. En général, la convention est de dire qu’un minimum de trois pas de temps dans la montée de crue est nécessaire pour pouvoir la « voir ».

Le pas de temps horaire semble un bon compromis entre d’une part la disponibilité des données et d’autre part, la dynamique très rapide des plus petits bassins versants de notre étude.

3.2.2.1 Désagrégation temporelle des pluies

Selon l’origine et la date de nos jeux de données, le pas de temps d’acquisition des données brutes n’est pas le même :

– les données Météo France et les données EDF sont fournies au pas de temps horaire ; – les données CRISTAL (et les données papier auparavant) sont dépouillées (ou ensuite ac-

quises et archivées) au pas de temps de 4 heures en période normale et au pas de temps bi-horaire (2 heures) en période de crue jusqu’en 1998 ; puis à pas de temps inférieur à l’heure depuis.

Pour pouvoir utiliser ces données, il est nécessaire de les mettre à pas de temps fixe. Les données enregistrées sur des durées plus longues que l’heure ont donc été désagrégées (i.e. c’est à dire que l’on répartit le cumul enregistré sur k heures, en k cumuls horaires) ; et les données enregistrées à pas de temps infra-horaire ont donc été agrégées. Dans le premier cas, il faut ajouter de l’informa- tion (i.e. choisir comment se répartissent ces cumuls dans le temps), dans le second cas, on enlève de l’information (i.e. perte de la connaissance de la répartition temporelle des cumuls).

Pour mettre ces données au pas de temps horaire, ne disposant pas d’information sur leur réparti- tion temporelle, il a été choisi de répartir le cumul uniformément sur l’ensemble des pas de temps. Cette méthode a pour principal avantage d’être facile à mettre en œuvre, même s’il est vraisem- blable qu’elle ne reflète pas la réalité qui aurait pu être observée (mais aucune méthode ne le pour- rait sans information supplémentaire). Pour vérifier que cette méthode de désagrégation temporelle uniforme n’ajoute pas une composante artificielle d’autocorrélation sur les pluies qui pourrait avoir un effet lorsqu’on utilise ces dernières (par exemple en entrée d’un modèle pluie-débit), quelques tests détaillés en annexe A.3.2.5 (page 374) ont été réalisés. Ceux-ci consistent essentiellement à comparer l’autocorrélation des données désagrégées et celle des données fournies initialement au pas de temps horaire.

Les résultats de ces tests montrent que sur de faibles échéances, cette désagrégation temporelle a une influence : à 1 heure (relation entre la pluie à t et la pluie à t+ 1 h), cette influence est assez forte, à 2 heures (P(t) et P(t+ 2 h)) elle décroît fortement, à 4 heures (P(t) et P(t + 4 h)) elle a quasiment disparu. Par ailleurs, l’étude de la corrélation temporelle des données d’un même poste et pour différentes échéances (cf. FIG.A.84 et FIG.A.85 pages 377 et 377) entraîne deux conclusions :

1. La corrélation temporelle des données de pluies initialement fournies au pas de temps ho- raire (EDF et Météo France) est plus forte pour les postes situés dans la zone à plus forte pluviométrie (sud-est du bassin) que pour les autres postes.

2. La comparaison de la dépendance temporelle (autocorrélation) de ces données, initialement au pas de temps horaire, avec celle des données qui ont été désagrégées montre que si cette désagrégation temporelle des données a une influence, elle n’entraîne cependant pas de coefficient de corrélation des données qui soit supérieur à l’ordre de grandeur des plus fortes valeurs observées sur les données horaires.

3.2.2.2 Mise à pas de temps fixe des débits

De même que pour les données de précipitations, les données de débits ne sont pas systématique- ment acquises et enregistrées à pas de temps fixe et a fortioriau pas de temps horaire. Il est donc nécessaire pour l’utilisation des modèles de ramener ces données à un pas de temps horaire. Les valeurs entre les observations ont donc été interpolées lorsque le délai entre deux observations successives est inférieur à un certain seuil (un seuil de 24 heures a été pris lorsque le débit varie peu ou pas ; et un seuil de 4 heures lorsque que le débit subit des variations). L’interpolation a

0 50 100 150 200 250 300 350 11/11/1996 00:00 11/11/1996 12:00 12/11/1996 00:00 12/11/1996 12:00 13/11/1996 00:00 13/11/1996 12:00

Données interpolées à pas de temps constant (1 heure) Débits mesurés

FIG. 3.6 – Exemple de mise à pas de temps fixe des chroniques de débits.

ensuite été réalisée de manière automatique. Pour des lacunes de 4 à 12h avec un débit subissant des variations, une analyse graphique a été réalisée de manière concomitante à l’interpolation des valeurs. La figure FIG.3.6 permet d’illustrer le cas où la durée entre deux observations est supé- rieure à 4 heures (par exemple l’après-midi du 12 novembre 1996 pour ce bassin). Cette figure permet aussi de montrer l’impact d’une mise à pas de temps fixe des débits sur l’estimation de la valeur de la pointe de crue : en l’occurrence, le débit maximal est sous-estimé et la mise à pas de temps fixe lisse la double pointe des débits. Le choix a été fait de conserver ces données horaires. Ainsi, l’effet de la mise à pas de temps fixe des débits qui vient d’être décrit aura donc vraisem- blablement une conséquence sur les phases de modélisation (simulation et prévision) et, il faudra donc garder cette remarque en mémoire lors de l’analyse des résultats de modélisation.

3.2.3 Analyse et critique des données de pluie

Les principales sources d’erreurs lors des mesures pluviographiques ont été synthétisées en an- nexe A.3.1.2 page 349. Faure et al. (1994) remarquent de plus que les erreurs relatives de mesures pluviométriques augmentent en moyenne quand les intensités diminuent et que des écarts impor- tants peuvent être trouvés entre des enregistrements numériques et graphiques (notamment les décalages temporels).

Il existe donc de nombreuses raisons possibles de problèmes dans les données. Il serait possible de rajouter à cette liste de sources d’erreurs des données, tous les traitements postérieurs, réalisés sur les données une fois celles-ci enregistrées, qui offrent eux-mêmes des occasions de fausser les données enregistrées.

Pour analyser et vérifier les données de précipitations de notre jeu d’étude, une série de tests allant du contrôle des moyennes annuelles interannuelles (un indicateur de la climatologie) au contrôle des données de pluie au cours d’un épisode de crue (la matière première de notre travail de mo- délisation de la partie II page 87) a donc été réalisée. Sont présentés ici, de manière synthétique, les différents tests réalisés ainsi que les principaux résultats. Il sera possible de retrouver en an-

FIG. 3.7 – Illustration des difficultés à évaluer la pluie et de sources d’erreurs possibles : extrait du pluvio- gramme à Lanarce lors de l’épisode de septembre 1980. Les tracés des courbes sont si proches qu’il devient difficile de les distinguer.

nexe A.3.2.3 page 354, une description plus détaillée des tests, ainsi que différents graphiques permettant de les illustrer les principaux résultats.

3.2.3.1 Contrôles des données comme indicateurs de la climatologie

Présentation L’objectif de ce premier travail de contrôle sur les données de précipitations est de vérifier si les données utilisées dans cette étude représentent bien la climatologie. La question se justifie par les éléments suivants :

– Ce travail est réalisé avec des données horaires ce qui implique, entre autres, un plus grand nombre de pas de temps en lacune que pour des données au pas de temps journalier (et donc une sous-estimation possible des lames d’eau annuelles).

– La qualité des données opérationnelles (réseau CRISTAL) a été jugée variable au cours des études précédentes (notamment par Grelat (2002) et RIO2 (2004)). De plus, à notre connaissance, peu de critiques ont été réalisées sur ces données.

– Enfin, le jeu de données sur lequel Grelat (2002) a fait porter son effort de dépouillement et de critique a été élargi : davantage de postes pluviographiques sont utilisés (en passant de 15 postes à 40) et la période d’étude a été prolongée de mai 1999 à décembre 2003 (soit quatre ans de données supplémentaires).

Principaux tests réalisés et résultats obtenus Ces vérifications se déclinent en plusieurs points et sont présentées en détail en annexe A.3.2.3 à partir de la page 354.

Dans un premier temps, on trace l’évolution des moyennes annuelles pour chacun des postes de cette étude et on vérifie que celles-ci sont bien cohérentes avec des valeurs annuelles permettant de décrire la climatologie de cette région. (cf. partie A.3.2.3 page 354). Ce premier test a permis

de mettre en avant quelques cumuls annuels particulièrement élevés et quelques autres particuliè- rement faibles ; et ainsi d’accorder plus d’attention à ces postes et à ces années lors de la critiques des données. Cette étape sert donc essentiellement de pré-analyse.

Le second point (cf. partie A.3.2.3 page 355) consiste à vérifier si les valeurs annuelles interan- nuelles calculées à partir du jeu de données de cette étude sont cohérentes avec celles trouvées dans la littérature, i.e. les valeurs moyennes et, quand ils sont disponibles, les écarts-types et donc les co- efficients de variations. Les résultats montrent que : (i) il existe une variabilité naturelle des séries ; (ii) que cette variabilité naturelle peut expliquer certains écarts entre des valeurs annuelles inter- annuelles obtenues via d’autres études et celles de notre étude ; (iii) mais qu’elle n’explique pas tout : il existe des périodes où les données du réseau CRISTAL sont par exemple concomittantes avec des postes journaliers, et dont certains écarts restent importants. Au final, des problèmes de surestimation apparaissent sur des postes situés dans la partie sud-est du bassin (Sainte-Eulalie, Issarlès). Ces surestimations peuvent être liées en partie à la prise en compte de l’année 1996 qui est très humide, mais pas seulement, et un problème – non résolu – dans les données CRISTAL de ces postes est noté. A l’opposé des sous-estimations sont mises en évidence pour les postes CRISTAL de Cayres, Fix-Saint-Geneys et Viverols.

Ensuite (cf. partie A.3.2.3 page 362), le gradex des pluies de chaque poste pluviographique et/ou pluviométrique disponible pour cette étude a été calculé et comparé aux gradex des postes environ- nants journaliers. Une variabilité spatiale est clairement mise en évidence : les valeurs des gradex des postes du sud-est sont beaucoup plus fortes que sur le reste du bassin (cf. FIG.A.73 page 363). Des valeurs différentes obtenues pour les mêmes postes – mais à des emplacements légèrement différents – laissent penser que tous les morceaux de chroniques en une même station ne sont pas représentatifs de la même façon.

Ensuite a été étudiée la cohérence des postes entre eux du point de vue de leur évolution mensuelle (valeurs au fil des mois et valeurs interannuelles). Cette étape a notamment permis de détecter quand des postes étaient en panne et n’étaient pas toujours indiqués en temps que tels. Dans le point A.3.2.3 (page 364) est montré un exemple de l’intérêt d’une telle comparaison pour observer la variabilité spatiale des cumuls de pluie.

3.2.3.2 Contrôle des pluies de bassin calculées

La pluie de bassin est calculée par une méthode d’interpolation à partir de données ponctuelles. Elle constitue donc une sorte d’intégration de la qualité des données disponibles sur le bassin. Des valeurs annuelles interannuelles ponctuelles sont comparées à l’échelle locale et une vérifica- tion des données ponctuelles par sous-bassin est réalisée. Cette partie (cf. partie A.3.2.4 page 366) est très intéressante à la fois pour obtenir une représentation des caractéristiques de la pluviomé- trie à laquelle est soumis chaque bassin, mais cela permet également de tester la cohérence entre elles, des différentes sources d’information disponibles. Ceci permet également de voir comment la pluie de bassin estimée peut évoluer selon le réseau disponible. Sont également comparées, ces valeurs de pluies de bassins calculées avec celles de la littérature d’une part et les lames écoulées moyennes internanuelles et l’ETP interannuelle d’autre part (cf. A.3.2.4 page 370).

3.2.3.3 Contrôle des données de pluie par événement

Les test précédents ont permis de tester la qualité globale des données. Cette vérification est in- téressante à la fois pour avoir une opinion sur la qualité générale des données mais aussi dans le cas de modèles hydrologiques fonctionnant en continu, pour être capable de comprendre certaines contraintes sur les paramètres des modèles. Une fois ces premiers tests réalisés, un point plus par-

ticulièrement intéressant pour un travail sur les crues de la Loire supérieure apparaît : la qualité de ces données de pluie au cours des épisodes (de pluie, de crue) sélectionnés. Pour cela, pour chaque épisode ont été tracés :

– les pluies moyennes calculées à partir de différentes méthodes d’interpolation (moyenne arithmétique, polygones de Thiessen et krigeage ordinaire) et les courbes de débits corres- pondantes

– l’ensemble des hyétogrammes (a) superposés ou (b) disjoints ; permettant ainsi de détecter des valeurs anormales dans les valeurs de précipitations

– les valeurs de précipitations cumulées par poste et par zone de la région d’étude.

3.2.3.4 Conclusions

Ces différents tests ont permis de se faire une opinion un peu plus précise sur la qualité générale des données. Il semble que si on retrouve bien la climatologie à travers les données horaires, la tendance est plutôt à la sous-estimation en raison du nombre de lacunes plutôt important, même si faire des moyennes à partir d’années à forte pluviométrie (1996-2003) permet en partie de compenser cette défaillance.

Cette phase d’analyse à l’aide de tests de cohérence a également permis d’isoler les cas où des don- nées « étranges » apparaissent. Selon la situation, la donnée a été soit corrigée à l’aide d’autres sources d’informations s’il en existe, soit mise en lacune, soit conservée s’il s’avère que bien qu’étrange, elle puisse être réaliste. Les analyses des pluies par événement ont montré les nom- breuses pannes ou défaillances des appareils pluviographiques (bouché, partiellement bouché, etc). Ce jeu de données de pluies issus de services opérationnels est donc très riche (beaucoup de postes, données à pas de temps fin). Il a été examiné lors de différents contrôles : certaines erreurs ayant pu être corrigées, d’autres non en raison d’un défaut d’informations complémentaires permettant de le faire de manière assurée. Le temps passé à l’analyse de ces données est important, mais devant l’ampleur de la tâche (jusqu’à 27 ans de données mises au pas de temps horaire), il est possible que des défauts dans ce jeu de données subsistent encore.

3.2.4 Analyses des données de débits

Une analyse des données de débits pour les onze bassins d’étude a été réalisée.

Quelques exemples de contrôles peuvent être lus en annexe A.3.4.3 à partir de la page 384

Caractéristiques des données Les caractéristiques présentées dans le tableau TAB.3.2, sont donc celles issues de l’analyse du jeu de données à notre disposition, mélangeant des débits instan- tanés et des débits moyens désagrégés. Une comparaison avec les données de la banque HYDRO permet de vérifier que les données dont nous disposons sont, la plupart du temps, suffisamment représentatives des débits des bassins versants, malgré leur hétérogénéité et le nombre d’années disponibles parfois assez réduit (6 ans pour Coubon et Pandraux ; 14 ans pour Besseyre). On peut toutefois noter que ce n’est pas exactement le cas pour les observations réalisées à Coubon.

Qualité des jeux de données Comme cela a été noté précédemment, les données de débits des stations CRISTAL (9 stations sur les 11) ne sont pas homogènes. Pour la plupart des données les plus anciennes (à l’exception de quelques événements de crues particulièrement intéressants), on ne dispose que des débits moyens journaliers (QMJ), alors que pour les années récentes et pour les crues dont les hydrogrammes sont disponibles et ont été dépouillés, on dispose de débits instantanés.

Bassin Années Moy éc-t. CV% Min Max (date, Qsp) 10% Méd 90% 95% 99% Cros 20 0.7 1.8 2.6 0.02 90 (nov 02a, Qsp=4.5) 0.08 0.31 1.58 2.65 5.92 Rieutord 20 2.7 6.9 2.5 0.03 443 (sept92, Qsp=7.4) 0.21 1.15 5.69 8.08 23.38 Goudet 22 5.0 11.2 2.4 0.44 868 (nov 96, Qsp=2.0) 1.56 2.88 8.23 12.43 37.16 Besseyre 14 1.3 1.9 1.5 0.01 81 (nov 96, Qsp=1.6) 0.25 0.81 2.54 3.69 7.78 Coubon 6 8.1 15.9 2.0 1.35 644 (oct 01, Qsp=0.9) 2.51 5.50 13.33 19.54 52.25 Pandreaux 6 1.6 3.1 1.9 0.01 103 (dec 03, Qsp=1.0) 0.15 0.90 3.35 4.45 10.95 Espaly 19 3.1 4.2 1.5 0.09 185 (dec 03, Qsp=0.5) 0.64 1.69 6.06 8.78 21.23 Chadrac 27 14.8 24.1 1.6 0.72 1361 (nov96, Qsp=1.0) 3.63 9.07 28.72 40.76 94.13 Chambon 27 3.2 6.2 1.9 0.01 291 (nov 96, Qsp=2.1) 0.32 1.88 6.63 9.60 22.83 Vaubarlet 27 3.4 3.8 1.1 0.03 104 (dec 03, Qsp=0.5) 0.58 2.40 6.75 9.33 17.77 Bas-en-B 27 37.3 51.5 1.4 1.24 3484 (sept 80, Qsp=1.1) 6.45 23.73 79.97 108.20 209.44

a : cette valeur de débit maximum apparaît également lors des crues de janvier et novembre 1996

TAB. 3.2 – Récapitulatif des caractéristiques des débits des bassins d’étude (m3.s−1). Le débit spécifique Qsp est indiqué en m3.s−1.km−2. 0 20 40 60 80 100 120 140 0 50 100 150 200 250 300 19930921 heures Débits m3/s ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Chadrac Chambon Vaubarlet Bas Goudet Cros Rieutord Espaly

Documents relatifs