• Aucun résultat trouvé

CONTEXTE SCIENTIFIQUE ET ETAT DE L’ART

CHAPITRE 2 2 Processus et modèles existants

3.5 Vérification, validation, évaluation de modèles 1 Définitions

L’évaluation rigoureuse des modèles est nécessaire pour guider les efforts de modélisation dans la bonne direction (Kirchner et al., 1996). Rykiel (1996) a fait une revue des différents concepts de validation dans la littérature. Parmi ces concepts, certains auteurs font la distinction entre la qualité des prédictions d’un modèle pour un écosystème particulier et la transposabilité du modèle (qualité des prédictions pour une large gamme d’écosystème). On peut également distinguer les modèles construits pour comprendre un système des modèles de prédiction pure. Un modèle peut être jugé sur la validité des hypothèses testées et sur sa capacité de prédiction mais la validité des hypothèses n’engendre pas forcément la qualité des prédictions, ne serait-ce que parce que le modèle ne prend pas en compte tous les processus présent dans le système qu’il décrit.

La vérification est la démonstration que la formalisation du modèle est correcte (les hypothèses sont correctement traduites dans le code du modèle, la formalisation mathématique est correcte).

La validation est la démonstration que le modèle possède dans son domaine d’application une précision adaptée à l’application pour laquelle il est destiné. Le modèle est acceptable pour une certaine utilisation, mais on ne le juge pas dans l’absolu et le but de la manœuvre n’est pas de démontrer que c’est le meilleur des modèles.

La validation opérationnelle consiste à démontrer que les sorties du modèles atteignent les performances requises par l’utilisation que l’on en fait. Elle utilise largement des critères statistiques sur la comparaison des données mesurées et modélisées. Cependant, cette validation ne garanti pas que les hypothèses du modèle traduisent effectivement les processus en jeu dans le système.

La validation conceptuelle s’attache à cet aspect. Mais comme certains processus peuvent manquer dans le modèle, une validation conceptuelle ne garanti pas la succès de la validation opérationnelle.

D’autre part, on ne peut pas assurer que les données utilisées représentent avec précision le système réel et assurent le meilleur test du modèle. On ne doit pas attendre des données modélisées qu’elles soient plus précises que les données observées. Il nous faut donc estimer les erreurs sur les variables observées avant de réaliser la validation des modèles. Nous prenons également en compte l’erreur propagée dans le processus de modélisation par la résolution temporelle des données de pluie en alignant les variables, observées à un pas de temps de mesure fixé par l’instrumentation, sur ce pas de mesure de la pluie. Loague et Green (1991) soulignent également que le degré de performance attendu en validation du modèle ne doit pas être supérieur au degré obtenu en calibration. On ne doit pas non plus perdre de vue que c’est l’utilisation que l’on fait du modèle qui détermine le degré de performance nécessaire. De plus, une donnée observée contenue dans les intervalles d’incertitude calculés en sortie du modèle ne garanti pas que la structure du modèle soit correcte. En effet, la variable observée sur le terrain peut ne pas avoir un pouvoir discriminant suffisamment fort, notamment à cause de la variabilité non négligeable des données réelles, et permettre d’accepter plusieurs modèles de structures très différentes. C’est ce que montrent Kirchner et al. (1996), dans une étude sur la relation entre les concentrations de deux substances dans l’eau à l’exutoire d’un bassin et le débit : la structure de la relation entre les deux concentrations, que les auteurs cherchent à modéliser, est masquée par l’influence dominante du débit sur les concentrations. Il faudrait donc pouvoir séparer ces influences pour discriminer les modèles testé

CHAPITRE 2 3. Modélisation

- 127 -

(Kirchner et al. (1993) proposent des techniques de séparation), mais cela reste difficile avec des données réelles.

Hatterman et al. (2005) soulignent l’importance d’une validation multi-critères, et multi-échelles pour les modèles distribués : sur les débits, mais également sur d’autres variables, au niveau de l’exutoire du bassin et de l’exutoire de sous-bassins.

L’évaluation des performances d’un modèle doit comprendre à la fois des critères statistiques et des visualisations graphiques, car une bonne vérification de modèle nécessite à la fois un jugement d’expert et un ou plusieurs critères statistiques plus objectifs.

3.5.2 Mise en œuvre de la validation d’un modèle

3.5.2.1 Critères statistiques sur les erreurs résiduelles

Parmi les critères statistiques, Loague et Green (1991) citent les tests d’hypothèses sur les moyennes ou les variances des distributions des valeurs observées et prédites. Les tests statistiques demandent que certaines hypothèses soient vérifiées : (i) le critère statistique utilisé (moyenne) a distribution normale, (ii) les variances des différentes distributions sont constantes, (iii) les individus d’un échantillon sont indépendants. Malheureusement les données de qualité d’eau dans le temps sont rarement indépendantes les unes des autres, c’est pourquoi on mène généralement les tests sur les erreurs résiduelles (différence entre valeur observée et valeur modélisée) : si la structure des données est bien modélisée il ne doit rester aucune structure dans la population des erreurs résiduelles. Reckhow et al. (1990) proposent une revue des tests statistiques. (i) le t-test de Student (la moyenne des erreurs est-elle nulle ?) nécessite les trois hypothèses précédentes, (ii) le test de Wilcoxon peut-être utilisé si l’hypothèse de normalité n’est pas vérifiée ; le problème de l’indépendance reste central pour ces deux tests, (iii) le test de Kolmogorov-Smirnov.

Le modèle est validé s’il est impossible de rejeter l’hypothèse de différence entre la population des valeurs observées et celle des valeurs prédites. Le problème c’est que H0 l’hypothèse nulle (= l’erreur moyenne est nulle (indique un bon modèle)) peut être acceptée si le modèle est bon, mais aussi si modèle et données sont variables dans les mêmes proportions. Donc si la qualité des données est insuffisante on ne peut rien conclure (Reckhow et al., 1990).

Plus souvent, c’est l’analyse des erreurs résiduelles qui est employée comme critère statistique d’évaluation d’une modélisation avec le calcul de critères, dont nous présentons une revue dans le chapitre II-4.2.

Parmi les graphiques ayant un intérêt pour l’évaluation d’un modèle il y a bien sûr la comparaison des chroniques de concentrations observées et modélisées. On peut également représenter les concentrations prédites en fonction des concentrations observées pour vérifier s’il y a linéarité et pour identifier facilement les erreurs systématiques (sur- ou sous-estimation du modèle). Mais Kirchner et al. (1996) démontrent sur la base de modèles simples que les deux méthodes classiques pour comparer les prédictions des modèles aux données environnementales (à savoir tracer sur un même graphique les séries temporelles modélisées et les séries mesurées et construire le graphique des valeurs modélisées versus les valeurs observées) n’ont qu’un faible pouvoir de diagnostic.

On peut également analyser une éventuelle structure des erreurs de modélisation. Ces représentations permettent d’analyser une éventuelle structure dans les erreurs résiduelles du modèle.

CHAPITRE 2