• Aucun résultat trouvé

Méthode de développement et d’évaluation des modèles

1.3.1 Règles du jeu

Le choix d’une méthode de travail fait nécessairement l’objet de conventions. Celle que nous présentons ici n’est rien d’autre qu’un ensemble de règles du jeu, que nous choisissons de suivre parce qu’elles nous semblent saines. En vertu du principe selon lequel rien ne saurait être soustrait à la critique, ces règles sont elles-mêmes susceptibles d’être critiquées (et nous ne manquerons pas de le faire au Chapitre 11).

1. Aucune loi, aucun modèle à quelqu’échelle que ce soit, et notamment aucune équa-tion physique, n’est considérée comme validea priori ni définitivementvérifiée, et surtout pas à une échelle autre que celle où elle a été établie,

2. Un modèle digne de ce nom doit pouvoir être soumis à des tests empiriques, c’est-à-dire confronté à des observations. Par conséquent, les conclusions tirées de cas

« synthétiques » peuvent être utiles à la réflexion mais ont un intérêt scientifique limité, en l’absence de fondement empirique. Le modèle ne doit pas non plus nécessiter, pour fonctionner, de données qui ne soient pas couramment disponibles, car cela reviendrait à restreindre les possibilités de test,

3. Ces tests empiriques ne doivent pas avoir pour objectif deconfirmerles modèles, mais au contraire de les mettre en défaut. Par conséquent, ils doivent être systématiques et de grande ampleur2, et l’on ne doit procéder à des tris dans les observations qu’avec la plus grande précaution,

1Suarez Miranda,Viajes des Varones Prudentes, Lib. IV, Cap. XIV, Lerida, 1658, cité par J.L. Borgès,Histoire Universelle de l’Infamie, 1935, etMathevet, 2005.

2Popper parle de «tentatives sincères et ingénieuses visant à les réfuter».

4. Les hypothèses supplémentaires ne doivent être introduites que pour des raisons de performance accrue, non pour des raisons « esthétiques ».

Ces règles nous incitent à privilégier des modèlessimplesau sens où l’entendPopper(1934, 1959), c’est-à-dire susceptibles d’être largement testés et réfutés :

“Nous pouvons répondre à toutes les questions épistémologiques que suscite le concept de simplicité si nous assimilons cette notion à celle de degré de réfutabilité.

À mon point de vue, l’on doit dire qu’un système estcomplexe au plus haut degrési, conformément à la pratique conventionnaliste, on y tient comme à un système à jamais établi qu’on est résolu à sauver, chaque fois qu’il est menacé, par l’introduction d’hypothèses auxiliaires. En effet, le degré de réfutabilité d’un système ainsi protégé est égal àzéro. Ainsi sommes-nous ramenés, par notre concept de simplicité, [. . . ] à cette règle ou principe qui nous interdit toute indulgence envers les hypothèsesad hocet les hypothèses auxiliaires : au principe de parcimonie dans l’usage des hypothèses.”

Kirchner(2006) propose une démarche tout à fait similaire, insistant lui aussi sur le fait que les modélisateurs doivent rechercher activement les limites de leurs modèles :

“In my view, advancing the science of hydrology will require new hydrologic measurements, new methods for analyzing hydrologic data, and new approaches to modeling hydrologic systems. These three essential aspects of hydrology will all be advanced if we take full advantage of the linkages between them. Some promising directions forward, in my view, include (1) designing new data networks, field observations, and field experiments, explicitly recognizing the spatiotemporal heterogeneity of hydrologic processes, (2) developing

“gray box” data analysis methods that are more compatible with the nonlinear, nonadditive character of hydrologic systems, (3) developing physically based governing equations for hydrologic behavior at the catchment or hillslope scale, recognizing that they may look different from the equations that describe the small-scale physics, (4) developing models that are minimally parameterized, and therefore stand some chance of failing the tests that they are subjected to, (5) developing ways to test models more comprehensively and incisively, given the intrinsic limitations of the available data.”

Incontestablement, ces principes conduisent à proposer des modèles qui paraissent « laids », c’est-à-dire dont la probabilité logique est faible : les modèles qui ne décrivent pas ex-haustivement la réalité, en sciences de l’environnement, rentrent typiquement dans cette catégorie. Pourtant, si l’on suit Popper, ces modèles excessivement simples sont ceux qui ont

le plus grand contenu. Ce sont ceux quidisentle plus de choses au sujet du réel, parce qu’ils interdisentbeaucoup (la gamme de comportements qu’ils autorisent est restreinte) : ils ont donc «d’avantage d’occasions d’entrer en conflit avec des énoncés de base», c’est-à-dire des compte-rendus d’observations (la classe de leurs « falsificateurs virtuels » est plus grande, pour utiliser la terminologie poppérienne). Ainsi, la loi de Darcy aurait été probablement d’un intérêt bien moindre si Darcy l’avait énoncée sous forme d’une relation polynomiale de degré huit entre le débit et le gradient de charge : hypothèse bien plus vague, donc bien plus probable sur un plan strictement logique, qu’une relation linéaire (cette forme étant inclue dans la première relation, on l’obtient en opérant une réduction formelle de sa dimension). . . Bien sûr, nous ne comparons pas les modèles pluie-débit à la loi de Darcy : ils sont infiniment moins bien corroborés que cette dernière (ils sont même systématiquement falsifiés). Cependant, le principe empirique reste : la « laideur » des modèles est en un sens la condition nécessaire pour pouvoir trancher entre certaines alternatives et apprendre quelque chose sur la réalité.A contrario, on n’apprend rien d’une tautologie, ou d’un modèle qui nécessiterait, pour fonctionner, un niveau de description trop exhaustif. Pour reprendre l’analogie précédente, une carte à l’échelle11ne nous serait absolument d’aucune utilité pour trouver notre chemin. . . Une carte est utile autant par ce qu’elle figure que par ce qu’elle omet, et il en va de même pour les modèles (ce n’est d’ailleurs pas une vision exclusivement utilitariste : cela nous semble vrai aussi bien pour les modèles de gestion que pour les modèles de pure compréhension).

Bien entendu, rien n’interdit de complexifier les modèles par la suite, s’ils s’avèrent défini-tivement trop squelettiques. La seule condition est que cette complexification donne lieu à une nouvelle, et encore plus large, mise à l’épreuve des observations. . . et ainsi de suite. Il ne s’agit pas de tomber dans les travers mentionnés précédemment pour l’exhaustivité, en faisant de la simplicité un critère esthétique, désirable en soi : elle n’est qu’un moyen.

1.3.2 Mise en oeuvre des tests

Nous pouvons maintenant présenter la façon concrète dont les modèles hydrologiques seront soumis au feu des tests empiriques, nos «tentatives sincères et ingénieuses visant à les réfuter». . . Ces tentatives reposent sur quatre principes :

1. L’utilisation du plus large échantillon de bassins versants possible. Chaque bassin ver-sant constituantuneobservation de la relation pluie-débit (en pratique, une observa-tion de trois séries temporelles concommitantes : pluie, évapotranspiraobserva-tion potentielle et débit), l’utilisation de plusieurs centaines de bassins versants est nécessaire pour juger statistiquement de la qualité d’un modèle pluie-débit,

Calage P1 Contrôle P1 → P2 Contrôle P1 → P3

Calage P2

Contrôle P2 → P1 Contrôle P2 → P3

Calage P3 Contrôle P3 → P1 Contrôle P3 → P2

Période 1 Période 2 Période 3

FIG. 1.3: Procédure desplit-sample test symétrique sur un bassin versant (Klemeš, 1986) pourn=3 périodes, donnant 3 critères de calage et 6 critères de contrôle. En calage comme en contrôle, le critère n’est calculé que pour les années « colorées », les années « blanches » étant des années d’initialisation où seuls les forçages climatiques sont utilisés.

2. Le recours, pour chaque bassin, à une procédure desplit-sample test(Klemeš, 1986), décrite sur la Figure 1.3. Le jeu de données est découpé en n périodes ; sur chaque période, le modèle estcalé(c’est-à-dire que l’on évalue les paramètres en minimisant une fonction objectif) puiscontrôlésur lesn−1 autres périodes. Nous obtenons donc n(n−1) mesures de la performance du modèle sur le bassin en contrôle, c’est-à-dire sur un jeu de données indépendant du jeu utilisé pour caler le modèle. Le plus souvent, nous utiliseronsn=2. Notons aussi que l’on permet au modèle une période d’initialisation (« préchauffage » utilisant les forçages climatiques réels) avant le début du calcul de la fonction objectif, pour limiter l’effet des conditions initiales sur la valeur du critère (en calage comme en contrôle). De façon à maximiser l’utilisation des données de débit, les périodes d’initialisation (où le débit observé n’est pas utilisé) sont choisies de façon à se superposer avec la période précédente.

3. La mesure, pour chaque période de calage ou de contrôle, de la performance du modèle au moyen d’un critère de typeNash et Sutcliffe(1970) :

CNS = 1− F

F0 (1.1)

ou sa version bornée (Mathevet et al., 2006) :

CM M = 1−FF0

1+FF0 (1.2)

F désigne l’erreur quadratique moyenne entre la série simulée et la série observée, et F0 la variance de la série observée : ces séries peuvent être les débits, ou une transformation des débits (racine carrée, logarithme, etc.). Ces critères étant compris respectivement dans ]− ∞,1] et ]−1,1], on utilise couramment 100·CNSet 100·CM M: nous éviterons autant que possible cette notation, qui induit en erreur (les critères CNSetCM M n’ont rien d’un pourcentage de variance expliquée). Par commodité, nous garderons tout de même le terme «point» pour désigner une variation de±0.01 sur ces critères.Le lecteur peu familier du critèreCM M pourra au besoin se référer à la table de correspondance entre les valeurs de ce critère et celles du critèreCNS: cette table se trouve en Annexe A, page 267,

4. La performance d’une structure est synthétisée par la distribution de ses critères de performanceen contrôlesur l’échantillon deNbassins versants, soitN n(n−1) valeurs.

Nous utiliserons couramment une représentation graphique de cette distribution sous forme de « boîtes à moustaches » (boxplot) :

CMM

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

ModèleM1 ModèleM2 +

5èmecentile 25èmecentile médiane 75èmecentile 95èmecentile

moyenne

+

FIG. 1.4: Représentation synthétique de la distribution des critères de performance. Laboîtecontient 50% des valeurs et lesmoustaches, 90%.

En particulier, la moyenne du critère CM M est utilisée comme critère synthétique (Mathevet et al., 2006) : ici, nous dirions que le modèleM2est meilleur que le modèle M1.

Le caractère « ingénieux » de ces tests, notamment l’utilisation d’un critère d’erreur quadra-tique et de sa moyenne sur un grand échantillon, sera discuté au dernier chapitre de la thèse.

En revanche, leur sincérité semble indiscutable !