• Aucun résultat trouvé

3.3 Vers un formalisme plus clair : le point de vue bayesien

3.3.3 Exemples d’applications

J’ai choisi de présenter dans cette section quatre exemples qui illustrent le fonctionnement de l’algorithme MCMC et la diversité des informations que l’on peut recueillir sur un mo-dèle et ses paramètres en choisissant le point de vue bayesien et en utilisant un algorithme MCMC lors de son calage. Dans tous les cas, la fonction de transition retenue est une fonction de densité gaussienne. La matrice de covariance est initialement choisie avec des termes de covariance nuls et des variances relativement faibles. L’algorithme MCMC se comporte dans un premier temps comme un algorithme d’optimisation de type simplex avant d’explorer les régions situées au voisinage d’un maximum de la fonction de vrai-semblance L(Θ|Y ). La matrice Σ est réajustée à quelques reprises au cours du calcul en fonction de la matrice de covariance des paramètres retenus par la chaîne de Markov.

3.3.3.1 Un cas test : ajustement du modèle de liaison génétique

Ce premier exemple est extrait de l’ouvrage de Tanner (1996). Il permet d’illustrer le fonctionnement des algorithmes de type MCMC. Le modèle étudié ne comporte qu’un seul paramètre θ ∈ [0, 1]. L’expression analytique de la vraisemblance est la suivante :

L(θ) ∝ (2 + θ)125(1 − θ)38θ34 (3.11)

La comparaison de la densité de probabilité des valeurs du paramètre θ échantillonnées à l’aide d’un algorithme MCMC et de la densité théorique donnée par l’équation 3.11 est relativement satisfaisante (cf. figure 3.5). On peut y distinguer tout au plus un léger sous-échantillonnage des valeurs les plus probables et un petit biais (décalage du centre de gravité de l’histogramme vers la droite).

Ce premier exemple simple permet aussi de tester l’impact de la fonction de transition, du choix de la variance Σ de la loi normale dans laquelle sont tirées les valeurs candidates, sur la chaîne de Markov et sa vitesse de convergence (cf. figures 3.6.a, b et c). Lorsque la valeur de Σ choisie est trop faible, l’algorithme progresse lentement vers l’optimum (cf. figure 3.6.a). La chaîne de Markov n’a pas convergé au bout de 5000 tirages. La convergence est plus rapide lorsque Σ augmente : les valeurs des paramètres échantillonnées oscillent autour de la valeur maximisant la vraisemblance θ = 0, 623 (cf. figure 3.6.b et c). Au contraire, lorsque la valeur de Σ est trop élevée, la génération d’un nombre trop important de candidats rejetés ralentira l’algorithme. D’après Gelman, le taux optimal d’acceptation des jeux de paramètres candidats se situe entre 44% dans le cas d’un paramètre unique et

Fig. 3.5 – Distribution a posteriori du paramètre θ : distribution théorique en trait continu (eq. 3.11) et échantillonnage MCMC (histogramme).

23% si plus de 5 paramètres sont à caler. Ce taux est obtenu, toujours d’après Gelman, lorsque la fonction de transition est une densité gaussienne de matrice de covariance Σ avec Σ = cΣΘˆ où ΣΘˆ est la matrice de covariance a posteriori des paramètres du modèle et c = 2.4√

d, d étant le nombre de paramètres. Ces valeurs donnent des orientations pour l’ajustement de la matrice Σ et le choix de la fonction de transition. Dans le cas présent, on obtient bien un taux d’acceptation de 44% pour Σ = 14.4 10−3, la variance a posteriori du paramètre θ étant égale à 5.1 10−3.

Cet exemple confirme bien les ordres de grandeur empiriques proposés par Gelman. Dans les exemples suivants, la matrice Σ est réajustée à quelques reprises au cours du calcul en fonction de la matrice de covariance des paramètres retenus par la chaîne de Markov ΣΘˆ, en utilisant le coefficient multiplicateur proposé par Gelman : Σ = 2.4√

Θˆ.

3.3.3.2 Le cas élémentaire de l’ajustement linéaire en guise de mise en bouche (Gaume, 1999)

L’identification des paramètres d’un modèle linéaire ajusté sur une série de dix valeurs simulées est la seconde illustration de l’application des algorithmes MCMC. Le modèle dont les valeurs des paramètres sont à estimer est le suivant (X = (x0, ..., xi, ...xn) et Y = (y0, ..., yi, ...yn) étant les vecteurs des données mesurées) :

3.3 Vers un formalisme plus clair : le point de vue bayesien 39

Fig. 3.6 – Evolution de la valeur du paramètre θ en fonction des itérations de la chaîne de Markov : a) Σ = 0.6 10−3 et 99% des candidats acceptés, b) Σ = 2.5 10−3 et 70% des candidats acceptés, c)Σ = 14.4 10−3 et 44% des candidats acceptés.

ou encore

Y = AX1+ E (3.13)

Où A est le vecteur (a,b) et la première ligne de la matrice X1 est composée de 1 et la seconde du vecteur X. E est un vecteur de variables aléatoires indépendantes suivant une loi normale N (0, σ2). Ce modèle comporte trois paramètres dans l’approche bayesienne : a, b, et la variance σ2. Les valeurs de Y simulées ont été obtenues ici en prenant a = 2, b = 0, et σ = 0.1. Sans connaissances a priori sur les valeurs des paramètres, en appelant n le nombre d’observations et en supposant que les résidus sont distribués normalement leur vraisemblance L(E|a, b, σ) est proportionnelle à :

L(E|a, b, σ) ∝ 1 σnexp n X i=1 yi− axi− b 2σ2 ! (3.14)

Ce second exemple est intéressant dans la mesure où, si l’on suppose, comme nous l’avons fait, la normalité des résidus, il existe un certain nombre de résultats théoriques concernant les distributions a posteriori des paramètres du modèle linéaire dans le cas où le critère des moindres carrés est utilisé (Saporta, 1990), auxquels on peut espérer comparer les résultats de l’approche MCMC. Remarquons que la vraisemblance inclut la somme des carrés des résidus. Cependant, les deux critères et donc les deux approches, moindres carrés d’une part et approche bayesienne combinée à l’algorithme MCMC, ne sont pas équivalents dans la mesure où un paramètre supplémentaire, à savoir σ est considéré dans le second cas. Le vecteur des paramètres minimisant la somme des résidus au carré est donné par ˆA =

Fig. 3.7 – Distributions des estimateurs ˆa et ˆb dérivées théoriquement sur la base de l’estimation des moindres carrés (trait continu) et évaluées par application de l’algorithme MCMC (histogrammes).

Fig. 3.8 – Matrices de covariance des paramètres obtenues par l’approche bayesienne (cal-culée à partir de l’ensemble des jeux de paramètres générés par l’algorithme MCMC) et par la méthode des moindres carrés.

(X10X1)−1X10Y , ce qui conduit dans le cas présent aux estimations suivantes pour les pa-ramètres a et b : ˆa = 2.027 et ˆb = −0.007. De plus la matrice de covariance de ˆA est égale à σ2(X10X1). Les valeurs maximisant la vraisemblance sont très proches mais pas égales : ˆ

a = 2.027 et ˆb = 0.021. Cette différence peut-être attribuée à l’intégration du paramètre supplémentaire σ dans l’approche bayesienne. Les distributions a posteriori des paramètres a et b (figure 3.7) et les matrices de covariance obtenues à l’aide des deux méthodes (fi-gure 3.8) sont très proches. On peut remarquer la très faible variance de l’estimateur du paramètre σ2 dans l’approche bayesienne et les faibles covariances entre cet estimateur et les deux autres paramètres, ce qui explique la proximité des résultats obtenus par les deux approches.

La figure 3.9 illustre l’effet de la propagation des incertitudes liées à l’estimation des pa-ramètres a et b et au terme d’erreur E sur les résultats de simulations. Cette figure a été

3.3 Vers un formalisme plus clair : le point de vue bayesien 41

Fig. 3.9 – Ajustement moyen (pointillés) et intervalles de confiance à 90% reconstitués par simulations Monte Carlo dans les cas où les paramètres du modèle du modèle linéaire ont été ajustés par la méthode des moindres carrés (traits continus) ou à l’aide de l’algorithme MCMC (pointillés).

obtenue par simulations Monte Carlo : séries de simulations effectuées en tirant aléatoi-rement les valeurs de a et b, ainsi que σ dans le cas MCMC, dans leurs distributions a posteriori, ainsi que les valeurs des i. Les deux intervalles de confiance à 90% reconstitués à partir de l’ajustement par la méthode des moindres carrés ou l’algorithme MCMC sont très proches, du fait, là encore, de la faible variance de l’estimateur du paramètre σ dans le cas de l’application de l’algorithme MCMC.

Dans un cas de figure où les résultats de l’approche bayesienne et l’algorithme MCMC doivent conduire à des résultats très proches de la méthode des moindres carrés, on vérifie la pertinence de l’approche bayesienne. Passons à présent à des exemples un peu plus complexes, portant sur des modèles non linéaires.

3.3.3.3 Ajustement d’une fonction de densité de probabilité conditionnelle

Cet exemple est issu d’un travail de développement d’un modèle stochastique de pluie (Thauvin et al., 1998). Ce modèle définit, entre autres éléments constitutifs des événements pluvieux, des périodes de moindre intensité, dites périodes inter-averses. Ces inter-averses ont une intensité x comprise entre 0 et 3.2 mm/h et une durée D. Il s’agissait de caler la loi de probabilité de x compte tenu des échantillons de pluie mesurés. Une densité de probabilité de type Beta a été retenue pour décrire la distribution de la variable transformée x0 = x/3.2 prenant ses valeurs dans l’intervalle [0, 1] :

f (x, q, p) = Γ(p + q) Γ(p)Γ(q)x

p−1(1 − x)q−1 (3.15)

Cette densité de probabilité comporte deux paramètres p et q qui sont reliés à l’espérance µ et à la variance σ2 de x : p = µ µ(1 − µ) σ2 − 1  q = (1 − µ) µ(1 − µ) σ2 − 1  (3.16)

Une analyse détaillée des données mesurées a révélé que l’espérance de x n’était pas indé-pendante de la durée des inter-averses D. On a donc cherché à caler une relation entre µ et D :

µ = a + bDc (3.17)

Au final, le modèle à caler comportait donc quatre paramètres a, b, c et σ2. En notant X0 le vecteur des n valeurs observées x0i, la fonction de vraisemblance de ces paramètres a pour expression : L(a, b, c, σ2|X0) ∝ n Y i=1 f (x0i, a, b, c, σ2) (3.18)

Le modèle de densité de probabilité proposé s’ajuste de manière très satisfaisante à la densité de probabilité empirique reconstituée à partir des données observées (cf. figure 3.10). L’ajustement n’est cependant pas parfait, un test de Chi2 ou de Kolmogorov conduit à rejeter l’égalité des distributions empiriques et théoriques.

L’analyse des distributions a posteriori des paramètres révèle plusieurs caractéristiques du modèle et du jeu de données utilisées pour son calage. D’une part, les densités de probabilité des paramètres σ2 et a sont relativement resserrées : le jeu de données disponible semble suffisamment informatif pour caler les valeurs de ces deux paramètres du modèle. D’autre part, les densités a posteriori des paramètres b et c sont bimodales. Cette bimodalité des densités a posteriori a déjà été constatée sur d’autres types de modèles (Kuczera, 1997). Elle est probablement le signe que le modèle de dépendance statistique proposé (équation 3.17) est trop simpliste et ne permet pas de rendre compte de la relation entre la durée et les distributions d’intensités des inter-averses sur toute la gamme des durées possibles. Il existe probablement une gamme de valeurs de paramètres plus adaptée aux durées élevées et une gamme plus adaptée aux faibles durées. L’algorithme MCMC a permis d’identifier

3.3 Vers un formalisme plus clair : le point de vue bayesien 43

Fig. 3.10 – Densité de probabilité empirique de la variable x0 et quelques fonctions de densité théoriques calées.

deux minimums de la fonction de vraisemblance au bout de 12000 tirages dans ce cas. Rien ne garantit cependant qu’il n’en existe pas un plus grand nombre dans d’autres régions de l’espace des valeurs des paramètres que la chaîne de Markov aurait pu exploré avec un nombre plus important de tirages. Après 6000 tirages, l’algorithme MCMC n’avait en effet identifié qu’un minimum.

On pourrait imaginer complexifier encore le modèle de dépendance statistique. Cependant, la multiplication du nombre de paramètres risquerait de rendre leur identification plus délicate. On observe déjà une nette corrélation entre les valeurs des paramètres a et c dans les jeux de paramètres échantillonnés par l’algorithme MCMC (cf. figure 3.12).

L’analyse des incertitudes sur les valeurs des paramètres après calage par l’intermédiaire d’un algorithme MCMC a montré, dans ce cas, tout à la fois que le jeu de données était suffisamment riche pour ajuster les valeurs des paramètres du modèle proposé et que sa complexification pouvait rapidement conduire à des difficultés d’identification : densités de probabilité multi-modales et dépendances entre paramètres.

3.3.3.4 Ajustement d’un modèle de calcul de flux de polluants en réseaux d’assainissement urbain

Nous reprenons ici l’exemple du modèle de calcul de flux de polluants présenté dans la section 3.2.2.3 ci-dessus. L’approche bayesienne et un algorithme MCMC ont été utilisés pour caler ce modèle sur un jeu de données beaucoup plus riche : pollutogrammes de 40 événements pluvieux mesurés dans un réseau d’assainissement urbain à l’exutoire d’un

Fig. 3.11 – Distributions a posteriori des paramètres du modèle stochastique de densité de probabilité Beta conditionnée.

Fig. 3.12 – Relations entre les valeurs des différents paramètres dans l’échantillon des jeux de paramètres retenus par l’algorithme MCMC.

3.3 Vers un formalisme plus clair : le point de vue bayesien 45

Fig. 3.13 – Valeurs des paramètres et des vraisemblances des jeux échantillonnés par l’algorithme MCMC.

bassin versant expérimental situé dans le quartier du Marais à Paris (Kanso, 2004; Kanso et al., 2003).

Dans une perspective bayesienne, le modèle est reformulé selon l’équation 3.9. Les rési-dus E (erreurs de modélisation) ont été supposés indépendants et identiquement distribués suivant une loi de Gauss N (0, σ2). Quatre paramètres sont donc à estimer : les trois para-mètres du modèle d’accumulation et de lessivage des polluants (appelés ddlim, washpo et recoef) et l’écart-type σ des résidus.

L’application de l’algorithme MCMC pour le calage des paramètres du modèle conduit à des résultats très comparables à ceux obtenus par une approche ”globale” dans la section 3.2.2.3. Les distributions a posteriori des paramètres sont relativement étalées sauf peut-être pour le paramètre washpo (figure 3.13). Les ordres de grandeur pour les valeurs des paramètres sont comparables et une analyse détaillée révèle des dépendances entre les paramètres (Kanso, 2004).

L’approche bayesienne apporte cependant une information complémentaire majeure. L’écart-type moyen calé des résidus de 133 mg/l est très proche de l’écart-L’écart-type de la série des concentrations utilisée pour caler le modèle, soit 151 mg/l. En d’autres termes, une grande partie de la variabilité des concentrations observées n’est pas expliquée par le modèle dé-terministe de calcul de flux de polluants retenu et est portée par le modèle des résidus E (cf. figure 3.14).

L’approche bayesienne confirme sans ambiguïté ce que beaucoup d’utilisateurs de modèles pressentaient : les modèles de calcul de flux de polluants dans les réseaux d’assainisse-ment actuelled’assainisse-ment disponibles ne permettent pas d’expliquer les fluctuations observées des concentrations en polluant des eaux dans les réseaux d’assainissement. Par ailleurs,

(a) (b)

Fig. 3.14 – Comparaison des pollutogrammes mesurés et simulés pour deux événements pluvieux et estimation des intervalles de confiance à 95% par simulation Monte Carlo : a) prise en compte des seules incertitudes sur les valeurs des paramètres du modèle de calcul de flux de pollution (pollutogramme de calage), b) avec prise en compte des incertitudes liées aux résidus (pollutogramme de validation).

les dépendances observées entre les paramètres de modèles simples ne laissent pas beau-coup d’espoir d’améliorer les performances des modèles en les complexifiant. Multiplier le nombre de paramètres rendra d’autant plus difficile leur identification, ce qui a été confirmé (Kanso, 2004). Seule une augmentation importante des effectifs des échantillons de don-nées disponibles pour le calage des modèles permettrait le développement de modèles plus élaborés. Dans cet exemple, l’approche bayesienne a clairement montré les limites des mo-dèles de flux de polluants calés sur des séries de données assez limitées. Compte tenu de la complexité des processus en jeu et des limites des jeux de données disponibles pour caler des modèles, tout laisse penser que les fluctuations des concentrations en polluants dans les réseaux d’assainissement devront être considérées encore longtemps comme un processus essentiellement aléatoire.