Méthodes Monte Carlo par Chaînes de Markov

Chapitre 2 : État de l’art : calibration et statistiques Bayésienne

2.3. Calibration : techniques et définitions

2.3.3. Méthodes Monte Carlo par Chaînes de Markov

Les Méthodes Monte Carlo par Chaînes de Markov (« Monte Carlo Markov Chain ») sont des méthodes d’échantillonnage permettant d’effectuer des tirages à partir des distributions de probabilité. L’apparition de ce genre de moyens de calcul puissant s’est avérée efficace pour l’application de l’approche Bayésienne, et l’association de ces deux méthodes permet l’estimation de paramètres au sein des modèles complexes [Pinheiro et Bates, 2000].

Face à la complexité des modèles et des calculs nécessaires pour la calibration, les méthodes MCMC basées sur l'algorithme de Metropolis-Hastings [Metropolis et al., 1953]

présentent une solution pour contourner ces difficultés et pour générer un échantillon représentatif de la distribution a posteriori à partir du vecteur des paramètres.

Parmi les algorithmes permettant d’appliquer les méthodes MCMC, l’algorithme Metropolis-Hastings qui est l’un des algorithmes les plus simples et les plus performants en raison de son adaptation aux modèles complexes basés sur les processus et de toutes tailles (plus particulièrement les modèles de ≥ 10 paramètres), et parce qu’il ne nécessite pas de connaissances préalables sur la forme de la distribution a posteriori à générer.

L’algorithme de Metropolis est séquentiel dans le sens où il crée une « marche» à travers l’espace de paramètres de telle sorte que la chaîne des points visités tend vers l’échantillon recherché à partir du posterior. C’est ce qu’on appelle une marche aléatoire où chaque nouveau point de la chaîne est trouvé en générant aléatoirement un vecteur de paramètres candidats, et chaque paramètre candidat peut être accepté ou rejeté. Le vecteur de paramètres candidats est généré à travers un « pas » d’une distribution normale multivariée à partir du vecteur actuel. Comme pour cela, nous avons besoin d’une matrice de variance pour définir cette distribution normale multivariée, la matrice proposée est une simple matrice diagonale [Gelman et al., 1996]. L’acceptation d’un paramètre candidat proposé ou son rejet dépend du rapport de Metropolis, qui représente le rapport de deux produits: la vraisemblance du candidat et la vraisemblance du point courant (voir Algorithme 1). Si le ratio de Metropolis est supérieur à 1, c'est-à-dire que la probabilité a posteriori du candidat est supérieure à la probabilité du point actuel alors il est accepté. Si le ratio de Metropolis est inférieur à 1, c'est-à-dire que le candidat est « moins probable » que le vecteur actuel, le candidat peut encore être accepté mais seulement avec une probabilité égale au ratio de Metropolis, si non le candidat est rejeté. Le taux d’acceptation optimal est entre 25% et 45% selon le nombre de paramètres calibrés [Gelman et al., 2003]. La chaîne s’arrête quand il y a « convergence », c'est à dire qu'elle a exploré l'espace des paramètres de façon adéquate. La convergence peut être confirmée visuellement en utilisant les tracés de courbes des différents paramètres qui montrent comment la chaîne se déplace à travers l'espace de chaque paramètre (Figure 10). Pour assurer la convergence, il existe plusieurs solutions comme, par exemple, augmenter la taille de la chaine c'est-à-dire le nombre d’itérations ou bien lancer plusieurs chaines en parallèles mais avec des points de départ différents.

À la fin de la calibration, nous obtenons donc une distribution a posteriori des paramètres, c'est-à-dire un ensemble de valeurs pour chaque paramètre. L’approximation par maximum de la FDP nous permet alors d’obtenir la nouvelle valeur unique pour chaque paramètre que nous pouvons utiliser ensuite dans les simulations du modèle.

Requis : (1) Un modèle: M

(2) Des données: D

(3) Une distribution de probabilité a priori pour les paramètres: P(θ) (4) La fonction de vraisemblance: P(D/θ) qui est une fonction de la différence M(θ)-D

Implémentation: (1) Sélectionnez un point de départ dans l'espace des paramètres, θ(0) (2) Calculer le produit du prior et de la vraisemblance:

π(0)

=P(θ(0)).P(D/θ(0))

(3) Initialiser i=0 (nombre de candidats acceptés)

(4) Exécutez la boucle suivante jusqu'à ce que nous ayons suffisamment d'échantillon de points:

(i) Générer un nouveau point aléatoire, θ(candidat) (ii) Calculer π(candidat) = P(θ(candidat)).P(D/θ(candidat))

(iii) Calculer le ratio de Metropolis: π(candidate) / π(i)

(iv) Accepter le candidat ayant une probabilité égale à min (ratio Metropolis,1)

(v) Si le candidat est accepté: θ(i+1) = θ(candidat), sinon: θ(i+1) = θ(i)

(vi) Incrémenter i=i+1

Résultat: (1) Un échantillon représentatif {θ(0) …θ(n)} à partir de la fdp du

Figure 10. Exemple d‘une chaine de valeurs d’un paramètre θ générée par la méthode MCMC de longueur 10 000 : à droite convergence atteinte et à gauche convergence non atteinte

Choix de la méthode Bayésienne

La calibration des modèles éco-systémiques constitue un problème complexe vu la grande variabilité des processus à reproduire, le nombre de paramètres qui est souvent important avec une forte incertitude ainsi que les incertitudes liées aux données et au modèle lui-même. Ce qui est le cas, par exemple, de notre modèle d’application PaSim dont le code brut est écrit en plus que 60 000 lignes comptant approximativement 150 paramètres pour la végétation et quasiment 500 variables de sortie. Cela témoigne effectivement de la complexité du modèle et de l’importance du nombre des paramètres qui y sont inclus.

Le choix de la calibration Bayésienne vient donc d’abord du fait que cette technique s'applique à tout type de modèle quelle que soit la taille et surtout pour les modèles comptant un nombre important de paramètres. En plus, cette méthode permet de combiner le paramétrage du modèle avec l’analyse d’incertitude, elle permet d’intégrer et de synthétiser plus facilement diverses sources d’information (données, modèles, expertises) [Figure 11]. Toutefois, la principale caractéristique de l’approche Bayésienne est qu’elle quantifie les paramètres et les sorties du modèle sous la forme de distributions de probabilité, et applique les règles de la théorie des probabilités à travers la vraisemblance pour mettre à jour ces distributions à travers les données disponibles [Sivia, 1996]. Bien que quelques logiciels spécifiques de calibration Bayésienne existent comme, par exemple,

ou outil spécifique pour la faire tourner, pouvant être développée sous plusieurs environnements et outils génériques de calcul scientifique (ex. R, MATLAB…) ou codé en langages informatiques ayant des librairies statistiques (ex. C/C++, Java…). Ces atouts majeurs de la calibration Bayésienne la distinguent des autres approches permettant principalement d’utiliser la nouvelle distribution a posteriori des paramètres pour obtenir des nouvelles valeurs plus précises et moins incertaines [van Oijen et al., 2005].

Toutes ces raisons confortent le choix de la méthode, qui était déjà en partie suggéré par le cadre applicatif de cette thèse notamment par les projets européens CARBO-Extreme et ANIMALCHANGE. En effet, même si une bonne marge de liberté était accordée dans le choix du modèle et des sites à utiliser, les données d’entrée utilisées dans la thèse sont en grande partie fournies par les projets européens et certaines simulations ont été réalisées avec PaSim pour répondre aux différents objectifs mis en jeu dans le cadre de ces mêmes projets.

Figure 11. Interaction entre modèle, données et expertise grâce à l’approche Bayésienne pour l’amélioration des résultats du modèle et la réduction d’incertitude sur les paramètres

Dans le document Calibration Bayésienne d'un modèle d'étude d'écosystème prairial : outils et applications à l'échelle de l'Europe (Page 45-50)