Estimation des paramètres - Analyse des performances du modèle et calibration pour coller à la

1.4 Modélisation épidémiologique et génétique des maladies infectieuses

1.4.2 Analyse des performances du modèle et calibration pour coller à la réalité

1.4.2.3 Estimation des paramètres

Certains paramètres des modèles ne sont pas estimables à partir de la littérature. Leur estimation est une étape cruciale du processus de modélisation car les performances de prédiction du modèle sont basées sur la précision de ces estimations. L’objectif est donc d’approcher ces paramètres inconnus à partir de données (méthodes fréquentistes, considérées comme méthodes classiques), avec l’ajout possible d’une information a priori basée sur la connaissance d’experts (méthodes bayésiennes).

Méthodes classiques

Lorsqu’on parle de méthodes classiques, on fait référence à la calibration du modèle permettant de mieux ajuster les valeurs simulées à des données réelles. La première question à se poser est quels sont les paramètres les plus indispensables à estimer ? Pour répondre à cette question l’analyse de sensibilité (cf partie 1.4.2.2) prend tout son intérêt en discriminant les paramètres qui influencent le plus les sorties du modèle. Elle permet aussi de déceler s’il y a des interactions entre les paramètres, impliquant qu’ils devront être estimés conjointement, ou s’ils sont indépendants et pourront être estimés séquentiellement.

Ensuite, il faut choisir quelle méthode doit être utilisée pour ajuster le modèle aux données réelles. On dispose de plusieurs choix :

• Méthode des moindres carrés ordinaires (Ordinary least squares, OLS, [80]) qui consiste à minimiser la somme des carrés des écarts entre la valeur mesurée pour le ie `me individu (y_i) et la prédiction du modèle correspondant (f (x_i, θ), qui dépend de la variable

explicative xi et d’un vecteur de paramètres θ), i.e. sum of squared errors (SSE) : SSE =

i=1[yi− f (xi, θ)]2. La méthode OLS donne aussi une estimation de la variance résiduelle permettant de juger la qualité de l’estimation : ˆσ2

OLS =

i=1[yi− f (xi, θ)]2/(n − p), où n est le nombre d’observations et p le nombre de paramètres à estimer. Cette méthode est

une des plus communes dans l’analyse multivariée, cependant elle est basée sur l’hypothèse que les résidus sont indépendants et de variance constante.

• Méthode des moindres carrés pondérés (Weighted Least Squares, WLS) où la somme des erreurs au carré à minimiser est maintenant définie par : SSE =PN

i=1[yi− f (xi, θ)]2/σi2, avec σ_i2 la variance résiduelle à chaque xi. Nous allons ainsi attacher moins d’importance aux valeurs x_i où il y a une grande variabilité autour de f (x_i, θ) et où il y a donc peu d’in-

formation sur la vraie valeur des paramètres à estimer. Cependant, si les résidus ne sont pas indépendants il faut utiliser une méthode de moindres carrés généralisés ([151, 313]) basée sur une matrice de variance/covariance des résidus.

θtrue = θ, écrite L(θ|Y ), est définie comme la probabilité que le vecteur de paramètres θ permette d’obtenir des sorties identiques au vecteur Y des observations. L’estimateur

ML de θ_true sera donc le θ qui maximise L(θ|Y ). Par exemple, considérons le cas où les résidus sont indépendants et normalement distribués avec la même variance, i.e. Yi = f (xi; θtrue) + i et i ∼ N (0, σ2). Si θtrue = θ, alors la probabilité d’obtenir les erreurs résiduelles _i = y_i− f (x_i; θ) est : P rob(1, ..., n) = L(θ|Y ) = n Y i=1 1 (2πσ2₎1/2exp (yi−f (Xi,θ))2/(2σ2) = 1 (2πσ2₎n/2 exp −P (yi−f (Xi,θ))2/(2σ2)

Dans ce cas, maximiser cette expression revient à minimiser PN

i=1[yi− f (xi, θ)]2 qui est exactement l’estimateur OLS.

Parmi les paramètres identifiés par une analyse de sensibilité et donc ordonnés par ordre d’importance sur la variabilité de la sortie d’intérêt, il faut aussi se demander quel est le nombre de paramètres à estimer afin d’éviter un sur-paramétrage (le risque étant de bien ajuster les données mais d’avoir de faibles capacités de prédiction). Pour cela, il est possible d’utiliser :

• le test du rapport de vraisemblance ([269]) qui consiste à calculer le logarithme du rapport de vraisemblance :

LR = −2hlog(L(Y |ˆθk,M L)) − log(L(Y |ˆθk+1,M L))

où log(L(Y |ˆθk,M L)) et log(L(Y |ˆθk+1,M L)) sont respectivement les logarithmes des vrai- semblances du modèle où k et k + 1 paramètres sont estimés. L’hypothèse testée est si

θk+1 a une valeur fixe alors on arrête le processus, sinon on continue en testant θk+1 et θk+2. On rejette l’hypothèse avec une erreur de 5% si LR > χ20.95,1, où χ20.95,1 est le 95e `me

percentile d’une distribution Khi-deux avec 1 degré de liberté (1 paramètre d’écart entre les deux modèles).

• le critère AIC (Akaike Information Criterion, [48]) est le critère le plus populaire et consiste à calculer : AIC = −2logL(Y |ˆθM L) + 2pe, où logL(Y |ˆθM L) est le logarithme de la vraisemblance, évaluée en utilisant le maximum de vraisemblance, et p_e est le nombre de paramètres estimés. Ainsi le premier terme évalue comment le modèle s’ajuste aux données et le second terme est une pénalité qui augmente avec le nombre de paramètres à estimer. Le meilleur modèle sera celui avec la plus petite valeur d’AIC.

• le critère BIC (Bayesian Information Criterion, [316] ; [268] dans [242]) est une alterna- tive au critère AIC en calculant un terme de pénalité plus élevé : BIC = −2logL(Y |ˆθM L)+ p log n

• une procédure de validation croisée ([190]). Le but étant de trouver le modèle qui fournit la meilleure prédiction, il est de ce fait logique d’utiliser un critère d’adéquation des prédictions du modèle aux données, le MSEP (cf équation 1.2 partie 1.4.2.4). L’approche générale pour estimer cette quantité est la validation croisée. On va fixer le nombre de paramètres à estimer au nombre qui minimise le MSEP estimé. Contrairement aux trois méthodes précédentes, l’estimation n’est pas forcément basée sur l’estimation du maximum de vraisemblance (cf ci-dessous).

Méthodes bayésiennes

Lorsqu’on dispose en plus des données d’expertises sur les valeurs possibles des paramètres, il est intéressant de prendre en compte cette information a priori pour améliorer les estima- tions ; c’est le principe des méthodes bayésiennes. Contrairement aux méthodes classiques, les paramètres sont définis ici comme des variables aléatoires.

Ainsi, la première étape va consister à définir la distribution a priori des paramètres : on va définir une distribution de probabilité a priori (P (θ)) sur les valeurs des paramètres décrivant notre connaissance initiale (précédentes expériences, avis d’experts, littérature). La deuxième information pour estimer les paramètres va provenir des données : pour cela il faut calculer la fonction de vraisemblance (P (Y |θ)) qui va lier les données aux paramètres (cf parti 1.4.2.3). Ensuite, le théorème de Bayes va permettre de combiner ces deux informations en calculant la distribution a posteriori (P (θ|Y )) de la manière suivante :

P (θ|Y ) = RP (Y |θ)P (θ)

P (Y |θ)P (θ) ∝ P (Y |θ)P (θ)

Les modèles étant souvent complexes, cette expression n’est pas disponible analytiquement ; elle doit être évaluée par des algorithmes itératifs (simulations Monte Carlo). On trouve parmi eux :

L’algorithme d’échantillonnage préférentiel : cet algortithme se déroule de la ma- nière suivante (importance sampling, [252, 54]) :

• Etape 1 : Choisir une distribution g(θ), nommée fonction d’importance, à partir de laquelle on génère un large échantillon de N vecteurs de paramètres θ₁, . . . , θN

• Etape 2 : Calculer les poids wi= P (θi|y)/g(θi) • Etape 3 : Calculer les poids normalisés w∗_i = w_i/(PN

i=1wi)

• Etape 4 : Les échantillons (θ_i, w_i∗) définissent une distribution de probabilité pondérée discrète et fournissent une approximation de la distribution a posteriori.

Notons qu’il est possible de choisir la fonction de densité a priori comme fonction d’im- portance. Les poids w_i seront donc la fonction de vraisemblance et θ_i proche du maximum de vraisemblance auront des poids plus importants que ceux qui sont éloignés. Toutefois, il faut faire attention car si la distribution a priori choisie est loin de la distribution a posteriori, ce choix de fonction d’importance mènera à de mauvaises approximations.

L’algorithme Métropolis Hastings : contrairement à la méthode précédente où tous les vecteurs de paramètres sont générés au début de la procédure indépendamment les uns des autres (le choix des paramètres à être testés ne dépend pas du résultat des autres paramètres), les méthodes de Monte Carlo par chaîne de Markov génèrent des valeurs de paramètres à l’étape

i indépendant de celle à l’étape i − 1. Ces méthodes sont largement décrites par Gilks et al.

([106]). Parmi elles, l’algorithme de Metropolis Hastings est le plus utilisé (avec l’échantillonneur de Gibbs). Dans le cas général, l’algorithme commence avec un vecteur initial de paramètres

θ0, puis les vecteurs θ1, . . . , θN sont générés séquentiellement de la manière suivante :

• Etape 1 : Générer un vecteur candidat θ_c selon une distribution de proposition P_p(θ_c|θ_i) (souvent une loi normale centrée sur θi et de variance constante)

• Etape 2 : Calculer α(θi, θc) = M in

1;P (Y |θc)P (θc)Pp(θi|θc)

P (Y |θi)P (θi)Pp(θc|θi)

• Etape 3 : Prendre θ_i+1=

(

θc avec probabilité α(θi, θc) θi avec probabilité 1 − α(θi, θc)

Notons qu’avec une distribution de proposition normale, alors P_p(θ_c|θ_i) = P_p(θ_i|θ_c) et l’expression de l’étape 2 se simplifie. Notons aussi qu’avec cet algorithme plusieurs choix doivent être faits : (i) le nombre d’itérations nécessaires pour avoir une bonne approximation, (ii) le choix de la variance de la distribution de proposition (trop petite, le support de P_p sera étroit et la convergence vers la loi a posteriori sera freinée, et trop grande, le support sera vaste et ne garantit pas non plus une bonne convergence), (iii) après avoir supprimé les premières itérations appelées « période de chauffe », il faut également supprimer un certain nombre de valeurs afin d’éviter l’auto corrélation.

De nombreuses recherches s’effectuent pour comparer ces deux méthodes. Avec le boom des méthodes bayésiennes, de nouvelles méthodes se développent pour estimer la distribution

a posteriori, comme par exemple la méthode ABC (Approximate Bayesian Computation ; [289,

71]) ou BMA (Bayesian Model Averaging ; [195, 135]) permettant des temps de calcul de plus en plus compétitifs.

Dans le document Modélisation épidémiologique et génétique des parasites gastro-intestinaux au sein d’un troupeau d’ovins (Page 50-54)