• Aucun résultat trouvé

2. Synthèse des connaissances disponibles

2.3. Modélisation statistique et inférence bayésienne

2.3.1. La modélisation statistique

2.3.1.1. Modèle et vérité

La statistique est souvent vue comme la branche des mathématiques permettant d’obtenir des résumés pertinents de grandes quantités de données. Cette définition restrictive renvoie en fait à la statistique descriptive et/ou au data mining. La modélisation statistique a une ambition plus large, celle de fournir un support au raisonnement sous incertitude (O’Hagan et Oakley, 2004; Parent et Bernier, 2007). Les connaissances concernant les inconnues du phénomène étudié sont exprimées sous la forme de distributions de probabilité. Le travail du statisticien est alors de proposer une classe de lois de probabilité indexée par un vecteur de paramètres en faisant l’hypothèse que le “vrai” modèle quantifiant le phénomène étudié est inclus dans cette classe. Puis il lui faut identifier ce modèle grâce à une démarche d’inférence, c'est-à-dire d’apprentissage sur la population sous-jacente à partir de l’échantillon disponible. En statistique paramétrique, on se contente d’un vecteur d’inconnues de

dimension finie, tandis que cette limite disparaît en statistique non paramétrique moyennant des difficultés de maniement des modèles supplémentaires.

Bien entendu, l’hypothèse de l’existence d’un “vrai” modèle est en général fallacieuse et l’on est alors amené à se contenter d’un modèle acceptable sur la base d’un test d’adéquation ou d’une validation croisée ou bien à sélectionner un modèle parmi une classe plus large sur la base d’un ou plusieurs critères. Quelques cas de figures où le modèle est supposé reproduire fidèlement la réalité méritent cependant d’être signalés : celui bien connu de la loi normale vers laquelle converge un ensemble de phénomènes d’ordres de grandeur comparables grâce au théorème central limite, celui de la loi physique inattaquable du type loi de Newton, et celui des lois des valeurs extrêmes.

2.3.1.2. La théorie des valeurs extrêmes en quelques mots

Pour l’étude des événements rares, la théorie des valeurs extrêmes peut être utilisée (Coles, 2001). Celle-ci explicite la convergence des queues de distribution vers des lois limites sous certaines hypothèses. Parmi ces dernières, certaines telle la stationnarité sont vérifiables grâce à des tests (Yue et al., 2002 ; Benestad, 2004) tandis que d’autres telles la max stabilité, c'est-à-dire l’existence de suites normalisatrices pour un échantillon de maxima de sous-échantillons du phénomène, sont toujours supposées correctes.

Pour des variables aléatoires continues et unidimensionnelles, les choses sont assez simples et deux approches sont possibles (Boreux, 2005). La première considère le maximum sur une période fixe d’observations régulièrement espacées, par exemple le maximum annuel des observations journalières. Pourvu que la taille de la période soit assez grande, les maxima peuvent être considérés comme des tirages indépendants dans la loi généralisée des valeurs extrêmes ou modèle GEV (Generalized Extreme Value). La seconde, appelée couramment méthode du renouvellement en hydrologie, modélise les observations qui excédent un seuil fixé par un processus ponctuel de Poisson marqué par une distribution de Pareto généralisée : c’est le modèle POT (Peak Over Threshold). Ce modèle présente l’avantage, par rapport au modèle GEV, de pouvoir retenir éventuellement plus d’une observation par an et, au contraire, d’exclure une année entière si aucune observation n’a été suffisamment élevée pour se trouver en domaine asymptotique. En contrepartie, le problème du choix du seuil se pose de façon aigue : celui-ci doit être suffisamment haut pour garantir la convergence vers le modèle limite mais suffisamment bas pour conserver une quantité de données satisfaisante. Une bonne solution empirique est de représenter la moyenne arithmétique des dépassements en fonction du seuil et de sélectionner le seuil qui correspond au début de la partie linéaire du graphique obtenu (Coles, 2001). Les modèles GEV et POT possèdent chacun 3 paramètres et un rôle crucial est joué dans les deux modèles par le paramètre dit de forme qui définit l’accroissement de la période de retour avec le quantile et caractérise ainsi le domaine d’attraction de la queue de distribution. Les deux modèles GEV et POT sont très liés puisqu’on peut passer de l’un à l’autre moyennant une reparamétrisation. Ils sont inversibles, c'est-à-dire que dès lors que les paramètres sont connus une expression analytique de n’importe quel quantile de probabilité et donc de n’importe quelle période de retour est disponible. Ils sont de ce fait l’outil privilégié de définition des aléas de référence en hydrologie (Parent et Bernier, 2003a, Parent et Bernier, 2003b, Renard et al., 2006), mais présentent également un fort intérêt pour l’analyse des séries climatiques (Naveau et al., 2005) ou en théorie de la fiabilité.

En revanche, dès lors que l’on sort du cadre monodimensionnel continu, le problème se complexifie très nettement. Pour les variables aléatoires discrètes, il n’y a pas de convergence vers un modèle limite (Anderson et al., 1997) et seules des approches non paramétriques par encadrement sont théoriquement fondées (Guillou et al., 2006). Pour des variables continues pluridimensionnelles, la convergence existe mais d’une part la correspondance univoque avec la période de retour n’existe plus et d’autre part il existe une infinité de modèles limites. Le traitement de ce type de problème passe alors généralement par la spécification des lois marginales et le calcul de coefficients de dépendance asymptotiques permettant de quantifier dans quelle mesure l’apparition d’une valeur extrême sur l’une des variables marginales est susceptible de favoriser l’apparition de valeurs extrêmes sur les autres variables marginales (Bacro, 2006). Une autre possibilité rencontrant actuellement un succès croissant en hydrologie (Favre et al., 2004) est la modélisation directe de la relation de dépendance par une copule (Sklar, 1959). Enfin, très récemment, une approche semi-paramétrique a été proposée permettant la modélisation des valeurs extrèmes des lois conditionnelles pour un problème de dimension quelconque (Heffernan et Tawn, 2004).

2.3.2. L’approche bayésienne

2.3.2.1. La formule de Bayes et son interprétation « bayésienne »

La vraisemblance d’un modèle peut être maximisée par rapport aux paramètres, ce qui conduit aux estimateurs du maximum de vraisemblance généralement recherchés en statistique classique. La théorie asymptotique de la vraisemblance assure, sous condition de régularité des fonctions en jeu, que l’estimateur converge vers la vraie valeur du paramètre et que l’écart entre estimateur et vraie valeur se distribue comme une loi normale. L’intervalle de confiance, dont la largeur dépend du nombre de données et de la variabilité des observations, quantifie la robustesse de l’estimation sous l’hypothèse de la répétabilité des expériences aléatoires.

La statistique bayésienne propose une vision alternative de l’inférence issue des travaux du révérend Thomas Bayes (1763). Celui-ci a en effet laissé son nom à une formule d’apparence aussi modeste qu’inattaquable car conséquence immédiate des axiomes fondamentaux de la théorie des probabilités (eq. 2.1). Selon l’interprétation bayésienne de cette formule, p

( )θ

est la distribution de probabilité a

priori du paramètre

θ

, celui-ci pouvant être scalaire ou vectoriel. L’appellation « a priori » exprime le fait qu’elle a été établie préalablement à l’observation des données notées data et qu’elle reflète ainsi l’opinion « personnelle » du statisticien sur le phénomène à modéliser.

l data(

θ)

est la probabilité des données conditionnellement au modèle statistique utilisé sachant

θ

, c'est-à-dire la fonction de vraisemblance de la statistique classique.

p

data)

est la distribution de probabilité a posteriori du paramètre

θ

du modèle. Le passage de la distribution a priori à la distribution a posteriori des paramètres du modèle statistique est une mise à jour de la connaissance sur la base des observations. Le dénominateur, indépendant de

θ

, est uniquement une constante de normalisation assurant que

(

)

p

θ

data

est bien une distribution de probabilité.

(

)

(l data(

)

)

( )p( )

p

data

l data

p

d

θ

θ

θ

θ

θ

θ

×

=

×

×

(eq. 2.1)

L’information contenue dans la loi a posteriori peut être résumée de différentes manières mais, habituellement, un estimateur ponctuel associé à un intervalle de crédibilité, pendant bayésien de l’intervalle de confiance, est privilégié. Le choix de l’estimateur ponctuel se fait en toute rigueur sur la base d’une fonction de coût quantifiant la perte moyenne attendue si l’on choisit une mauvaise valeur du paramètre plutôt que sa vraie valeur.

Discuter les avantages et les inconvénients de l’inférence bayésienne est un très vieux débat. L’école dite classique, fondée historiquement par entre autres Fisher, Neyman et Pearson au début du vingtième siècle, a longtemps prévalu, comme en témoignent les très nombreuses monographies qui lui sont consacrées (Montfort, 1982 ; Saporta, 1990). Elle postule que tout résultat statistique ne doit être fondé que sur les données et interprète la probabilité comme une fréquence limite sur la base de la répétabilité des expériences (Von Mises et Geringer, 1984). Ses défenseurs ont de ce fait longtemps refusé par principe l’encodage d’un quelconque savoir a priori.

L’approche bayésienne développe au contraire une vision subjective de la notion de probabilité. Celle- ci est interprétée comme un pari associant à un événement donné un certain degré de crédibilité (De Finetti, 1937). Dans cette optique, il n’est pas choquant d’associer dans l’inférence des données et la connaissance extérieure aux données modélisée par la loi a priori, la formule de Bayes étant l’instrument qui rend possible le couplage par le calcul probabiliste. Néanmoins, les bayésiens ont dû combattre les objections des statisticiens classiques par la recherche de priors non informatifs utiles lorsque la connaissance a priori n’est pas disponible ou lorsque l’on ne désire pas l’utiliser pour laisser les données s’exprimer par elles mêmes (Bernardo et Smith, 1994). Il a été montré que de tels priors conduisent asymptotiquement aux mêmes estimateurs que ceux du maximum de vraisemblance (Berger, 1985 ; Robert, 1992), de sorte que l’inférence bayésienne a été peu a peu acceptée. Cette pacification du débat a été accélérée par le développement des algorithmes d’estimation bayésiens à partir des années 1970-80 qui a conduit les praticiens de disciplines très différentes à s’emparer avec succès de l’inférence bayésienne pour des raisons de commodité davantage que pour une adhésion à ses concepts. La statistique bayésienne a alors pris un essor considérable comme en témoigne la récente multiplication des monographies qui lui sont consacrées (Box et Tiao, 1973 ; Berger, 1985 ;

Bernardo et Smith, 1994 ; Gelman et al., 1995 ; Lee, 1997 ; Bernier et al., 2000 ; Gilks et al., 2001) et auxquelles on se référera pour une présentation théorique plus approfondie.

2.3.2.2. Le cas des modèles hiérarchiques

Les modèles dits hiérarchiques ou « à couches » sont caractérisés par des variables non observables dites latentes. Celles-ci permettent de représenter une grande diversité de processus et offrent de ce fait une très grande liberté au modélisateur pour construire un modèle collant au plus près à l’idée qu’il se fait du phénomène qu’il étudie (Parent et Bernier, 2007).

Les modèles hiérarchiques ne sont pourtant très utilisés pour des problèmes concrets que depuis une quinzaine d’années du fait des difficultés d’estimation qu’ils peuvent poser. Ces difficultés sont nettement réduites sous le paradigme bayésien puisque l’introduction de variables latentes ne fait que rajouter les inconnues vlat et le terme

p vlat data(

,θ)

quantifiant leur distribution sachant les paramètres et les observations au théorème de Bayes (eq. 2.2). L’inférence s’effectue de ce fait grâce aux mêmes algorithmes de simulation que pour les modèles non hiérarchiques.

(

,

) (

,

) (

,

)

( )

p

θ

vlat data

l dataθ

vlat

×p vlat data

θ

×p

θ

(eq. 2.2)

La modélisation bayésienne sur variable latente a trouvé des terrains d’expression naturels en écologie (Rivot, 2003 ; Clark, 2005), en hydrologie (Perreault, 2000) ou en géophysique (Parent et Bernier, 2001 ; Berliner, 2003) en permettant la séparation d’effets spatio-temporels, l’identification de différents facteurs, de tendances ou de ruptures. Elle est particulièrement efficace dans le cadre de la statistique spatiale en permettant l’inférence de données spatialement corrélées non gaussiennes pour lesquelles l’indexage spatial est utilisé comme une variable explicative de l’observation (Cressie, 1993 ; Banerjee et al., 2003).

2.3.2.3. Calcul bayésien et méthodes MCMC

La difficulté technique de l’inférence bayésienne est liée au calcul de l’intégrale au dénominateur de la formule de Bayes. La constante de normalisation n’est en effet généralement pas calculable analytiquement, tout particulièrement lorsque le vecteur des inconnues est de grande dimension. L’analyse bayésienne a de ce fait été longtemps limitée à des modèles simples faisant appel à des lois conjuguées pour lesquels le posterior et le prior appartiennent à une même classe de lois de probabilité ou pour lesquels des approximations normales peuvent être utilisées.

Le renouveau de l’inférence bayésienne est passé par le développement de méthodes de simulation permettant d’inférer en principe n’importe quel modèle, même de dimension très élevée. Celles-ci sont de deux types : non itératives ou itératives. Les algorithmes non itératifs les plus utiles font appel à l’échantillonnage par importance. Ils sont très efficaces lorsque le posterior est assez bien connu avant observation et sont de ce fait bien adaptés à la mise en œuvre de l’apprentissage séquentiel. Ils sont par contre plus difficiles à manier lorsque peu d’arguments permettent de guider le choix de la fonction d’importance. Les algorithmes itératifs, plus connus sous le nom de méthodes de Monte Carlo par Chaînes de Markov (MCMC), utilisent quant à eux une chaîne de Markov construite dans l’espace des paramètres et convergeant sous des hypothèses peu restrictives vers la loi cible recherchée.

Une présentation générale des méthodes MCMC figure dans Robert (1996) tandis que de nombreux articles (Brooks, 1998 ; Brooks et Roberts, 1998) détaillent leurs propriétés de convergence. Le principe général est très simple : un état initial

π

(0)

=(θ

(0)

,v

lat(0)

)

est choisi pour le vecteur des inconnues du modèle, c’est à dire l’ensemble des paramètres et variables latentes. Ensuite l’algorithme MCMC génère une chaîne de Markov, c’est-à-dire une série

(π π

(1)

,

(2)

,...π

( )k

,...)

telle que

( )k (k 1)

π π

est indépendante du passé de la chaîne

(π π

(1)

,

(2)

,...π

(k−2)

)

, et assure que la loi stationnaire de la chaîne est la loi cible

p

data)

. Cela implique que pour une période dite de chauffe suffisamment longue de ch itérations, la série

(ch+1)

(ch+2)

,...)

constitue un échantillon du

posterior recherché. Cet échantillon peut ensuite être utilisé pour évaluer empiriquement les

statistiques d’intérêt telles les moyennes, variances et corrélations inter paramètres a posteriori (Figure 2.15).

Les deux principales méthodes MCMC sont l’algorithme de Metropolis Hastings (Metropolis et al, 1953 ; Hastings, 1970) et l’échantillonneur de Gibbs (Geman et Geman, 1984). Ils sont désormais bien connus (Tanner, 1992 ; Robert, 1996) et leur utilisation est décrite dans de nombreux domaines d’application (Kuczera et Parent, 1998; Torre et al., 2001), de sorte qu’ils ne seront pas présentés en détail. Le principe de l’échantillonneur de Gibbs est de décomposer chaque itération en tirages dans les différentes lois conditionnelles complètes de chacune des inconnues sachant les autres (Figure 2.15). Pour l’algorithme de Metropolis Hastings, les étapes successives à chaque itération sont la génération d’un candidat à l’aide d’une fonction d’exploration et l’application d’une règle d’acceptation/rejet probabiliste. Signalons enfin que l’algorithme de Gibbs est en fait un cas particulier de celui de Metropolis Hastings, et que ces deux algorithmes peuvent être imbriqués (étape Metropolis à l’intérieur d’un algorithme de Gibbs par exemple) et implémentés de manière très variée, notamment séquentiellement ou par blocs.

Figure 2.15 : Principe des méthodes MCMC et mise en œuvre grâce à l’algorithme de Gibbs

s est la dimension du vecteur des inconnues.

Les e-ch valeurs de la chaine obtenues après la période de chauffe permettent de reconstituer la loi a posteriori

Le maniement des algorithmes MCMC peut s’avérer très délicat en pratique car il n’existe pas de mesure préalable de la vitesse de convergence, de sorte que cette dernière peut être atteinte au bout d’une période de chauffe très, voire infiniment, longue (Brooks et Gelman, 1998) si l’algorithme est mal construit (choix d’une fonction d’exploration inadaptée, valeurs initiales trop « exotiques »…,etc). Il est donc nécessaire de vérifier à chaque utilisation que la convergence vers la loi cible a été atteinte (Mengersen et al., 1999). Pour ce faire, la seule solution pratique est souvent de lancer simultanément plusieurs chaînes et d’effectuer des tests permettant de vérifier qu’elles se comportent de manière identique, c'est-à-dire que la loi cible est atteinte pour les différentes chaînes. La stratégie la plus courante est alors la comparaison de la variance inter chaîne avec la variance intra chaîne (Gelman, 1996).

L’écriture d’algorithmes MCMC qui convergent à des vitesses raisonnables nécessite donc, de la part du statisticien, une certaine habilité pratique en plus de connaissances théoriques solides. Il doit en effet choisir une exploration de l’espace des paramètres suffisamment « large » pour ne pas rester

bloqué dans un mode local du posterior mais également suffisamment fine pour ne pas balayer l’espace des paramètres sans jamais détecter les zones de plus forte probabilité, et ce alors que la surface cible peut posséder, pour des modèles de dimension élevée, une forme complexe rendant difficile son exploration conformément aux probabilités a posteriori respective des différentes régions. L’algorithme de Gibbs est à recommander lorsque les lois conditionnelles complètes sont disponibles car le choix de la fonction d’exploration est guidé par l’algorithme. Par contre, lorsque le recours à l’algorithme de Metropolis Hastings est nécessaire, des règles pratiques de réglage de la variance d’exploration en fonction des taux d’acceptation doivent être utilisées. En outre, il est bien souvent nécessaire d’opérer une itération séquentielle sur les différentes inconnues de façon à ne pas se déplacer trop fortement dans l’espace des paramètres à chaque saut.

Signalons enfin que, pour de nombreux modèles, les difficultés liées au maniement des algorithmes MCMC peuvent être évitées grâce au logiciel Winbugs (Spiegelhalter et al., 2000) qui génère automatiquement l’algorithme d’estimation à partir de la déclaration du modèle en reconnaissant lois conjuguées et conditionnelles complètes puis en utilisant des boucles imbriquées de Metropolis Hastings pour les inconnues résiduelles. Son fonctionnement est particulièrement efficace pour les modèles hiérarchiques spatiaux sur grille irrégulière (Thomas et al., 2004) mais il peut également être utilisé pour bien d’autres types de modèles (Congdon, 2001).

2.3.2.4. Prédiction et sélection de modèle

Le formalisme bayésien permet la prédiction en prenant en compte à la fois la variabilité naturelle du phénomène étudiée et l’incertitude liée à la quantité limitée de données sur laquelle a été effectuée l’inférence. La loi prédictive

p z(

pred

data)

, c'est-à-dire la probabilité d’observer

z

pred dans le futur sachant les observations, s’obtient en moyennant le modèle de vraisemblance sur la loi a posteriori des paramètres (eq. 2.3). La moyenne prédictive est alors le meilleur pari compte tenu de l’état de connaissance tandis que l’intervalle de crédibilité associé offre des bornes raisonnables pour la prédiction et le contrôle (Girard et Parent, 2004).

La loi prédictive s’obtient analytiquement encore plus rarement que la loi a posteriori. Par contre, son obtention par simulation à partir d’un échantillon de la loi a posteriori est très simple en échantillonnant le modèle conditionnellement à chaque valeur de la loi a posteriori. Cette absence de forme analytique fixe peut d’ailleurs être vue comme un avantage dans la mesure où elle permet une bonne modélisation de la variabilité du prédicteur en mélangeant autant de distributions que nécessaire.

(

pred

)

(

pred

)

(

)

p z

data

=∫l z

θ

×p

θ

data

×dθ

(eq. 2.3)

Bien que quantifiant de façon honnête l’erreur de prédiction liée à l’emploi du modèle statistique, la loi prédictive ne prend pas en compte l’erreur de modèle et ne dispense de ce fait pas de tester la validité du choix de modèle effectué. Au delà des méthodes traditionnelles du type séparation des données en échantillons de calage/validation et/ou de validation croisée, le formalisme bayésien propose différents outils de comparaison de modèles permettant la sélection d’un modèle parmi un nombre fini de modèles candidats.

Le plus classique d’entre eux est le facteur de Bayes (Carlin et Chib, 1995), qui est le ratio pour les deux modèles M1et M2 concurrents des vraisemblances moyennées sur les lois a posteriori (eq. 2.4). Le calcul de cet analogue bayésien du rapport de vraisemblance pose des problèmes techniques liés notamment à la nécessité d’employer un prior propre. Kaas et Raftery (1994) ont cependant montré qu’une approximation relativement robuste pouvait en être obtenue en calculant terme à terme numérateur et dénominateur à partir de la moyenne harmonique par rapport à la loi a posteriori de la vraisemblance (eq. 2.5), les calculs pouvant évidemment être effectués numériquement à partir des échantillons obtenus par MCMC. Kaas et Raftery (1994) proposent également des règles pratiques pour l’interprétation du facteur de Bayes indiquant les seuils correspondant à une forte évidence en faveur de l’un des deux modèles.