R EVUE DE STATISTIQUE APPLIQUÉE
É RIC P ARENT
É TIENNE P REVOST
Inférence bayésienne de la taille d’une population de
saumons par utilisation de sources multiples d’information
Revue de statistique appliquée, tome 51, n
o3 (2003), p. 5-38
<http://www.numdam.org/item?id=RSA_2003__51_3_5_0>
© Société française de statistique, 2003, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
INFÉRENCE BAYÉSIENNE DE LA TAILLE D’UNE POPULATION DE SAUMONS PAR UTILISATION DE
SOURCES MULTIPLES D’INFORMATION
Éric PARENT1, Étienne PREVOST2
1 GRESE (Laboratoire de Gestion du
Risque
en Sciences de l’Environnement), ENGREF 19, Avenue du Maine, F-75732 Paris Cedex 15Parent@engreffr
2 UMR Ecobiologie
etQualité
desHydrosystèmes
continentaux, INRA 65, rue de St Brieux, 35042 Rennes Cedex,Prevost@roazhon.inra.fr
RÉSUMÉ
Améliorer la
gestion
des stocks de saumons nécessite d’évaluer correctement le nombre total depoissons
adultesqui
reviennent à leur rivièred’origine
pourfrayer.
L’inférenceBayésienne
et lestechniques
d’estimation associées de simulation Monte Carlo par Chaines de Markov (MCMC) libèrent le modélisateur des recettes destatistique développées
pour construire des estimateurs de stocks.Trop
souvent, la vertu essentielle de modèles ad hoc (et souventsimplistes)
n’a été que de mener à desexpressions analytiques
des estimateurs de stocks. Débarrassé de cette contrainte, le modélisateur peutaujourd’hui
porter toute son attention sur le réalisme des modèles et sur l’étude des nombreuses sources d’incertitudes.L’analyse Bayésienne
seprésente
comme un cadre de raisonnement cohérent danslequel
des inférences
écologiques
peuvent être bâties àpartir
de types variés d’informations. Ces informations peuvent êtreobjectives
etprovenir
d’unjeu
réduit de données ou de rapports, même peuprécis,
de capture parpêcheurs
amateurs.L’analyse Bayésienne s’appuie
aussi surdes sources d’informations
subjectives
provenantd’expertise
surl’écosystème
étudié ou sur leniveau de ressources
halieutiques.
Nous montrons
qu’un graphe acyclique
orienté est l’outil commode dereprésentation
desdifférents événements
qui
peuvent seproduire
dans unepopulation
de saumonsqui
remontentla rivière Scorff, utilisée comme cas d’étude. Trois types de
quantités apparaissent
sur cetteformalisation
graphique
par raisonnement conditionnel : les observables, les variables latentes et lesparamètres.
Lestechniques
MCMC permettent d’atteindre facilement les distributions deprobabilités
aposteriori qui
traduisent undegré
de crédibilité pour le nombre de castillons et pour les autresparamètres
inconnus. Lesdispersions
de ces distributions se réduisent fortementquand
onintègre
àl’analyse statistique
des informations additionnelles (même de naturesubjective).
Mots-clés : Modèle
graphique, Algorithme
de Gibbs, Variable latente,Inférence Bayésienne,
Estimation de la taille d’une
population
de saumons.ABSTRACT
Evaluating
the total number of adultsretuming
to their native river to spawn is amajor
issue in salmon fisheries stock assessment.
Bayesian
inference with Monte Carlo Markov Chain(MCMC) techniques
frees the modeler fromworking
with ad hoc (and oftenoversimplified)
stock assessment models for the
only
reason thatthey
led toanalytical
solutions. Attention canbe recentered on the realism of the model with
regards
to the fish behavior and on thestudy
of the various sources of
uncertainty. Bayesian analysis
offers a coherent framework in whichecological
inferences can begrounded
on various kinds of observations, even with a limited number of data or withimprecise
catch reports fromanglers,
as well as onsubjective
sourcesof information such as the
expertise
about the local ecosystem andfishery.
On the Scorff case
study,
wepoint
out that a directedgraphical
model is convenient to describe the various events that may occur in a salmonpopulation.
This conditionalreasoning
formalization offers a
graphical representation
of the way that 3 types ofquantities
interfere : observed variables, latent variables and technical parameters.Bayesian posterior
distributions for the number of spawners and for other basic parameters can beeasily
derived from MCMCtechniques.
Theirdispersions
aregreatly
reduced when additional information (evensubjective)
is
brought
into theanalysis.
Keywords : Graphical modeling,
Gibbssampler,
Latent variable, Bayesianinference,
Salmonstock assessment.
1. Introduction
Les programmes de recherche sur la
dynamique
despopulations
de saumonset les
stratégies
degestion
des stockss’appuient
essentiellement sur la connaissance de laquantité
de saumons adultesqui
reviennent à leur rivièred’origine
pourfrayer.
Les
scientifiques
et lesresponsables
ont besoin non seulement de l’estimation de la taille de lapopulation (la
valeur laplus probable)
mais aussi de l’estimation de l’incertitude la concernant. Laprécision
aveclaquelle
est évaluée la taille de lapopulation permet
d’asseoir la fiabilité du savoirscientifique acquis
ou de proposer desstratégies
raisonnables degestion.
Dans un environnement naturel donc
incontrolé,
la taille d’un stock de saumonsne s’évalue que par estimation
statistique.
Destechniques statistiques
sont utiliséescouramment pour estimer les tailles de
population
depoissons
au travers de modèlesexpérimentaux :
méthodes decapture/
marquage/recapture (Clobert
andPradel, 1993), prélèvements
successifs etc... Seber(1982)
donne une revue de la littérature surles méthodes et les modèles. Malheureusement de nombreux
problèmes
d’estimation de la taille des stocks necorrespondent
pas aux modèlesacadémiques :
leshypothèses
fondatrices ne sont pas
vérifiées,
les conditionsasymptotiques requises
pour dériver les estimations necorrespondent
pas aux données rassemblées et finalement toute l’informationdisponible
n’est pas utilisée.L’expérience
demarquage/recapture
surla rivière
Scorff, présentée
dans lapremière partie
de cet article illustre bien tous cesproblèmes.
Despertes imprévues
surviennent avant larecapture
des individusmarqués (l’hypothèse
d’unepopulation
fermée est manifestementviolée).
Peu depoissons marqués
sontrecapturés
de telle sorte que les conditions d’utilisation de l’estimation de la variance basée sur lespropriétés asymptotiques
ne sont pasremplies.
Au-delà dunombre de
poissons marqués
etrecapturés,
l’informationdisponible
se trouve dansles connaissances locales de
l’écosystème
et de lapêche,
la littératurescientifique,
lesobservations des années
précédentes,
les informationscomplémentaires
rassembléessur
place
par les techniciens et lespêcheurs (découverte
depoissons
morts, déclaration decapture, etc.).
La méthode d’évaluationstatistique
standardignore
ces sourcesd’information et considère
chaque
estimation annuelle comme si c’était lapremière
expérience jamais
conduite...Le
paradigme Bayésien
offre unchamp
de réflexion fertile pour le « détectiveécologique» (Bernier et al., 2000).
Le processus d’inférenceBayésienne
estdéveloppé
dans la secondepartie
de cet article. Ils’appuie
sur un modèle deprob-
abilité
qui reproduit
lecomportement
dupoisson.
Les données sont rassemblées dans desprocédures
d’observationsqui
ne sont pastoujours
conventionnelles. Un tel modèle fait la distinction entrequantités
observables et non observables. Lesquantités
non-observables incluent à la fois desparamètres (coefficients exprimant
les
caractéristiques permanentes
de lapopulation
desaumon)
et des variables la- tentes(quantités «physiques» qui
n’ont pas été observées pour une raison ou pourune
autre).
Unereprésentation graphique
du modèle basé sur le raisonnement con-ditionnel en facilite la
compréhension,
la communication et le traitementBayésien.
En
résumé,
l’inférenceBayésienne
a pourobjet
de calculer la loi deprobabilité
desquantités inconnues,
telle que la taille dustock,
sous la forme d’une fonction desquantités
observées.À
l’inverse del’approche
utilisée enstatistique fréquentiste, l’analyse Bayésienne permet d’intégrer
toutes les sourcesdisponibles
d’information.Par
conséquent,
l’incertitudequi porte
sur l’abondance du stock et sur d’autresparamètres
intéressant lebiologiste,
comme le taux de survie et le rendement de lacapture, peut
s’en trouver réduite. De récentsprogrès
dans le calculBayésien,
les
algorithmes
markoviens de simulation Monte Carlo Markov(MCMC)
rendentfacile l’estimation
Bayésienne.
Parmi lestechniques MCMC, l’échantillonnage
deGibbs est
particulièrement adapté quand
leraisonnement
conditionnel estexprimé
sous la forme d’un
graphe acyclique.
La secondepartie
de l’article montre que tra- vailler avec la modélisationgraphique
et lestechniques
MCMC bouleverse lesétapes
habituelles de la modélisation
statistique,
fut-elleclassique
ouBayésienne (Bernardo
andSmith, 1994) :
il n’ estplus
besoin de rechercher lavraisemblance,
ni même d’écrireexplicitement
la formule deBayes
pour obtenir la loi aposteriori
desquantités
in-connues.
Les résultats
numériques
del’analyse Bayésienne
sontprésentés
dans latroisième
partie
de cet article. On trouve que l’onpeut
facilement calculer les intervalles de crédibilité pour le nombre dereproducteurs
et les autresparamètres
d’intérêt et que la
largeur
de ces intervalles se réduit sensiblementquand
onintègre
toutes les sources d’information. Finalement les
perspectives
et les limites desprocédures MCMC,
des variables latentes et del’analyse Bayésienne
sont discutéesà la lumière de ce cas illustratif.
2. Présentation du
problème
2.1. Les trois dernières
étapes
ducycle
de vie du saumon : remonter larivière, échapper
auxpêcheurs
à laligne
et survivrejusqu’à
la saison dufrai
Les saumons
atlantiques (Salmo salar) qui
reviennent adultes dans les rivières deBretagne (France),
sontrépartis
en deuxcatégories :
le saumon deprintemps qui
apassé
deux années en mer(exceptionnellement trois)
et les castillonsqui
reviennentdans leur rivière natale l’année
qui
suit leurmigration
vers la mer.Les castillons constituent l’essentiel des adultes
(approx.
90%) qui
reviennentdans la
rivière, principalement
de la fin duprintemps
à lapremière
moitié de l’été. Sur la rivière Scorff undispositif expérimental
de contrôle desmigrations
a été installéet les adultes de retour sont dénombrés par la
technique
dumarquage/recapture.
Lemarquage est
opéré
dans undispositif
depiégage
situé à l’embouchure de la rivière.L’efficacité du
piège
varie selon le débit de la rivière. Lapériode
de retour des saumonsde
printemps correspond
à un débitplus
haut que pour les castillons. Parconséquent,
l’estimation des retours se fait
séparément
pour les saumons deprintemps
et pour les castillons. L’étude de casprésentée
ici ne traite que du retour des castillons.La
figure
1 décrit le sort d’un saumon rentrant dans sa rivièred’origine après
sonvoyage dans
l’Atlantique.
Trois événementsprincipaux peuvent
arriver au candidatreproducteur. Premièrement,
à l’entrée dans leScorff,
le saumonpeut-être capturé, marqué
et relaché(première étape
de laprocédure
d’estimation dustock). Puis,
une certainequantité
d’individus(marqués
ounon)
seraprélevée
par lespêcheurs
à laligne.
La loiFrançaise exige
que laprise
de saumon soit officiellementdéclarée,
maiscette ordonnance n’ est pas
toujours respectée.
Une étude localesupplémentaire permet
decompléter
cesrenseignements.
Ces deux sourcespermettent
d’ otenir unepremière
évaluation du nombre de saumons « réellement
capturés »
et un certain nombre desaumons
prélevés
estapporté
aux techniciens de l’Institut National de la RechercheAgronomique
pour identification du marquage. En fin decompte,
lepoisson qui
aéchappé
à lapêche
à laligne
devrasurvivre jusqu’à
la saison dereproduction.
Pendantle frai
hivernal,
les chercheurs se rendent sur les sites dereproduction
etcomplètent
les études
statistiques
par unephase
derecapture.
FIGURE 1
Le destin d’un saumon
qui
revient remonter leScorff
2.2. Variables observées
Les données de la table 1 concernent six années
(une
parligne)
et six variables(en colonnes).
Les données de lapremière
année( 1994)
sont exclues de l’étude carelles sont
significativement
différentes des autres. L’efficacité dupiège
et larecapture
au moment du frai ont été moins bonnes.
Les variables observées
portent
les informations suivantes :X1 :
Nombre d’individuscapturés, marqués
etrelachés,
X2 :
Nombre depoissons marqués, péchés
à laligne
etrapportés
par lespêcheurs
pour la détection du marquage,
X3 :
Nombre depoissons
nonmarqués, péchés
à laligne
etrapportés
par lespêcheurs
pour la détection du marquageX4 :
Total despoissons marqués
et nonmarqués provenant
d’observations sur les sites depêche (par conséquent X4
>X2
+X3)
X5 :
Nombre depoissons marqués qui
survivent et sontrecapturés pendant
ouaprès
lefrai,
X6 :
Nombre depoissons
nonmarqués, recapturés pendant
ouaprès
le frai.TABLE 1 Données du
Scorff
2.3. Modèle
stochastique
ducomportement
du saumon 2.3.1. Lesparamètres techniques
sont inconnus maissupposés
stationnairesDe telles
quantités
inconnues doivent être introduites au cours de lamodélisation,
pour
représenter
lescaractéristiques stochastiques qui régissent
lecomportement
in- dividuel. Cesquantités
sont censées resteridentiques
d’unpoisson
à l’autre. Lesparamètres techniques suivants, inconnus,
sontconceptuellement
essentiels pour lesbiologistes :
K : Nombre de castillons
qui
remontent le courant,0 Probabilité
qu’un
castillon soitcapturé
etmarqué,
au passage dupiège,
ce Probabilité
qu’un
saumon nonpêché
survivejusqu’à
lapériode
dereproduction,
/3 :
Probabilitéqu’un
castillon soitprélevé
par lespécheurs,
T : Probabilité
qu’un
saumonpêché
soitenregistré
commeprise certaine,
8 : Probabilitéqu’un
saumonpêché
etenregistré
soit déclaré et le marquage vérifié par lestechniciens,
7r : Probabilité
qu’un
castillon soitrecapturé après
lapériode
dereproduction.
2.3.2.
L’expertise
apriori
est utile pourpréciser certains paramètres
inconnusLes
paramètres
inconnus sont souvent moins inconnusqu’ils
ne semblentl’être à
première
vue : même sans donnéemesurée,
tous les sous-ensembles de valeurspossibles
sont loin d’être affectés d’un mêmedegré
de crédibilité. D’unpoint
de vuetechnique,
l’introductionexplicite
d’un« prior »
constitue laprinci- pale
différenceopérationnelle
entre lesstatistiques
conventionnelles etl’approche Bayésienne développée ci-après.
Unprior
est une fonction de distribution de pro- babilitéqui représente
la connaissance desparamètres disponibles
avant le recueildes données. Il
peut s’interpréter
comme unpari
surl’importance
relative accordéeaux valeurs
plausibles
desparamètres.
Iln’est,
engénéral,
pasjustifié
d’avancer uneéquidistribution
sur les valeurs du stock de saumons car lespraticiens
onttoujours
une certaine connaissance des
caractéristiques
de lapopulation
étudiée(voir
Punt etHilbom, 1997, qui
donnent desarguments
pourl’emploi
depriors
informatifs au lieu depriors
vagues dans le cas d’évaluation des stocks depêche).
Pour le cas duScorff,
la connaissance apriori (noté Xo
dans le raisonnementconditionnel) peut-être
résuméecomme suit :
Étant
donné la taille de la rivière les données antérieures sur laproduction juvénile (Baglinière
andChampigneulle, 1986)
dans la rivière et le nombre de survivantsaprès
leséjour
en mer(Potter
andCrozier, 2000),
lesexperts
sontprêts
àparier
à 9 contre 1 que le nombre de saumons rentrant dans le Scorff 03BA se situe dansl’intervalle [100,3000]
avec une valeur hautementprobable
autour de 700 individus.On ne connait
guère
laprobabilité
decapture 0
aupiège près
de l’embouchure du Scorff : onpourrait imaginer
unerépartition symétrique
avec 0.5 comme moyenne et seulement 10%
de chances d’être inférieure à 0.1 ousupérieure
à 0.9.La
première
estimation du taux de survie des saumons a dans la rivière estsupérieure
à 0.9. Lesexperts
sontpratiquement
sûrs(avec
uneprobabilité
apriori
de0.9)
que a estsupérieur
à 0.75.Le taux
d’exploitation
de lapêche
à laligne {3
est sans doute situé autour de 0.1 - 0.3. Il semble peu crédible(moins
de 10%
dechance)
que{3 dépasse
0.7.La
probabilité
T,qu’un
saumonattrapé
soit reconnu par les contrôles locauxcomme
prise
certaine estsupérieure
à 0.9 et il semble hautementimprobable (5 %) qu’elle
soit inférieure à 0.5.On sait peu de choses sur la
probabilité
bqu’un
saumon reconnu soitprésenté
au contrôle du marquage. Une
répartition symétrique
avec 0.5 comme moyenne etseulement 10
%
de chances d’être inférieure à 0.1 ousupérieure
à 0. 9 traduirait cette faiblesse duprior.
En considérant le nombre de sites étudiés et les efforts de survie durant la
recapture,
laprobabilité
derecapture
7r est très vraisemblablement inférieure à0.25,
peuprobablement comprise
entre 0.25 et 0.5 et il est presqueimpossible qu’elle
soitsupérieure
à 0.5. Dans cequi précède
«très vraisemblablement»signifie qu’il
y a 9 chances contre1,
«presqueimpossible» représente
moins de 1 % de chance et laprobabilité
restante(environ
9%)
estreprésentée
par les valeurs« improbables ».
2.3.3. Elicitation a
priori
La
figure
2 illustre une loi deprobabilité
discrète de formeacceptable
pourreprésenter
ledegré
de crédibilitéportant
sur 03BA donné parl’expertise Xo.
Cette courbea été obtenue par une « discrètisation » de la fonction gamma avec coefficients 2.4 et
500, tronquée
à l’intervalle[0,4 000],
en raison des ressources limitées de la rivière.Tronquer
au delà de 4 000permet
aussi un calculd’intégration plus commode,
maisune
analyse
de sensibilité montre que c’estlargement justifié.
Cette courbeprésente
une valeur maximum aux environs de 700 et met 90
%
de chances dans l’intervalle[100,3 000].
Les six autres
paramètres 8,
a,{3,
T,8,
7r sont desprobabilités, appartenant
parconséquent
à l’intervalle[0, 1].
La formeparamétrique
de la loi bêta(2)
avec deuxcoefficients
adéquats
axo etbxo peut représenter
unelarge
variété decomportements
pour une
quantité
aléatoire variant entre 0 et 1.Supposons axa>
1 etbxa
> 1 de telle sorte que la distribution(2)
soitunimodale. La
figure
3 et la table 2 montrent les résultats de l’ élicitation de la loi deprobabilité bêta(aX° , bxa)
pour traduirel’expertise
à propos des différentsparamètres techniques.
Le mode de cettefonction aX0 - 1 aX0 + bX0 - 2, donne une première
relation
linéaire entre axa et
bxa quand l’expert indique
la valeur laplus probable
duparamètre.
Si un intervalle de crédibilité est donné pour la loi apriori,
lesparamètres
sont alors
ajustés
afin decorrespondre
auxpropriétés
de laprobabilité
par une méthode(unidimensionelle) d’approximations
successives.Comme la connaissance
a priori
dechaque paramètre
est établieindépendamment,
le
prior conjoint
est leproduit
de tous lespriors.
FIGURE 2
Loi a
priori
pour la taille dustock, paramètres
FIGURE 3
Loi a
priori
pour lesparamètres descriptifs
de comportementTABLE 2
L’expertise
apriori Xo
est encodéegrâce
à des distributions deprobabilité
de type bêta2.3.4. Variables latentes
Les
paramètres
inconnus et les variables observées ne sont pas suffisants pour décrire lespérégrinations
d’un saumon. Des variableslatentes,
i. e. des quan- tités intermédiaires reliées à des variables non-observéesayant
unesignification physique,
sont alors introduites. Elles sont utiles pour aider àcomprendre
lesétapes
intermédiaires de la modélisation conditionnelle.
Évidemment
le modèle doit êtrecomplètement
défini : les distributions conditionnelles des variables latentes sachant lesparamètres
et les variables observables doivent êtreprécisées.
Les variables la- tentes suivantesprésentent
un intérêtparticulier
pour la modélisation :Yuu :
saumons noncapturés,
parconséquent
nonmarqués (indiceuu,
pourunmarked, uncaptured)
y me :
individusmarqués pêchés
à laligne,
Yue :
individus nonmarqués pêchés
à laligne, unmarked, captured)
Y,f :
individusmarqués
restés librespendant
lapériode
depêche, (marked, free)
Yuf :
individus nonmarqués
restés librespendant
lapériode
depêche, Ymr :
individusmarqués enregistrés
comme réellementattrapés, (marked, registered)
Sur :
individus nonmarqués enregistrés
comme réellementattrapés, Y ms :
castillonsmarqués
survivantsjusqu’au frai,
Yus :
castillons nonmarqués
survivantsjusqu’au
frai.Certaines combinaisons de variables latentes sont
importantes
pour établir lescompte-rendus
desscientifiques. À
titred’exemple, scientifiques
etresponsables
de la
pêche
aimeraient connaître lechamp
des valeurs crédibles pourYme
+Yuc,
nombre total de saumons
attrapés
par lespêcheurs
à laligne.
D’autrepart Y ms
+Yus, qui représente « l’ échappement », apparaît
comme une valeur clé pour connaître lapérennité
de l’état du stock.2.3.5. Le modèle
statistique
sousla forme
d’ungraphe acyclique
orientéLes variables latentes et observées ainsi que les
paramètres
se combinent dansun modèle
statistique.
Parexemple,
nousexprimerons
que la variable aléatoireXi
suit une distribution binomiale de coefficient 03BA(nombre d’essais)
et o(probabilité
de
réussite)
par la notation :Xi - B(03BA, 0).
Leséquations
du modèlecomprennent
deséquations
déterministes de bilan et deséquations stochastiques
decomportement
binomial. Elles s’écrivent ainsi :Les
équations (3)
et(4) permettent
lareprésentation
du modèle sur ungraphe
orienté. Un état de l’art sur ces nouveaux outils
Bayésiens
se trouve dans Gilks et al.( 1994)
et dansSpiegelhalter et
al.( 1996a).
Ces auteurs ontdéveloppé
lelogiciel
BUGS(Spiegelhalter et al, 1996b)
basé sur lareprésentation graphique.
Celogiciel, gratuit, peut
être consulté sur le site web :http ://www.mrc-bsu.cam.ac.uk/bugs.
L’intérêtscientifique
de BUGS pour lagestion
des stocks a étéprécédemment
montré parMeyer
et Millar( 1999, 2000)
par l’étude d’un cas basé sur les modèlesdynamiques
d’état.
La
figure
4représente
toutes lesquantités
par des noeuds(soit stochastiques,
soit
déterministes)
sur ungraphe
orientéd’influence,
où les flèchespénètrent
dans unnoeud
depuis
les variablesqui
exercent une influence directe sur celui-ci(les
noeudsreprésentant
l’ascendance directe par une liaisonstochastique
sontappelés
«parents
» dans cequi suit).
Les descendants d’un noeud sont soit des variables latentes soit des variables observées. Desgraphes acycliques
orientéspermettent
uneinterprétation
sans
ambiguïté
des termes« parents
», « descendants », « ancêtres », « fils », etc... Les associations entregrandeurs
reliées par deséquations
déterministes de bilan neparticipent
pas à ces définitions deparenté :
le noeud déterministecorrespondant
estsitué au même niveau que la variable
stochastique
àlaquelle
il est rattaché. Lafigure
5 donne le
graphe acyclique
orientéqui correspond
augraphe
d’influence de lafigure
4 en effectuant l’élimination des noeuds déterministes : seules sont conservées les
quantités
aléatoires surlesquelles portera
l’inférenceBayésienne.
Pour la commodité dudessin,
on a associé les variables(Y me, Yue)
en un même noeud.Le
graphe
de lafigure
5représente
le raisonnement conditionnel surlequel
lemodèle est basé : les flèches du raisonnement conditionel descendent des
paramètres conceptuels jusqu’aux quantités
observées.FIGURE 4
La vie d’un saumon
après
sa remontée dans leScorff
sous
la forme
d’ungraphe d’influence
FIGURE 5
La vie d’un saumon
après
sa remontée dans leScorff
sous
la forme
d’ungraphe acyclique
directLes
(hyper)paramètres
des lois apriori complètent
legraphe
comme noeuds parents pour lesparamètres
du modèle. L’inférenceBayésienne
consiste àexprimer
formellement que l’information
apportée
par les données sert à mettre àjour
laconnaissance a
priori
desparamètres.
Le savoir aposteriori
est traduit par une loi deprobabilité,
fonction desquantités
observées. L’obtention de cette loi aposteriori
est facilitéegrâce
à la structurespéciale
dugraphe. L’indépendance
conditionnelle
représentée Figure
5s’exprime
par lapropriété
markovienne : laprobabilité
conditionnelle d’un noeud sachant tous ses ascendants nedépend
que de ses noeudsparents.
Ainsi parexemple :
En
conséquence,
la distributionconjointe
de toutes lesquantités q
duproblème,
qE
Q, = {variables observées,
variables latentes etparamètres }
est unesimple
factorisation :
Notons que les
paramètres
sont des ancêtres pour tous les noeuds(Ils
sesituent à l’extérieur du
graphe
de lafigure 5).
La formule(5)
n’est rien d’autreque la factorisation de la vraisemblance étendue aux variables latentes par les lois de
probabilité
apriori.
Enintégrant
sur les variables latentes dans les formules(3)
et
(4),
on obtient la loijointe
des observables et desparamètres.
La loi aposteriori
des
paramètres
étant donné les observationspourrait
être formellement dérivée enappliquant
ensuite le théorème deBayes (ce qui
demande cettefois, d’intégrer
sur lesparamètres).
La section suivante montre que travailler avec les modèlesgraphiques
etl’algorithme
de Gibbs court-circuite toutes cesétapes
de la modélisationBayésienne
et évite aussi l’évaluation
numérique
de lourdesintégrales
multidimensionnelles.2.3.6. Le modèle interannuel est un
«empilement»
des modèles annuelsIl
n’y
a pas de difficultéconceptuelle supplémentaire
pour établir un modèle interannuel. Il fautsouligner
la très fortehypothèse
de stabilité desparamètres, permettant
une cohérence interannuelle(donc
un transfert d’information d’annéeen
année)
enpartageant
les valeurs communes de9, a, {3,
T, 6 et 7r. Cettehypothèse
est
particulièrement
discutable sur l’efficacité de lacapture 0
et laprobabilité
derecapture
7rqui peuvent
certainement varier d’une année sur l’autre en fonction du débit de la rivière et des conditionshydrométéorologiques.
3. Chaîne de Monte Carlo Markov - Inférence
Bayésienne
Selon
l’approche Bayésienne,
l’inférence consiste à mettre àjour,
la loi apriori
duparamètre p(03BA, 8, 0152, {3,
T,8, 7rIXo), (où Xo rappelle
que l’on conditionnesur un savoir initial et des
hypothèses
deconstruction)
en une loi aposteriori p(03BA, 8,
a,{3,
T,b, 7r Xo, X 1, X2 ,
...,X6 ) en
tenantcompte
desquantités
observées(X1, X2,..., X6).
En tant que densité deprobabilité multivariable,
cetteexpression
est bien souvent
impossible
à utiliser : même si ellepeut-être
déduite deséquations
dumodèle
(3)
à(5)
et des loisa priori p(k, 8,
0152,{3,
T,8, 7r),
elle faitappel
à desintégrales multiples qui proviennent
del’intégration
des variables latentes ou du dénominateur de la formule deBayes.
Pendantlongtemps,
l’évaluation de tellesintégrales
alimité l’inférence
Bayésienne
àl’usage d’exemples académiques,
insuffisamment réalistes pour traiter desproblèmes opérationnels.
Defait,
l’obtentionanalytique
dela loi a
posteriori p(03BA, (),
ai{3,
T,8, 03C0|X1, X 2 , ... , X6 ) n’apporte qu’une
satisfactionmathématique.
Enpratique,
il est utile de dériver les moyennes, d’évaluer les intervalles de crédibilité desparamètres,
etc... Cesopérations peuvent
se faire defaçon empirique,
sans recours à un calculd’intégrale,
si un échantillon des valeurs duparamètre
tiré dans la loi aposteriori
estdisponible.
Parconséquent,
unregain
d’intérêt s’est manifesté pour de vieux
algorithmes (Metropolis et al., 1953; Hastings, 1970),
fondé sur la simulationplutôt
quel’approximation numérique, amplifié
parle
developpement
d’ordinateurstoujours plus puissants.
Les difficultéspratiques
du calcul
Bayésien
sontaujourd’hui
maîtriséesgrâce
à l’utilisationd’algorithmes
Monte Carlo à base de chaînes de Markov. Ces
algorithmes permettent
degénérer
un« pseudo-échantillon » qui
a toutes lespropriétés statistiques
d’un échantillon de la loi aposteriori (Kass
etal., 1996; Brooks, 1998).
Dans les ouvrages de référence
récents,
sur les méthodes MCMC(Gelman
et
al., 1995; Tanner, 1996;
Robert etCasella, 1999),
deux types de méthodes sontmis en vedette :
l’algorithme
deMetropolis-Hastings
etl’échantillonnage
de Gibbs.L’algorithme
deMetropolis-Hastings
estgénéral.
Ilpeut
simulern’importe quelle
distribution de la loi a
posteriori conjointe
desparamètres
dumodèle, quand
ladistribution a
priori
et la vraisemblance sont connues.L’algorithme explore
ledomaine de définition du
paramètre,
en utilisant unestratégie spécifique
itérativealéatoire. Au sens
mathématique,
cetalgorithme
est une chaine de Markovhomogène
et
positive qui
converge sous des conditions trèsgénérales
vers la limite désirée derépartition
aléatoire desvaleurs,
à savoir la distribution aposteriori
duparamètre.
D’un autre
coté, l’échantillonnage
de Gibbs(Geman
andGeman, 1984;
voir aussi Casella etGeorge, 1992,
pour une revue de littérature sur lesujet)
fonctionneseulement
quand
toutes les distributions conditionnelles d’unparamètre,
étant donnéles autres
paramètres
et les données(conditionnelles complètes),
sontdisponibles
pour la simulation
stochastique.
Ceci est le caslorsque
le modèlepeut-être représenté
par un arbre orienté comme dans la
figure
5. Leproblème
est ici d’autantplus simplifié
que les conditionnelles
complètes n’impliquent
seulement que des distributions bêta et binomiales.3.1.
L’échantillonnage
de Gibbs divise unproblème complexe
enplusieurs sous-problèmes simples
Supposons
que l’on veuillegénérer
un échantillon detriplets {(a1,b1,c1), (a2, b2, c2), ...} pour
la loiconjointe p(A, B, C)
de trois variables aléatoiresA, B,
C. Si les conditionnellescomplètes,
i. e. des fonctions de densité de pro- babilitép(A IB, C), p(B lA, C), p(C (A, B )
sont de forme facilementsimulable, l’algorithme
deGibbs,
àpartir
d’untriplet
initial(a°, b0, co)
effectue des itérationscomme suit :
À l’étape i,
on adéjà
obtenu(ai-1, bi-1, ci -1 ),
àl’étape précédente,
ongénère
alors :
L’itération de ces trois
phases
del’algorithme stochastique garantit
que la chaîned’échantillonnage
de Gibbs convergeergodiquement
vers la distributionp(A, B, C).
Les démonstrations des
propriétés ergodiques
des Chaines de Monte Carlo Markov et lesapplications pratiques
de cestechniques
sont désormaislargement publiées
etil n’est pas besoin de les
rappeler
ici. On peut en trouver les détails dans Robert et Casella(1999)
ou dans Tanner(1996).
Dans la
pratique,
celasignifie qu’après
avoir écarté lestriplets
dans unepériode
initiale de« chauffe »,
lestriplets générés
énsuite secomporteront
commeun échantillon aléatoire de
(A, B, C)
pour tout calculstatistique caractéristique,
comme l’évaluation de la moyenne d’une fonction mesurable de
(A, B, C).
Na-turellement,
lapropriété
peut segénéraliser
pourplus
de trois variables. Pouren revenir au
problème
de déduction de la taille de lapopulation
de saumons,ce résultat
s’applique
comme suit : engénérant
lesparamètres
tour à tour, un àun selon les
sept
conditionnellescomplètes p(03BA 10, 0152, {3, T, 8, 7r, Xl, X2, ... , X6 ),
p(03B8|03BA,03B1,03B2,03C4,03B4,03C0,X1,X2,...,X6),
...p(03C0|03BA,03B8,03B1,03B2,03C4,03B4,X1,X2,...,X6),
onpeut
obtenir un échantillon de7-uplets provenant
dep(03BA, 0,
ces01
T,b, 7r IX1, X2,..., X6 ),
la loi aposteriori conjointe
desparamètres.
3.2. Dans un modèle
graphique orienté,
les conditionnellescomplètes impliquent
seulement les noeuds
parent et fils
Considérons comme dans la
figure 6,
une branche dans un modèlegraphique
orienté avec la variable aléatoire éventuellement multidimensionnelle
A, regroupant
l’ensemble des noeudsparents
deB, qui
à son tour est un noeudparent
pour laquantité
aléatoire C(éventuellement multidimensionnelle).
En travaillant avec toutes les autres variablesfixées,
notéesci-après (ABC)-,
la structure orientée du modèle traduit lareprésentation graphique
de lapropriété d’indépendance
conditionnelle pour la conditionnellecomplète
de C :p(C 1 A, B, (ABC)- )
=p(C |B, (ABC) - )
FIGURE 6
La mise à
jour Bayésienne
tireparti
de la structure conditionnelleComme le noeud B est situé entre les ensembles de noeuds A et
C,
la loi deBayes implique
que :Quand
on considère cetteexpression
en tant que fonction deB,
le dénominateur deBayes
nedépend
pas de B : ils’agit
d’une constante de normalisationqui garantit
que
l’intégrale
sur tout le domaine de B vaudra 1. Le numérateur estexprimé
par deuxprobabilités
conditionnellesqui
suivent la direction des flèches :puisque
c’est cettedémarche même
qui
a créé lemodèle,
ces deuxexpressions
sont doncexplicitement
connues! Par
conséquent,
sur un modèlegraphique orienté,
les conditionnellescomplètes
sont connues à une constante normalisanteprès. L’échantillonnage
issu dechacune de ces distributions conditionnelles
complètes a posteriori
n’est pas difficile à obtenirpuisque
chacune d’elles est une loi deprobabilité
et la constante normalisante est aupire
uneintégrale
monodimensionnelle(que
l’onpeut
brutalement calculerpoint
parpoint
ou atteindre par desalgorithmes
de simulationrapides).
Onpeut
allerplus
loin enappelant
B’ lesparents
autresque B
du noeud C.Quand
dansl’expression (6),
on va chercher à calculerp(C 1 B, (ABC) - ,
il suffit de réitérer le raisonnementprécédent
avec Cjouant
le rôle de B et(B, B,) jouant
le rôle de A. Il vient :Dans
l’équation (8),
le terme Const n’est pas une fonction de BFinalement,
en combinant(6)
et(8)
et en negardant
que les termesdépendants
de
B,
la structure orientée dugraphe permet
une écriture « locale » de larègle
deBayes :
Dans cette écriture locale de la
règle
deBayes,
la relation liant un noeud B àses parents A
joue
le rôle duprior
et la relation liant ses enfants C auxparents (B, B’)
joue
le rôle de la vraisemblance.Selon
l’équation (9),
la conditionnellecomplète
dechaque quantité
aléatoireformant un noeud du
graphe (observables,
variable latente ouparamètre)
dugraphe
est
uniquement
fonction desparents
de cenoeud,
de ses enfants et desco-parents
deses
enfants. Cet ensemble conditionnant forme la couverture markovienne du noeud.À partir
dugraphe acyclique
orientédirect,
si onrajoute
des liens fictifs entre les variablesqui
ont les mêmes descendants directs et si on transforme tous les liensen liens non
orientés,
on obtient ungraphe qui exprime
la structure devoisinage
dechaque
noeud associée au conditionnement. Lafigure
7 réalise cette transformation àpartir
dugraphe acyclique
orienté direct de lafigure
5.Spiegelhalter et
al.(1996a) appellent
avec humour cetteopération
«moralisation» car elle consiste à regrouper les familles en « mariant » lesparents.
D’un
point
de vuethéorique,
cetteopération s’apparente
à la mise en relationbijective
entre unchamp
de Gibbs et unchamp
de Markov latticiels :(théorème
de
Hammersley-Clifford
dansGuyon, 1995).
Leproblème spécifique
a d’abord étéprésenté
sous la forme degraphe
orientéacyclique,
structureproche
de celle d’unchamp
de Gibbs latticiel(figure 5);
on passe maintenant pour la suite de l’article à sareprésentation
sous la forme d’unchamp
de Markov(figure 7).
D’un
point
de vuepratique, malgré
sonaspect rébarbatif,
lafigure
7 est desplus
utiles :