• Aucun résultat trouvé

Méthodes ABC : Approximate Bayesian Computation.

N/A
N/A
Protected

Academic year: 2021

Partager "Méthodes ABC : Approximate Bayesian Computation."

Copied!
10
0
0

Texte intégral

(1)

Méthodes ABC

Approximate Bayesian Computation

(2)

Objectifs et principe

• Estimer au sein de ces scénarios des paramètres de la

dynamique actuelle ou passée des populations (Ne, taux de

recombinaison, taux de migration, date d’introduction, taux

d’admixture, temps de divergence …)

• Comparer des scénarios démographiques et/ou évolutifs

Observations (données génétiques, démographiques, historiques etc…)

Théorème de Bayes

(

/

)

p data

(

(

/

) ( )

)

p

p

data

p data

θ

θ

θ

=

θ

paramètre à estimer

Posterior distribution

Vraisemblance

(3)

Principe

Utilisation ABC basique du théorème de Bayes

Dans la cas où la vraisemblance ne peut être écrite

(scénarios démographiques et/ ou évolutifs trop complexes)

(

/

)

p data

(

(

/

) ( )

)

p

p

data

p data

θ

θ

θ

=

1-Tirer une valeur du paramètre dans le prior

Ex : taux de mutation θ = 10-6

2-Simuler un jeu de données avec cette valeur de paramètre

Ex : générer un arbre par le modèle coalescent et distribuer des mutations le long de ses branches à une fréquence de θ

3-Calculer une statistique S’ qui résume l’info du jeu de données simulé

Ex : le nombre de sites qui ségrègent

4-Comparer S’ simulé et S réel

s

′ − ≤

s

δ

Si on stocke la valeur de paramètre sinon on la rejette 5-Retour à 1 (beaucoup de fois)

(4)

Pourquoi « approximate » ?

Utilisation ABC basique du théorème de Bayes

Dans la cas où la vraisemblance ne peut être écrite

(scénarios démographiques et/ ou évolutifs trop complexes)

1-Tirer une valeur du paramètre dans le prior

2-Simuler un jeu de données avec cette valeur de paramètre Ex : taux de mutation θ = 10-6

Ex : générer un arbre par le modèle coalescent et distribuer des mutations le long de ses branches à une fréquence de θ

3-Calculer une statistique S’ qui résume l’info du jeu de données simulé

4-Comparer S’ simulé et S réel

Ex : le nombre de sites qui ségrègent

s

′ − ≤

s

δ

Si on stocke la valeur de paramètre sinon on la rejette

5-Retour à 1 (beaucoup de fois)

L’ensemble des valeurs stockées permet de tracer la posterior distribution

Par opposition au calcul exact de vraisemblance et

recherche du max de vraisemblance par MCMC

Par opposition au méthodes

rejection-sampling

(5)

Améliorations

- Choix de la (des) statistique(s) décrivant le jeu de données

On suppose que

p

(

θ

/

data

)

p

(

θ

/

S

)

Pour le moment, pas de théorie disponible pour guider le choix de S

- L’estimation dépend largement du seuil de rejet δ

•Méthode par régression linéaire locale de

Beaumont et al. 2002 Genetics

• Améliore la méthode en pondérant les valeurs testées du paramètre θi par ||si - s|| et en diminuant l’impact de l’écart entre siet s sur les estimations

•Régression entre les valeurs testées du paramètre

θi et ||si - s||

δ

C a rr é d e s é c a rt s e n tr e v a le u rs e s ti m é e s e t v a le u rs ré e lle s d e s p a ra m è tr e s

Simulations

- Exploration de l’espace des paramètres

Couplage possible avec des techniques de MCMC

Excoffier & heckel 2006 Nature Reviews | Genetics

Marjoram et al. 2003 PNAS Sisson et al. 2007 PNAS

(6)

Le modèle

(7)

Comparaison de modèles

Comparer différents scénarios démographiques ou évolutifs Bayes factor

(

)

(

(

1

) ( )

) ( )

2 1 2 2 1

/

,

/

p M

data p M

B M M

p M

data p M

=

Nombre d’occurrences du modèle 2 parmi les

simulations non rejetées

Fréquence des simulations avec le

modèle 1

Diabrotica virgifera virgifera

(8)

Utilisations de l’ABC

Inférences de paramètres

Tests de scénarios démographiques et/ou évolutifs Taux de mutation

Taux de recombinaison

Taille efficace : OneSamp Tallmon et al. 2008 Intensité d’un bottleneck

Dates (ancêtre commun, dernier bottleneck…)

Lieu d’introduction : Estoup et al. 2001

Itinéraires d’introduction : Miller et al. 2001, Pascual et al. 2007 Taux d’admixture : Excoffier et al. 2005

(9)

DoItYourselfABC

Un programme convivial (« clic-clic ») pour réaliser par ABC des inférences de paramètres démographiques, historiques et génétiques à partir de données génétiques et comparer des scénarios

- échelle de temps moyenne

(phylogéographie, histoire avant émergence) - données de marqueurs microsatellites

- espèces diploïdes

- reproduction sexuée panmictique

- divergence sans migration et/ou admixtures

Limites actuelles

Spécifications

- données réelles au format Genepop - nombre de populations

- histoire présumée

- paramètres connus (exemple : dates) - statistiques à utiliser

Construit à partir de abc-sim et abcEst (Cornuet et al. 2006 Actes du BRG)

(10)

Références

Documents relatifs

Montrer que F est de classe C ∞ sur R et vérie une équation diérentielle linéaire du second ordre..

A l'aide d'un test que l'on précisera, au seuil de risque de 5%, déterminer la valeur minimale de n qui permet au chercheur de conclure que les résultats avec le nouveau traitement

Index Terms — Approximate Bayesian Computation, Nonparametric estimation, Conditional density estimation, Nearest neighbor meth- ods, Mathematical statistics.. 2010 Mathematics

3- A l’aide de vos connaissances et des documents, développer un argumentaire pour convaincre l’agriculteur producteur de pommes de terre de fertiliser différemment

Our goal in this section is to investigate some consistency properties of the ABC -companion estimate (3.1). Point- wise mean square error consistency is proved in Theorem 3.3 and

Keywords Approximate Bayesian computation, summary statistics, surrogate models, Gaussian mix- tures, discrepancy measures, divergence measures, L 2 distance, Wasserstein

b-la diminution de la pression favorise le sens qui augmente le nombre des moles de gaz donc le sens direct est favorisé spontanément par suite le taux d’avancement augmente (0

Déterminez dans quel intervalle se trouve la médiane puis calculez-la.. Tracez la courbe des eectifs cumulés et calculez la