Intérêts et limites

3.3 Vers une version rapide du logiciel

1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

1 000 10 000 100 000 1 000 000 1 10 100 1 000 10 000

1 2 3 4 5 6 0.0 0.2 0.4 0.6 0.8 1.0

3.3 Vers une version rapide du logiciel

3.3.3 Intérêts et limites

Cette approche, beaucoup plus simple méthodologiquement que le modèle bayésien

d’ana-lyse factorielle, a l’avantage d’être beaucoup moins coûteuse en temps de calcul que l’algorithme

MCMC implémenté pour estimer les paramètres du modèle à facteurs et les facteurs de Bayes. Il

nous est en particulier possible d’appliquer cette méthode sur les données du projet 1000 génomes

[Consortium, 2012] comportant près de 38 millions de marqueurs SNP (section 3.3.4). Pour des

jeux de données de faible taille(p < 10000)le temps de calcul de l’algorithme MCMC croit déjà

fortement (Figure 14). Cette différence devient bien plus importante avec des données telles que

S

S

S

Taux de fausses découvertes

Temps de divergence T

FIGURE12 – Courbe du taux de fausses découvertes pour une sensibilité de 50%. Les trois courbes

représentent les trois statistiquesS

,S

etS

présentées dans la section 3.3.2.

Fst

S3

FIGURE 13 – F

estimées à l’aide de l’équation (2) tracées en fonction de la statistique S

. Ces

valeurs ont été calculées sur une partie des marqueurs des données simulées de la section 3.1.3.

celles du projet 1000 génomes, et rend la version MCMC impossible à exécuter.

Néanmoins, cette approche peut s’avérer moins puissante et moins robuste au choix du nombre

de facteurs. Nous pouvons observer cela en estimant le FDR sur les données simulées de la section

3.2.4. En fonction du nombre de facteurs, le taux de fausses découvertes varie fortement (Figure

15). Pour une valeur deK optimale, les résultats sont semblables. Lorsque la valeur deK devient

trop grandes, les composantes principales considérées ne contiennent plus d’information mais

es-sentiellement du bruit. Sommer les loadings normalisés de ces composantes principales masque les

signaux potentiels de sélection. PourK = 3, les deux méthodes ont un taux de fausses découvertes

d’environ 5% pour une sensibilité de 50% (Figure 15). PourK = 6, le modèle à facteurs bayésien

a toujours un taux de fausses découvertes de 5%, alors que la version rapide basée sur l’ACP a un

taux de fausses découvertes d’environ 40%.

Nous comparons les deux approches avec un autre jeu de données simulées à l’aide deSFS_CODE

[Hernandez, 2008]. La simulation contient 179 individus séparés en 3 populations (données de

[Fagny et al., 2014]). Le scénario de simulation reproduit l’expansion humaine depuis la sortie

d’Afrique vers l’Europe et l’Asie à l’aide d’un modèle hiérarchique (Figure 16, Panel A). Dans

ce jeu de données la valeur optimale deKest2puisqu’il y a trois continents à distinguer. La

struc-ture inter-continentale apparaît sur les deux premières composantes principales (Figure 16, Panel

nombre de variables p

temps en seconde

version MCMC

version rapide

FIGURE 14 – Temps d’exécution en secondes de l’algorithme MCMC et de la version rapide en

fonction du nombre de marqueur dans les données p. L’algorithme MCMC est lancé avec 100

itérations, en incluant la phase de chauffe.

K

FDR

version MCMC

version rapide

FIGURE 15 – Taux de fausses découvertes en fonction du nombre de facteurs K du modèle. Les

FDR sont estimés sur les données simulées présentées dans la section 3.1.3

B).

Les performances du modèle à facteurs et de la statistiqueS

de l’analyse en composantes

prin-cipales sont proches. La version ACP est avantageuse dans ce cas, car le jeu de données comporte

plus de1 700 000SNP, et le temps de calcul est beaucoup plus faible. L’exécution de 100 itérations

du MCMC pour ce jeu de données prend 11 468 secondes, alors que le calcul des statistiques de

l’analyse en composantes principales se fait en344secondes.

Une grande partie des marqueurs impliqués dans un processus d’adaptation sont détectés par

les deux méthodes. Pour une valeur deKidéale, les résultats sont équivalents (Figure 16, Panel C).

A toute sensibilité donnée, la précision (ou le taux de fausse découverte) est égale pour les deux

méthodes. Cependant le choix de la valeur optimale de K est essentiel dans la version ACP. Le

modèle bayésien est beaucoup plus robuste au choix deK (Figure 16, Panel C).

En conclusion, cette version rapide de la méthode basée sur l’analyse factorielle peut égaler

les performances de la méthode bayésienne présentée dans la section 3.2. De plus, la nature de la

méthode basée sur l’ACP la rend applicable à tout type de données, même les plus volumineuses.

L’algorithme MCMC du modèle bayésien ne peut plus être utilisé lorsque pest de l’ordre du

mil-lion, ce qui devient fréquent avec les données de séquençage. Pour les jeux de données de taille

raisonnable (p < 10

), le modèle bayésien reste une meilleure option. En effet, cet algorithme est

plus robuste au choix deK. Cette robustesse peut être expliquée par la capacité du modèle bayésien

à réduire les facteurs de faible variance à une variance nulle. Grâce à la paramétrisationσ

=σ

ρ

présentée dans la section 3.2, les facteurs de variance σ