3.3 Vers une version rapide du logiciel
3.3.3 Intérêts et limites
Cette approche, beaucoup plus simple méthodologiquement que le modèle bayésien
d’ana-lyse factorielle, a l’avantage d’être beaucoup moins coûteuse en temps de calcul que l’algorithme
MCMC implémenté pour estimer les paramètres du modèle à facteurs et les facteurs de Bayes. Il
nous est en particulier possible d’appliquer cette méthode sur les données du projet 1000 génomes
[Consortium, 2012] comportant près de 38 millions de marqueurs SNP (section 3.3.4). Pour des
jeux de données de faible taille(p < 10000)le temps de calcul de l’algorithme MCMC croit déjà
fortement (Figure 14). Cette différence devient bien plus importante avec des données telles que
1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0
S
1S
2S
3Taux de fausses découvertes
Temps de divergence T
FIGURE12 – Courbe du taux de fausses découvertes pour une sensibilité de 50%. Les trois courbes
représentent les trois statistiquesS
1,S
2etS
3présentées dans la section 3.3.2.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Fst
S3
FIGURE 13 – F
stestimées à l’aide de l’équation (2) tracées en fonction de la statistique S
3. Ces
valeurs ont été calculées sur une partie des marqueurs des données simulées de la section 3.1.3.
celles du projet 1000 génomes, et rend la version MCMC impossible à exécuter.
Néanmoins, cette approche peut s’avérer moins puissante et moins robuste au choix du nombre
de facteurs. Nous pouvons observer cela en estimant le FDR sur les données simulées de la section
3.2.4. En fonction du nombre de facteurs, le taux de fausses découvertes varie fortement (Figure
15). Pour une valeur deK optimale, les résultats sont semblables. Lorsque la valeur deK devient
trop grandes, les composantes principales considérées ne contiennent plus d’information mais
es-sentiellement du bruit. Sommer les loadings normalisés de ces composantes principales masque les
signaux potentiels de sélection. PourK = 3, les deux méthodes ont un taux de fausses découvertes
d’environ 5% pour une sensibilité de 50% (Figure 15). PourK = 6, le modèle à facteurs bayésien
a toujours un taux de fausses découvertes de 5%, alors que la version rapide basée sur l’ACP a un
taux de fausses découvertes d’environ 40%.
Nous comparons les deux approches avec un autre jeu de données simulées à l’aide deSFS_CODE
[Hernandez, 2008]. La simulation contient 179 individus séparés en 3 populations (données de
[Fagny et al., 2014]). Le scénario de simulation reproduit l’expansion humaine depuis la sortie
d’Afrique vers l’Europe et l’Asie à l’aide d’un modèle hiérarchique (Figure 16, Panel A). Dans
ce jeu de données la valeur optimale deKest2puisqu’il y a trois continents à distinguer. La
struc-ture inter-continentale apparaît sur les deux premières composantes principales (Figure 16, Panel
1 000 10 000 100 000 1 000 000 1 10 100 1 000 10 000
nombre de variables p
temps en seconde
version MCMC
version rapide
FIGURE 14 – Temps d’exécution en secondes de l’algorithme MCMC et de la version rapide en
fonction du nombre de marqueur dans les données p. L’algorithme MCMC est lancé avec 100
itérations, en incluant la phase de chauffe.
1 2 3 4 5 6 0.0 0.2 0.4 0.6 0.8 1.0
K
FDR
version MCMC
version rapide
FIGURE 15 – Taux de fausses découvertes en fonction du nombre de facteurs K du modèle. Les
FDR sont estimés sur les données simulées présentées dans la section 3.1.3
B).
Les performances du modèle à facteurs et de la statistiqueS
1de l’analyse en composantes
prin-cipales sont proches. La version ACP est avantageuse dans ce cas, car le jeu de données comporte
plus de1 700 000SNP, et le temps de calcul est beaucoup plus faible. L’exécution de 100 itérations
du MCMC pour ce jeu de données prend 11 468 secondes, alors que le calcul des statistiques de
l’analyse en composantes principales se fait en344secondes.
Une grande partie des marqueurs impliqués dans un processus d’adaptation sont détectés par
les deux méthodes. Pour une valeur deKidéale, les résultats sont équivalents (Figure 16, Panel C).
A toute sensibilité donnée, la précision (ou le taux de fausse découverte) est égale pour les deux
méthodes. Cependant le choix de la valeur optimale de K est essentiel dans la version ACP. Le
modèle bayésien est beaucoup plus robuste au choix deK (Figure 16, Panel C).
En conclusion, cette version rapide de la méthode basée sur l’analyse factorielle peut égaler
les performances de la méthode bayésienne présentée dans la section 3.2. De plus, la nature de la
méthode basée sur l’ACP la rend applicable à tout type de données, même les plus volumineuses.
L’algorithme MCMC du modèle bayésien ne peut plus être utilisé lorsque pest de l’ordre du
mil-lion, ce qui devient fréquent avec les données de séquençage. Pour les jeux de données de taille
raisonnable (p < 10
6), le modèle bayésien reste une meilleure option. En effet, cet algorithme est
plus robuste au choix deK. Cette robustesse peut être expliquée par la capacité du modèle bayésien
à réduire les facteurs de faible variance à une variance nulle. Grâce à la paramétrisationσ
2k
=σ
2ρ
2k
présentée dans la section 3.2, les facteurs de variance σ
2k
faible devant σ
2, entraînent les valeurs
deρ
2k
vers0[Oba et al., 2003] dans l’algorithme MCMC. Puisqueρ
2k