Détection de la sélection

^β⁽¹zl₋1=k+1_zl₊₁₌k)

^β^�i∼j1_zi=zj

0.01 0.02 0.03 0.04 0.05 0.0 0.1 0.2 0.3 0.4 0.5 0.6

3.2.1 Interprétations desloadings

A l’aide de l’analyse factorielle, il est possible de décrire les données avec un faible nombre de

variables latentes. Dans l’exemple présenté précédemment, les données simulées correspondent à4

populations, et les données peuvent être décrites à l’aide de3variables latentes, ou facteurs (Figure

9). Les variables sont des combinaisons linéaires despvariables présentes dans les données. Pour

détecter des marqueurs génétiques subissant des pressions de sélection, nous nous intéressons aux

marqueurs ayant une valeur atypiquement forte dans un vecteur de la matrice des loadings V.

Une forte valeur V

pour un coefﬁcient k du vecteur V

implique que le marqueur l contribue

fortement auk

facteur latent. Cela revient à dire que le marqueurlest fortement différencié dans

la directionk[Laloë et al., 2011]. Si l’on connaît les facteursU

, . . . U

, cela peut être vu comme

une régression multiple, où le vecteurY

est régressé par lesK facteursU

. . . U

(Figure 9). Les

valeursY

. . . Y

sont les coefﬁcients de régression. Puisque les facteurs représentent la structure

de population [Engelhardt and Stephens, 2010], un fort coefﬁcient de régression implique une forte

corrélation avec la différenciation représentée par cette structure. Dans notre exemple de la section

3.1.3, une valeur atypiquement forte de V

signiﬁe que le marqueur est atypiquement différencié

entre la populationsB

etB

. Cela peut être interprété comme une trace d’adaptation locale dans

une des deux populations.

Ainsi notre recherche de marqueurs impliqués dans des processus d’adaptation locale revient

à rechercher des marqueurs outliers dans les matrices résultantes d’une analyse factorielle. Nous

déﬁnissons un outlier, comme une valeur atypique au vu de la distribution des réalisations. La

re-cherche d’une forte différenciation d’un marqueur rappelle l’approche de Lewontin et Krackauer

[Lewontin and Krakauer, 1973]. Cette recherche correspond à l’hypothèse de travail de la

géno-mique des population qui dit que la majeure partie des variations génétique est neutre [Luikart et al., 2003],

et qu’une faible part des variations est inﬂuencée par des pressions de sélection. L’ACP a déjà été

proposée pour chercher les outliers dans des données en grande dimension [Filzmoser et al., 2008,

Jackson and Chen, 2004]. Nous déﬁnissons le choix de modélisation pour chercher les outliers

ci-dessous.

Pour la détection d’oultier dans la matriceV, nous utilisons un modèle d’inﬂation de la

va-riance [Box and Tiao, 1968, Chaloner and Brant, 1988]. Nous déﬁnissons un vecteur de variables

indicatrices aléatoires z = (z

. . . z

)à valeurs dans {0, . . . K}, qui indique pour chaque locus si

Y

est outlier dans lak

composantez

= k, ou non outlierz

= 0. Dans le cas oùz

= 0, nous

considérons que le locus neutre. Ainsi nous adoptons le prior suivant pour chacun des pvecteurs

deV

p(V

|z

= 0,Σ

) =N

(0,Σ

), (10)

p(V

|z

=k,Σ

) = N

(0, C

Σ

) (11)

où Σ

est la matrice de covariance entre les loadings. Nous choisissons cette matrice diagonale

avec comme termes diagonauxσ

. La matriceC

est la matrice d’inﬂation de la variance. C’est une

matrice diagonale, avec comme termes diagonaux,(1, . . . ,1, c

, . . . ,1)où la valeur non-unitaire est

lek

élément. Chaque terme de variance est modélisé tel queσ

=σ

ρ

, oùσ

est la variance des

) = (1−π, ^π

K^{, . . .}

K⁾^. (13)