• Aucun résultat trouvé

1 Matériel et méthodes

1.2 Méthodes utilisées

1.2.1 Variabilité intra-population : coefficients de consanguinité et de

parenté

Afin d’étudier la variabilité intra-population, j’ai débuté mon étude par le calcul de coefficients de consanguinité et de parenté.

J’ai pu obtenir les coefficients génomiques pour toutes les races grâce au logiciel PLINK qui reprend les indicateurs développés pour le logiciel GCTA (Genome-wide Complex Trait Analysis), outil pour les études pangénomiques de caractères complexes (Yang et al. 2011). J’ai donc calculé les coefficients d’apparentement par race pour chaque couple d’individus d’une même race. Ainsi, le tri des apparentements cité précédemment a été effectué de telle sorte que les parentés génomiques deux à deux des individus conservés n’excèdent pas 0,20. Le script R qui m’a permis d’éliminer les individus qui possédaient le plus de relations de parenté au sein de l’échantillon, c’est-à-dire de savoir au sein de chaque couple d’individus ayant un apparentement supérieur à 0,20 quel individu éliminer, m’a été fourni par Bertrand Servin qui avait déjà réalisé ce type d’analyse auparavant. J’ai également pu calculer les coefficients de consanguinité de chaque individu, race par race. J’ai obtenu 3 estimateurs de la consanguinité (Fhat1, Fhat2 et Fhat3) pour chacun des individus.

En ce qui concerne les coefficients de consanguinité et de parenté pedigree, ils ont été calculés avec le logiciel PEDIG (Boichard 2002), seulement pour quelques races (Alpine, Saanen, Angora, Provençale, Poitevine et Fossés), à partir du pedigree des individus, c’est-à-dire à la liste d’ancêtres connus. Ces pedigrees sont très bien renseignés pour les races sélectionnées Alpine, Saanen et Angora et pour la chèvre Poitevine, et plutôt mal connus pour les autres races.

Afin de vérifier la cohérence entre les valeurs pedigree et les valeurs génomiques, j’ai réalisé une régression linéaire entre les coefficients pedigree et génomiques pour les races dont on possédait les valeurs pedigree.

1.2.2 Analyse en Composantes Principales

La deuxième analyse réalisée dans le cadre de l’étude de la diversité génétique est une analyse statistique exploratoire multivariée, l’Analyse en Composantes Principales (ACP). L’ACP est une méthode factorielle de réduction de dimension pour l’exploration de données quantitatives complexes. Plus simplement, elle permet de réduire la dimension des données initiales (qui est p si l'on considère p variables quantitatives), en remplaçant les p variables initiales par q facteurs appropriés (q < p). C’est une méthode de base d’analyse de tableaux numériques comportant en ligne n individus et en colonnes p variables quantitatives relatives à ces individus.

Le principe général de cette analyse repose sur la décomposition d’une matrice numérique en valeurs propres et vecteurs propres. Cette matrice numérique est dans notre cas d’étude la matrice de parenté génomique standardisée. La décomposition effectuée par PLINK utilise la méthode du logiciel GCTA (Yang et al. 2011). Les sorties numériques servent ensuite à bâtir des représentations graphiques qui permettent une interprétation de la structure des données. Les graphiques que l’on peut principalement obtenir sont construits à partir des coordonnées des projections des individus sur les vecteurs propres de l’espace des variables, on appelle alors ces vecteurs propres les axes principaux ou

composantes principales. Pour toutes les analyses présentées dans ce rapport, j’ai rédigé un script R qui m’a permis d’obtenir ces graphiques afin de visualiser les ACP et de les interpréter.

L’ACP est une première approche d’observation de la distance entre les individus. Elle permet de visualiser les individus des différentes races qui doivent alors être distinctes dans les graphiques décrits précédemment. On doit en effet retrouver les individus d’une même race proches les uns des autres dans ces graphiques. Cette approche est très visuelle et considère les variables indépendantes les unes des autres. De plus, l’ACP permet d’étudier individuellement la structuration du jeu de données, sans hypothèse évolutive.

1.2.3 Admixture : recherche de la structure des populations

La troisième analyse effectuée est la recherche de la structure des populations. En diversité génétique, une des manières de caractériser la structure des individus est de chercher à les regrouper en plusieurs « populations » homogènes (techniquement, homogène correspond au fait que la population est en équilibre d'Hardy-Weinberg) : des individus d’une même population ont des génotypes plus similaires que des individus appartenant à des populations différentes. Dans ce type de modèle, la structuration entre individus est alors expliquée par les différences de génotypes entre populations.

J’ai utilisé dans mon étude un outil informatique d’analyse de structure, dit de « classification », le logiciel ADMIXTURE v1.23 (Alexander et al. 2009), qui est une implémentation du modèle statistique développé dans le logiciel STRUCTURE (Pritchard et al. 2000) mais calculatoirement plus efficace. Le principe de l'analyse est de supposer que les individus sont issus d'un nombre K de populations en équilibre d'Hardy Weinberg. Les individus du jeu de données ne sont pas nécessairement uniquement issus d'une seule population, mais leur génome peut être une mosaïque des K populations. Le logiciel ADMIXTURE va, à partir des données de génotypage, estimer les fréquences alléliques de chaque marqueur dans chacune des K populations (matrice P) et pour chaque individu va estimer la proportion du génome issue de chacune des K populations sachant sont génotype (matrice Q). Ainsi, un individu hybride entre deux populations aurait un coefficient de 0,5 dans la matrice Q pour ces deux populations.

Le modèle calcule ces matrices pour un nombre donné K de populations au sein du jeu de données qui est a priori inconnu. Afin de déterminer ce nombre, le logiciel ADMIXTURE propose une procédure de validation croisée qui permet d’estimer la valeur de K qui explique le mieux les données. Cette procédure donne une valeur d’erreur de validation croisée pour chaque K estimé. On peut alors facilement visualiser ces valeurs et garder la valeur de K pour laquelle l’erreur est la plus faible.

La matrice Q peut être visualisée graphiquement grâce à un script R que j’ai rédigé. Sur ce graphique, les individus sont en abscisse et les estimations en ordonnée. Les populations sont observables à l’aide de couleurs différentes de telle sorte qu’un individu estimé à 100 % appartenant à une seule population doit être coloré d’une seule couleur.

Cette méthode est une méthode classique d'analyse en génétique des populations. En effet, elle est basée sur un modèle génétique qui, bien qu'assez simple, est assez robuste et permet de bien caractériser la structure d’un jeu de données contenant plusieurs populations tout en mettant en évidence les individus admixés. Nous verrons que la procédure de validation croisée propose parfois un nombre K inférieur au nombre réel de populations. Cela peut être dû à la grande proximité de plusieurs populations au sein du jeu de données.

Rapport de stage de fin d’études Claire OGET g h i j k A B C D E F Branches

Nœuds internes = ancêtres communs Feuilles

1.2.4 Les arbres phylogénétiques

La dernière approche effectuée au cours de ce stage est une analyse de la diversité à l’aide d’arbres phylogénétiques. Un arbre phylogénétique est une représentation de la proximité entre populations sous la forme d'un arbre portant des branches et des feuilles. La Figure 18 représente schématiquement un arbre phylogénétique sur lequel sont localisées 6 populations (A à F) aux extrémités des branches. Ces populations sont reliées par des nœuds (g à k) qui constituent des ancêtres communs. J’ai réalisé ces arbres à l’aide de deux logiciels différents : hapFLK v.1.3.0 (Bonhomme et al. 2010 ; Fariello et al. 2013), et TreeMix v.1.12 (Pickrell and Pritchard 2012). Ces logiciels réalisent la construction de l’arbre selon deux méthodes différentes, l’une se basant sur une approche de distances génétiques entre groupes d’animaux (hapFLK), et l’autre utilisant une approche probabiliste, la méthode du maximum de vraisemblance ou Maximum Likelihood (TreeMix).

Pour le logiciel hapFLK, la construction de l’arbre est basée sur la méthode Neighbor-Joining (Saitou and Nei 1987) qui est un algorithme d’agglomération. Cette méthode consiste en un regroupement de proche en proche grâce à une matrice de distances génétiques de Reynolds (Reynolds et al. 1983) calculée au préalable entre toutes les populations 2 à 2. Elle part d’un arbre en étoile, c’est-à-dire que toutes les populations sont situées à la même distance de l’ancêtre commun situé sur le nœud central de l’arbre. Elle teste ensuite tous les couples de populations afin de trouver les deux populations les plus proches génétiquement. Une fois formé, ce couple est séparé de leur ancêtre commun (nouveau nœud) par deux branches de longueurs calculées grâce à une fonction qui prend en compte la durée écoulée depuis la séparation des deux populations, et le phénomène de dérive génétique. La matrice de distances est ensuite recalculée en considérant le couple dernièrement formé comme une population unique. Puis, on cherche à nouveau les deux populations les plus proches, et ainsi de suite jusqu’à ce qu’il n’y ait plus qu’une seule population au sein de la matrice de distances. On obtient ainsi l’arbre phylogénétique visualisable grâce à un script R que j’ai réalisé. On peut, dans hapFLK, ajouter une population « outgroup » qui correspond à une population possédant un ancêtre commun à toutes les autres populations. L’ « outgroup » permet de définir de définir a priori la branche de l’arbre sur laquelle sera placée la racine. Par exemple, sur la Figure 18, l’ « outgroup » est la population F, et la racine de l’arbre est localisée sur la branche entre les nœuds i et j. Dans le cas de l’ajout d’un « outgroup », cette population est exclue de la matrice de distance.

Dans le logiciel TreeMix, l’arbre est construit selon la méthode du maximum de vraisemblance. C’est une méthode statistique qui modélise l’évolution des paramètres du jeu de données, paramètres qui dans notre étude sont les fréquences alléliques. Elle va donc estimer des arbres statistiquement, et calculer les probabilités que les longueurs des branches de ces arbres estimés soient les plus proches des valeurs observées. Finalement, on gardera l’arbre qui modélise le mieux les valeurs réelles. On peut visualiser cet arbre à l’aide d’un script R, ainsi que ses résidus, c’est-à-dire la vérification des postulats des tests statistiques utilisés par le modèle. Ces résidus se présentent sous la forme de valeurs numériques proches de 0 entre chaque paire de populations, plus les valeurs sont éloignées de 0 (positivement ou négativement), moins bien les relations entre populations sont expliquées par le modèle. Cette méthode est plus longue que la précédente en raison du nombre de calculs effectués à chaque nouvel arbre estimé, mais elle est souvent décrite comme étant la meilleure, c'est-à-dire la plus efficace pour trouver l'arbre le plus proche de la réalité. On peut également ajouter dans cette méthode un « outgroup » qui va permettre d’enraciner l’arbre estimé. La particularité du logiciel TreeMix est la possibilité d’ajouter des évènements de migration au sein du modèle. Un évènement de migration représente un flux de gènes d’une population à une autre à un moment donné de leur histoire évolutive. Autrement dit, il correspond à un croisement entre individus appartenant à deux populations différentes. Le principe de cet ajout de migration est également probabiliste.

Rapport de stage de fin d’études Claire OGET

Figure 20 : Représentation selon les deux premiers axes de l'ACP réalisée sur les races impliquées dans la migration méditerranéenne

PAL

(race espagnole des îles Canaries)

Afrique du Nord

Iran/Turquie

+ ANG

BEZ

(genre Capra aegagrus)

Pakistan

Europe du Sud

Figure 19 : Éboulis des valeurs propres de l'ACP réalisée sur les races impliquées dans la migration méditerranéenne

L’algorithme repère les paires de populations mal expliquées par l’arbre et teste alors la paire qui a la plus grande probabilité d’être proches génétiquement. Cet ajout de migration est alors visualisé par une flèche qui relie une population à une autre.

2 Résultats et discussion des analyses effectuées sur les races mondiales

Documents relatifs