• Aucun résultat trouvé

III. Le modèle génétique canin

I.1. Le contexte phylogénétique

Pour établir le catalogue complet des gènes sous sélection positive dans le génome canin à l’aide de gènes orthologues, il faut disposer des séquences des gènes de plusieurs espèces qui sont phylogénétiquement proches.

I.1.1. Le chien comparé à neuf autres espèces

Nous avons utilisé les génomes du chien et de neuf autres mammifères pour lesquels nous disposons du séquençage complet et d’une annotation à priori complète du génome. Les génomes utilisés sont (i) quatre génomes de primates qui ont été séquencés en raison notamment de leur proximité phylogénétique avec l’Homme, ce sont les espèces ouistiti, macaque, orang-outan et chimpanzé; (ii) deux génomes de rongeurs, souris et rat; (iii) et deux espèces plus proches du chien, le cheval et la vache.

I.1.2. L’annotation ‘Ensembl’

Les génomes de ces espèces sont annotés et disponibles sur le site de la base Ensembl (http://www.ensembl.org) (Flicek, et al., 2011) qui utilise des méthodes automatiques pour annoter les génomes c’est à dire établir le catalogue des gènes présents dans le génome

-49-étudié. L’annotation du serveur Ensembl se base sur la connaissance de séquence protéique de l’espèce considérée et des espèces proches phylogénétiquement ainsi que des séquences d’ADN complémentaire pour l’espèce d’intéret (Potter, et al., 2004). La version ‘Ensembl Genes 63’ contient 19.305 gènes canins codant pour des protéines, plus de 20.000 gènes en moyenne pour les autres génomes de notre étude (21.494 humain, 20.993 ouistiti, 21.905 macaque, 20.068 orang outan, 19.829 chimpanzé, 22.667 souris, 22.938 rat, 20.436 cheval et 21.048 vache). Le serveur Ensembl contient aussi les informations d’orthologie qui permettent de déterminer des listes de gènes orthologues ainsi que leur type de relation d’orthologie. À partir de leurs identifiants, les gènes orthologues peuvent être utilisés pour extraire leurs séquences codantes.

I.1.3. Extraction des 10.000 orthologues

L'extraction et l’alignement des séquences orthologues est une étape déterminante dans la recherche de gènes sous sélection positive. Pour obtenir les orthologies et alignements les plus fiables possibles, nous avons établi une collaboration avec le Dr. Hugues Roest Crollius (équipe DYOGEN ENS Paris) qui a réalisé 10.730 alignements protéiques issus de la redéfinition de 10.730 orthologues de type 1:1 entre les 10 espèces mammifères considérées et l’alignement des codons de ces séquences en cumulant un alignement nucléotidique de chaque exon et un alignement protéique. La longueur des alignements de séquences entre les 10 espèces varie de 150 à 15.150 nucléotides (moyenne 1353 ; écart type 1254).

I.1.4. Le Likelihood-Ratio Test

-LRT-Nous avons utilisé les alignements de séquences des 10.730 gènes orthologues pour calculer le test de sélection positive par branche et par site proposé par Yang et Neilsen (Yang Z and Nielsen, 1998; Zhang Jianzhi, et al., 2005b; Yang Z and Dos Reis, 2011). Ce test détecte la sélection positive dans la séquence codante des gènes. Cette approche est basée sur l’évaluation des taux de mutations non-synonymes (dN) et les taux de mutations neutres (dS). Ces taux permettent de calculer le ratio dN/dS (appelé aussi ). Les gènes orthologues étant conservés au cours de l’évolution, la valeur d’un gène sur l’ensemble de sa séquence est très faible. La valeur est donc évaluée par site afin d’être mesurée de manière très résolutive. Pour réaliser cette analyse, nous utilisons le programme codeML du package PAML (Phylogenetic Analysis by Maximum Likekihood) (Yang Z., 1997)pour calculer les proportions de sites sous sélection positive, absente ou négative. Ces calculs nécessitent de préciser une branche phylogénétique d’intérêt au logiciel CodeML. Le programme CodeML

calcule les proportions de sites qui sont sous sélection positive, absente ou négative pour l’espèce d’intérêt selon un modèle qui implique que ces mêmes sites soient sous évolution neutre ou sélection négative dans les autres branches de l’arbre. Le programme détermine alors la vraisemblance de ce modèle. Nous effectuons le calcul de ces proportions et leurs vraisemblances pour chacun des 10.730 gènes de chacune des 10 espèces.

En parallèle, nous avons calculé les mêmes proportions et vraisemblances pour un second modèle dans lequel la valeur ! qui était calculée pour la sélection positive est fixé à 1 pour représenter une hypothèse nulle d’évolution neutre. Les hypothèses nulle d’absence de sélection positive (H0) et alternative de présence de sélection positive (H1) sont incluses l’une dans l’autre. Par conséquent nous pouvons comparer les logarithmes des vraisemblances de ces deux modèles (lnLH0 et lnLH1). En effet, en absence de sélection positive, le résultat du calcul 2*(lnLH1-lnLH0) suit une distribution du chi-deux ( 2 ) à un degré de liberté. Ce test devient plus fiable à mesure que l'on augmente le nombre d'espèces considérées pour les gènes présentant des relations d'orthologie 1:1. Enfin les p valeurs du test de 2 sont corrigées par la méthode de Benjamini-Hochberg -BH- (Benjamini and Hochberg, 1995) qui permet de contrôler le taux de faux positifs inhérents à une série de tests multiples. Le seuil de la p valeur de 0,05 est utilisé pour identifier les gènes candidats sous sélection positive dans chaque espèce. C’est dans ce contexte que nous avons détecté 633 gènes canins (138 gènes après correction BH) sous sélection positive dans la branche phylogénétique menant au chien, à comparer aux valeurs de la branche du ouistiti (n=855), du macaque (n=367), de l’orang-outan (n=459), de l’Homme (n=169), du chimpanzé (n=360), de la souris (n= 673), du rat (n=790), de la vache (n=711) et du cheval (n=677), comme illustré dans la figure 10.

-51-Figure 10 : Arbre des 10 espèces utilisées. Cette gure représente l arbre phylogénétique du chien et des 9 autres espèces utilisées pour établir le contexte phylogénétique nécessaire au calcul des vraisemblances des modèles. Les chiffres en gras au dessus du nom des espèces représentent le nombre de gènes détectés sous sélection positive par le test LRT parmi les 10.730 testés. Les chiffres entre parenthèses représentent le nombre de gènes toujours détectés après avoir corrigé les p valeurs par la méthode de Benjamini-Hochberg (Benjamini and Hochberg, 1995). Les chiffres indiqués en dessus du nom des