• Aucun résultat trouvé

Développement d’un serveur d’analyse des contraintes sélectives des séquences

III. Le modèle génétique canin

I.3. Développement d’un serveur d’analyse des contraintes sélectives des séquences

Au cours de ce travail, nous avons développé un outil d’analyse, OMEGA, dédié à l'automatisation des calculs de dN/dS, et au calcul du test LRT à partir de séquences de gènes codant pour des protéines au format fasta non alignées. OMEGA a été conçu et mis en ligne pour permettre son utilisation via une interface web.

I.3.1. Principe du serveur OMEGA

Ce serveur web OMEGA (http://dogs.genouest.org/OMEGA) utilise en entrée des séries de jeux de gènes dont chaque séquence est copiée/collée dans un formulaire HTML. Un jeu de données est constitué des séquences nucléotidiques sans code d'ambiguïté d’un même gène pour les différentes espèces analysées. Les jeux de données sont traités selon la procédure décrite dans la figure 11 :

I.3.1.1. Alignement avec le programme T-Coffee

Les séquences de chaque jeu de données sont soumises à un premier traitement qui va les traduire en codon d’acides aminés puis les aligner entre eux à l’aide du méta-aligneur T-Coffee (Tree-based Consistency Objective Function For alignment Evaluation). T-T-Coffee (Notredame, et al., 2000) est un outil d’alignement multiple qui fonctionne en combinant les algorithmes d’alignements global de ClustalW (Thompson, et al., 1994) et d’alignement local du package FASTA (Pearson and Lipman, 1988). À partir des alignements de chaque paire de séquences par les deux méthodes, T-Coffee génère une librairie indiquant le poids de chaque association possible entre deux nucléotides issus de séquences différentes. T-Coffee utilise ensuite une approche progressive pour générer l’alignement multiple : un premier alignement de deux séquences est complété par l’ajout des autres séquences pour obtenir l’alignement multiple. Si l’utilisateur a fourni un arbre phylogénétique des espèces correspondant aux séquences de son jeu de données, le serveur OMEGA fournit cet arbre à T-Coffee pour guider l’étape de génération progressive de l’alignement multiple. Enfin OMEGA rétro-traduit

chaque séquence de l’alignement pour obtenir un alignement nucléotidique basé sur les codons des séquences d’origine.

Figure 11 : Logigramme du serveur OMEGA. Ce logigramme détaille le fonctionnement du serveur OMEGA qui pour chaque jeu de séquences entré simultanément par l interface web réalise un alignement par codons puis calcule les ratios dN, dS et omega selon le nombre de séquences du jeu de données et de l indication d une branche d intérêt. Les résultats sont afchés sur le navigateur et envoyés par mail.

Formulaire web T-Coffee Traduction Retro-traduction Branche principale ?

Afchage web + e-mail

2

non-indiquée indiquée

modèles null et alternatif

test LRT

#séquences?

dN/dS de chaque branche de l’arbre

dN/dS de la paire

-55-I.3.1.2. Calcul des ratios par paire et par branche

À partir des séquences alignées, le serveur calcule les ratios dN, dS et à l’aide de l’outil codeML du package PAML. Lorsque les jeux de données sont constitués des séquences de seulement deux espèces, le serveur retourne l’alignement et les valeurs des ratios calculées avec l’option “pairwise” de codeML (model = 0 NSsites = 0). La valeur indique alors l’accumulation de mutations synonymes comparée à l’accumulation de mutations non synonymes sans indiquer quelle séquence évolue plus vite que l’autre. Lorsque les jeux de données sont constitués d’un nombre de séquences supérieur à deux espèces, le serveur calcule les trois ratios pour chaque espèce et pour chaque branche interne de l’arbre (model = 1 NSsites = 0). La valeur indique alors un taux d’évolution de chaque branche de l’arbre fourni par l’utilisateur.

I.3.1.3. Calcul des modèles “Branch site”

Les calculs par branche de l’arbre ne donnent qu'exceptionnellement des supérieurs à 1. En effet, des gènes conservés entre espèces sont globalement sous sélection négative. Pour les gènes conservés entre espèces, la sélection positive peut cependant agir très ponctuellement sur certains sites constitués d’un seul codon/nucléotide par exemple, alors que les autres sites sont sous sélection négative. Pour évaluer la sélection positive au sein d’un gène d’une espèce, le serveur calcule le modèle par site dit ‘branch site’ (model = 2, NSsites = 2). Pour que ce modèle soit calculé, l’utilisateur doit indiquer la branche d'intérêt. Le serveur détermine les proportions de sites qui sont :

- 1. sous évolution neutre à la fois dans la branche d’intérêt et dans les autres branches - 2. sous sélection négative à la fois dans la branche d’intérêt et dans les autres branches - 3. sous sélection positive dans la branche d’intérêt et sous évolution neutre dans les autres branches

- 4. sous sélection positive dans la branche d’intérêt et sous sélection négative dans les autres branches

Ces proportions sont calculées à l’aide du programme codeML. En plus de ces proportions, les valeurs d’ moyen pour les sites en sélection négative ou positive et le logarithme naturel de la vraisemblance de ce modèle évolutif sont calculées.

I.3.1.4. Likelihood-Ratio Test

Pour tester la présence de la sélection positive le serveur calcule le logarithme naturel de la vraisemblance pour un autre modèle dans lequel la valeur d’ pour les sites potentiellement sous sélection positive est fixée à 1 (évolution neutre: model = 2, NSsites =

2, fix_omega = 1, omega = 1). C’est à partir des deux valeurs de vraisemblance que le serveur calcule le test LRT du modèle ‘branch-site strict’. En effet le modèle H0 d’absence de sélection positive est un cas particulier du modèle H1 dont le seul paramètre libre supplémentaire est la possibilité pour certains sites d’avoir un " 1. Le double de la différence entre le logarithme naturel de la vraisemblance du modèle H1 et le logarithme naturel de la vraisemblance du modèle H0 est alors une valeur de !2 à un degré de liberté. Le serveur calcule donc le test en utilisant l’outil de !2 présent dans le package PAML modifié pour être utilisé au sein d’un script.

I.3.2. Interface Web du serveur OMEGA

L’interface web du serveur Omega est disponible à l’adresse http://dogs.genouest.org/ OMEGA. La page d'accueil permet de choisir entre la recherche parmi des calculs de test LRT pré-insérés (OMEGAbase : partie en cours de développement) et la possibilité de rentrer ses propres données pour calculer les ratios et le test pour un jeu de données d'intérêt (OMEGAtool).

Lorsque le module “OMEGAtool” est utilisé, un premier formulaire apparaît (figure 12) permettant à l’utilisateur d’indiquer le nombre d’espèces qu’il veut comparer et le nombre de gènes pour lesquels il veut faire cette comparaison. Ce formulaire permet la création d’un second formulaire (figure 13) permettant de rentrer dans un premier cadre son e-mail, les noms des espèces d’intérêts et l’arbre de ces espèces au format Newick avec la branche d’intérêt suivie de “#1”. Le formulaire se poursuit par une série de cadres qui permettent de rentrer le nom de chaque gène d’intérêt et les séquences pour chaque espèce.

Figure 12 : Formulaire de préparation. Formulaire permettant d indiquer le nombre de jeux de données et le nombre de séquences par jeu

-57-Figure 13 : Formulaire d insertion. Formulaire permettant de rentrer son e-mail, les noms

des espèces d intérêt, l arbre de ces espèces au format Newick avec la branche d intérêt suivie de “#1” et les différentes séquences.

Une autre possibilité pour rentrer des données personnelles est d’utiliser le formulaire avancé en utilisant le lien “[-go to advanced form-]” qui permet d’insérer dans le cadre central les différentes séries de données. Dans cette entrée l’utilisateur doit insérer pour chaque gène une ligne commençant par le symbole “%” et contenant le nom du gène. Chaque ligne “%” est alors suivie des différentes séquences à comparer pour ce gène au format fasta; OMEGA considère que le nom de l’espèce de chaque séquence est la ligne de description de cette séquence (figure 14).

Figure 14 : Exemple d entrée dans le formulaire avancé. L utilisateur demande le calcul

du ratio dN/dS pour les gènes MC1R et HAS2 chez trois espèces.

Quelle que soit la manière utilisée pour soumettre les données, OMEGA réalise l’alignement multiple des séquences, détermine les ratios dN, dS et puis le test LRT si une branche principale est indiquée. Ces informations sont alors retournées à l’utilisateur sous la forme d’un affichage HTML sur le navigateur et via un lien vers une archive de type “tarball” des résultats qui est envoyée par e-mail. Cette archive a un nom de la forme omega_année_mois_jour_identifiant.tar. L’identifiant permet de conserver des noms de fichier unique et est composé de l’heure Posix et du nombre de nanosecondes correspondant au moment où la requête est arrivée au serveur. L’archive de résultats contient : un fichier HTML appelé UserDataset.htm.main qui correspond à l’affichage des résultats tel que sur le site web ; un dossier UserDataset.resultFolder qui contient une archive “tarball” compressée

-59-en bzip2 pour chaque gène. L’archive d’un gène conti-59-ent jusqu’à cinq fichiers : les fichiers de sortie brute de codeML pour les différents modèles (deux séquences, un calcul par branche, modèles H1 et H0) qui sont au nombre de 1 à 3 selon les requêtes; le fichier d’alignement au format Phylip; enfin, un fichier résultat qui regroupe les mêmes informations que dans le fichier UserDataset.htm.main mais avec un seul gène par fichier et sans formatage HTML.

Le module OMEGAbase inclut l’ensemble des valeurs calculées des ratio dN, dS et d’ pour chacun des ~10.000 gènes orthologues de chacune des 10 espèces utilisées. Un ensemble de requêtes peut-être utilisé pour extraire ces informations de la base de données OMEGA.

II. Différenciation génétique entre races canines

Le second volet de ma thèse a consisté à rechercher les signatures génétiques qui différencient le génome des races canines actuelles, selon l’hypothèse qu’elles sont issues d’un processus de sélection artificielle. Cette sélection très récente n’a pas encore nécessairement impliquée les séquences codant pour les protéines, mais doit avoir influencé les patrons de polymorphismes génétiques des génomes des différentes races. La sélection des caractères désirés dans une race conduit à l’enrichissement du ou des variants alléliques qui confèrent ou contribuent à ce caractère. Ceci se traduit par un changement des fréquences alléliques des marqueurs proches sur le génome. Les patrons de variations génétiques qui reflètent ces événements récents de sélection et les gènes sous-jacents et leurs mutations, sont encore largement inconnus. L’étude du polymorphisme d’une population permet d’analyser le génome au delà des cadres ouverts de lecture des gènes codant pour des protéines et de réaliser des analyses qui criblent l’ensemble du génome.