Haut PDF Algorithmes pour la reconstruction de génomes ancestraux

Algorithmes pour la reconstruction de génomes ancestraux

Algorithmes pour la reconstruction de génomes ancestraux

CONCLUSION L’apport principal de ce mémoire est une nouvelle méthode flexible pour la recons- truction de génomes ancestraux basée sur les α-adjacences et permettant des génomes aux contenus en gènes inégaux de même qu’une évolution par DGE. Un recensement des méthodes existantes a d’abord été fait, discutant des forces et des limites de chacune. Rappelons que les méthodes de reconstruction basées sur les distances génomiques sont limitées par les modèles biologiques incomplets utilisés : les distances ne peuvent tenir compte que d’un seul ou d’une certaine combinaison de type de réarrangements géno- miques. Quant aux méthodes locales, la seule qui permet de gérer les paralogues (tous types confondus), DupCar, utilise la réconciliation d’arbres de gènes avec un arbre d’es- pèce, procédure qui est connue être problématique à cause de l’incertitude sur les arbres de gènes. Enfin, un problème majeur et récurrent pour toutes les méthodes est la quantité importante de solutions différentes mais équivalentes selon l’objectif de la méthode.
En savoir plus

76 En savoir plus

en
                                                                    fr

en fr Reconstruction of ancestral vertebrate genomes Reconstruction de génomes ancestraux chez les vertébrés

86 CHAPITRE 11. DUPLICATIONS COMPLÈTES DE GÉNOMES 11.1 Sans espèce non-dupliquée La Figure 11.1 (tirée de Nakatani et al. [2007]) montre le processus de reconstruction que nous allons mettre en place (la figure se place dans le contexte des deux duplica- tions complètes de génome chez les vertébrés). En A est représentée la comparaison de 8 chromosomes post-duplication (issus de 2 chromosomes pré-duplication). Initialement, les gènes sont toujours en quatre copies, et dans le même ordre le long des chromosomes. On peut facilement grouper les chromosomes par paquets de 4, chaque paquet indiquant un chromosome pré-duplication. Au fur et à mesure du temps (de B à D), les réarrangements remodèlent l’ordre des gènes dans les chromosomes, puis entre les chromosomes, jusqu’à arriver à un mélange de fragments des chromosomes initiaux post-duplication (amplifié par une numérotation imprévisible des chromosomes de l’espèce moderne). À ce moment, les paquets initiaux de 4 chromosomes sont fragmentés en de nombreux segments (plus que 4, en général) éparpillés sur le génome. La procédure de reconstruction doit remonter le temps tout d’abord (E) en identifiant ces segments humains liés par des ohnologues, et donc fragments de chromosomes ancestraux. Cela implique une étape de découpage du génome humain en segments non-réarrangés (découpage du chromosome 1 en 1a, 1b, et 1c dans l’exemple de E). Un clustering (F) peut regrouper les segments humains liés par des ohnologues, ce qui va permettre de reformer les paquets assimilables aux chro- mosomes pré-duplication. Enfin (G), il est possible, dans chaque paquet, de répartir les nombreux segments qui le composent en 4 sous-paquets, chacun d’entre eux formant un chromosome post-duplication, sous le postulat qu’un chromosome post-duplication ne pos- sède pas d’ohnologues avec lui-même, mais avec les 3 autres.
En savoir plus

218 En savoir plus

Comment la reconstruction de génomes ancestraux peut aider à l'assemblage de génomes actuels

Comment la reconstruction de génomes ancestraux peut aider à l'assemblage de génomes actuels

Passage à l’échelle Pour déterminer la capacité de l’algorithme ARt-DeCo à travailler sur de grands jeux de données, nous l’avons appliqué aux 69 espèces eucaryotes de la base de données Ensembl (version 79). Ce jeu est composé de 20 279 arbres de gènes contenant 1 222 543 gènes codant pour des protéines et 1 023 492 adjacences chez les génomes actuels. Une grande proportion des génomes actuels sont fortement fragmentés, dont le génome du wallaby (Macropus eugenii) composé de 12 704 contigs. L’algorithme prédit 36 445 nouvelles adjacences sur l’ensemble des espèces du jeu de données en ≈ 18h sur un ordinateur de bureau.
En savoir plus

5 En savoir plus

Pépite | Algorithmes pour la comparaison de génomes et la recherche de signaux cis-régulateurs

Pépite | Algorithmes pour la comparaison de génomes et la recherche de signaux cis-régulateurs

Si autant de sc´ enarios sont possibles, il est l´ egitime de se poser la question de la pertinence biologique de tel ou tel sc´ enario. C’est partant de ce constat que nous avons essay´ e, comme d’autres, d’introduire plus de r´ ealisme dans le calcul des sc´ enarios en proposant de r´ eduire le nombre de sc´ enarios parcimonieux. Cela peut ˆ etre r´ ealis´ e en attribuant des poids aux inversions [3, 88]. Mais une autre fa¸con de faire est de n’autoriser que certaines inversions parmi celles pos- sibles (ou plus largement certaines des op´ erations autoris´ ees). Par exemple, partant de l’analyse de la taille des inversions chez les g´ enomes bact´ eriens, il est possible d’envisager des sc´ enarios o` u vont ˆ etre pr´ ef´ er´ ees des inversions courtes et des inversions longues centr´ ees sur l’origine de r´ eplication [72]. En 2003 Bergeron et Stoye [19] constat` erent qu’une mesure de la distance phy- log´ en´ etique entre esp` eces bas´ e sur le d´ ecompte du nombre d’intervalles conserv´ es est un meilleur estimateur que le nombre de points de cassure pour des g´ enomes mitochondriaux. Fort de ce constat, Bergeron et al. [14] propos` erent en 2004 une m´ ethode de reconstruction phylog´ en´ etique utilisant les intervalles conserv´ es. Pour notre part, nous avons propos´ e d’utiliser les intervalles communs pour contraindre les inversions autoris´ ees dans un sc´ enario. Ces travaux sont expos´ es Section 1.3.
En savoir plus

87 En savoir plus

Pépite | Algorithmes pour la reconstruction de séquences de marqueurs conservés dans des données de métagénomique

Pépite | Algorithmes pour la reconstruction de séquences de marqueurs conservés dans des données de métagénomique

2.1.4 Les formats d’alignements : SAM/BLAST De nombreux formats de fichier existent pour représenter des alignements de séquences. Nous présentons ici deux formats très largement utilisés et complémentaires. Le format SAM est une représentation au format texte qui permet de stocker un ensemble d’alignements de séquences contre une base de données. Le cas d’école consiste à stocker les alignements d’une grande quantité de lectures de séquençage contre un génome de référence ou une base de génomes de référence. Un fichier SAM permet de stocker de très nombreux attributs pour chaque alignement. Les plus importants sont : l’identifiant de la séquence sujet (subject), l’identifiant de la séquence requête (query), la position du début de l’alignement sur la séquence requête, la structure de l’alignement (CIGAR) et la séquence sujet alignée (Figure 2.4 ). Afin de réduire la taille d’un fichier SAM, il est possible de le compresser sous la forme d’un fichier binaire au format BAM. Une description complète des spécifications du format SAM peut être trouvée sur le site officiel des SAMTOOLS. 3
En savoir plus

131 En savoir plus

Algorithmes pour la reconstruction de séquences de marqueurs conservés dans des données de métagénomique

Algorithmes pour la reconstruction de séquences de marqueurs conservés dans des données de métagénomique

Les méthodes Le paradigme OLC a été rendu populaire par les travaux de Gene Myers, et plus particulièrement l’assembleur Celera [ 62 ] qui a dominé le domaine de l’assemblage jusqu’à l’émergence des technologies de séquençage haut débit ( 1.2.3.3 ). Les meilleures méthodes d’assemblage de lectures de séquençage de type Sanger fai- saient ainsi appel au paradigme OCL. Ces méthodes se sont toutefois montrées inca- pables d’assembler les trop grandes quantités de données générées par les technologies de séquençage haut débit, notamment à cause de la quantité de mémoire nécessaire pour stocker les graphes de chevauchement. Ces limitations ont ainsi nécessité l’appa- rition d’un nouveau paradigme d’assemblage, faisant appel à des graphes de De Bruijn ( 2.2.4 ). Plus récemment, l’utilisation de structures d’indexation performantes a per- mis au paradigme OLC de réémerger. Et c’est notamment grâce à l’utilisation d’un FM-index que l’assembleur SGA [ 89 ] est aujourd’hui capable d’assembler de grands génomes eucaryotes avec une empreinte mémoire raisonnable (∼ 50 GB RAM).
En savoir plus

132 En savoir plus

Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux

J’ai démarré ma thèse sous la direction d’Olivier Gascuel en octobre 2007. Après avoir suivi une formation de premier et second cycle en mathématiques et informatique, j’ai souhaité me tourner vers un domaine me permettant de mettre mes connaissances théo- riques et pratiques au service des sciences du vivant. C’est donc assez naturellement que je me suis rapproché de l’équipe Méthodes et Algorithmes pour la Bioinformatique et de son directeur. L’argument de cette thèse était initialement donné par la volonté de combiner efficacement les deux classes de modèles introduites plus haut. Le travail d’Adam Siepel et de David Haussler [Siepel et Haussler, 2005] nous était apparu comme théoriquement sé- duisant, et nous nous proposions de travailler à utiliser ce genre de modèles pour prédire la fonction de gènes inconnus par des recherches de similarité dans les bases de don- nées. En effet, l’équipe MAB pilotait alors le projet ANR « PlasmoExplore » , centré sur le développement d’outils méthodologiques permettant de mieux comprendre l’organisme vecteur de la malaria, Plasmodium falciparum, dont une grande part du génome reste à l’heure actuelle fonctionnellement inexpliquée.
En savoir plus

267 En savoir plus

Comparaisons de génomes avec gènes dupliqués : étude théorique et algorithmes

Comparaisons de génomes avec gènes dupliqués : étude théorique et algorithmes

La génomique comparative étudie les relations entre deux ou plusieurs génomes d’espèces ou de souches différentes, et comporte de nombreuses thématiques. Citons tout d’abord les études portant sur l’histoire des espèces. Parmi ces études, certaines ont pour objectif la recherche de scénarios évolutifs entre deux génomes, ceci en considérant diverses opérations élémentaires (transposition, suppression, insertion, fusion, translocation...). D’autres travaux s’orientent vers l’inférence de génomes ancestraux, avec notamment les problèmes du génome médian [BP02, SB97, SSK96] et du genome halving [EMNS98]. L’identification des régions hautement conservées au sein des génomes lors de l’évolution (synténie) est également un domaine important de la génomique com- parative, et permet l’inférence de fonctions biologiques associées à ces régions conservées. Enfin, de nombreuses recherches portent quant à elles sur le calcul de distance entre deux génomes, comme la dis-
En savoir plus

155 En savoir plus

Méthodes et algorithmes pour l’amélioration de l’inférence de l’histoire évolutive des génomes

Méthodes et algorithmes pour l’amélioration de l’inférence de l’histoire évolutive des génomes

Continuous effort is also made for developing fast probabilistic frameworks capturing HGT events (see [ 252 ] for a review of these models). Integrative methods report gene trees with better accuracy compared with sequence-only methods [ 26 , 251 , 289 , 290 ], but they still leave space for improvement, both on tree quality and on computation time. In fact, most of them rely on a two-steps approach, first computing a tree with the best fit to the sequences, and then exploring a tree space surrounding the initial tree to select one minimizing the considered reconciliation distance. From an accuracy point of view, this two-step methodology does not guarantee that the output tree optimizes both the likelihood given the sequence alignment, and the reconciliation measure, as the best fit to the sequences may be lost at the second step. Besides, by considering a single tree at a time, the risk of ignoring a large part of the tree space and falling into a local minimum is high. Other integrative methods (see for example PrIME-DLTRS [ 251 ]) compute the joint likelihood associated with a substitution model and DTL event rates, given a fixed, dated and ultrametric species tree and a gene family alignment. They use tree exploration heuristics similar to those found in sequence-only programs for phylogenetic tree reconstruction to explore the solution space, often in a Bayesian-MCMC framework. These methods come at a high computational cost, especially when HGT events are considered, and they are still subject to the risk of being stuck in a local optimum.
En savoir plus

322 En savoir plus

Algorithmes pour la comparaison de génomes et la recherche de signaux cis-régulateurs

Algorithmes pour la comparaison de génomes et la recherche de signaux cis-régulateurs

Si autant de sc´ enarios sont possibles, il est l´ egitime de se poser la question de la pertinence biologique de tel ou tel sc´ enario. C’est partant de ce constat que nous avons essay´ e, comme d’autres, d’introduire plus de r´ ealisme dans le calcul des sc´ enarios en proposant de r´ eduire le nombre de sc´ enarios parcimonieux. Cela peut ˆ etre r´ ealis´ e en attribuant des poids aux inversions [3, 88]. Mais une autre fa¸con de faire est de n’autoriser que certaines inversions parmi celles pos- sibles (ou plus largement certaines des op´ erations autoris´ ees). Par exemple, partant de l’analyse de la taille des inversions chez les g´ enomes bact´ eriens, il est possible d’envisager des sc´ enarios o` u vont ˆ etre pr´ ef´ er´ ees des inversions courtes et des inversions longues centr´ ees sur l’origine de r´ eplication [72]. En 2003 Bergeron et Stoye [19] constat` erent qu’une mesure de la distance phy- log´ en´ etique entre esp` eces bas´ e sur le d´ ecompte du nombre d’intervalles conserv´ es est un meilleur estimateur que le nombre de points de cassure pour des g´ enomes mitochondriaux. Fort de ce constat, Bergeron et al. [14] propos` erent en 2004 une m´ ethode de reconstruction phylog´ en´ etique utilisant les intervalles conserv´ es. Pour notre part, nous avons propos´ e d’utiliser les intervalles communs pour contraindre les inversions autoris´ ees dans un sc´ enario. Ces travaux sont expos´ es Section 1.3.
En savoir plus

88 En savoir plus

Quand les gènes s’éclatent - Les génomes mitochondriaux des diplonémidés

Quand les gènes s’éclatent - Les génomes mitochondriaux des diplonémidés

704 M/S n° 8-9, vol. 24, août-septembre 2008 contenant une douzaine de gènes. Cette conception est réductionniste puisqu’elle ne s’applique pratiquement qu’aux orga- nismes les plus communément étudiés, soit l’organisme humain et celui d’autres mammifères. Cependant, les études por- tant sur des eucaryotes moins populaires montrent que tout est permis dans la façon dont se présentent les génomes mitochondriaux : nombre de gènes, nom- bre et forme de chromosomes et surtout la façon dont l’information génétique est transformée en protéine [1] .

3 En savoir plus

FouDanGA : Fouille de données pour l'annotation de génomes d'actinomycètes

FouDanGA : Fouille de données pour l'annotation de génomes d'actinomycètes

SIGffRid [4] Extraction par des méthodes de fouille de données de motifs d’ADN (SFFT comme Site de Fixation de Facteur Transcriptionnel). impliqués dans la régulation de l’expression génique chez les bactéries du groupe des actinomycètes qui comprennent aussi bien des espèces d'intérêt industriel comme les Streptomyces, les plus importants producteurs d'antibiotiques microbiens, que des espèces pathogènes comme certaines mycobactéries (par exemple, Mycobacterium tuberculosis). Nous utilisons les génomes séquencés de S. coelicolor, S. avermitilis et M. tuberculosis ainsi que le génome de S. ambofaciens en cours de séquençage par l'UMR 1128 en collaboration avec le Génoscope (CNS, Evry). Deux approches informatiques sont développées. La première correspond à l’utilisation d’algorithmes de recherche de mots puis de couples de mots sur-représentés dans les régions en amont de gènes orthologues d’espèces phylogénétiquement proches. La seconde correspond à une méthode de fouille de données génomiques sans a priori pour faire émerger des sous- séquences d'ADN dans les régions intergéniques. Le processus de fouille de données se traduit par la spécification de modèles de Markov cachés du second-ordre (HMM2), leur apprentissage et leur utilisation pour faire apparaître des irrégularités dans des grandes séquences d'ADN.
En savoir plus

2 En savoir plus

Recherche d'éléments structurés dans les génomes par modèles logiques

Recherche d'éléments structurés dans les génomes par modèles logiques

C'est la zone intercalée entre la fenêtre glissante et la structure initiatrice du décalage du cadre de lecture. Sa limite de taille supérieure se situe, selon les modèles défi[r]

31 En savoir plus

Caractérisation des populations microbiennes dans les aliments : du phénotype aux génomes

Caractérisation des populations microbiennes dans les aliments : du phénotype aux génomes

Paris, 31 mars 2014 25 Etude de la fonctionnalité de la microflore des aliments Fonctionnalité+ microbienne8 Métaprotéomique,+ métabolomique8 Les+nouvelles+approches+de+maîtrise++ de+[r]

14 En savoir plus

Développement d'outils moléculaires pour faciliter l'ingénierie des génomes

Développement d'outils moléculaires pour faciliter l'ingénierie des génomes

menant à de potentiels clivages hors cible. À gauche, schéma d'hétérodimérisation obligatoire entre deux nucléases dont les interfaces de dimérisation sont complément[r]

107 En savoir plus

Étude de l’évolution des génomes par duplications, pertes et réarrangements

Étude de l’évolution des génomes par duplications, pertes et réarrangements

L’heuristique proposée pour l’inférence d’histoires évolutives de groupes de GRT, Multi-DILTAG, permet d’étudier l’évolution de plusieurs groupes de GRT orthologues chez plusieurs espèce[r]

191 En savoir plus

Asymétrie des génomes parentaux - Implications en pathologie

Asymétrie des génomes parentaux - Implications en pathologie

M/S n° 8-9, vol. 24, août-septembre 2008 749 SYNTHÈSE REVUES sus de déméthylation de l’ADN [16] . L’incorporation de variants d’histones tels que H3.3 pourrait aussi jouer un rôle important pour différencier les deux génomes [17] . Par ailleurs, d’autres travaux récents chez l’embryon précoce murin ont montré qu’une protéine appartenant à un complexe de remodelage de la chromatine, MBD3 [18] , est impliquée dans le maintien de la méthylation au niveau de l’ICR pater- nel de H19. Cette étude apporte un premier indice pour comprendre ces mécanismes de protection de la méthylation des ICR dans les stades préimplan- tatoires. D’autres protéines produites au cours de l’ovogenèse, pourraient aussi être impliquées dans la protection du génome maternel. Actuellement, une seule de ces protéines a été identifiée : Stella, aussi appelée PGC7. Après sa localisation dans le pronucléus femelle, Stella semble protéger le génome maternel de la déméthylation et pourrait notamment prévenir la déméthylation de certains ICR [19] . Mais le méca- nisme précis reste à élucider.
En savoir plus

6 En savoir plus

Points chauds de sélection positive dans les génomes de primates

Points chauds de sélection positive dans les génomes de primates

Nous avons mis au point une méthode statistique qui permet d’isoler des régions du génome où la concentration en positions hétérozygotes est très faible et où la survenue d’un balayage sélectif (réduction de variabilité) est donc pro- bable [9] . De nombreux facteurs autres que la sélection peuvent réduire la concentration locale en positions hété- rozygotes, et toute la difficulté a été d’en éliminer les effets confondants. En appliquant notre méthode aux génomes de Craig Venter et James Watson, nous avons d’abord pu vérifier que les gènes candidats trouvés recoupent ceux déjà publiés à partir des données HapMap. La méthode a donc pu être utilisée pour rechercher les balayages dans les géno- mes du chimpanzé, de l’orang-outan et du macaque. Nous avons alors montré par simulations de populations que le pourcentage d’inférences fausses de balayages est assez élevé dans chaque espèce, du fait du faible nombre d’in- dividus.
En savoir plus

3 En savoir plus

Origines des séquences microsatellites dans les génomes eucaryotes

Origines des séquences microsatellites dans les génomes eucaryotes

cet algorithme travaille uniquement avec des périodes répétées et non des motifs, les microsatellites composés (comme CACACACATATATA) seront considérés comme très peu divergents (1 seule er- reur, le passage de CA à TA), alors que notre calcul donnerait une divergence importante. Toutes ces considérations nous amènent à la conclusion que pour l'instant, l'interprétation de résultats reposant sur l'emploi d'algorithmes de détection dédiés comporte certains risques, liés à l'implémentation des méthodes. Etant donnés les problèmes que posent encore les interruptions pour la détection des microsatellites, le mieux est de se contenter d'études sur les microsatellites parfaits uniquement. Cela peut être réalisé de deux manières : soit en retirant les microsatellites imparfaits obtenus avec l'une des méthodes gérant les imperfections, soit en utilisant un algorithme simple et en contrôlant les séquences anquantes pour s'assurer du caractère parfait des détections (comme réalisé dans l'étude de Calabrese et Durrett (2003)). Si la détection des microsatellites imparfaits est nécessaire, il vaut alors mieux utiliser l'un des algorithmes dédiés, mais se restreindre à des valeurs de paramètres assez astreignantes pour éviter d'obtenir des détections incohérentes. Dans tous les cas de gure, la nécessité absolue est de détailler le plus possible la manière dont les microsatellites sont détectés, et les valeurs des paramètres utilisées si besoin est.
En savoir plus

201 En savoir plus

Un, deux, trois… mille génomes ?

Un, deux, trois… mille génomes ?

Un, deux, trois… mille génomes ? Bertrand Jordan > Un nouveau consortium international annonce le projet de séquençage de l’ADN de mille personnes choisie parmi l’ensemble de la population humaine. Ce 1000 Genomes Project 1 regroupe l’Ins- titut Sanger, centre majeur des activi- tés génomiques du Wellcome Trust au Royaume-Uni, la branche de Shenzen du Beijing Genomics Institute, grosse struc- ture chinoise semi-privée qui a récem- ment annoncé le premier séquençage d’un individu d’ascendance Han, et le National Human Genome Research Insti- tute, émanation des National Institutes of Health, aux États-unis.
En savoir plus

2 En savoir plus

Show all 1901 documents...