Cartographier Construction de cartes
Cartographie g ´en ´etique
INRA, Thomas Schiex, Simon deGivry, Brigitte Mangin
Septembre 2016
Cartographier Construction de cartes
Plan
1 Cartographier Quoi, pourquoi Comment ?
2 Construction de cartes
Estimer le taux de recombinaison Premi `eres ´etapes pour la construction Grouper les marqueurs
Ordonner les marqueurs
Cartographier Construction de cartes
Quoi, pourquoi
Les cartes: s’orienter dans le g ´enome
Types
Cartes physiques: distance r ´eelle (Kb, Mb), `a partir de fragments d’ADN. R ´esolution habituellement ´elev ´ee.
Cartes d’hybrides irradi ´es: Distance “statistique” li ´ee `a la cassure par irradiation, r ´esolution interm ´ediaire.
Cartes g ´en ´etiques: s’appuie sur la recombinaison durant la m ´eiose. Distance “statistique”.
Carte g ´en ´etique/hybrides irradi ´es
Repr ´esentation d’un g ´enome positionnant un ensemble de rep `eres (marqueurs) dont on connaˆıt les positions sur des groupes de liaison (chromosomes id ´ealement).
Cartographier Construction de cartes
Quoi, pourquoi
Exemple
Carte g ´en ´etique
Groupes de liaison g ´en ´etique
G ´enome
Chromosomes
Cartographier Construction de cartes
Quoi, pourquoi
Pourquoi
Identifier les r ´egions du g ´enome influenc¸ant un caract `ere d’int ´er ˆet (maladie ou caract `ere quantitatif plus complexe) Positionner et identifier un g `ene (clonage positionnel) Comparer les g ´enomes ( ´etude de la synt ´enie, ´evolution, transfert d’information)
Faciliter la construction de cartes physiques, assemblage Etudier la m ´eiose´
Cartographier Construction de cartes
Quoi, pourquoi
Les bases: lois de Mendel (modernes, diplo¨ıdes)
Loi de s ´egr ´egation
Un g ´enome contient un ensemble de paires de g `enes. Les paires s ´egr `egent (se s ´eparent) dans les gam `etes, la moiti ´e des gam `etes portant un g `ene, l’autre moiti ´e portant l’autre g `ene. Taille de plante (all `elesTt).
Cartographier Construction de cartes
Quoi, pourquoi
Les bases: lois de Mendel (modernes, diplo¨ıdes)
Loi de s ´egr ´egation
Un g ´enome contient un ensemble de paires de g `enes. Les paires s ´egr `egent (se s ´eparent) dans les gam `etes, la moiti ´e des gam `etes portant un g `ene, l’autre moiti ´e portant l’autre g `ene. Taille de plante (all `elesTt).
Cartographier Construction de cartes
Quoi, pourquoi
Les bases: lois de Mendel (modernes, diplo¨ıdes)
Loi de s ´egr ´egation
Un g ´enome contient un ensemble de paires de g `enes. Les paires s ´egr `egent (se s ´eparent) dans les gam `etes, la moiti ´e des gam `etes portant un g `ene, l’autre moiti ´e portant l’autre g `ene. Taille de plante (all `elesTt).
Cartographier Construction de cartes
Quoi, pourquoi
Les bases: lois de Mendel (modernis ´ees, diplo¨ıdes)
Loi de s ´egr ´egation ind ´ependante
L’assortiment de plusieurs g `enes dans une cellule sexuelle se fait de fac¸on ind ´ependante entre les diff ´erents g `enes. TailleTtet forme Rr(rid ´e).
Tt R r TR Tr t R t r
1/4 1/4 1/4 1/4
Cartographier Construction de cartes
Quoi, pourquoi
Le principe historique de la cartographie
Liaison g ´en ´etique(Bateson 1905) Pour certaines paires de g `enes, la fr ´equence des combinaisons parentales dans les gam `etes est sup ´erieure `a ce que l’on attend.
On parle deliaison g ´en ´etique.
Expliqu ´e par Morgan (1911) par l’appartenance `a un m ˆeme chromosome et un ´eventuel chiasma durant la m ´eiose (crossing-over).
Cartographier Construction de cartes
Quoi, pourquoi
Un mod `ele de la m ´eiose
50% de recombinants au plus.
Cartographier Construction de cartes
Comment ?
Bases
Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome
Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).
Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).
Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).
G ´enotype: s ´equence des paires d’all `eles (non
ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).
Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.
Cartographier Construction de cartes
Comment ?
Bases
Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome
Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).
Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).
Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).
G ´enotype: s ´equence des paires d’all `eles (non
ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).
Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.
Cartographier Construction de cartes
Comment ?
Bases
Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome
Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).
Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).
Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).
G ´enotype: s ´equence des paires d’all `eles (non
ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).
Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.
Cartographier Construction de cartes
Comment ?
Bases
Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome
Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).
Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).
Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).
G ´enotype: s ´equence des paires d’all `eles (non
ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).
Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.
Cartographier Construction de cartes
Comment ?
Bases
Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome
Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).
Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).
Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).
G ´enotype: s ´equence des paires d’all `eles (non
ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).
Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.
Cartographier Construction de cartes
Comment ?
Bases
Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome
Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).
Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).
Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).
G ´enotype: s ´equence des paires d’all `eles (non
ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).
Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.
Cartographier Construction de cartes
Comment ?
Recombinants et Non recombinants
MarqueursA,B
une cellule diplo¨ıde portant les haplotypesAB/ab, on peut avoir les gam `etes porteuses des haplotypes AB,ab,Ab,aB
Les deux premiers sontparentauxounon recombinants. Les deux autresrecombinants(nombre impair de cross-overs).
Cartographier Construction de cartes
Comment ?
Taux de recombinaison
Taux de recombinaison≤ 12
Le taux de recombinaisonρAB entre les deux marqueursAet Best la proportion derecombinants.
Example
Entre 3 g `enesY (yellow),W (white),M(miniature) de la drosophile, on observeρY,W =1.3%,ρW,M =32.6%et ρY,M=33.8%. On peut penser que les marqueurs sont dans l’ordreY − W − M
Du fait des doubles crossing-overs, pour un ordreY − W − M: ρY,M< ρY,W+ρW,M (non additif)
Cartographier Construction de cartes
Comment ?
Distance g ´en ´etique
D ´efinition
La distance g ´en ´etiquedAB entre deux marqueursAetBest le nombre moyen decrossing-oversentre les deux marqueurs par m ´eiose.
Propri ´et ´es Additif
1cM (centiMorgan) correspond `a un crossover sur un haplotype pour 100 m ´eioses.
Les cross-overs ne sont pas facilement observables.
Cartographier Construction de cartes
Comment ?
Distance g ´en ´etique et recombinaison
Taux de recombinaison : estimable `a partir de donn ´ees sur la descendance de parents bien choisis.
Distance g ´en ´etique : s’appuie sur un mod `ele de la recombinaison.
Interf ´erence
Le taux de double recombinaison est habituellement inf ´erieur `a celui attendu sous hypoth `ese d’ind ´ependance.
1.3%×32.6% =0.43%attendu pour la double recombinaisonY − W − M.
0.045%observ ´e.
Cartographier Construction de cartes
Comment ?
Fonction de distance - map functions
Entre deux marqueurs. La premi `ere fonction de distance s’appuie sur un mod `ele de recombinaison simplifi ´e (sans interf ´erence, deux chromatides).
Fonction de Haldane - sans interf ´erence (1919) ρ= 1
2(1−e−2d) d=−1
2log(1−2ρ) Beaucoup d’autres fonctions pour l’interf ´erence:
Fonction de Kosambi - interf ´erence (1944) ρ= 1
2tanh(2d) d = 1
2tanh−1(2ρ) Pour de faibles distances/taux de recombinaison,d≈ρ.
Cartographier Construction de cartes
Comment ?
Cartographie g ´en ´etique
Comment ?
1 Accumulation d’observations du g ´enotype sur un ensemble de marqueurs et sur un bon nombre de m ´eioses
Parents bien caract ´eris ´es (phase), h ´et ´erozygotie.
Observation sur la descendance
2 Reconstruire les distances et l’ordre des marqueurs.
Des situations vari ´ees
Taille de l’ ´echantillon, temps de g ´en ´eration, mortalit ´e des lign ´ees, nombre de marqueurs, facilit ´e des croisements (plantes, animaux, humain).
Observation de certains marqueurs/all `eles parfois impossible (manquants).
Cartographier Construction de cartes
Estimer le taux de recombinaison
Back-cross: estimer ρ entre 2 marqueurs
Un individu peut avoir
deux marqueurs homozygotes (AA,BB) ou h ´et ´erozygotes (Aa,Bb) : non recombinant(NR).
un h ´et ´erozygote, un homozygote (Aa,BBouAA,Bb) :recombinant (R).
Vraisemblance - probabilit ´e des donn ´ees
Siρest le taux de recombinaison ( `a estimer), la probabilit ´e d’observer les donn ´ees de typageData(la vraisemblance) est :
Prob(Data|ρ) =ρR(1−ρ)NR
Cartographier Construction de cartes
Estimer le taux de recombinaison
Back-cross : estimer ρ entre 2 marqueurs
Vraisemblance - probabilit ´e des donn ´ees Prob(Data|ρ) =ρR(1−ρ)NR
Maximum de vraisemblance
La valeur estim ´eeρˆdeρchoisie est celle qui maximise la probabilit ´e d’observer les donn ´ees (estimateur convergent).
Par un passage au logarithme et une ´etude de la d ´eriv ´ee on obtient :
ˆ
ρ= R
R+NR
Cartographier Construction de cartes
Estimer le taux de recombinaison
En pratique
Individus non typ ´es sur un marqueur. Donn ´ees manquantes.
On n’observe pas toujours les g ´enotypes. Si un all `eleAest
“dominant”,Aest compatible avecAA,Aaen back-cross.
Erreurs de typages
La vraisemblance de donn ´ees incompl `etes est compliqu ´ee. De m ˆeme que celle lorsque les marqueurs ne sont pas
codominants, ou lorsque le pedigree est plus complexe que le back-cross.
Pour la maximiser on utilise des algorithmes d’optimisation d ´edi ´es (par exemple EM - Expectation Maximisation).
Dempster et al.,JRSS, 1977
Cartographier Construction de cartes
Premi `eres ´etapes pour la construction
Nettoyage des donn ´ees : distorsion
Marqueur distordu
All `ele sur-repr ´esent ´e dans la descendance / `a la fr ´equence attendue (g `ene li ´e `a la reproduction/croissance,
r ´earrangements ou probl `eme d’ ´echantillonage) Test deχ2de PearsonTχ2
Sous l’hypoth `ese nulle:{les donn ´ees observ ´ees sont tir ´ees de la distribution th ´eorique attendue}.
Pour un risqueα=0.05,χ21ddl=3.84
siTχ2 >3.84on rejette l’hypoth `ese de non distortion.
Cartographier Construction de cartes
Premi `eres ´etapes pour la construction
Nettoyage des donn ´ees : “marqueurs confondus”
Jeux de donn ´ees modernes
typage de plusieurs dizaines de milliers de marqueurs distance minimale inter-marqueurs tr `es faible
pas de recombinaison/cassure oberv ´ee : m ˆeme g ´enotypes (ou g ´enotypes compatibles avec les donn ´ees
manquantes).
=⇒Supprimer ou fusionner des marqueurs
Cartographier Construction de cartes
Grouper les marqueurs
Construction des groupes de liaison
Groupes de liaison
Groupes de marqueurs qui appartiennent `a un m ˆeme chromosome (li ´es).
Hypoth `ese 0: {2 marqueursAetBont un assortiment ind ´ependant (non li ´es, taux de recombinaison de 12)}.
Hypoth `ese 1: {les 2 marqueursAetBsont li ´es (taux de recombinaison< 12)}.
LODscore - 2 marqueurs
On utilise leLOD score pour tester la liaison.
LOD=−log10
maximum de la vraisemblance siρ=1/2 maximum de la vraisemblance
Tradition :LOD>3utilis ´e pour conclure `a la liaison.
Cartographier Construction de cartes
Ordonner les marqueurs
Construction de la carte
Cartographier
Pour chaque groupe de liaison (partie de chromosome), d ´eterminer l’ordre des marqueurs et les distances (taux de recombinaisons) qui s ´eparent deux marqueurs adjacents
Carte satur ´ee
autant de groupes que de chromosomes, tous les marqueurs de la carte sont li ´es `a un groupe.
Cartographier Construction de cartes
Ordonner les marqueurs
Trouver une bonne carte
Un probl `eme combinatoire
Pournmarqueurs, il y an!/2ordres de marqueurs d ´efinissant des cartes diff ´erentes. 10!2 =1.8106.
Impossible d’ ´enum ´erer les ordres.
Probl `eme d’optimisation difficile (m ˆeme dans ses versions les plus simples).
Cartographier Construction de cartes
Ordonner les marqueurs
Logiciels de cartographie
v ´eg ´etaux: MapMaker, CarthaGene, JoinMap animaux: CRIMAP,
homme: MapMaker
hybrides irradi ´es: RHMAP, RHO, CarthaGene Voir http://linkage.rockefeller.edu/soft/