• Aucun résultat trouvé

Cartographie g ´en ´etique

N/A
N/A
Protected

Academic year: 2022

Partager "Cartographie g ´en ´etique"

Copied!
32
0
0

Texte intégral

(1)

Cartographier Construction de cartes

Cartographie g ´en ´etique

INRA, Thomas Schiex, Simon deGivry, Brigitte Mangin

Septembre 2016

(2)

Cartographier Construction de cartes

Plan

1 Cartographier Quoi, pourquoi Comment ?

2 Construction de cartes

Estimer le taux de recombinaison Premi `eres ´etapes pour la construction Grouper les marqueurs

Ordonner les marqueurs

(3)

Cartographier Construction de cartes

Quoi, pourquoi

Les cartes: s’orienter dans le g ´enome

Types

Cartes physiques: distance r ´eelle (Kb, Mb), `a partir de fragments d’ADN. R ´esolution habituellement ´elev ´ee.

Cartes d’hybrides irradi ´es: Distance “statistique” li ´ee `a la cassure par irradiation, r ´esolution interm ´ediaire.

Cartes g ´en ´etiques: s’appuie sur la recombinaison durant la m ´eiose. Distance “statistique”.

Carte g ´en ´etique/hybrides irradi ´es

Repr ´esentation d’un g ´enome positionnant un ensemble de rep `eres (marqueurs) dont on connaˆıt les positions sur des groupes de liaison (chromosomes id ´ealement).

(4)

Cartographier Construction de cartes

Quoi, pourquoi

Exemple

Carte g ´en ´etique

Groupes de liaison g ´en ´etique

G ´enome

Chromosomes

(5)

Cartographier Construction de cartes

Quoi, pourquoi

Pourquoi

Identifier les r ´egions du g ´enome influenc¸ant un caract `ere d’int ´er ˆet (maladie ou caract `ere quantitatif plus complexe) Positionner et identifier un g `ene (clonage positionnel) Comparer les g ´enomes ( ´etude de la synt ´enie, ´evolution, transfert d’information)

Faciliter la construction de cartes physiques, assemblage Etudier la m ´eiose´

(6)

Cartographier Construction de cartes

Quoi, pourquoi

Les bases: lois de Mendel (modernes, diplo¨ıdes)

Loi de s ´egr ´egation

Un g ´enome contient un ensemble de paires de g `enes. Les paires s ´egr `egent (se s ´eparent) dans les gam `etes, la moiti ´e des gam `etes portant un g `ene, l’autre moiti ´e portant l’autre g `ene. Taille de plante (all `elesTt).

(7)

Cartographier Construction de cartes

Quoi, pourquoi

Les bases: lois de Mendel (modernes, diplo¨ıdes)

Loi de s ´egr ´egation

Un g ´enome contient un ensemble de paires de g `enes. Les paires s ´egr `egent (se s ´eparent) dans les gam `etes, la moiti ´e des gam `etes portant un g `ene, l’autre moiti ´e portant l’autre g `ene. Taille de plante (all `elesTt).

(8)

Cartographier Construction de cartes

Quoi, pourquoi

Les bases: lois de Mendel (modernes, diplo¨ıdes)

Loi de s ´egr ´egation

Un g ´enome contient un ensemble de paires de g `enes. Les paires s ´egr `egent (se s ´eparent) dans les gam `etes, la moiti ´e des gam `etes portant un g `ene, l’autre moiti ´e portant l’autre g `ene. Taille de plante (all `elesTt).

(9)

Cartographier Construction de cartes

Quoi, pourquoi

Les bases: lois de Mendel (modernis ´ees, diplo¨ıdes)

Loi de s ´egr ´egation ind ´ependante

L’assortiment de plusieurs g `enes dans une cellule sexuelle se fait de fac¸on ind ´ependante entre les diff ´erents g `enes. TailleTtet forme Rr(rid ´e).

Tt R r TR Tr t R t r

1/4 1/4 1/4 1/4

(10)

Cartographier Construction de cartes

Quoi, pourquoi

Le principe historique de la cartographie

Liaison g ´en ´etique(Bateson 1905) Pour certaines paires de g `enes, la fr ´equence des combinaisons parentales dans les gam `etes est sup ´erieure `a ce que l’on attend.

On parle deliaison g ´en ´etique.

Expliqu ´e par Morgan (1911) par l’appartenance `a un m ˆeme chromosome et un ´eventuel chiasma durant la m ´eiose (crossing-over).

(11)

Cartographier Construction de cartes

Quoi, pourquoi

Un mod `ele de la m ´eiose

50% de recombinants au plus.

(12)

Cartographier Construction de cartes

Comment ?

Bases

Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome

Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).

Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).

Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).

G ´enotype: s ´equence des paires d’all `eles (non

ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).

Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.

(13)

Cartographier Construction de cartes

Comment ?

Bases

Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome

Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).

Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).

Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).

G ´enotype: s ´equence des paires d’all `eles (non

ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).

Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.

(14)

Cartographier Construction de cartes

Comment ?

Bases

Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome

Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).

Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).

Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).

G ´enotype: s ´equence des paires d’all `eles (non

ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).

Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.

(15)

Cartographier Construction de cartes

Comment ?

Bases

Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome

Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).

Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).

Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).

G ´enotype: s ´equence des paires d’all `eles (non

ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).

Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.

(16)

Cartographier Construction de cartes

Comment ?

Bases

Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome

Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).

Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).

Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).

G ´enotype: s ´equence des paires d’all `eles (non

ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).

Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.

(17)

Cartographier Construction de cartes

Comment ?

Bases

Loci, g `enes, marqueurs:A,B. Emplacement sur un chromosome

Polymorphisme: pr ´esente au moins deux formes diff ´erentes (all `elesAa).

Homozygote: paire d’all `eles identiques (AA ou aa), sinon h ´et ´erozygote (Aa).

Haplotype: s ´equence des all `eles port ´es par chacun des chromosomes (AbaB par exemple).

G ´enotype: s ´equence des paires d’all `eles (non

ordonn ´ees) port ´es par les chromosomes homologues (Aa Bb par exemple).

Phase: information suffisante pour d ´eterminer les deux haplotypes `a partir du g ´enotype.

(18)

Cartographier Construction de cartes

Comment ?

Recombinants et Non recombinants

MarqueursA,B

une cellule diplo¨ıde portant les haplotypesAB/ab, on peut avoir les gam `etes porteuses des haplotypes AB,ab,Ab,aB

Les deux premiers sontparentauxounon recombinants. Les deux autresrecombinants(nombre impair de cross-overs).

(19)

Cartographier Construction de cartes

Comment ?

Taux de recombinaison

Taux de recombinaison12

Le taux de recombinaisonρAB entre les deux marqueursAet Best la proportion derecombinants.

Example

Entre 3 g `enesY (yellow),W (white),M(miniature) de la drosophile, on observeρY,W =1.3%,ρW,M =32.6%et ρY,M=33.8%. On peut penser que les marqueurs sont dans l’ordreY − W − M

Du fait des doubles crossing-overs, pour un ordreY − W − M: ρY,M< ρY,WW,M (non additif)

(20)

Cartographier Construction de cartes

Comment ?

Distance g ´en ´etique

D ´efinition

La distance g ´en ´etiquedAB entre deux marqueursAetBest le nombre moyen decrossing-oversentre les deux marqueurs par m ´eiose.

Propri ´et ´es Additif

1cM (centiMorgan) correspond `a un crossover sur un haplotype pour 100 m ´eioses.

Les cross-overs ne sont pas facilement observables.

(21)

Cartographier Construction de cartes

Comment ?

Distance g ´en ´etique et recombinaison

Taux de recombinaison : estimable `a partir de donn ´ees sur la descendance de parents bien choisis.

Distance g ´en ´etique : s’appuie sur un mod `ele de la recombinaison.

Interf ´erence

Le taux de double recombinaison est habituellement inf ´erieur `a celui attendu sous hypoth `ese d’ind ´ependance.

1.3%×32.6% =0.43%attendu pour la double recombinaisonY − W − M.

0.045%observ ´e.

(22)

Cartographier Construction de cartes

Comment ?

Fonction de distance - map functions

Entre deux marqueurs. La premi `ere fonction de distance s’appuie sur un mod `ele de recombinaison simplifi ´e (sans interf ´erence, deux chromatides).

Fonction de Haldane - sans interf ´erence (1919) ρ= 1

2(1−e−2d) d=−1

2log(1−2ρ) Beaucoup d’autres fonctions pour l’interf ´erence:

Fonction de Kosambi - interf ´erence (1944) ρ= 1

2tanh(2d) d = 1

2tanh−1(2ρ) Pour de faibles distances/taux de recombinaison,d≈ρ.

(23)

Cartographier Construction de cartes

Comment ?

Cartographie g ´en ´etique

Comment ?

1 Accumulation d’observations du g ´enotype sur un ensemble de marqueurs et sur un bon nombre de m ´eioses

Parents bien caract ´eris ´es (phase), h ´et ´erozygotie.

Observation sur la descendance

2 Reconstruire les distances et l’ordre des marqueurs.

Des situations vari ´ees

Taille de l’ ´echantillon, temps de g ´en ´eration, mortalit ´e des lign ´ees, nombre de marqueurs, facilit ´e des croisements (plantes, animaux, humain).

Observation de certains marqueurs/all `eles parfois impossible (manquants).

(24)

Cartographier Construction de cartes

Estimer le taux de recombinaison

Back-cross: estimer ρ entre 2 marqueurs

Un individu peut avoir

deux marqueurs homozygotes (AA,BB) ou h ´et ´erozygotes (Aa,Bb) : non recombinant(NR).

un h ´et ´erozygote, un homozygote (Aa,BBouAA,Bb) :recombinant (R).

Vraisemblance - probabilit ´e des donn ´ees

Siρest le taux de recombinaison ( `a estimer), la probabilit ´e d’observer les donn ´ees de typageData(la vraisemblance) est :

Prob(Data|ρ) =ρR(1−ρ)NR

(25)

Cartographier Construction de cartes

Estimer le taux de recombinaison

Back-cross : estimer ρ entre 2 marqueurs

Vraisemblance - probabilit ´e des donn ´ees Prob(Data|ρ) =ρR(1−ρ)NR

Maximum de vraisemblance

La valeur estim ´eeρˆdeρchoisie est celle qui maximise la probabilit ´e d’observer les donn ´ees (estimateur convergent).

Par un passage au logarithme et une ´etude de la d ´eriv ´ee on obtient :

ˆ

ρ= R

R+NR

(26)

Cartographier Construction de cartes

Estimer le taux de recombinaison

En pratique

Individus non typ ´es sur un marqueur. Donn ´ees manquantes.

On n’observe pas toujours les g ´enotypes. Si un all `eleAest

“dominant”,Aest compatible avecAA,Aaen back-cross.

Erreurs de typages

La vraisemblance de donn ´ees incompl `etes est compliqu ´ee. De m ˆeme que celle lorsque les marqueurs ne sont pas

codominants, ou lorsque le pedigree est plus complexe que le back-cross.

Pour la maximiser on utilise des algorithmes d’optimisation d ´edi ´es (par exemple EM - Expectation Maximisation).

Dempster et al.,JRSS, 1977

(27)

Cartographier Construction de cartes

Premi `eres ´etapes pour la construction

Nettoyage des donn ´ees : distorsion

Marqueur distordu

All `ele sur-repr ´esent ´e dans la descendance / `a la fr ´equence attendue (g `ene li ´e `a la reproduction/croissance,

r ´earrangements ou probl `eme d’ ´echantillonage) Test deχ2de PearsonTχ2

Sous l’hypoth `ese nulle:{les donn ´ees observ ´ees sont tir ´ees de la distribution th ´eorique attendue}.

Pour un risqueα=0.05,χ21ddl=3.84

siTχ2 >3.84on rejette l’hypoth `ese de non distortion.

(28)

Cartographier Construction de cartes

Premi `eres ´etapes pour la construction

Nettoyage des donn ´ees : “marqueurs confondus”

Jeux de donn ´ees modernes

typage de plusieurs dizaines de milliers de marqueurs distance minimale inter-marqueurs tr `es faible

pas de recombinaison/cassure oberv ´ee : m ˆeme g ´enotypes (ou g ´enotypes compatibles avec les donn ´ees

manquantes).

=⇒Supprimer ou fusionner des marqueurs

(29)

Cartographier Construction de cartes

Grouper les marqueurs

Construction des groupes de liaison

Groupes de liaison

Groupes de marqueurs qui appartiennent `a un m ˆeme chromosome (li ´es).

Hypoth `ese 0: {2 marqueursAetBont un assortiment ind ´ependant (non li ´es, taux de recombinaison de 12)}.

Hypoth `ese 1: {les 2 marqueursAetBsont li ´es (taux de recombinaison< 12)}.

LODscore - 2 marqueurs

On utilise leLOD score pour tester la liaison.

LOD=−log10

maximum de la vraisemblance siρ=1/2 maximum de la vraisemblance

Tradition :LOD>3utilis ´e pour conclure `a la liaison.

(30)

Cartographier Construction de cartes

Ordonner les marqueurs

Construction de la carte

Cartographier

Pour chaque groupe de liaison (partie de chromosome), d ´eterminer l’ordre des marqueurs et les distances (taux de recombinaisons) qui s ´eparent deux marqueurs adjacents

Carte satur ´ee

autant de groupes que de chromosomes, tous les marqueurs de la carte sont li ´es `a un groupe.

(31)

Cartographier Construction de cartes

Ordonner les marqueurs

Trouver une bonne carte

Un probl `eme combinatoire

Pournmarqueurs, il y an!/2ordres de marqueurs d ´efinissant des cartes diff ´erentes. 10!2 =1.8106.

Impossible d’ ´enum ´erer les ordres.

Probl `eme d’optimisation difficile (m ˆeme dans ses versions les plus simples).

(32)

Cartographier Construction de cartes

Ordonner les marqueurs

Logiciels de cartographie

v ´eg ´etaux: MapMaker, CarthaGene, JoinMap animaux: CRIMAP,

homme: MapMaker

hybrides irradi ´es: RHMAP, RHO, CarthaGene Voir http://linkage.rockefeller.edu/soft/

Références

Documents relatifs

L’abus d’alcool est dangereux pour l a santé, à consommer

[r]

34 Presse Libérationtourne une page.Troisquestions à son financier, Edouardde Rothschild.A suivre 38 Transport aérien High-techà bord pour clientèle d'affaires.

La notion d’orientation de chaˆınes de nombres fait toucher du doigt cette grande complexit´ e de la loi de r´ eciprocit´ e quadratique : si l’on place les classes de restes sur

Par contre, la masse de ces mˆemes particules n’est pas n´egligeable : notre restriction va entrain´e une baisse de la masse totale, mˆeme dans les cas sans g´elation, et qui risque

• La première action correspond à une force parallèle à la vitesse et de sens contraire ; la seconde action correspond à une force perpendiculaire à la vitesse et peut

[r]

La sym´ ediane BL est le lieu des points dont les distances aux cˆ ot´ es BC et AB sont dans le rapport des hauteurs issues de C et de A, soit aussi sin( A)/sin(