Génomique comparative
Nadia El- Mabrouk
I. Introduction
Les génomes évoluent par:
– Mutations locales: Au niveau de la séquence;
substitutions, insertions, suppressions de nuc.
– Mutations globales: Au niveau du génome;
insertions, suppressions, duplications,
déplacements de gènes ou de fragments de
chromosomes
Pour étudier les mutations globales:
• Exploiter l’information contenue dans tout le génome.
• Considérer la structure générale du génome
(linéaire/circulaire, uni-chromosomique/multi-chromosomique).
• Représenter un chromosome par un ordre de gènes (ou autres éléments constitutifs, ou blocs conservés).
• Comparer deux génomes revient à comparer
des ordres de gènes (ou des ordres de blocs).
Conserved synteny blocks from the mouse genome (MGSCv. 3.0) are overlaid on human chromosomes (April 2003, assembly).
All conserved sytenic blocks >10 kb are shown.
Figure: Eichler et Sankoff, Science (2003)
Mutations globales
Anc27 (before)
Inversion:
Transposition inversée:
Types de génomes
1. Génome circulaire
1. Ordre des gènes signé 2. Non signé
2. Génome linéaire
1. 1 ou plusieurs chromosomes 2. Signé
3. Non signé
a
e
c g
d f
+a -b -c +d +e -f -g
b
Types de mutations génomiques
• Réarrangements Intra-chromosomales:
- Inversion: a b c d e f g h i j a b -e -d -c f g h i j
Origine possible:
Erreur de réplication
▪ Transposition: Segment supprimé et réinséré à
un autre endroit dans le génome
• Translocation, fusion, fission
Translocation réciproque:
Fusion:
Fission:
Réarrangements inter-chromosomiques:
Translocation
http://smabiology.blogspot.com/
▪ Duplications (en tandem ou transposées)
▪ Pertes (inactivation, dégradation, élimination). Origine possible: cross-over inégal –> duplication locale et
suppression
a b c d e
a b a b a b c d e
a b c d e f g h
a b c d e f b c d g h
Opérations modifiant le contenu
http://www.daviddarling.info/encyclopedia/D/duplication.html
Duplication,
Délétion
Model of WGD followed by massive gene loss predicts gene interleaving in sister regions. From Manolis Kellis, Bruce W. Birren and Eric S. Lander; Nature 428, 617-624, 2004
Duplication de génome
Duplication de génome
Brome
Chro num. 5
Weat
Chro num. 7
Sorghum
Chro num. 10
Maize
Chro num. 10 Rice
Chro num. 12
http://www-etud.iro.umontreal.ca/~lafonman/MAGE2013/program.php
II. Distance d’inversion
Deux génomes G et H contenant les
mêmes gènes mais dans un ordre
différent.
Distance d’inversion
entre G et H: Nombre
minimal d’inversions
pour passer de G à
H.
8 7 6 5 4 3 2 1 11 10 9 8 7 1 2 3 4 5 6 11 10 9 4 3 2 1 7 8 5 6 11 10 9 4 3 2 8 7 1 5 6 11 10 9
Réduction: Comment transformer une
permutation en l’identité?
Bibliographie:
• Kececioglu et Sankoff, 1993: Première heuristique, gènes non signés
• Caprara 1997: Problème NP-difficile pour les gènes non signés
• Hannenhalli et Pevzner, 1995: Algo polynomial pour les gènes signés
• Kaplan, Shamir, Tarjan,1999; Bader, Moret, Yan, 2001: optimisations, algo linéaire pour
calculer la distance et quadratique pour trouver un scénario d’inv.
• Bergeron 2001; Bergeron, Mixtacki, Stoye 2005:
Représentations plus simples du problème
• …
• Distance naturelle: Distance de points de cassures (Breakpoints)
• i i+1 ou –(i+1) –i : Adjacences
• Sinon: Breakpoint.
1 5 6 3 2 4 7 Gènes non signés
+1 +5 +6 +3 +2 +4 +7 Gènes signés
Points de cassure
• Une inversion d’un intervalle change l’ordre et le signe des gènes dans
l’intervalle
0 3 1 6 5 -2 - 4 7
0 -5 -6 -1 -3 -2 - 4 7
Inversion
• Une inversion d’un intervalle change l’ordre et le signe des gènes dans
l’intervalle
0 3 1 6 5 -2 - 4 7
0 -5 -6 -1 -3 -2 - 4 7
Inversion
• Une inversion d’un intervalle change l’ordre et le signe des gènes dans
l’intervalle
0 3 1 6 5 -2 - 4 7
0 3 4 2 -5 -2 - 4 7 0 -5 -6 -1 -3 -2 - 4 7
Inversion
• Une paire orientée est une paire consécutive de gènes de signes différents.
• Algorithme simple: Choisir, à chaque étape, une paire orientée (p
i, p
j)
– Si p
i+ p
j= +1, (p
ip
i+1 ….p
j-1)p
j– Si p
i+ p
j= -1, p
i(p
i+1 ….p
j-1p
j)
• Une inversion créant une adjacence agit nécessairement sur une paire orientée.
Mais pas toujours possibles, et pas toutes équivalentes.
0 3 1 6 5 -2 - 4 7
0 -5 4 -3 -2 -1 6 7
0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7 0 -5 -4 -3 -2 -1 6 7 0 1 2 3 4 5 6 7
5 inversions
0 3 1 6 5 -2 4 7
0 -5 -6 -1 -3 -2 4 7
0 -5 -6 -1 2 3 4 7
0 -5 -6 1 2 3 4 7
0 -5 -4 -3 -2 -1 6 7
0 1 2 3 4 5 6 7
0 3 1 6 5 -2 4 7
0 -5 -6 -1 -3 -2 4 7
0 -5 -6 -1 2 3 4 7
0 -5 -6 1 2 3 4 7
0 3 1 6 5 -2 4 7
0 -5 -6 -1 -3 -2 4 7
0 -5 -6 -1 2 3 4 7
0 -5 -6 1 2 3 4 7
0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7
0 1 6 5 2 3 4 7
Impossible de continuer
0 3 1 6 5 -2 4 7
0 -5 -6 -1 -3 -2 4 7
0 3 1 6 5 -2 4 7
0 -5 -6 -1 -3 -2 4 7
0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -4 2 3 1 6 7 0 -1 -3 -2 -4 5 6 7 0 -1 -3 -2 4 5 6 7 0 -1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
6 inversions au lieu de 5: Pas minimal
• Le score d’une inversion est le nombre de paires orientées dans la permutation résultante.
Algorithme: Choisir, à chaque étape, une paire orientée (p
i, p
j) de score maximal.
Résultat, Bergeron 2001
0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7
0 -5 -6 -1 2 3 4 7 0 -5 -4 2 3 1 6 7
Score = 4
Score = 2
• Le score d’une inversion est le nombre de paires orientées dans la permutation résultante.
Algorithme: Choisir, à chaque étape, une paire orientée (p
i, p
j) de score maximal.
Théorème: Si Algorithme applique k inversions à une permutation p donnant lieu à une permutation p’, alors
d(p) = d(p’) +k.
Mais on est bloqué si on n’a pas de paire orientée!
Résultat, Bergeron 2001
Graphe de points de cassure,gènes non signés (Bafna 1995)
• Décomposition maximale en c cycles alternés d’arcs disjoints
• d(G,H): distance d’inversion; b: nb d’arcs noirs (gènes) d(G,H) ≥ b – c
• Problème de la décomposition d’un graphe en un maximum de
cycles disjoints: NP-difficile
Gènes signés – Graphe de Hannenhalli et Pevzner (1995)
G = +1 +4 -6 +9 -7 +5 -8 +10 +3 +2 +11 -12 H = +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12
+a
t h
-a
h t
Si génome non-circulaire, rajouter des bornes
fictives
Nombre de cycles maximal lorsque les deux génomes sont identiques
Inversions possibles:
(A) Inversion sur deux arêtes de deux cycles différents
(B) Inversion sur une
paire non-orientée (ou
convergentes) d’ arêtes
(c) Inversion sur une
paire d’arêtes orientées
(ou divergentes)
Lien avec les paires orientées
+1 +4 -6 +9 -7 +5 -8 +10 +3 +2 +11 -12
6 t 5 h
6 t 5 h
Cycle non-orienté Cycle orienté
▪ {B,C,D} , {F} : Composantes orientées (bonne composante)
▪ {A,E} : Composante non-orientée
Cas général: d(G,H) ≥ b-c
Si que des bonnes composantes: d(G,H) = b-c
▪ Bonnes
composantes:
peuvent être résolues par b-c
``bonnes inversions’’
▪ Bonne inversion (safe): Inversion sur deux arêtes orientées, qui ne crée pas de
mauvaise
composante.
Mauvaises composantes
• Composante B sépare A et C.
• Non-obstacle: Mauvaise composante qui sépare deux mauvaises
composantes
• Obstacle (hurdle):
Mauvaise composante qui ne sépare pas deux mauvaises
composantes
A B C
Forteresse
• Un obstacle A protège un non-obstacle B si la suppression de A transforme B en obstacle.
• Super-obstacle: Obstacle A qui protège un non- obstacle B
B A
Forteresse: Graphe qui contient un nb impair
d’obstacles, tous des super-obstacles.
Résultat de Hannenhalli et Pevzner
• d(G,H): distance d’inversions
• b(G,H): nb de gènes
• c(G,H): nb de cycles du graphe
• h(G,H): nb d’obstacles
• f(G,H): 1 si le graphe est une forteresse, 0 sinon.
d(G,H) = b(G,H)-c(G,H)+h(G,H)+f(G,H)
Résolution des obstacles:
Deux opérations:
• Fusion:
Un cycle de moins, mais un obstacle de moins
• Coupure:
Même nb de cycles, mais un obstacle de moins.
Algorithme HP:
1. Si G contient h(G,H) obstacles 2. Si h(G,H) est pair
3. Considérer des paires d’obstacles non consécutifs, et les fusionner deux à deux;
4. Si h(G,H) est impair et il existe un obstacle simple O 5. Couper O;
6. Fusionner deux à deux les obstacles restants;
7. Sinon (forteresse)
8. Fusionner deux à deux les obstacles non-consécutifs
9. (si possible), et couper le dernier obstacle restant;
10. Pour chaque bonne composante C faire
11. Résoudre C en choisissant une inversion sûre à chaque étape.
• Une inversion est bonne si D (b-c+h+f)=-1
• L’algorithme n’effectue que des bonnes inversions:
– Inversion sure:
D (c)=1; D (h)=0; D (f)=0; donc D (b-c+h+f)=-1 – Fusion de deux obstacles:
D (c)=-1; D (h)=-2; D (f)=0; donc D (b-c+h+f)=-1 – Coupure d’un obstacle:
D (c)=0; D (h)=-1; D (f)=0; donc D (b-c+h+f)=-1
– Coupure du dernier obstacle de la forteresse:
D (c)=0; D (h)=0; D (f)=-1; donc D (b-c+h+f)=-1
Complexité
• Construire la structure, trouver les cycles et les composantes, déterminer leurs orientations:
temps O(n 2 )
=> trouver la distance d’inversion en O(n 2 )
• La partie la plus coûteuse: résolution des bonnes composantes.
Méthode brutale: Essayer toutes les inversions
(n 2 ) et vérifier le graphe obtenu. Effectuer ce
travail d(G,H) fois => O(n 5 )
Alternative à la représentation par graphe HP – Bergeron 2005
• Intervalle élémentaire: Pour chaque paire
(k,k+1) intervalle I k dont les deux extrémités sont:
– Droite de k si positif, et gauche sinon;
– Gauche de k+1 si k+1 est positif, droite sinon
I
00 -2 -1 4 3 5 -8 6 7 9
Alternative à la représentation par graphe HP – Bergeron 2005
• Intervalle élémentaire: Pour chaque paire
(k,k+1) intervalle I k dont les deux extrémités sont:
– Droite de k si positif, et gauche sinon;
– Gauche de k+1 si k+1 est positif, droite sinon
I
0I
10 -2 -1 4 3 5 -8 6 7 9
Alternative à la représentation par graphe HP – Bergeron 2005
• Intervalle élémentaire: Pour chaque paire
(k,k+1) intervalle I k dont les deux extrémités sont:
– Droite de k si positif, et gauche sinon;
– Gauche de k+1 si k+1 est positif, droite sinon
I
0I
1I
20 -2 -1 4 3 5 -8 6 7 9
I
3I
5I
6I
7I
8I
40 -2 -1 4 3 5 -8 6 7 9
• Adjacence: Intervalle vide.
• Si paire orientée, alors intervalle orienté. Sinon, intervalle non-orienté.
• Les seules inversions créant une nouvelle adjacence sont celles agissant sur des intervalles orientés.
Intervalles orientés
I
0I
1I
2I
3I
5I
6I
7I
8I
40 -2 -1 4 3 5 -8 6 7 9
• On dit que deux intervalles qui partagent une même extrémité se rejoignent à ce point.
• Exactement deux intervalles se rejoignent à chaque point de cassure.
• Un cycle est une séquences b
1, b
2, … b
kde points tels que deux points successifs sont les points de rencontre de deux intervalles (sauf les deux extrémités).
Les cycles
I
0I
1I
2I
3I
5I
6I
7I
8I
40 -2 -1 4 3 5 -8 6 7 9
• On dit que deux intervalles qui partagent une même extrémité se rejoignent à ce point.
• Exactement deux intervalles se rejoignent à chaque point de cassure.
• Un cycle est une séquences b
1, b
2, … b
kde points tels que deux points successifs sont les points de rencontre de deux intervalles (sauf les deux extrémités).
Les cycles
I
0I
1I
2I
3I
5I
6I
7I
8I
4I
0I
1I
20 -2 -1 4 3 5 -8 6 7 9
I
4I
5I
6I
7I
8I
0I
1I
3I
2I
3I
4I
5I
6I
7I
8Les cycles
• Ce sont les mêmes que les cycles du graphe HP
• Une inversion modifie de -1, 0 ou 1 le nombre de cycles.
• L’objectif est d’obtenir que des cycles d’un seul sommet, donc n cycles (où n est le nombre de gènes). Si on en a c au départ, alors:
nombre d’inversion est d’au moins n-c
Les cycles
0 -2 -1 4 3 5 -8 6 7 9
I
0I
1I
2I
3I
5I
6I
7I
8I
40 -2 -1 4 3 5 -8 6 7 9
• Une composante (aussi appelée sous-permutation
« sub-permutation ») est un intervalle de i à i+j pour un certain j (ou de –(i+j) –i) dont les éléments sont {i, i+1, … i+j}, et qui n’est pas l’union de composantes.
4 composantes.
Les composantes
I
0I
1I
2I
3I
5I
6I
7I
8I
4• Deux composantes sont soit disjointes, soit emboîtées avec des extrémités différentes, soit chevauchantes sur un élément.
• Par définition, posons qu’un point p.q appartient à la plus petite composante contenant à la fois p et q. Alors, tous les points d’un cycle appartiennent à la même
composante.
0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16
Les composantes
• Un breakpoint p.q est positif si p et q sont positifs et négatif si p et q sont négatifs. Une composante est non-orientée si elle contient des breakpoints et tous sont du même signe. Sinon, la composante est orientée.
I
0I
1I
20 -2 -1 4 3 5 -8 6 7 9
I
4I
5I
6I
7I
8I
0I
1I
3I
2I
3I
4I
5I
6I
7I
8Orientées
Les composantes
• Deux composantes chevauchantes sont dites jointes. Des composantes jointes
forment une chaine. Une chaine maximale ne peut pas être prolongée.
0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16
Les composantes
• T P définit pour permutation P comme suit:
– Chaque composante est représentée par un nœud rond;
– Chaque chaine maximale par un nœud carré dont les nœuds (ordonnés) sont les
composantes de la chaine;
– Un nœud carré est le fils de la plus petite composante contenant la chaine.
• Pour une permutation avec deux extrémités fixes, T P est un arbre enraciné en un nœud carré.
Les composantes représentées en
PQ-tree
0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16
(4…7) (0…4)
(1…2) (-15…-12) (-12…-9)
(7…16) (0…4) (1…2)
(4…7)
(7…16)
(-12…-9) (-15…-12)
(o)
(o) (n) (o)
(n) (n)
(o): orienté; (n) non-orienté
• Si une composante C est non-orientée, aucune inversion avec les deux extrémités dans C ne peut augmenter le nombre de cycles.
• Si C est non-orientée, une inversion d’un intervalle élémentaire dont les deux extrémités sont dans C oriente C et ne change en rien le nombre de cycles.
• Une inversion dont les deux extrémités sont dans deux composantes différentes A et B affecte uniquement les composantes qui sont sur l’unique chemin qui relie A à B dans T
P.
Les composantes
• Le score d’une inversion est le nombre d’intervalles élémentaires orientés dans la permutation
résultante.
Théorème: L’inversion d’un intervalle élémentaire
orienté de score maximal ne crée pas de composante non-orientée.
Corollaire: Si la permutation P n’a pas de composante non-orientée et c cycles, alors
d(P) = n-c
Résultats – Bergeron 2001
• Def: Une couverture C de T
Pest un ensemble de
chemins joignant les composantes non-orientées de P, tel que chaque nœud terminal n’appartient qu’à un seul chemin.
• Résultat: Une couverture correspond à un ensemble d’inversions permettant d’orienter toutes les
composantes de P.
• Def: Un chemin contenant plus d’une composante est long: score 2; Un chemin contenant une seule
composante est court: score 1.
• Def: Une couverture optimale est une couverture de score maximal: Score t.
Résultats – Bergeron 2005
• Théorème: d(P) = n-c+t
d(P) peut-être calculé en temps O(n).
Résultats – Bergeron 2005
Distance de translocation
G={ 1: 1 3 9; 2: 7 8 4 5 6; 3: 10 2 11 12 13 } H = {1: 1 2 3 4 5 6; 2: 7 8 9; 3: 10 11 12 13 }
1h 3t 3h 9t
7h 8t 8h 4t 4h 5t 5h 6t
10h 2t 2h 11t 11h 12t 12h 13t
1:
2:
3:
Formule HP: d(G,H) = b(G,H)-c(G,H)+s(G,H)+f(G,H)
Graphe de points de cassures
s: Nombre de “minimal subpermutations” de G et H.
En fait l’ensemble des hurdles est un sous-ensemble des minSP
Distance d’inversion+ translocation (incluant fusion, fission )
• Génomes linéaires, multichromosomiques signés.
( Hannenhalli, Pevzner 1995, Bourque, Tesler 2002, Ozery, Shamir 2003)
• Idée générale (HP 1995) : Réduire le problème à la
comparaison, par inversion de deux génomes linéaires unichromosomiques
X1 X2 -Y2 - Y1
X1 Y2 -X2 - Y1
inversion
translocation
• Ajouter des bornes (gènes fictifs) aux extrémités des chromosomes de G.
• Concaténer les chromosomes de G
• Construire le graphe de BP pour G et H. Les arêtes grises
représentent uniquement les adjacences entre les gènes de H (les extrémités restent libres). Le graphe ainsi obtenu se décompose en cycles et chemins.
• HP montrent que le problème se ramène à refermer les chemins de façon optimale
Résultat de HP:
d(G,H) = b(G,H)-c(G,H)+p(G,H)+r(G,H)+(s(G,H)-gr(G,H)+fr(G,H))/2
• p(G,H): nb de chemins joignant 2 bornes;
• r(G,H) et s(G,H): nb de hurdles intrachromosomiques particuliers;
• gr(G,H) et fr(G,H): 0 ou 1.
Distance de Transposition
• Deux permutations non signées
• Introduite par Bafna et Pevzner, 1998
• Complexité inconnue
• Meilleure approximation: 11/8 (Elias, Hartman, 2006)
• Deux bornes inférieures immédiates:
– Une translocation peut supprimer au max. 3 bp
→ d(G,H) ≥ b(G,H)/3
– Une transposition peut augmenter au max de 2 cycles le graphe des bp
→ d(G,H) ≥ [b(G,H) – c(G,H)]/2
• Une borne supérieure immédiate: On peut toujours augmenter d’au moins 1 le nombre de cycles
→ d(G,H) ≤ b(G,H)-c(G,H)
Distance DCJ
• Double Cut-and-Join
• Introduite par Yancopoulos et al. (2005)
• Définie uniquement pour les génomes signés. S’applique à des génomes linéaires ou circulaires.
• Toutes les autres opérations (inversion, translocation réciproque, fusion, fission, transposition, block
interchange) sont des cas particuliers de DCJ.
• Inclu des opérations supplémentaires.
• Possibilité de former des génomes circulaires.
• Algorithme linéaire, autant pour trouver la distance qu’un scénario de réarrangement optimal (Bergeron et al.
2006)
Définition: Une opération DCJ coupe deux adjacences ab et cd d’un génome G, et les transforme en T1: ac et bd ou T2: ad et bc.
a b
c d
a c
b d
a d
b c
a b c d
a c b d
a d
b c
a b
c d
a d
c b
a c d b
=Translocations
= Inversion
= Inversion
T1
T2
T1
T1
T2
T2
a, b, c ou d peuvent être des télomères
→ Formation de chromosomes circulaires
7h 8t 8h 4t 4h 5t 5h 6t
7t
T 6h T
a b c d
T2
7h 8t 8h T
7t T
a d
4t 4h 5t 5h 6t 6h
b c
• Distance DCJ entre deux génomes G et H:
Nombre minimum de DCJ à effectuer pour transformer G en H.
• Yanacopoulos 2005:
D(G,H) = n-(c(G,H)+p e (G,H)/2)
• n: nb de gènes;
• c(G,H): Nb de cycles dans le graphe des BP;
• pe(G,H): Nb de chemins de taille paire dans le
graphe BP.
• DCJ: Opération “artificielle’’ modélisant toutes les opérations de réarrangement connues.
• Se calcule en temps linéaire.
• Relation aux autre distances de réarrangement:
inversion, transloc., inv+transloc ( Bergeron, Stoye, Mixtacki 2005 )
d(G,H)= d DCJ (G,H) + t
où t représente le coût additionel de ne pas passer par des opérations DCJ. Bergeron, Stoye,
Mixtacki 2005: Formule simple pour t.
III. Inférence d’ordres ancestraux
?
?
?
E
1E
2E
3E
4a b a c a b a –a –b c a b a b a c b c a b a –b –c c
a b a c a b a b a c b c
a b a c b
E
1E
2E
3E
4Méthode
• Approche globale: Basée sur la notion de distance (réarrangement, breakpoint).
Trouver les génomes ancestraux qui
permettent de minimiser la somme des distances des arêtes de l’arbre.
• Différentes versions ont été publiées:
BPAnalysis de Blanchette et Sankoff,
GRAPPA de Moret…)
Approche globale
Méthode générale de Sankoff 1996
• Méthode générale:
• Commencer par un ordre initial « raisonnable » des nœuds internes;
• Assigner un nouvel ordre à chaque nœud interne, par un calcul de la médiane des trois génomes adjacents au
nœud considéré;
• Continuer un nombre fixé de fois ou jusqu’à convergence.
Étant donnée une distance d et trois génomes G1,G2, G3,
la médiane des trois génomes est un génome G minimisant
d(G,G1)+d(G,G2)+d(G,G3)
A B C X
W
A B C
X
Y
A B C
X Y Y
W W
Amélioration de X
Amélioration de Y