Génomique comparative

(1)

Génomique comparative

Nadia El- Mabrouk

(2)

I. Introduction

Les génomes évoluent par:

– Mutations locales: Au niveau de la séquence;

substitutions, insertions, suppressions de nuc.

– Mutations globales: Au niveau du génome;

insertions, suppressions, duplications,

déplacements de gènes ou de fragments de

chromosomes

(3)

Pour étudier les mutations globales:

• Exploiter l’information contenue dans tout le génome.

• Considérer la structure générale du génome

(linéaire/circulaire, uni-chromosomique/multi-chromosomique).

• Représenter un chromosome par un ordre de gènes (ou autres éléments constitutifs, ou blocs conservés).

• Comparer deux génomes revient à comparer

des ordres de gènes (ou des ordres de blocs).

(4)

Conserved synteny blocks from the mouse genome (MGSCv. 3.0) are overlaid on human chromosomes (April 2003, assembly).

All conserved sytenic blocks >10 kb are shown.

Figure: Eichler et Sankoff, Science (2003)

Mutations globales

(5)

(6)

(7)

Anc27 (before)

Inversion:

Transposition inversée:

(8)

Types de génomes

1. Génome circulaire

1. Ordre des gènes signé 2. Non signé

2. Génome linéaire

1. 1 ou plusieurs chromosomes 2. Signé

3. Non signé

a

e

c g

d f

+a -b -c +d +e -f -g

b

(9)

Types de mutations génomiques

• Réarrangements Intra-chromosomales:

- Inversion: a b c d e f g h i j a b -e -d -c f g h i j

Origine possible:

Erreur de réplication

(10)

▪ Transposition: Segment supprimé et réinséré à

un autre endroit dans le génome

(11)

• Translocation, fusion, fission

Translocation réciproque:

Fusion:

Fission:

Réarrangements inter-chromosomiques:

(12)

Translocation

http://smabiology.blogspot.com/

(13)

▪ Duplications (en tandem ou transposées)

▪ Pertes (inactivation, dégradation, élimination). Origine possible: cross-over inégal –> duplication locale et

suppression

a b c d e

a b a b a b c d e

a b c d e f g h

a b c d e f b c d g h

Opérations modifiant le contenu

(14)

http://www.daviddarling.info/encyclopedia/D/duplication.html

Duplication,

Délétion

(15)

Model of WGD followed by massive gene loss predicts gene interleaving in sister regions. From Manolis Kellis, Bruce W. Birren and Eric S. Lander; Nature 428, 617-624, 2004

Duplication de génome

(16)

Duplication de génome

Brome

Chro num. 5

Weat

Chro num. 7

Sorghum

Chro num. 10

Maize

Chro num. 10 Rice

Chro num. 12

(17)

http://www-etud.iro.umontreal.ca/~lafonman/MAGE2013/program.php

(18)

II. Distance d’inversion

Deux génomes G et H contenant les

mêmes gènes mais dans un ordre

différent.

Distance d’inversion

entre G et H: Nombre

minimal d’inversions

pour passer de G à

H.

(19)

8 7 6 5 4 3 2 1 11 10 9 8 7 1 2 3 4 5 6 11 10 9 4 3 2 1 7 8 5 6 11 10 9 4 3 2 8 7 1 5 6 11 10 9

Réduction: Comment transformer une

permutation en l’identité?

(20)

Bibliographie:

• Kececioglu et Sankoff, 1993: Première heuristique, gènes non signés

• Caprara 1997: Problème NP-difficile pour les gènes non signés

• Hannenhalli et Pevzner, 1995: Algo polynomial pour les gènes signés

• Kaplan, Shamir, Tarjan,1999; Bader, Moret, Yan, 2001: optimisations, algo linéaire pour

calculer la distance et quadratique pour trouver un scénario d’inv.

• Bergeron 2001; Bergeron, Mixtacki, Stoye 2005:

Représentations plus simples du problème

• …

(21)

• Distance naturelle: Distance de points de cassures (Breakpoints)

• i i+1 ou –(i+1) –i : Adjacences

• Sinon: Breakpoint.

1 5 6 3 2 4 7 Gènes non signés

+1 +5 +6 +3 +2 +4 +7 Gènes signés

Points de cassure

(22)

• Une inversion d’un intervalle change l’ordre et le signe des gènes dans

l’intervalle

0 3 1 6 5 -2 - 4 7

0 -5 -6 -1 -3 -2 - 4 7

Inversion

(23)

• Une inversion d’un intervalle change l’ordre et le signe des gènes dans

l’intervalle

0 3 1 6 5 -2 - 4 7

0 -5 -6 -1 -3 -2 - 4 7

Inversion

(24)

• Une inversion d’un intervalle change l’ordre et le signe des gènes dans

l’intervalle

0 3 1 6 5 -2 - 4 7

0 3 4 2 -5 -2 - 4 7 0 -5 -6 -1 -3 -2 - 4 7

Inversion

(25)

• Une paire orientée est une paire consécutive de gènes de signes différents.

• Algorithme simple: Choisir, à chaque étape, une paire orientée (p

_i

, p

_j

)

– Si p

_i

+ p

_j

= +1, (p

_i

p

_{i+1 ….}

p

_j-1

)p

_j

– Si p

_i

+ p

_j

= -1, p

_i

(p

_{i+1 ….}

p

_j-1

p

_j

)

• Une inversion créant une adjacence agit nécessairement sur une paire orientée.

Mais pas toujours possibles, et pas toutes équivalentes.

0 3 1 6 5 -2 - 4 7

0 -5 4 -3 -2 -1 6 7

(26)

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7 0 -5 -4 -3 -2 -1 6 7 0 1 2 3 4 5 6 7

5 inversions

(27)

0 3 1 6 5 -2 4 7

0 -5 -6 -1 -3 -2 4 7

0 -5 -6 -1 2 3 4 7

0 -5 -6 1 2 3 4 7

0 -5 -4 -3 -2 -1 6 7

0 1 2 3 4 5 6 7

(28)

0 3 1 6 5 -2 4 7

0 -5 -6 -1 -3 -2 4 7

0 -5 -6 -1 2 3 4 7

0 -5 -6 1 2 3 4 7

(29)

0 3 1 6 5 -2 4 7

0 -5 -6 -1 -3 -2 4 7

0 -5 -6 -1 2 3 4 7

0 -5 -6 1 2 3 4 7

(30)

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7

0 1 6 5 2 3 4 7

Impossible de continuer

(31)

0 3 1 6 5 -2 4 7

0 -5 -6 -1 -3 -2 4 7

(32)

0 3 1 6 5 -2 4 7

0 -5 -6 -1 -3 -2 4 7

(33)

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -4 2 3 1 6 7 0 -1 -3 -2 -4 5 6 7 0 -1 -3 -2 4 5 6 7 0 -1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

6 inversions au lieu de 5: Pas minimal

(34)

• Le score d’une inversion est le nombre de paires orientées dans la permutation résultante.

Algorithme: Choisir, à chaque étape, une paire orientée (p

_i

, p

_j

) de score maximal.

Résultat, Bergeron 2001

(35)

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7

0 -5 -6 -1 2 3 4 7 0 -5 -4 2 3 1 6 7

Score = 4

Score = 2

(36)

• Le score d’une inversion est le nombre de paires orientées dans la permutation résultante.

Algorithme: Choisir, à chaque étape, une paire orientée (p

_i

, p

_j

) de score maximal.

Théorème: Si Algorithme applique k inversions à une permutation p donnant lieu à une permutation p’, alors

d(p) = d(p’) +k.

Mais on est bloqué si on n’a pas de paire orientée!

Résultat, Bergeron 2001

(37)

Graphe de points de cassure,gènes non signés (Bafna 1995)

• Décomposition maximale en c cycles alternés d’arcs disjoints

• d(G,H): distance d’inversion; b: nb d’arcs noirs (gènes) d(G,H) ≥ b – c

• Problème de la décomposition d’un graphe en un maximum de

cycles disjoints: NP-difficile

(38)

Gènes signés – Graphe de Hannenhalli et Pevzner (1995)

G = +1 +4 -6 +9 -7 +5 -8 +10 +3 +2 +11 -12 H = +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12

+a

t h

-a

h t

Si génome non-circulaire, rajouter des bornes

fictives

(39)

Nombre de cycles maximal lorsque les deux génomes sont identiques

Inversions possibles:

(A) Inversion sur deux arêtes de deux cycles différents

(B) Inversion sur une

paire non-orientée (ou

convergentes) d’ arêtes

(c) Inversion sur une

paire d’arêtes orientées

(ou divergentes)

(40)

Lien avec les paires orientées

+1 +4 -6 +9 -7 +5 -8 +10 +3 +2 +11 -12

6 ^t 5 ^h

(41)

Cycle non-orienté Cycle orienté

▪ {B,C,D} , {F} : Composantes orientées (bonne composante)

▪ {A,E} : Composante non-orientée

Cas général: d(G,H) ≥ b-c

Si que des bonnes composantes: d(G,H) = b-c

(42)

▪ Bonnes

composantes:

peuvent être résolues par b-c

``bonnes inversions’’

▪ Bonne inversion (safe): Inversion sur deux arêtes orientées, qui ne crée pas de

mauvaise

composante.

(43)

Mauvaises composantes

• Composante B sépare A et C.

• Non-obstacle: Mauvaise composante qui sépare deux mauvaises

composantes

• Obstacle (hurdle):

Mauvaise composante qui ne sépare pas deux mauvaises

composantes

A B C

(44)

Forteresse

• Un obstacle A protège un non-obstacle B si la suppression de A transforme B en obstacle.

• Super-obstacle: Obstacle A qui protège un non- obstacle B

B A

Forteresse: Graphe qui contient un nb impair

d’obstacles, tous des super-obstacles.

(45)

Résultat de Hannenhalli et Pevzner

• d(G,H): distance d’inversions

• b(G,H): nb de gènes

• c(G,H): nb de cycles du graphe

• h(G,H): nb d’obstacles

• f(G,H): 1 si le graphe est une forteresse, 0 sinon.

d(G,H) = b(G,H)-c(G,H)+h(G,H)+f(G,H)

(46)

Résolution des obstacles:

Deux opérations:

• Fusion:

Un cycle de moins, mais un obstacle de moins

• Coupure:

Même nb de cycles, mais un obstacle de moins.

(47)

Algorithme HP:

1. Si G contient h(G,H) obstacles 2. Si h(G,H) est pair

3. Considérer des paires d’obstacles non consécutifs, et les fusionner deux à deux;

4. Si h(G,H) est impair et il existe un obstacle simple O 5. Couper O;

6. Fusionner deux à deux les obstacles restants;

7. Sinon (forteresse)

8. Fusionner deux à deux les obstacles non-consécutifs

9. (si possible), et couper le dernier obstacle restant;

10. Pour chaque bonne composante C faire

11. Résoudre C en choisissant une inversion sûre à chaque étape.

(48)

• Une inversion est bonne si D (b-c+h+f)=-1

• L’algorithme n’effectue que des bonnes inversions:

– Inversion sure:

D (c)=1; D (h)=0; D (f)=0; donc D (b-c+h+f)=-1 – Fusion de deux obstacles:

D (c)=-1; D (h)=-2; D (f)=0; donc D (b-c+h+f)=-1 – Coupure d’un obstacle:

D (c)=0; D (h)=-1; D (f)=0; donc D (b-c+h+f)=-1

– Coupure du dernier obstacle de la forteresse:

D (c)=0; D (h)=0; D (f)=-1; donc D (b-c+h+f)=-1

(49)

Complexité

• Construire la structure, trouver les cycles et les composantes, déterminer leurs orientations:

temps O(n ² )

=> trouver la distance d’inversion en O(n ² )

• La partie la plus coûteuse: résolution des bonnes composantes.

Méthode brutale: Essayer toutes les inversions

(n ² ) et vérifier le graphe obtenu. Effectuer ce

travail d(G,H) fois => O(n ⁵ )

(50)

Distance de translocation

G={ 1: 1 3 9; 2: 7 8 4 5 6; 3: 10 2 11 12 13 } H = {1: 1 2 3 4 5 6; 2: 7 8 9; 3: 10 11 12 13 }

1h 3t 3h 9t

7h 8t 8h 4t 4h 5t 5h 6t

10h 2t 2h 11t 11h 12t 12h 13t

1:

2:

3:

Formule HP: d(G,H) = b(G,H)-c(G,H)+s(G,H)+f(G,H)

Graphe de points de cassures

s: Nombre de “minimal subpermutations” de G et H.

En fait l’ensemble des hurdles est un sous-ensemble des minSP

(51)

Distance d’inversion+ translocation (incluant fusion, fission )

• Génomes linéaires, multichromosomiques signés.

( Hannenhalli, Pevzner 1995, Bourque, Tesler 2002, Ozery, Shamir 2003)

• Idée générale (HP 1995) : Réduire le problème à la

comparaison, par inversion de deux génomes linéaires unichromosomiques

X1 X2 -Y2 - Y1

X1 Y2 -X2 - Y1

inversion

translocation

(52)

• Ajouter des bornes (gènes fictifs) aux extrémités des chromosomes de G.

• Concaténer les chromosomes de G

• Construire le graphe de BP pour G et H. Les arêtes grises

représentent uniquement les adjacences entre les gènes de H (les extrémités restent libres). Le graphe ainsi obtenu se décompose en cycles et chemins.

• HP montrent que le problème se ramène à refermer les chemins de façon optimale

Résultat de HP:

d(G,H) = b(G,H)-c(G,H)+p(G,H)+r(G,H)+(s(G,H)-gr(G,H)+fr(G,H))/2

• p(G,H): nb de chemins joignant 2 bornes;

• r(G,H) et s(G,H): nb de hurdles intrachromosomiques particuliers;

• gr(G,H) et fr(G,H): 0 ou 1.

(53)

Distance de Transposition

• Deux permutations non signées

• Introduite par Bafna et Pevzner, 1998

• Complexité inconnue

• Meilleure approximation: 11/8 (Elias, Hartman, 2006)

• Deux bornes inférieures immédiates:

– Une translocation peut supprimer au max. 3 bp

→ d(G,H) ≥ b(G,H)/3

– Une transposition peut augmenter au max de 2 cycles le graphe des bp

→ d(G,H) ≥ [b(G,H) – c(G,H)]/2

• Une borne supérieure immédiate: On peut toujours augmenter d’au moins 1 le nombre de cycles

→ d(G,H) ≤ b(G,H)-c(G,H)

(54)

Distance DCJ

• Double Cut-and-Join

• Introduite par Yancopoulos et al. (2005)

• Définie uniquement pour les génomes signés. S’applique à des génomes linéaires ou circulaires.

• Toutes les autres opérations (inversion, translocation réciproque, fusion, fission, transposition, block

interchange) sont des cas particuliers de DCJ.

• Inclu des opérations supplémentaires.

• Possibilité de former des génomes circulaires.

• Algorithme linéaire, autant pour trouver la distance qu’un scénario de réarrangement optimal (Bergeron et al.

2006)

(55)

Définition: Une opération DCJ coupe deux adjacences ab et cd d’un génome G, et les transforme en T1: ac et bd ou T2: ad et bc.

a b

c d

a c

b d

a d

b c

a b c d

a c b d

a d

b c

a b

c d

a d

c b

a c d b

=Translocations

= Inversion

T1

T2

T1

T2

(56)

a, b, c ou d peuvent être des télomères

→ Formation de chromosomes circulaires

7h 8t 8h 4t 4h 5t 5h 6t

7t

T 6h T

a b c d

T2

7h 8t 8h T

7t T

a d

4t 4h 5t 5h 6t 6h

b c

(57)

• Distance DCJ entre deux génomes G et H:

Nombre minimum de DCJ à effectuer pour transformer G en H.

• Yanacopoulos 2005:

D(G,H) = n-(c(G,H)+p e (G,H)/2)

• n: nb de gènes;

• c(G,H): Nb de cycles dans le graphe des BP;

• pe(G,H): Nb de chemins de taille paire dans le

graphe BP.

(58)

• DCJ: Opération “artificielle’’ modélisant toutes les opérations de réarrangement connues.

• Se calcule en temps linéaire.

• Relation aux autre distances de réarrangement:

inversion, transloc., inv+transloc ( Bergeron, Stoye, Mixtacki 2005 )

d(G,H)= d ^DCJ (G,H) + t

où t représente le coût additionel de ne pas passer par des opérations DCJ. Bergeron, Stoye,

Mixtacki 2005: Formule simple pour t.

(59)

III. Inférence d’ordres ancestraux

?

E

₁

E

₂

E

₃

E

₄

(60)

a b a c a b a –a –b c a b a b a c b c a b a –b –c c

a b a c a b a b a c b c

a b a c b

E

₁

E

₂

E

₃

E

₄

(61)

Méthode

• Approche globale: Basée sur la notion de distance (réarrangement, breakpoint).

Trouver les génomes ancestraux qui

permettent de minimiser la somme des distances des arêtes de l’arbre.

• Différentes versions ont été publiées:

BPAnalysis de Blanchette et Sankoff,

GRAPPA de Moret…)

(62)

Approche globale

Méthode générale de Sankoff 1996

• Méthode générale:

• Commencer par un ordre initial « raisonnable » des nœuds internes;

• Assigner un nouvel ordre à chaque nœud interne, par un calcul de la médiane des trois génomes adjacents au

nœud considéré;

• Continuer un nombre fixé de fois ou jusqu’à convergence.

Étant donnée une distance d et trois génomes G1,G2, G3,

la médiane des trois génomes est un génome G minimisant

d(G,G1)+d(G,G2)+d(G,G3)

(63)

A B C X

W

A B C

X

Y

A B C

X Y Y

W W

Amélioration de X

Amélioration de Y

A B C D E F G H

I

¹

I

4

I

2

I

³

I

⁶

I

⁵

I

⁷

(64)

Calcul de la médiane

• Même contenu en gènes, gènes uniques, distance des points de cassure (BP): NP-difficile pour des permutations signées ou non, circulaires (Pe’er et Shamir 1998) ou linéaires (Bryant 1998)

• Meilleures heuristiques bornées: 7/6 pour

permutations signées (Pe’er et Shamir 2000) et 5/3 pour permutations non signées (Caprara 2002)

• Algorithme exact proposé par Blanchette et

Sankoff,1998: Réduction au problème du commis

voyageur. Étendu à des génomes contenant des

gènes différents (Sankoff et Bryant 2000).

(65)

Calcul de la médiane

Algorithme de Blanchette et Sankoff 1998

A: 1 3 4 2 5 B: 1 4 5 3 2 C: 1 2 3 4 5

1

2 4 3 5

1 1 1

1

1 2 2

2 • Poids d’une arête: nb de génomes où les gènes ne sont pas voisins.

• Trouver un chemin de poids minimal passant par chaque sommet une unique fois

• Problème du commis voyageur (Traveling Salesman Problem, ou TSP).

Peut-être résolu en temps O(n

²

2

ⁿ

). Mais plusieurs heuristiques efficaces existent.

1

2 4 3 5

1 1 1

1

(66)

Calcul de la médiane

Distance d’inversion

• Étudié uniquement dans le cas de permutations signées.

• Introduit par Sankoff et Kececioglu, 1996

• NP-difficile, même pour 3 génomes (Caprara 1999)

• Caprara 2001 combine les stratégies branch-and-bound et divide-and-conquere sur une généralisation du graphe des BP.

• Moret et. al 2001 recherchent l’espace des

réarrangements par une stratégie branch-and-bound.

Implémenté dans GRAPPA.

• Bourque et Pevzner 2002 utilisent une stratégie

« gready »

(67)

Evolution of tRNA repertoires in Bacillus inferred with OrthoAlign

III. Gene order based inference

O. Tremblay-Savard, B.

Benzaid, F.B. Lang and N.

El-Mabrouk, Molecular

Biology and Evolution,

2015.

(68)

Bacillus cereus ATCC 14579

Location of the operons

III. Gene order based inference

tRNAs are organized in syntenies :

(69)

Given genomes A and B, find a scenario of minimum cost to go from A to B.

➢

Genomes with identical gene content and no duplication

➢ Many problems are tractable (Reversals, Translocations, DCJ)

➢

Gene duplicates

➢ Almost all NP-hard

➢

Non-uniqueness of solutions. Exponential number of possible evolutionary scenarios

Non-overlapping operations : The alignment problem:

➢

Duplication-Loss : NP-hard

(Andreotti 2013, Benzaid 2013; Dondi and El-Mabrouk 2013)

➢

OrthoAlign : Polynomial-time heuristic based on dynamic

programming, accounting for duplications, losses, rearrangements (inversions, transpositions) and substitutions

III. Gene order based inference

Gene order evolution

(70)

Gene order evolution

inversion

duplication

loss substitution

III. Gene order based inference

We focused on close phylogenetic distances

➢

Non-overlapping, visible events

(71)

Gene order evolution

We focused on close phylogenetic distances

➢

Non-overlapping, visible events

➢

Reduces to an alignment problem

inversion

duplication

loss substitution

III. Gene order based inference

(72)

Gene order evolution

Given two genomes A and B, output a labeled alignment :

Each character of A and B is covered by at most one event such that:

➢ Each matched position is not covered by any operation

➢ Each mismatched position is covered by a substitution or an inversion

➢ Each gapped position is covered by a loss, a duplication, an inverted duplication or a transposition

substitution

inversion

duplication loss

A B

III. Gene order based inference

(73)

OrthoAlign at a glance :

• Given genomes A and B, find a scenario minimizing operations from A to B.

III. Gene order based inference

(74)

OrthoAlign at a glance

• Given genomes A and B, find a scenario minimizing operations from A to B.

➢

By dynamic programming, find a labeled alignment

➢

Correct cycles

Minimum of 5 operations

III. Gene order based inference

L

(75)

OrthoAlign at a glance

• Given genomes A and B, find a scenario minimizing operations from A to B.

➢

By dynamic programming, find a labeled alignment

➢

Correct cycles

Minimum of 6 operations

III. Gene order based inference

L L L

(76)

Application on a phylogenetic tree

• Proceed bottom-up in the phylogenetic tree, and apply OrthoAlign on each cherry

L

III. Gene order based inference

(77)

Application on a phylogenetic tree

• Proceed bottom-up in the phylogenetic tree, and apply OrthoAlign on each cherry

• Correct the obtained ancestor by considering a neighbor

L L

2 events

III. Gene order based inference

(78)

Application on a phylogenetic tree

1 event

D

III. Gene order based inference

• Proceed bottom-up in the phylogenetic tree, and apply OrthoAlign on each cherry

• Correct the obtained ancestor by considering a

neighbor

(79)

Results at a glance

• 95 Duplications, 141 deletions, 23 inversions, 12 transpositions, 2 substitutions.

• Short duplications and deletions (one or two genes) prevalent.

• Large inversions around the replication axes

• Estimated average rates much lower in Bacillus compared to E.coli

•

Duplications : 0.026 per My - About 24 times lower than in E. coli

•

Deletions : 0.025 per My - About 12 times lower than in E. coli

•

Inversions : 0.003 per My

• tRNA genes in Bacillus under strong selective pressure.

III. Gene order based inference

(80)

Gene substitution

• tRNA-Met annotated tRNA-Val in B. amyloliquefaciens DSM 7. Anticodon change from CAT to CAC.

• Classified by TFAM as initiator methionine tRNAs.

• Codon reassignment? A tRNA-iMet with a CAC anticodon recognizing GTG start codons?

Unfortunately, appeared to be just a sequencing error.

III. Gene order based inference

(81)