Comparaison de structures d’ARN et Calcul de distances interg ´ enomiques
Guillaume Blin
IGM-LabInfo UMR 8049, Universit ´e de Marne La Vall ´ee gblin@univ-mlv.fr
LINA - Universit ´e de Nantes Sous la direction de I. Rusu et G. Fertin
S ´eminaire LIRMM - 9 F ´evrier 2006
Blin Guillaume IGM
Combinatoire et Bio-informatique
1
Partie I : Introduction
2
Partie II : Comparaison de structures de mol ´ ecules d’ARN
3
Partie III : Calcul de distances interg ´ enomiques
4
Partie IV : Conclusion
Premi ` ere partie I Introduction
Blin Guillaume IGM
Combinatoire et Bio-informatique
Combinatoire et Bio-informatique
Probl `emes ´etudi ´es
Deux types de probl `emes de bio-informatique : Comparaison de structures d’ARN
Calcul de distances interg ´enomiques
Objectifs
D ´eterminer la ”difficult ´e” (complexit ´e) de ces probl `emes Dans la mesure du possible, de proposer une ou plusieurs m ´ethodes de r ´esolution (algorithmes) pour chacun d’eux
Plan de l’expos ´ e
1 Rappels de Biologie : ADN, ARN, Prot ´eine
2 L’approche adopt ´ee
Blin Guillaume IGM
Combinatoire et Bio-informatique
Rappels de Biologie
Acide D ´esoxyriboNucl ´eique Chez tous les ˆetres vivants Deux brins enroul ´es en h ´elice
Brin≡suite de bases – Adenine, Thymine, Guanine et Cytosine Support de l’information g ´en ´etique – cod ´ee sous la forme de g `enes (portions d’un brin d’ADN)
G ´enome≡l’ensemble des g `enes
Rappels de Biologie
Acide RiboNucl ´eique
Monobrin – Adenine, Cytosine, Guanine et Uracile–structure primaire
Blin Guillaume IGM
Combinatoire et Bio-informatique
Rappels de Biologie
Acide RiboNucl ´eique
Monobrin – Adenine, Cytosine, Guanine et Uracile–structure primaire
L’ARN se replie dans l’espace par l’action de liens hydrog `enes pouvant se former : A-U,C-G(principalement)
Rappels de Biologie
Acide RiboNucl ´eique
Monobrin – Adenine, Cytosine, Guanine et Uracile–structure primaire
L’ARN se replie dans l’espace par l’action de liens hydrog `enes pouvant se former : A-U,C-G(principalement)
Contraintes thermodynamiques imposent une conformation sp ´ecifique dans
l’espace –structure secondaire
Blin Guillaume IGM
Combinatoire et Bio-informatique
Rappels de Biologie
Acide RiboNucl ´eique
Monobrin – Adenine, Cytosine, Guanine et Uracile–structure primaire
L’ARN se replie dans l’espace par l’action de liens hydrog `enes pouvant se former : A-U,C-G(principalement)
Contraintes thermodynamiques imposent une conformation sp ´ecifique dans
l’espace –structure secondaire La structure est importante car elle d ´etermine en partie la fonction de l’ARN
Rappels de Biologie
Prot ´eine
Mol ´ecule indispensable `a la vie de la cellule et de l’organisme tout entier
Ses fonctions sont tr `es vari ´ees
Liens entre l’ADN, l’ARN et les prot ´eines Dogme central de la biologie
M ´ecanisme permettant de passer de l’ADN aux prot ´eines
Blin Guillaume IGM
Combinatoire et Bio-informatique
Rappels de Biologie
Dogme central
Duplication de l’ADN
Reproduction `a l’indentique de l’ADN permettant la pr ´eservation de l’information g ´en ´etique
Rappels de Biologie
Dogme central
Transcription d’un g `ene en ARN (messager)
1. Parcours de l’ADN par une entit ´e biologique
2. Production d’un ARN en fonction de l’information ”lue”
Blin Guillaume IGM
Combinatoire et Bio-informatique
Rappels de Biologie
Dogme central
Traduction de l’ARN messager en prot ´eine
ARN≡interm ´ediaire entre l’ADN et les prot ´eines
Plan de l’expos ´ e
1 Rappels de Biologie : ADN, ARN, Prot ´eine
2 L’approche adopt ´ee
Blin Guillaume IGM
Combinatoire et Bio-informatique
Combinatoire et Bio-informatique
Approche adopt ´ee pour tout probl `eme - Suivant intuition Rechercher un ou plusieurs algorithmes exacts et efficaces (algorithmes exacts polynomiaux), i.e.
renvoie toujours la(les) meilleure(s) solution(s)
rapide (temps d’ex ´ecution) et peu coˆuteux (espace m ´emoire requis)
Combinatoire et Bio-informatique
Approche adopt ´ee pour tout probl `eme - Suivant intuition Tenter de prouver qu’il ne peut pas ˆetre r ´esolu de fac¸on exacte et efficace (algorithmiquement difficile)
⊲Prouver que le probl `eme estNP-dur
Blin Guillaume IGM
Combinatoire et Bio-informatique
Combinatoire et Bio-informatique
Apart ´e : comment prouver laNP-duret ´e d’un probl `eme
Combinatoire et Bio-informatique
Apart ´e : comment prouver laNP-duret ´e d’un probl `eme
Blin Guillaume IGM
Combinatoire et Bio-informatique
Combinatoire et Bio-informatique
Apart ´e : comment prouver laNP-duret ´e d’un probl `eme
Combinatoire et Bio-informatique
Apart ´e : comment prouver laNP-duret ´e d’un probl `eme
Si on peut v ´erifier polynomialement qu’une instance de notre probl `eme est une solution (classeNP) alors le probl `eme est NP-complet
Blin Guillaume IGM
Combinatoire et Bio-informatique
Combinatoire et Bio-informatique
Approche adopt ´ee pour tout probl `eme - Suivant intuition Si le probl `eme est algorithmiquement difficile, proposer de contourner la difficult ´e du probl `eme :
Combinatoire et Bio-informatique
Approche adopt ´ee pour tout probl `eme - Suivant intuition Si le probl `eme est algorithmiquement difficile, proposer de contourner la difficult ´e du probl `eme :
Algorithme d’approximation :pas optimal(dont on peut quantifierth ´eoriquementl’ ´ecart `a l’optimal) maisen temps polynomial
Blin Guillaume IGM
Combinatoire et Bio-informatique
Combinatoire et Bio-informatique
Approche adopt ´ee pour tout probl `eme - Suivant intuition Si le probl `eme est algorithmiquement difficile, proposer de contourner la difficult ´e du probl `eme :
Algorithme d’approximation :pas optimal,en temps polynomial
Heuristique :pas optimal(dont on peut quantifiersur un ensemble d’exemplesl’ ´ecart `a l’optimal) maisen temps polynomial
Combinatoire et Bio-informatique
Approche adopt ´ee pour tout probl `eme - Suivant intuition Si le probl `eme est algorithmiquement difficile, proposer de contourner la difficult ´e du probl `eme :
Algorithme d’approximation :pas optimal,en temps polynomial
Heuristique :pas optimal,en temps polynomial
Algorithme de complexit ´e param ´etr ´ee :optimalmaisen temps exponentielen un param `etre (petit en pratique)
Blin Guillaume IGM
Combinatoire et Bio-informatique
Deuxi ` eme partie II
Comparaison de structures d’ARN
Plan de l’expos ´ e
3 Probl `emes ´etudi ´es
4 NP-compl ´etude du probl `emeAPS(CROSSING,PLAIN)
5 Polynomialit ´e du probl `eme 2-IP(DIS,{⊏,⋊⋉})
Blin Guillaume IGM
Combinatoire et Bio-informatique
Probl ` emes ´ etudi ´ es
Deux types de probl `emes
D ´etection demotifs structurels communs
Probl ` emes ´ etudi ´ es
Deux types de probl `emes
D ´etection demotifs structurels communs
Blin Guillaume IGM
Combinatoire et Bio-informatique
Probl ` emes ´ etudi ´ es
Deux types de probl `emes
D ´etection demotifs structurels communs
Probl ` emes ´ etudi ´ es
Deux types de probl `emes
D ´etection demotifs structurels communs Comparaison d’ARN (distances d’ ´evolution)
Blin Guillaume IGM
Combinatoire et Bio-informatique
Probl ` emes ´ etudi ´ es
D ´etection de motifs structurels communs
ARCPRESERVINGSUBSEQUENCE: alignement de s ´equences arc-annot ´ees
2-INTERVALPATTERN : recherche de motifs de 2-intervalles
Plan de l’expos ´ e
3 Probl `emes ´etudi ´es
4 NP-compl ´etude du probl `emeAPS(CROSSING,PLAIN)
5 Polynomialit ´e du probl `eme 2-IP(DIS,{⊏,⋊⋉})
Blin Guillaume IGM
Combinatoire et Bio-informatique
Premi ` ere mod ´ elisation
Les s ´equences arc-annot ´ees : (S,P)
La structure primaire≡s ´equence de caract `eres –S La structure secondaire≡arcs entre les caract `eres de la s ´equence –P
Pr ´ esentation g ´ en ´ erale
Le probl `emeAPS
INSTANCE: Deux s ´equences arc-annot ´ees(S,P)et(T,Q) d ´efinies sur un alphabetΣtelles que|T| ≤ |S|.
QUESTION:(T,Q)peut-elle ˆetre obtenue `a partir de(S,P) en supprimant certaines de ses bases ainsi que les
´
eventuels arcs incidents `a ces derni `eres ?
Blin Guillaume IGM
Combinatoire et Bio-informatique
Pr ´ esentation g ´ en ´ erale
Le probl `emeAPS
INSTANCE: Deux s ´equences arc-annot ´ees(S,P)et(T,Q) d ´efinies sur un alphabetΣtelles que|T| ≤ |S|.
QUESTION:(T,Q)peut-elle ˆetre obtenue `a partir de(S,P) en supprimant certaines de ses bases ainsi que les
´
eventuels arcs incidents `a ces derni `eres ?
Pr ´ esentation g ´ en ´ erale
Le probl `emeAPS
INSTANCE: Deux s ´equences arc-annot ´ees(S,P)et(T,Q) d ´efinies sur un alphabetΣtelles que|T| ≤ |S|.
QUESTION:(T,Q)peut-elle ˆetre obtenue `a partir de(S,P) en supprimant certaines de ses bases ainsi que les
´
eventuels arcs incidents `a ces derni `eres ?
Blin Guillaume IGM
Combinatoire et Bio-informatique
Pr ´ esentation g ´ en ´ erale
Le probl `emeAPS
INSTANCE: Deux s ´equences arc-annot ´ees(S,P)et(T,Q) d ´efinies sur un alphabetΣtelles que|T| ≤ |S|.
QUESTION:(T,Q)peut-elle ˆetre obtenue `a partir de(S,P) en supprimant certaines de ses bases ainsi que les
´
eventuels arcs incidents `a ces derni `eres ?
Probl ` emes ´ etudi ´ es
Signification deCROSSINGet dePLAIN
DansAPS(CROSSING,PLAIN),
CROSSING≡dans(S,P), il existe au plus un arc incident `a toute base
PLAIN≡dans(T,Q), pas d’arc
Blin Guillaume IGM
Combinatoire et Bio-informatique
Probl ` emes ´ etudi ´ es
Signification deCROSSINGet dePLAIN
DansAPS(CROSSING,PLAIN),
CROSSING≡dans(S,P), il existe au plus un arc incident `a toute base
PLAIN≡dans(T,Q), pas d’arc
Probl ` emes ´ etudi ´ es
APS(CROSSING,PLAIN)
Blin Guillaume IGM
Combinatoire et Bio-informatique
Probl ` emes ´ etudi ´ es
APS(CROSSING,PLAIN)
APS ( CROSSING , PLAIN ) est NP-complet
Rappels
Blin Guillaume IGM
Combinatoire et Bio-informatique
APS ( CROSSING , PLAIN ) est NP-complet
Le probl `eme 3-SAT
INSTANCE: Un ensembleVndenvariables et un ensemble Cq deqclauses (de 3 litt ´eraux deVnchacun)
QUESTION: Existe-il un ensemble de valeurs pour les
variables deVntel que chaque clause deCqest satisfaite ? Vn={x1,x2,x3,x4}
APS ( CROSSING , PLAIN ) est NP-complet
Le probl `eme 3-SAT
INSTANCE: Un ensembleVndenvariables et un ensemble Cq deqclauses (de 3 litt ´eraux deVnchacun)
QUESTION: Existe-il un ensemble de valeurs pour les
variables deVntel que chaque clause deCqest satisfaite ?
Vn={x1,x2,x3,x4}
Cq = (x2∨x3∨x4)∧(x1∨x2∨x3)∧(x2∨x3∨x4)
Blin Guillaume IGM
Combinatoire et Bio-informatique
APS ( CROSSING , PLAIN ) est NP-complet
Le probl `eme 3-SAT
INSTANCE: Un ensembleVndenvariables et un ensemble Cq deqclauses (de 3 litt ´eraux deVnchacun)
QUESTION: Existe-il un ensemble de valeurs pour les
variables deVntel que chaque clause deCqest satisfaite ?
Vn={x1,x2,x3,x4}
Cq = (x2∨x3∨x4)∧(x1∨x2∨x3)∧(x2∨x3∨x4) x1=x2=x3=Vraietx4=Faux
APS ( CROSSING , PLAIN ) est NP-complet
Le probl `eme 3-SAT
INSTANCE: Un ensembleVndenvariables et un ensemble Cq deqclauses (de 3 litt ´eraux deVnchacun)
QUESTION: Existe-il un ensemble de valeurs pour les
variables deVntel que chaque clause deCqest satisfaite ?
Vn={x1,x2,x3,x4}
Cq = (x2∨x3∨x4)∧(x1∨x2∨x3)∧(x2∨x3∨x4) x1=x2=x3=Vraietx4=Faux
Cq′ = (x1∨x2∨x3)∧(x1∨x2∨x3)∧(x1∨x2∨x3)∧(x1∨x2∨ x3)∧(x1∨x2∨x3)∧(x1∨x2∨x3)∧(x1∨x2∨x3)∧(x1∨x2∨x3)
Blin Guillaume IGM
Combinatoire et Bio-informatique
APS ( CROSSING , PLAIN ) est NP-complet
Exemple de construction - id ´ee de la preuve Cq = (x2∨x3∨x4)∧(x1∨x2∨x3)∧(x2∨x3∨x4)
APS ( CROSSING , PLAIN ) est NP-complet
Exemple de construction - id ´ee de la preuve Cq = (x2∨x3∨x4)∧(x1∨x2∨x3)∧(x2∨x3∨x4)
Repr ´esentation de l’ensembleVn
Blin Guillaume IGM
Combinatoire et Bio-informatique
APS ( CROSSING , PLAIN ) est NP-complet
Exemple de construction - id ´ee de la preuve Cq = (x2∨x3∨x4)∧(x1∨x2∨x3)∧(x2∨x3∨x4)
Repr ´esentation de l’ensembleCq
APS ( CROSSING , PLAIN ) est NP-complet
Exemple de construction - id ´ee de la preuve Cq = (x2∨x3∨x4)∧(x1∨x2∨x3)∧(x2∨x3∨x4)
Repr ´esentation de la valeur de chaque variable
Blin Guillaume IGM
Combinatoire et Bio-informatique
APS ( CROSSING , PLAIN ) est NP-complet
Exemple de construction - id ´ee de la preuve Cq = (x2∨x3∨x4)∧(x1∨x2∨x3)∧(x2∨x3∨x4)
Une instance de 3-SAT est solution ssi l’instance de APS correspondante l’est aussi
Contributions
Nos r ´esultats
R ´eponse `a une question ouverte de[Gramm’02]:
APS(CROSSING,PLAIN) estNP-complet (dernier cas ouvert) Un raffinement du probl `eme : d ´efinition de nouveaux types de s ´equences arc-annot ´ees – d ´eterminer ce qui rend le probl `eme difficile
R ´esultats publi ´es dans : Actes de IWBRA’05
LNCS Transactions on Computational Systems Biology (2005) Obtenus en collaboration avecG. Fertin(LINA),R. Rizzi (Univ. Trento) etS. Vialette(LRI)
Blin Guillaume IGM
Combinatoire et Bio-informatique
Plan de l’expos ´ e
3 Probl `emes ´etudi ´es
4 NP-compl ´etude du probl `emeAPS(CROSSING,PLAIN)
5 Polynomialit ´e du probl `eme 2-IP(DIS,{⊏,⋊⋉})
Seconde mod ´ elisation
Les 2-intervalles
Un intervalle≡s ´equence de caract `eres contigus
Un 2-intervalle (couple d’intervalles non chevauchants)≡ suite d’arcs cons ´ecutifs≡h ´elice
Descripteurs macroscopiques
Blin Guillaume IGM
Combinatoire et Bio-informatique
Pr ´ esentation g ´ en ´ erale
Relations entre 2-intervalles
La pr ´ec ´edence –<
Exemple
Pr ´ esentation g ´ en ´ erale
Relations entre 2-intervalles
La pr ´ec ´edence –<
L’inclusion –⊏
Exemple
Blin Guillaume IGM
Combinatoire et Bio-informatique
Pr ´ esentation g ´ en ´ erale
Relations entre 2-intervalles
La pr ´ec ´edence –<
L’inclusion –⊏ Le croisement –⋊⋉
Exemple
Pr ´ esentation g ´ en ´ erale
Relations entre 2-intervalles
La pr ´ec ´edence –<
L’inclusion –⊏ Le croisement –⋊⋉ Les intervalles ne se chevauchent pas
Exemple
Blin Guillaume IGM
Combinatoire et Bio-informatique
Pr ´ esentation g ´ en ´ erale
Le probl `eme 2-IP
INSTANCE: Un ensembleDde 2-intervalles, un mod `ele R ⊆ {<,⊏,⋊⋉}
QUESTION: Existe-t-il unD′⊆ Dtel queD′ respecteRet|D′| est maximum ?
Exemple
Ensemble de 2-intervalles – R ={<,⋊⋉}
Pr ´ esentation g ´ en ´ erale
Le probl `eme 2-IP
INSTANCE: Un ensembleDde 2-intervalles, un mod `ele R ⊆ {<,⊏,⋊⋉}
QUESTION: Existe-t-il unD′⊆ Dtel queD′ respecteRet|D′| est maximum ?
Exemple
Sous-ensemble respectant R={<,⋊⋉}
Blin Guillaume IGM
Combinatoire et Bio-informatique
Pr ´ esentation g ´ en ´ erale
Le probl `eme 2-IP
INSTANCE: Un ensembleDde 2-intervalles, un mod `ele R ⊆ {<,⊏,⋊⋉}
QUESTION: Existe-t-il unD′⊆ Dtel queD′ respecteRet|D′| est maximum ?
Exemple
Sous-ensemble respectant R={<,⋊⋉}
Pr ´ esentation g ´ en ´ erale
Le probl `eme 2-IP
INSTANCE: Un ensembleDde 2-intervalles, un mod `ele R ⊆ {<,⊏,⋊⋉}
QUESTION: Existe-t-il unD′⊆ Dtel queD′ respecteRet|D′| est maximum ?
Exemple
Sous-ensemble ne respectant pas R ={<,⋊⋉}
Blin Guillaume IGM
Combinatoire et Bio-informatique
Pr ´ esentation g ´ en ´ erale
Le probl `eme 2-IP
Pr ´ esentation g ´ en ´ erale
Le probl `eme 2-IP
Blin Guillaume IGM
Combinatoire et Bio-informatique
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
Signification de{⊏,⋊⋉}et deDIS
Dans 2-IP(DIS,{⊏,⋊⋉}),
DIS≡les intervalles (simples) deD(support) sont disjoints deux `a deux et de taille identique
{⊏,⋊⋉} ≡le mod `ele `a respecter estR={⊏,⋊⋉}
Exemple
Support non disjoint
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
Signification de{⊏,⋊⋉}et deDIS
Dans 2-IP(DIS,{⊏,⋊⋉}),
DIS≡les intervalles (simples) deD(support) sont disjoints deux `a deux et de taille identique
{⊏,⋊⋉} ≡le mod `ele `a respecter estR={⊏,⋊⋉}
Exemple Support disjoint
Blin Guillaume IGM
Combinatoire et Bio-informatique
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
L’algorithme
´Etant donn ´e un ensemble de 2-intervallesDsur un support disjoint
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
L’algorithme
Construire l’ensembleCD des intervalles couvrants deD
Blin Guillaume IGM
Combinatoire et Bio-informatique
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
L’algorithme
Construire le graphe d’intervalleΩ(CD)
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
L’algorithme
Construire le graphe d’intervalleΩ(CD) Un arc≡deux intervalles se chevauchant≡ potentiellement `a deux 2-intervalles en⊏ou⋊⋉
Blin Guillaume IGM
Combinatoire et Bio-informatique
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
L’algorithme
Construire le graphe d’intervalleΩ(CD) Un arc≡deux intervalles se chevauchant≡ potentiellement `a deux 2-intervalles en⊏ou⋊⋉
Une clique≡ensemble de 2-intervalles pouvant respecter R ={⊏,⋊⋉}
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
L’algorithme
Pour chaque clique maximaleCdeΩ(CD)(au plusn) [Fulkerson et. al 65]
Calculer le nombre max de 2-intervalles disjoints correspondant
Calcul des cliques max est un probl `eme polynomial pour ce type de graphe[Micali et al 80]
Blin Guillaume IGM
Combinatoire et Bio-informatique
Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )
Nos r ´esultats
Le probl `eme 2-IP(DIS,{⊏,⋊⋉}) peut ˆetre r ´esolu par un algorithme de complexit ´eO(n2√
n)o `un=|D|
R ´eponse `a trois questions ouvertes de[Vialette’02]
Am ´elioration de la complexit ´e d’un cas d ´ej `a connu R ´esultats publi ´es dans les actes de CPM’04
Obtenus en collaboration avecG. FertinetS. Vialette
Troisi ` eme partie III
Calcul de distances interg ´ enomiques
Blin Guillaume IGM
Combinatoire et Bio-informatique
Plan de l’expos ´ e
6 Mod ´elisation des g ´enomes
7 Approximabilit ´e du calcul de la distance de breakpoints
8 Une heuristique pour le calcul de la dist. d’intervalles conserv ´es
Mod ´ elisation des g ´ enomes
Mod ´elisation
G ´enome≡ensemble de chromosomes
Chromosome≡ensemble ordonn ´e de g `enes
Flˆeche≡le brin d’ADN sur lequel est situ ´e le g `ene
Blin Guillaume IGM
Combinatoire et Bio-informatique
Probl ` emes ´ etudi ´ es
L’ ´evolution des g ´enomes
Les g ´enomes ´evoluent via des mutations `a l’ ´echelle des g `enes (r ´earrangements g ´enomiques) dont :
L’insertion – la suppression L’inversion
La duplication
´Etude de cette ´evolution en terme de r ´earrangements g ´enomiques (distances interg ´enomiques)
Exemple
Distances interg ´ enomiques
Hypoth `ese courante
Dans un g ´enome, tout g `ene n’apparaˆıt qu’une seulefois
Blin Guillaume IGM
Combinatoire et Bio-informatique
Distances interg ´ enomiques
Hypoth `ese courante
Dans un g ´enome, tout g `ene n’apparaˆıt qu’une seulefois Hypoth `ese qui facilite la r ´esolution du calcul de distances interg ´enomiquesmaisqui est tr `es restrictive
Distances interg ´ enomiques
Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :
L’exemplarisation: selection d’un repr ´esentant
Blin Guillaume IGM
Combinatoire et Bio-informatique
Distances interg ´ enomiques
Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :
L’exemplarisation: selection d’un repr ´esentant
Distances interg ´ enomiques
Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :
L’exemplarisation: selection d’un repr ´esentant Diff ´erencier les copies d’un g `ene
Blin Guillaume IGM
Combinatoire et Bio-informatique
Distances interg ´ enomiques
Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :
L’exemplarisation: selection d’un repr ´esentant Diff ´erencier les copies d’un g `ene
Distances interg ´ enomiques
Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :
L’exemplarisation: selection d’un repr ´esentant Diff ´erencier les copies d’un g `ene: couplage
Blin Guillaume IGM
Combinatoire et Bio-informatique
Mod ´ elisation
Les s ´equences d’entiers sign ´es
Par la suite on ne consid `ere que des g ´enomes `a un seul chromosome
G ´enome≡suite ordonn ´ee d’entiers sign ´es (un g `ene≡un entier sign ´e)
Mod ´ elisation
Les s ´equences d’entiers sign ´es
Par la suite on ne consid `ere que des g ´enomes `a un seul chromosome
G ´enome≡suite ordonn ´ee d’entiers sign ´es (un g `ene≡un entier sign ´e)
Deux g `enes de mˆeme valeur absolue appartiennent `a la mˆeme famille de g `enes
Blin Guillaume IGM
Combinatoire et Bio-informatique
Probl ` emes ´ etudi ´ es
Calcul de distances interg ´enomiques
Prendre en compte les g `enes dupliqu ´es dans le calcul des distances :
de breakpoints
d’intervalles conserv ´es
Plan de l’expos ´ e
6 Mod ´elisation des g ´enomes
7 Approximabilit ´e du calcul de la distance de breakpoints
8 Une heuristique pour le calcul de la dist. d’intervalles conserv ´es
Blin Guillaume IGM
Combinatoire et Bio-informatique
Notions de breakpoint
D ´efinitions
Breakpoint≡adjacence non-conserv ´ee entre deux g ´enomes
Distance de breakpoints≡nombre de breakpoints entre deux g ´enomes
Deux g ´enomes G et H
Notions de breakpoint
D ´efinitions
Breakpoint≡adjacence non-conserv ´ee entre deux g ´enomes
Distance de breakpoints≡nombre de breakpoints entre deux g ´enomes
Si il existe l’adjacence i.j dans G mais ni i.j, ni -j.-i n’existe dans H alors il y a un breakpoint
Blin Guillaume IGM
Combinatoire et Bio-informatique
Calcul de la distance de breakpoints
Complexit ´e
Polynomial si on ne prend pas en compte les g `enes dupliqu ´es
NP-complet d `es lors qu’une seule famille de g `enes est dupliqu ´ee[B.,Chauve,Fertin 04]
Autre contribution
Dans le cas particulier o `u :
Les g ´enomes sont ´equilibr ´es – mˆeme contenu Il existe une seule famille de g `enes dupliqu ´es Au plusLg `enes dupliqu ´es peuvent ˆetre cons ´ecutifs Il existe un algorithme de(L+1)-approximation (au pire (L+1)fois plus de breakpoints que la solution optimale)
Calcul de la distance de breakpoints
D ´efinition
Segment preserv ´eaSbentreGetH≡segment de g `enes cons ´ecutifs deGtel que :
aetbsont deux g `enes non dupliqu ´es
S est un segment compos ´e uniquement de g `enes dupliqu ´es
soitaSb, soit-b-S-aest pr ´esent dansH Exemple
Blin Guillaume IGM
Combinatoire et Bio-informatique
Calcul de la distance de breakpoints
Notre Algorithme
Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale
Exemple
Calcul de la distance de breakpoints
Notre Algorithme
Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale
Exemple
Blin Guillaume IGM
Combinatoire et Bio-informatique
Calcul de la distance de breakpoints
Notre Algorithme
Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale Coupler chaque g `ene non-dupliqu ´e deGavec son unique copie dansH–idem
Exemple
Calcul de la distance de breakpoints
Notre Algorithme
Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale Coupler chaque g `ene non-dupliqu ´e deGavec son unique copie dansH–idem
Exemple
Blin Guillaume IGM
Combinatoire et Bio-informatique
Calcul de la distance de breakpoints
Notre Algorithme
Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale Coupler chaque g `ene non-dupliqu ´e deGavec son unique copie dansH–idem
Coupler arbitrairement chaque g `ene dupliqu ´e restant –au pire chaque segment induit(L+1)breakpoints
Exemple
Calcul de la distance de breakpoints
Nos r ´esultats
Calculer la distance de breakpoints en pr ´esence de g `enes dupliqu ´es est un probl `emeNP-complet
Il existe un algorithme d’approximation pour un cas restreint R ´esultats publi ´es dans les actes de CompBioNets’04
Obtenus en collaboration avecC. Chauve(UQAM - Montral) etG. Fertin
Blin Guillaume IGM
Combinatoire et Bio-informatique
Plan de l’expos ´ e
6 Mod ´elisation des g ´enomes
7 Approximabilit ´e du calcul de la distance de breakpoints
8 Une heuristique pour le calcul de la dist. d’intervalles conserv ´es
Notions d’intervalle conserv ´ e
D ´efinition
Intervalle conserv ´e[a,b]≡segment de g `enes cons ´ecutifs deGtel que il existe un segment[a,b]ou[−b,−a]dansH de mˆeme contenu (sans consid ´erer les signes et l’ordre)
Exemple
G=-2-1 4 3 5-8 6 7 H =-2-5-3 -4 1-8 6 7
Blin Guillaume IGM
Combinatoire et Bio-informatique
Notions d’intervalle conserv ´ e
D ´efinition
Intervalle conserv ´e[a,b]≡segment de g `enes cons ´ecutifs deGtel que il existe un segment[a,b]ou[−b,−a]dansH de mˆeme contenu (sans consid ´erer les signes et l’ordre)
Exemple
G=-2-1 4 3 5-8 6 7 H =-2-5-3 -4 1-8 6 7
[-2,7]est un intervalle conserv ´e
Notions d’intervalle conserv ´ e
D ´efinition
Intervalle conserv ´e[a,b]≡segment de g `enes cons ´ecutifs deGtel que il existe un segment[a,b]ou[−b,−a]dansH de mˆeme contenu (sans consid ´erer les signes et l’ordre)
Exemple
G=-2-1 4 3 5-8 6 7 H =-2-5-3 -4 1-8 6 7
[-2,7]est un intervalle conserv ´e tout comme[4,5]et[6,7]
Blin Guillaume IGM
Combinatoire et Bio-informatique
Calcul de la distance d’intervalles conserv ´ es
Complexit ´e
Polynomial si on ne prend pas en compte les g `enes dupliqu ´es
NP-complet sinon[B.,Rizzi 05]
Autre contribution
Heuristique pour l’utilisation de couplages de g `enes Intuition : les longues suites de g `enes communes `a deux g ´enomes ne sont pas fortuites
Calcul de la distance d’intervalles conserv ´ es
L’algorithme
1 Identifier le plus longs segment de g `enes non-coupl ´es deG qui est ´egalement un segment de g `enes non-coupl ´es deH au renversement complet pr `es
2 Coupler ces deux segments
3 Recommencer `a l’ ´etape 1 tant qu’il reste des g `enes non-coupl ´es
´Evaluation de l’algorithme
Jeu de donn ´ees de 20 g ´enomes de bact ´eries provenant de la baseNCBI
´Evaluation : comparer les r ´esultats de notre algorithme avec ceux de l’algorithme exhaustif
Un ´ecart de moins de 0,12 %
Blin Guillaume IGM
Combinatoire et Bio-informatique
Calcul de la distance d’intervalles conserv ´ es
Critique de l’ ´evaluation
L’identification des familles de g `enes dupliqu ´es est `a am ´eliorer –mˆeme nom = mˆeme famille
Les performances de notre algorithme sont tr `es fortement li ´ees `a l’abondance de g `enes dupliqu ´es
De nouveaux tests sont en cours sur les distances de breakpoints et d’intervalles conserv ´es
Nos r ´esultats
Calculer la distance d’intervalles conserv ´es en pr ´esence de g `enes dupliqu ´es est un probl `emeNP-complet
Il existe une heuristique simple et fournissant de bons r ´esultats en pratique
R ´esultats publi ´es dans les actes de Cocoon’05
Conclusion
Blin Guillaume IGM
Combinatoire et Bio-informatique
R ´esultats
´Etude des aspects algorithmiques de probl `emes de bio-informatique :
Comparaison de structures de mol ´ecules d’ARN
Calcul de distances interg ´enomiques en pr ´esence de g `enes dupliqu ´es
R ´esultats
´Etude des aspects algorithmiques de probl `emes de bio-informatique :
Comparaison de structures de mol ´ecules d’ARN
Distance d’ ´edition (le probl `eme EDIT) – rapport de recherche soumis en 2003 (G. Fertin, I. Rusu, C. Sinoquet)
APS – IWBRA’05 + journal (G. F, R. Rizzi, S. Vialette) 2-IP – CPM’04 (G. F, S. V)
Design d’ARN – WG’05 (G. F, D. Hermelin, S. V)
Calcul de distances interg ´enomiques en pr ´esence de g `enes dupliqu ´es
Blin Guillaume IGM
Combinatoire et Bio-informatique
R ´esultats
´Etude des aspects algorithmiques de probl `emes de bio-informatique :
Comparaison de structures de mol ´ecules d’ARN
Distance d’ ´edition (le probl `eme EDIT) – rapport de recherche soumis en 2003 (G. Fertin, I. Rusu, C. Sinoquet)
APS – IWBRA’05 + journal (G. F, R. Rizzi, S. Vialette) 2-IP – CPM’04 (G. F, S. V)
Design d’ARN – WG’05 (G. F, D. Hermelin, S. V)
Calcul de distances interg ´enomiques en pr ´esence de g `enes dupliqu ´es
Distance de breakpoints – CompBioNets’04 (C. Chauve, G. F) Distance d’intervalles conserv ´es – Cocoon’05 * (R. R)
Reconstruction phylog ´en ´etique – R. C. Genomic’05 * (C. C, G. F)
En cours et `a venir
Comparaison de structures de mol ´ecules d’ARN Complexit ´e param ´etr ´ee des probl `emes
Impl ´ementation des algorithmes
Collaboration avecH. Touzet(LIFL) : distance d’ ´edition Calcul de distances interg ´enomiques en pr ´esence de g `enes dupliqu ´es
Prise en compte de g ´enomes `a plusieurs chromosomes
´Etudier l’impact de la d ´efinition des familles de g `enes Collaboration avecC. Chauve,A. Chateau(UQAM) : intervalles communs
Collaboration avecN. El Mabrouk(UDeM) etM. Blanchette (UDeM) : ordre des g `enes
Blin Guillaume IGM
Combinatoire et Bio-informatique
Bio-informatique : Comparaison de structures d’ARN et calcul de distances
interg ´ enomiques”
Guillaume Blin
IGM-LabInfo UMR 8049, Universit ´e de Marne La Vall ´ee gblin@univ-mlv.fr
LINA - Universit ´e de Nantes Sous la direction de I. Rusu et G. Fertin
S ´eminaire LIRMM - 9 F ´evrier 2006
2-intervalles VS S ´equence arc-annot ´ee
Un 2-intervalle≡h ´elice
Blin Guillaume IGM
Combinatoire et Bio-informatique
2-intervalles VS S ´equence arc-annot ´ee
2-intervalle≡g ´en ´eralisation des s ´equences arc-annot ´ees Plusieurs passerelles possibles :
1 lettre≡1 intervalle de mˆeme longueur
de longueurs diff ´erentes (une par type de caract `eres) 1 ensemble d’arcs cons ´ecutifs≡1 2-intervalle
2-intervalles VS S ´equence arc-annot ´ee
S ´equence arc-annot ´ee – mod ´elisation fid `ele des structures d’ARN
PB associ ´es sont g ´en ´eralement difficiles si l’on consid `ere les croisements d’arcs
2-intervalle – mod ´elisation macroscopique mais adaptable PB associ ´es sont difficiles si l’on consid `ere le croisement et une autre relation + support unitaire
Blin Guillaume IGM
Combinatoire et Bio-informatique
Jeu de donn ´ees Cocoon’05
Analyse de la complexit ´e du probl `eme 2-IP(DIS,{⊏,⋊⋉}) Complexit ´eO(n2√
n)o `un=|D|:
Le graphe d’intervalleΩ(CD)peut ˆetre obtenu enO(n2) Toutes les cliques max deΩ(CD)peut ˆetre obtenu en O(m+n)
Le calcul du nombre max de 2-intervalles disjoints peut se faire enO(n√
n)pour chaque clique `a l’aide d’un couplage max dans un graphe (Micali et al)
Il y a au plusnclique maximaleCdeΩ(CD) [Fulkerson et. al 65]
Blin Guillaume IGM
Combinatoire et Bio-informatique