• Aucun résultat trouvé

Combinatoire et Bio-informatique: Comparaison de structures d’ARN et Calcul de distances interg ´enomiques

N/A
N/A
Protected

Academic year: 2022

Partager "Combinatoire et Bio-informatique: Comparaison de structures d’ARN et Calcul de distances interg ´enomiques"

Copied!
117
0
0

Texte intégral

(1)

Comparaison de structures d’ARN et Calcul de distances interg ´ enomiques

Guillaume Blin

IGM-LabInfo UMR 8049, Universit ´e de Marne La Vall ´ee gblin@univ-mlv.fr

LINA - Universit ´e de Nantes Sous la direction de I. Rusu et G. Fertin

S ´eminaire LIRMM - 9 F ´evrier 2006

Blin Guillaume IGM

Combinatoire et Bio-informatique

(2)

1

Partie I : Introduction

2

Partie II : Comparaison de structures de mol ´ ecules d’ARN

3

Partie III : Calcul de distances interg ´ enomiques

4

Partie IV : Conclusion

(3)

Premi ` ere partie I Introduction

Blin Guillaume IGM

Combinatoire et Bio-informatique

(4)

Combinatoire et Bio-informatique

Probl `emes ´etudi ´es

Deux types de probl `emes de bio-informatique : Comparaison de structures d’ARN

Calcul de distances interg ´enomiques

Objectifs

D ´eterminer la ”difficult ´e” (complexit ´e) de ces probl `emes Dans la mesure du possible, de proposer une ou plusieurs m ´ethodes de r ´esolution (algorithmes) pour chacun d’eux

(5)

Plan de l’expos ´ e

1 Rappels de Biologie : ADN, ARN, Prot ´eine

2 L’approche adopt ´ee

Blin Guillaume IGM

Combinatoire et Bio-informatique

(6)

Rappels de Biologie

Acide D ´esoxyriboNucl ´eique Chez tous les ˆetres vivants Deux brins enroul ´es en h ´elice

Brin≡suite de bases – Adenine, Thymine, Guanine et Cytosine Support de l’information g ´en ´etique – cod ´ee sous la forme de g `enes (portions d’un brin d’ADN)

G ´enome≡l’ensemble des g `enes

(7)

Rappels de Biologie

Acide RiboNucl ´eique

Monobrin – Adenine, Cytosine, Guanine et Uracile–structure primaire

Blin Guillaume IGM

Combinatoire et Bio-informatique

(8)

Rappels de Biologie

Acide RiboNucl ´eique

Monobrin – Adenine, Cytosine, Guanine et Uracile–structure primaire

L’ARN se replie dans l’espace par l’action de liens hydrog `enes pouvant se former : A-U,C-G(principalement)

(9)

Rappels de Biologie

Acide RiboNucl ´eique

Monobrin – Adenine, Cytosine, Guanine et Uracile–structure primaire

L’ARN se replie dans l’espace par l’action de liens hydrog `enes pouvant se former : A-U,C-G(principalement)

Contraintes thermodynamiques imposent une conformation sp ´ecifique dans

l’espace –structure secondaire

Blin Guillaume IGM

Combinatoire et Bio-informatique

(10)

Rappels de Biologie

Acide RiboNucl ´eique

Monobrin – Adenine, Cytosine, Guanine et Uracile–structure primaire

L’ARN se replie dans l’espace par l’action de liens hydrog `enes pouvant se former : A-U,C-G(principalement)

Contraintes thermodynamiques imposent une conformation sp ´ecifique dans

l’espace –structure secondaire La structure est importante car elle d ´etermine en partie la fonction de l’ARN

(11)

Rappels de Biologie

Prot ´eine

Mol ´ecule indispensable `a la vie de la cellule et de l’organisme tout entier

Ses fonctions sont tr `es vari ´ees

Liens entre l’ADN, l’ARN et les prot ´eines Dogme central de la biologie

M ´ecanisme permettant de passer de l’ADN aux prot ´eines

Blin Guillaume IGM

Combinatoire et Bio-informatique

(12)

Rappels de Biologie

Dogme central

Duplication de l’ADN

Reproduction `a l’indentique de l’ADN permettant la pr ´eservation de l’information g ´en ´etique

(13)

Rappels de Biologie

Dogme central

Transcription d’un g `ene en ARN (messager)

1. Parcours de l’ADN par une entit ´e biologique

2. Production d’un ARN en fonction de l’information ”lue”

Blin Guillaume IGM

Combinatoire et Bio-informatique

(14)

Rappels de Biologie

Dogme central

Traduction de l’ARN messager en prot ´eine

ARN≡interm ´ediaire entre l’ADN et les prot ´eines

(15)

Plan de l’expos ´ e

1 Rappels de Biologie : ADN, ARN, Prot ´eine

2 L’approche adopt ´ee

Blin Guillaume IGM

Combinatoire et Bio-informatique

(16)

Combinatoire et Bio-informatique

Approche adopt ´ee pour tout probl `eme - Suivant intuition Rechercher un ou plusieurs algorithmes exacts et efficaces (algorithmes exacts polynomiaux), i.e.

renvoie toujours la(les) meilleure(s) solution(s)

rapide (temps d’ex ´ecution) et peu coˆuteux (espace m ´emoire requis)

(17)

Combinatoire et Bio-informatique

Approche adopt ´ee pour tout probl `eme - Suivant intuition Tenter de prouver qu’il ne peut pas ˆetre r ´esolu de fac¸on exacte et efficace (algorithmiquement difficile)

⊲Prouver que le probl `eme estNP-dur

Blin Guillaume IGM

Combinatoire et Bio-informatique

(18)

Combinatoire et Bio-informatique

Apart ´e : comment prouver laNP-duret ´e d’un probl `eme

(19)

Combinatoire et Bio-informatique

Apart ´e : comment prouver laNP-duret ´e d’un probl `eme

Blin Guillaume IGM

Combinatoire et Bio-informatique

(20)

Combinatoire et Bio-informatique

Apart ´e : comment prouver laNP-duret ´e d’un probl `eme

(21)

Combinatoire et Bio-informatique

Apart ´e : comment prouver laNP-duret ´e d’un probl `eme

Si on peut v ´erifier polynomialement qu’une instance de notre probl `eme est une solution (classeNP) alors le probl `eme est NP-complet

Blin Guillaume IGM

Combinatoire et Bio-informatique

(22)

Combinatoire et Bio-informatique

Approche adopt ´ee pour tout probl `eme - Suivant intuition Si le probl `eme est algorithmiquement difficile, proposer de contourner la difficult ´e du probl `eme :

(23)

Combinatoire et Bio-informatique

Approche adopt ´ee pour tout probl `eme - Suivant intuition Si le probl `eme est algorithmiquement difficile, proposer de contourner la difficult ´e du probl `eme :

Algorithme d’approximation :pas optimal(dont on peut quantifierth ´eoriquementl’ ´ecart `a l’optimal) maisen temps polynomial

Blin Guillaume IGM

Combinatoire et Bio-informatique

(24)

Combinatoire et Bio-informatique

Approche adopt ´ee pour tout probl `eme - Suivant intuition Si le probl `eme est algorithmiquement difficile, proposer de contourner la difficult ´e du probl `eme :

Algorithme d’approximation :pas optimal,en temps polynomial

Heuristique :pas optimal(dont on peut quantifiersur un ensemble d’exemplesl’ ´ecart `a l’optimal) maisen temps polynomial

(25)

Combinatoire et Bio-informatique

Approche adopt ´ee pour tout probl `eme - Suivant intuition Si le probl `eme est algorithmiquement difficile, proposer de contourner la difficult ´e du probl `eme :

Algorithme d’approximation :pas optimal,en temps polynomial

Heuristique :pas optimal,en temps polynomial

Algorithme de complexit ´e param ´etr ´ee :optimalmaisen temps exponentielen un param `etre (petit en pratique)

Blin Guillaume IGM

Combinatoire et Bio-informatique

(26)

Deuxi ` eme partie II

Comparaison de structures d’ARN

(27)

Plan de l’expos ´ e

3 Probl `emes ´etudi ´es

4 NP-compl ´etude du probl `emeAPS(CROSSING,PLAIN)

5 Polynomialit ´e du probl `eme 2-IP(DIS,{⊏,⋊⋉})

Blin Guillaume IGM

Combinatoire et Bio-informatique

(28)

Probl ` emes ´ etudi ´ es

Deux types de probl `emes

D ´etection demotifs structurels communs

(29)

Probl ` emes ´ etudi ´ es

Deux types de probl `emes

D ´etection demotifs structurels communs

Blin Guillaume IGM

Combinatoire et Bio-informatique

(30)

Probl ` emes ´ etudi ´ es

Deux types de probl `emes

D ´etection demotifs structurels communs

(31)

Probl ` emes ´ etudi ´ es

Deux types de probl `emes

D ´etection demotifs structurels communs Comparaison d’ARN (distances d’ ´evolution)

Blin Guillaume IGM

Combinatoire et Bio-informatique

(32)

Probl ` emes ´ etudi ´ es

D ´etection de motifs structurels communs

ARCPRESERVINGSUBSEQUENCE: alignement de s ´equences arc-annot ´ees

2-INTERVALPATTERN : recherche de motifs de 2-intervalles

(33)

Plan de l’expos ´ e

3 Probl `emes ´etudi ´es

4 NP-compl ´etude du probl `emeAPS(CROSSING,PLAIN)

5 Polynomialit ´e du probl `eme 2-IP(DIS,{⊏,⋊⋉})

Blin Guillaume IGM

Combinatoire et Bio-informatique

(34)

Premi ` ere mod ´ elisation

Les s ´equences arc-annot ´ees : (S,P)

La structure primaire≡s ´equence de caract `eres –S La structure secondaire≡arcs entre les caract `eres de la s ´equence –P

(35)

Pr ´ esentation g ´ en ´ erale

Le probl `emeAPS

INSTANCE: Deux s ´equences arc-annot ´ees(S,P)et(T,Q) d ´efinies sur un alphabetΣtelles que|T| ≤ |S|.

QUESTION:(T,Q)peut-elle ˆetre obtenue `a partir de(S,P) en supprimant certaines de ses bases ainsi que les

´

eventuels arcs incidents `a ces derni `eres ?

Blin Guillaume IGM

Combinatoire et Bio-informatique

(36)

Pr ´ esentation g ´ en ´ erale

Le probl `emeAPS

INSTANCE: Deux s ´equences arc-annot ´ees(S,P)et(T,Q) d ´efinies sur un alphabetΣtelles que|T| ≤ |S|.

QUESTION:(T,Q)peut-elle ˆetre obtenue `a partir de(S,P) en supprimant certaines de ses bases ainsi que les

´

eventuels arcs incidents `a ces derni `eres ?

(37)

Pr ´ esentation g ´ en ´ erale

Le probl `emeAPS

INSTANCE: Deux s ´equences arc-annot ´ees(S,P)et(T,Q) d ´efinies sur un alphabetΣtelles que|T| ≤ |S|.

QUESTION:(T,Q)peut-elle ˆetre obtenue `a partir de(S,P) en supprimant certaines de ses bases ainsi que les

´

eventuels arcs incidents `a ces derni `eres ?

Blin Guillaume IGM

Combinatoire et Bio-informatique

(38)

Pr ´ esentation g ´ en ´ erale

Le probl `emeAPS

INSTANCE: Deux s ´equences arc-annot ´ees(S,P)et(T,Q) d ´efinies sur un alphabetΣtelles que|T| ≤ |S|.

QUESTION:(T,Q)peut-elle ˆetre obtenue `a partir de(S,P) en supprimant certaines de ses bases ainsi que les

´

eventuels arcs incidents `a ces derni `eres ?

(39)

Probl ` emes ´ etudi ´ es

Signification deCROSSINGet dePLAIN

DansAPS(CROSSING,PLAIN),

CROSSING≡dans(S,P), il existe au plus un arc incident `a toute base

PLAIN≡dans(T,Q), pas d’arc

Blin Guillaume IGM

Combinatoire et Bio-informatique

(40)

Probl ` emes ´ etudi ´ es

Signification deCROSSINGet dePLAIN

DansAPS(CROSSING,PLAIN),

CROSSING≡dans(S,P), il existe au plus un arc incident `a toute base

PLAIN≡dans(T,Q), pas d’arc

(41)

Probl ` emes ´ etudi ´ es

APS(CROSSING,PLAIN)

Blin Guillaume IGM

Combinatoire et Bio-informatique

(42)

Probl ` emes ´ etudi ´ es

APS(CROSSING,PLAIN)

(43)

APS ( CROSSING , PLAIN ) est NP-complet

Rappels

Blin Guillaume IGM

Combinatoire et Bio-informatique

(44)

APS ( CROSSING , PLAIN ) est NP-complet

Le probl `eme 3-SAT

INSTANCE: Un ensembleVndenvariables et un ensemble Cq deqclauses (de 3 litt ´eraux deVnchacun)

QUESTION: Existe-il un ensemble de valeurs pour les

variables deVntel que chaque clause deCqest satisfaite ? Vn={x1,x2,x3,x4}

(45)

APS ( CROSSING , PLAIN ) est NP-complet

Le probl `eme 3-SAT

INSTANCE: Un ensembleVndenvariables et un ensemble Cq deqclauses (de 3 litt ´eraux deVnchacun)

QUESTION: Existe-il un ensemble de valeurs pour les

variables deVntel que chaque clause deCqest satisfaite ?

Vn={x1,x2,x3,x4}

Cq = (x2x3x4)∧(x1x2x3)∧(x2x3x4)

Blin Guillaume IGM

Combinatoire et Bio-informatique

(46)

APS ( CROSSING , PLAIN ) est NP-complet

Le probl `eme 3-SAT

INSTANCE: Un ensembleVndenvariables et un ensemble Cq deqclauses (de 3 litt ´eraux deVnchacun)

QUESTION: Existe-il un ensemble de valeurs pour les

variables deVntel que chaque clause deCqest satisfaite ?

Vn={x1,x2,x3,x4}

Cq = (x2x3x4)∧(x1x2x3)∧(x2x3x4) x1=x2=x3=Vraietx4=Faux

(47)

APS ( CROSSING , PLAIN ) est NP-complet

Le probl `eme 3-SAT

INSTANCE: Un ensembleVndenvariables et un ensemble Cq deqclauses (de 3 litt ´eraux deVnchacun)

QUESTION: Existe-il un ensemble de valeurs pour les

variables deVntel que chaque clause deCqest satisfaite ?

Vn={x1,x2,x3,x4}

Cq = (x2x3x4)∧(x1x2x3)∧(x2x3x4) x1=x2=x3=Vraietx4=Faux

Cq = (x1x2x3)∧(x1x2x3)∧(x1x2x3)∧(x1x2x3)∧(x1x2x3)∧(x1x2x3)∧(x1x2x3)∧(x1x2x3)

Blin Guillaume IGM

Combinatoire et Bio-informatique

(48)

APS ( CROSSING , PLAIN ) est NP-complet

Exemple de construction - id ´ee de la preuve Cq = (x2x3x4)∧(x1x2x3)∧(x2x3x4)

(49)

APS ( CROSSING , PLAIN ) est NP-complet

Exemple de construction - id ´ee de la preuve Cq = (x2x3x4)∧(x1x2x3)∧(x2x3x4)

Repr ´esentation de l’ensembleVn

Blin Guillaume IGM

Combinatoire et Bio-informatique

(50)

APS ( CROSSING , PLAIN ) est NP-complet

Exemple de construction - id ´ee de la preuve Cq = (x2x3x4)∧(x1x2x3)∧(x2x3x4)

Repr ´esentation de l’ensembleCq

(51)

APS ( CROSSING , PLAIN ) est NP-complet

Exemple de construction - id ´ee de la preuve Cq = (x2x3x4)∧(x1x2x3)∧(x2x3x4)

Repr ´esentation de la valeur de chaque variable

Blin Guillaume IGM

Combinatoire et Bio-informatique

(52)

APS ( CROSSING , PLAIN ) est NP-complet

Exemple de construction - id ´ee de la preuve Cq = (x2x3x4)∧(x1x2x3)∧(x2x3x4)

Une instance de 3-SAT est solution ssi l’instance de APS correspondante l’est aussi

(53)

Contributions

Nos r ´esultats

R ´eponse `a une question ouverte de[Gramm’02]:

APS(CROSSING,PLAIN) estNP-complet (dernier cas ouvert) Un raffinement du probl `eme : d ´efinition de nouveaux types de s ´equences arc-annot ´ees – d ´eterminer ce qui rend le probl `eme difficile

R ´esultats publi ´es dans : Actes de IWBRA’05

LNCS Transactions on Computational Systems Biology (2005) Obtenus en collaboration avecG. Fertin(LINA),R. Rizzi (Univ. Trento) etS. Vialette(LRI)

Blin Guillaume IGM

Combinatoire et Bio-informatique

(54)

Plan de l’expos ´ e

3 Probl `emes ´etudi ´es

4 NP-compl ´etude du probl `emeAPS(CROSSING,PLAIN)

5 Polynomialit ´e du probl `eme 2-IP(DIS,{⊏,⋊⋉})

(55)

Seconde mod ´ elisation

Les 2-intervalles

Un intervalle≡s ´equence de caract `eres contigus

Un 2-intervalle (couple d’intervalles non chevauchants)≡ suite d’arcs cons ´ecutifs≡h ´elice

Descripteurs macroscopiques

Blin Guillaume IGM

Combinatoire et Bio-informatique

(56)

Pr ´ esentation g ´ en ´ erale

Relations entre 2-intervalles

La pr ´ec ´edence –<

Exemple

(57)

Pr ´ esentation g ´ en ´ erale

Relations entre 2-intervalles

La pr ´ec ´edence –<

L’inclusion –⊏

Exemple

Blin Guillaume IGM

Combinatoire et Bio-informatique

(58)

Pr ´ esentation g ´ en ´ erale

Relations entre 2-intervalles

La pr ´ec ´edence –<

L’inclusion –⊏ Le croisement –⋊⋉

Exemple

(59)

Pr ´ esentation g ´ en ´ erale

Relations entre 2-intervalles

La pr ´ec ´edence –<

L’inclusion –⊏ Le croisement –⋊⋉ Les intervalles ne se chevauchent pas

Exemple

Blin Guillaume IGM

Combinatoire et Bio-informatique

(60)

Pr ´ esentation g ´ en ´ erale

Le probl `eme 2-IP

INSTANCE: Un ensembleDde 2-intervalles, un mod `ele R ⊆ {<,⊏,⋊⋉}

QUESTION: Existe-t-il unD⊆ Dtel queD respecteRet|D| est maximum ?

Exemple

Ensemble de 2-intervalles – R ={<,⋊⋉}

(61)

Pr ´ esentation g ´ en ´ erale

Le probl `eme 2-IP

INSTANCE: Un ensembleDde 2-intervalles, un mod `ele R ⊆ {<,⊏,⋊⋉}

QUESTION: Existe-t-il unD⊆ Dtel queD respecteRet|D| est maximum ?

Exemple

Sous-ensemble respectant R={<,⋊⋉}

Blin Guillaume IGM

Combinatoire et Bio-informatique

(62)

Pr ´ esentation g ´ en ´ erale

Le probl `eme 2-IP

INSTANCE: Un ensembleDde 2-intervalles, un mod `ele R ⊆ {<,⊏,⋊⋉}

QUESTION: Existe-t-il unD⊆ Dtel queD respecteRet|D| est maximum ?

Exemple

Sous-ensemble respectant R={<,⋊⋉}

(63)

Pr ´ esentation g ´ en ´ erale

Le probl `eme 2-IP

INSTANCE: Un ensembleDde 2-intervalles, un mod `ele R ⊆ {<,⊏,⋊⋉}

QUESTION: Existe-t-il unD⊆ Dtel queD respecteRet|D| est maximum ?

Exemple

Sous-ensemble ne respectant pas R ={<,⋊⋉}

Blin Guillaume IGM

Combinatoire et Bio-informatique

(64)

Pr ´ esentation g ´ en ´ erale

Le probl `eme 2-IP

(65)

Pr ´ esentation g ´ en ´ erale

Le probl `eme 2-IP

Blin Guillaume IGM

Combinatoire et Bio-informatique

(66)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

Signification de{⊏,⋊⋉}et deDIS

Dans 2-IP(DIS,{⊏,⋊⋉}),

DIS≡les intervalles (simples) deD(support) sont disjoints deux `a deux et de taille identique

{⊏,⋊⋉} ≡le mod `ele `a respecter estR={⊏,⋊⋉}

Exemple

Support non disjoint

(67)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

Signification de{⊏,⋊⋉}et deDIS

Dans 2-IP(DIS,{⊏,⋊⋉}),

DIS≡les intervalles (simples) deD(support) sont disjoints deux `a deux et de taille identique

{⊏,⋊⋉} ≡le mod `ele `a respecter estR={⊏,⋊⋉}

Exemple Support disjoint

Blin Guillaume IGM

Combinatoire et Bio-informatique

(68)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

L’algorithme

´Etant donn ´e un ensemble de 2-intervallesDsur un support disjoint

(69)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

L’algorithme

Construire l’ensembleCD des intervalles couvrants deD

Blin Guillaume IGM

Combinatoire et Bio-informatique

(70)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

L’algorithme

Construire le graphe d’intervalleΩ(CD)

(71)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

L’algorithme

Construire le graphe d’intervalleΩ(CD) Un arc≡deux intervalles se chevauchant≡ potentiellement `a deux 2-intervalles en⊏ou⋊⋉

Blin Guillaume IGM

Combinatoire et Bio-informatique

(72)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

L’algorithme

Construire le graphe d’intervalleΩ(CD) Un arc≡deux intervalles se chevauchant≡ potentiellement `a deux 2-intervalles en⊏ou⋊⋉

Une clique≡ensemble de 2-intervalles pouvant respecter R ={⊏,⋊⋉}

(73)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

L’algorithme

Pour chaque clique maximaleCdeΩ(CD)(au plusn) [Fulkerson et. al 65]

Calculer le nombre max de 2-intervalles disjoints correspondant

Calcul des cliques max est un probl `eme polynomial pour ce type de graphe[Micali et al 80]

Blin Guillaume IGM

Combinatoire et Bio-informatique

(74)

Le probl ` eme 2- IP ( DIS , { ⊏ , ⋊ ⋉ } )

Nos r ´esultats

Le probl `eme 2-IP(DIS,{⊏,⋊⋉}) peut ˆetre r ´esolu par un algorithme de complexit ´eO(n2

n)o `un=|D|

R ´eponse `a trois questions ouvertes de[Vialette’02]

Am ´elioration de la complexit ´e d’un cas d ´ej `a connu R ´esultats publi ´es dans les actes de CPM’04

Obtenus en collaboration avecG. FertinetS. Vialette

(75)

Troisi ` eme partie III

Calcul de distances interg ´ enomiques

Blin Guillaume IGM

Combinatoire et Bio-informatique

(76)

Plan de l’expos ´ e

6 Mod ´elisation des g ´enomes

7 Approximabilit ´e du calcul de la distance de breakpoints

8 Une heuristique pour le calcul de la dist. d’intervalles conserv ´es

(77)

Mod ´ elisation des g ´ enomes

Mod ´elisation

G ´enome≡ensemble de chromosomes

Chromosome≡ensemble ordonn ´e de g `enes

Flˆeche≡le brin d’ADN sur lequel est situ ´e le g `ene

Blin Guillaume IGM

Combinatoire et Bio-informatique

(78)

Probl ` emes ´ etudi ´ es

L’ ´evolution des g ´enomes

Les g ´enomes ´evoluent via des mutations `a l’ ´echelle des g `enes (r ´earrangements g ´enomiques) dont :

L’insertion – la suppression L’inversion

La duplication

´Etude de cette ´evolution en terme de r ´earrangements g ´enomiques (distances interg ´enomiques)

Exemple

(79)

Distances interg ´ enomiques

Hypoth `ese courante

Dans un g ´enome, tout g `ene n’apparaˆıt qu’une seulefois

Blin Guillaume IGM

Combinatoire et Bio-informatique

(80)

Distances interg ´ enomiques

Hypoth `ese courante

Dans un g ´enome, tout g `ene n’apparaˆıt qu’une seulefois Hypoth `ese qui facilite la r ´esolution du calcul de distances interg ´enomiquesmaisqui est tr `es restrictive

(81)

Distances interg ´ enomiques

Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :

L’exemplarisation: selection d’un repr ´esentant

Blin Guillaume IGM

Combinatoire et Bio-informatique

(82)

Distances interg ´ enomiques

Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :

L’exemplarisation: selection d’un repr ´esentant

(83)

Distances interg ´ enomiques

Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :

L’exemplarisation: selection d’un repr ´esentant Diff ´erencier les copies d’un g `ene

Blin Guillaume IGM

Combinatoire et Bio-informatique

(84)

Distances interg ´ enomiques

Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :

L’exemplarisation: selection d’un repr ´esentant Diff ´erencier les copies d’un g `ene

(85)

Distances interg ´ enomiques

Prise en compte des possibles duplications d’un g `ene Principalement deux m ´ethodes :

L’exemplarisation: selection d’un repr ´esentant Diff ´erencier les copies d’un g `ene: couplage

Blin Guillaume IGM

Combinatoire et Bio-informatique

(86)

Mod ´ elisation

Les s ´equences d’entiers sign ´es

Par la suite on ne consid `ere que des g ´enomes `a un seul chromosome

G ´enome≡suite ordonn ´ee d’entiers sign ´es (un g `ene≡un entier sign ´e)

(87)

Mod ´ elisation

Les s ´equences d’entiers sign ´es

Par la suite on ne consid `ere que des g ´enomes `a un seul chromosome

G ´enome≡suite ordonn ´ee d’entiers sign ´es (un g `ene≡un entier sign ´e)

Deux g `enes de mˆeme valeur absolue appartiennent `a la mˆeme famille de g `enes

Blin Guillaume IGM

Combinatoire et Bio-informatique

(88)

Probl ` emes ´ etudi ´ es

Calcul de distances interg ´enomiques

Prendre en compte les g `enes dupliqu ´es dans le calcul des distances :

de breakpoints

d’intervalles conserv ´es

(89)

Plan de l’expos ´ e

6 Mod ´elisation des g ´enomes

7 Approximabilit ´e du calcul de la distance de breakpoints

8 Une heuristique pour le calcul de la dist. d’intervalles conserv ´es

Blin Guillaume IGM

Combinatoire et Bio-informatique

(90)

Notions de breakpoint

D ´efinitions

Breakpoint≡adjacence non-conserv ´ee entre deux g ´enomes

Distance de breakpoints≡nombre de breakpoints entre deux g ´enomes

Deux g ´enomes G et H

(91)

Notions de breakpoint

D ´efinitions

Breakpoint≡adjacence non-conserv ´ee entre deux g ´enomes

Distance de breakpoints≡nombre de breakpoints entre deux g ´enomes

Si il existe l’adjacence i.j dans G mais ni i.j, ni -j.-i n’existe dans H alors il y a un breakpoint

Blin Guillaume IGM

Combinatoire et Bio-informatique

(92)

Calcul de la distance de breakpoints

Complexit ´e

Polynomial si on ne prend pas en compte les g `enes dupliqu ´es

NP-complet d `es lors qu’une seule famille de g `enes est dupliqu ´ee[B.,Chauve,Fertin 04]

Autre contribution

Dans le cas particulier o `u :

Les g ´enomes sont ´equilibr ´es – mˆeme contenu Il existe une seule famille de g `enes dupliqu ´es Au plusLg `enes dupliqu ´es peuvent ˆetre cons ´ecutifs Il existe un algorithme de(L+1)-approximation (au pire (L+1)fois plus de breakpoints que la solution optimale)

(93)

Calcul de la distance de breakpoints

D ´efinition

Segment preserv ´eaSbentreGetH≡segment de g `enes cons ´ecutifs deGtel que :

aetbsont deux g `enes non dupliqu ´es

S est un segment compos ´e uniquement de g `enes dupliqu ´es

soitaSb, soit-b-S-aest pr ´esent dansH Exemple

Blin Guillaume IGM

Combinatoire et Bio-informatique

(94)

Calcul de la distance de breakpoints

Notre Algorithme

Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale

Exemple

(95)

Calcul de la distance de breakpoints

Notre Algorithme

Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale

Exemple

Blin Guillaume IGM

Combinatoire et Bio-informatique

(96)

Calcul de la distance de breakpoints

Notre Algorithme

Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale Coupler chaque g `ene non-dupliqu ´e deGavec son unique copie dansH–idem

Exemple

(97)

Calcul de la distance de breakpoints

Notre Algorithme

Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale Coupler chaque g `ene non-dupliqu ´e deGavec son unique copie dansH–idem

Exemple

Blin Guillaume IGM

Combinatoire et Bio-informatique

(98)

Calcul de la distance de breakpoints

Notre Algorithme

Coupler tout segment pr ´eserv ´e deGavec sa copie dansH –pas plus de breakpoints que dans une solution optimale Coupler chaque g `ene non-dupliqu ´e deGavec son unique copie dansH–idem

Coupler arbitrairement chaque g `ene dupliqu ´e restant –au pire chaque segment induit(L+1)breakpoints

Exemple

(99)

Calcul de la distance de breakpoints

Nos r ´esultats

Calculer la distance de breakpoints en pr ´esence de g `enes dupliqu ´es est un probl `emeNP-complet

Il existe un algorithme d’approximation pour un cas restreint R ´esultats publi ´es dans les actes de CompBioNets’04

Obtenus en collaboration avecC. Chauve(UQAM - Montral) etG. Fertin

Blin Guillaume IGM

Combinatoire et Bio-informatique

(100)

Plan de l’expos ´ e

6 Mod ´elisation des g ´enomes

7 Approximabilit ´e du calcul de la distance de breakpoints

8 Une heuristique pour le calcul de la dist. d’intervalles conserv ´es

(101)

Notions d’intervalle conserv ´ e

D ´efinition

Intervalle conserv ´e[a,b]≡segment de g `enes cons ´ecutifs deGtel que il existe un segment[a,b]ou[−b,a]dansH de mˆeme contenu (sans consid ´erer les signes et l’ordre)

Exemple

G=-2-1 4 3 5-8 6 7 H =-2-5-3 -4 1-8 6 7

Blin Guillaume IGM

Combinatoire et Bio-informatique

(102)

Notions d’intervalle conserv ´ e

D ´efinition

Intervalle conserv ´e[a,b]≡segment de g `enes cons ´ecutifs deGtel que il existe un segment[a,b]ou[−b,a]dansH de mˆeme contenu (sans consid ´erer les signes et l’ordre)

Exemple

G=-2-1 4 3 5-8 6 7 H =-2-5-3 -4 1-8 6 7

[-2,7]est un intervalle conserv ´e

(103)

Notions d’intervalle conserv ´ e

D ´efinition

Intervalle conserv ´e[a,b]≡segment de g `enes cons ´ecutifs deGtel que il existe un segment[a,b]ou[−b,a]dansH de mˆeme contenu (sans consid ´erer les signes et l’ordre)

Exemple

G=-2-1 4 3 5-8 6 7 H =-2-5-3 -4 1-8 6 7

[-2,7]est un intervalle conserv ´e tout comme[4,5]et[6,7]

Blin Guillaume IGM

Combinatoire et Bio-informatique

(104)

Calcul de la distance d’intervalles conserv ´ es

Complexit ´e

Polynomial si on ne prend pas en compte les g `enes dupliqu ´es

NP-complet sinon[B.,Rizzi 05]

Autre contribution

Heuristique pour l’utilisation de couplages de g `enes Intuition : les longues suites de g `enes communes `a deux g ´enomes ne sont pas fortuites

(105)

Calcul de la distance d’intervalles conserv ´ es

L’algorithme

1 Identifier le plus longs segment de g `enes non-coupl ´es deG qui est ´egalement un segment de g `enes non-coupl ´es deH au renversement complet pr `es

2 Coupler ces deux segments

3 Recommencer `a l’ ´etape 1 tant qu’il reste des g `enes non-coupl ´es

´Evaluation de l’algorithme

Jeu de donn ´ees de 20 g ´enomes de bact ´eries provenant de la baseNCBI

´Evaluation : comparer les r ´esultats de notre algorithme avec ceux de l’algorithme exhaustif

Un ´ecart de moins de 0,12 %

Blin Guillaume IGM

Combinatoire et Bio-informatique

(106)

Calcul de la distance d’intervalles conserv ´ es

Critique de l’ ´evaluation

L’identification des familles de g `enes dupliqu ´es est `a am ´eliorer –mˆeme nom = mˆeme famille

Les performances de notre algorithme sont tr `es fortement li ´ees `a l’abondance de g `enes dupliqu ´es

De nouveaux tests sont en cours sur les distances de breakpoints et d’intervalles conserv ´es

Nos r ´esultats

Calculer la distance d’intervalles conserv ´es en pr ´esence de g `enes dupliqu ´es est un probl `emeNP-complet

Il existe une heuristique simple et fournissant de bons r ´esultats en pratique

R ´esultats publi ´es dans les actes de Cocoon’05

(107)

Conclusion

Blin Guillaume IGM

Combinatoire et Bio-informatique

(108)

R ´esultats

´Etude des aspects algorithmiques de probl `emes de bio-informatique :

Comparaison de structures de mol ´ecules d’ARN

Calcul de distances interg ´enomiques en pr ´esence de g `enes dupliqu ´es

(109)

R ´esultats

´Etude des aspects algorithmiques de probl `emes de bio-informatique :

Comparaison de structures de mol ´ecules d’ARN

Distance d’ ´edition (le probl `eme EDIT) – rapport de recherche soumis en 2003 (G. Fertin, I. Rusu, C. Sinoquet)

APS – IWBRA’05 + journal (G. F, R. Rizzi, S. Vialette) 2-IP – CPM’04 (G. F, S. V)

Design d’ARN – WG’05 (G. F, D. Hermelin, S. V)

Calcul de distances interg ´enomiques en pr ´esence de g `enes dupliqu ´es

Blin Guillaume IGM

Combinatoire et Bio-informatique

(110)

R ´esultats

´Etude des aspects algorithmiques de probl `emes de bio-informatique :

Comparaison de structures de mol ´ecules d’ARN

Distance d’ ´edition (le probl `eme EDIT) – rapport de recherche soumis en 2003 (G. Fertin, I. Rusu, C. Sinoquet)

APS – IWBRA’05 + journal (G. F, R. Rizzi, S. Vialette) 2-IP – CPM’04 (G. F, S. V)

Design d’ARN – WG’05 (G. F, D. Hermelin, S. V)

Calcul de distances interg ´enomiques en pr ´esence de g `enes dupliqu ´es

Distance de breakpoints – CompBioNets’04 (C. Chauve, G. F) Distance d’intervalles conserv ´es – Cocoon’05 * (R. R)

Reconstruction phylog ´en ´etique – R. C. Genomic’05 * (C. C, G. F)

(111)

En cours et `a venir

Comparaison de structures de mol ´ecules d’ARN Complexit ´e param ´etr ´ee des probl `emes

Impl ´ementation des algorithmes

Collaboration avecH. Touzet(LIFL) : distance d’ ´edition Calcul de distances interg ´enomiques en pr ´esence de g `enes dupliqu ´es

Prise en compte de g ´enomes `a plusieurs chromosomes

´Etudier l’impact de la d ´efinition des familles de g `enes Collaboration avecC. Chauve,A. Chateau(UQAM) : intervalles communs

Collaboration avecN. El Mabrouk(UDeM) etM. Blanchette (UDeM) : ordre des g `enes

Blin Guillaume IGM

Combinatoire et Bio-informatique

(112)

Bio-informatique : Comparaison de structures d’ARN et calcul de distances

interg ´ enomiques”

Guillaume Blin

IGM-LabInfo UMR 8049, Universit ´e de Marne La Vall ´ee gblin@univ-mlv.fr

LINA - Universit ´e de Nantes Sous la direction de I. Rusu et G. Fertin

S ´eminaire LIRMM - 9 F ´evrier 2006

(113)

2-intervalles VS S ´equence arc-annot ´ee

Un 2-intervalle≡h ´elice

Blin Guillaume IGM

Combinatoire et Bio-informatique

(114)

2-intervalles VS S ´equence arc-annot ´ee

2-intervalle≡g ´en ´eralisation des s ´equences arc-annot ´ees Plusieurs passerelles possibles :

1 lettre≡1 intervalle de mˆeme longueur

de longueurs diff ´erentes (une par type de caract `eres) 1 ensemble d’arcs cons ´ecutifs≡1 2-intervalle

(115)

2-intervalles VS S ´equence arc-annot ´ee

S ´equence arc-annot ´ee – mod ´elisation fid `ele des structures d’ARN

PB associ ´es sont g ´en ´eralement difficiles si l’on consid `ere les croisements d’arcs

2-intervalle – mod ´elisation macroscopique mais adaptable PB associ ´es sont difficiles si l’on consid `ere le croisement et une autre relation + support unitaire

Blin Guillaume IGM

Combinatoire et Bio-informatique

(116)

Jeu de donn ´ees Cocoon’05

(117)

Analyse de la complexit ´e du probl `eme 2-IP(DIS,{⊏,⋊⋉}) Complexit ´eO(n2

n)o `un=|D|:

Le graphe d’intervalleΩ(CD)peut ˆetre obtenu enO(n2) Toutes les cliques max deΩ(CD)peut ˆetre obtenu en O(m+n)

Le calcul du nombre max de 2-intervalles disjoints peut se faire enO(n√

n)pour chaque clique `a l’aide d’un couplage max dans un graphe (Micali et al)

Il y a au plusnclique maximaleCdeΩ(CD) [Fulkerson et. al 65]

Blin Guillaume IGM

Combinatoire et Bio-informatique

Références

Documents relatifs

Donn´ ee: une machine de Turing M , qui ne revient jamais en d´ ebut de ruban, ne revient jamais dans l’´ etat initial, n’´ ecrit jamais de blancs?. Question: M ne s’arrˆ ete

[r]

Donner la d´efinition de la borne sup´erieure de A ainsi qu’une condition n´ecessaire et suffisante pour son existence. En particulier, on peut faire la seconde partie en admettant

(la dynamique de f sur I correspond au carr´ e en gras dans le dessin ci-dessous)3. Calculer

Montrer qu’il existe une solution d´ efinie sur R +∗ et la calculer..

Etant donn´ es quatre points d’une droite affine, exprimer leur birapport comme rapport de rapport de mesures alg´ ebriques de segments joignant les points...

La principale (dont les autres d´ ecoulent) est la suivante : Pour deux arˆ etes parall` eles, la diff´ erence de cotes entre les extr´ emit´ es est la mˆ eme (pour une

Cette expression peut aussi permettre de voir la pression exerc´ee par le flux de photons ou de l’onde ´electromagn´etique sur la surface S, en effet, il suffit de diviser la force