• Aucun résultat trouvé

Plasma, un nouvel algorithme progressif pour l'alignement multiple de séquences

N/A
N/A
Protected

Academic year: 2021

Partager "Plasma, un nouvel algorithme progressif pour l'alignement multiple de séquences"

Copied!
11
0
0

Texte intégral

(1)

HAL Id: inria-00000076

https://hal.inria.fr/inria-00000076

Submitted on 26 May 2005

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Plasma, un nouvel algorithme progressif pour l’alignement multiple de séquences

Vincent Derrien, Jean-Michel Richer, Jin-Kao Hao

To cite this version:

Vincent Derrien, Jean-Michel Richer, Jin-Kao Hao. Plasma, un nouvel algorithme progressif pour

l’alignement multiple de séquences. Premières Journées Francophones de Programmation par Con-

traintes, CRIL - CNRS FRE 2499, Jun 2005, Lens, pp.39-48. �inria-00000076�

(2)

Plasma, un nouvel algorithme progressif pour

l'alignement multiple de séquenes

Vinent Derrien, Jean-Mihel Riher et Jin-Kao Hao

LERIA - Université d'Angers, 2 Bd Lavoisier,49035 Angers

{derrien,riher,hao}info .uni v-an gers .fr

Résumé

L'alignementmultipledeséquenesestunproblème

NP-ompletimportantenbioinformatique.Plusieursal-

gorithmes existent, basés sur diérentes heuristiques.

Nous présentons iiPlasma,un nouvel algorithme uti-

lisant leprinipe de laprogrammation dynamique,ap-

pliquéàdesblosdeséquenes.Plasmaaététestésur

l'ensembledesjeuxd'essaisdeBalibase.Lespremiersré-

sultatsmontrentquePlasmaobtientlemeilleuraligne-

mentpourplusieursdeesjeuxd'essais,maiségalement

quelestempsdealulsonttrèsfaibles.

Abstrat

Multiplesequenealignmentonstitutesastandard

andfundamentaltoolinbioinformatis.Givenitstheore-

tialomplexity(NP-Hard),manyheuristisalgorithms

havebeendeveloped.Inthispaper,wepresentPlasma,

anewalgorithmthatintroduesthe notionof aligning

blos of sequenesvia dynami programming. Evalua-

tionsonthebenhmarksofthewellkonwnBalibaseda-

tabaseshowthatPlasmaisabletondthebestresults

forseveralinstanes.

1 Introdution

L'alignement de séquenes d'ADN ou de pro-

téines est uneopérationfondamentaleenbioinforma-

tique. L'alignement deplusieurs séquenes onsisteà

mettre en regard les parties ommunes en insérant

des brèhes. Le problème d'alignement de séquenes

onsiste à déterminerun alignement qui optimise un

ritère d'évaluation. L'alignement de

k

séquenes est

appeléalignementparpairepour

k = 2

,etalignement

multiple pour

k > 2

.

L'alignement multiple de séquenes est un préa-

lable àlareonstrutionphylogénétique,et ilpermet

également l'identiation des domaines ommuns ou

d'aider à laprédition de fontions de protéines non

onnues.

Un algorithme basé sur la programmation dyna-

mique [10℄ permet d'aligner simplement deux sé-

quenes de manière optimale selon une fontion de

sore.Saomplexitépourdesséquenesdelongueurs

m

et

n

est en

O(m.n)

. Cet algorithme peut être gé-

néralisé pour

k > 2

séquenes,mais dans lapratique

saomplexitéspaialeneluipermetpasd'êtreutilisée

pour des valeurs de

k

supérieures à 4. Le problème d'alignement multiple de séquenes a été démontré

NP-Complet [19℄. Il existe de nombreuses méthodes

permettantd'apporterdessolutionsauproblèmed'ali-

gnementmultiple.Cesméthodespeuventêtrelassées

suivantdeux grandes approhes: lesméthodes d'ali-

gnementprogressif et les méthodes d'alignement ité-

ratif.

Les méthodes progressives telles que Clustal W

[16℄ n'alignent pas toutes les séquenes simultané-

ment.Celle-isontalignéesprogressivementparsous-

groupes,suivantunordre qui dépend dela similarité

des unes par rapport aux autres. Les méthodes ité-

ratives omme SAGA [12℄ vont au ontraire réaliser

unalignementdetouteslesséquenessimultanément.

Lesalgorithmesexistantsonttrèsdiérentslesunsdes

autres,et sontpluslentsquelesalgorithmesprogres-

sifs.

L'algorithmePlasmaquenous présentonsdans et

artile est de type progressif,basé sur leprinipe de

la programmation dynamique. D'autres algorithmes

utilisent e prinipe, mais ils sont basés sur la mé-

thode utilisée pour l'alignement de deux séquenes.

Dèsquel'algorithmenéessited'alignerungroupede

séquenes,ave une ouplusieursautres séquenes,e

groupeesttransforméenunseuleséqueneonsensus,

appelée prol. Cette méthode est simple et rapide à

(3)

uneperted'information,etl'alignementquienrésulte

risquedond'êtredemauvaisequalité.

DansPlasma, nousherhonsàéviter e problème

en introduisant la notion d'alignement par blos de

séquenes sans passer par les prols. La totalité de

l'informationontenuedanshaunedesséquenesest

ainsi onservée. La méthode employée pour aligner

deux blos de séquenes est une extension de l'algo-

rithmede programmationdynamique telle qu'elleest

utiliséepourl'alignementdedeuxséquenes.Eneet,

Plasma permet d'aligner simultanément deux blos

deséquenesqui ontdéjàété préalablementalignées.

L'algorithmepermet dedéterminerlameilleureinser-

tionpossibledeolonnes debrèhes danshaun des

deuxblosdeséquenes. En réitérantleproessus,il

est possible d'ajouter progressivement toutes les sé-

quenes,jusqu'àobtenirl'alignementomplet.

NousavonstesténotrealgorithmeenutilisantBali-

base,unebasededonnéesontenantprèsde150jeux

d'essaislassésparatégories.Pourhaund'entreeux

unalignementderéféreneestproposé,equipermet

de tester les algorithmes mais aussi de les omparer

entreeux.

Lespremiersrésultatsobtenusavenotreimplémen-

tation sont enourageants puisque nous obtenons le

meilleurrésultatsur7jeux d'essais.

Dans la suite de et artile, nous exposons en dé-

tailleproblèmedel'alignementdeséquenesainsique

quelquesunsdes algorithmesexistants. Nousprésen-

tonsensuitePlasma,notrealgorithmebasésurlapro-

grammationdynamiqueainsiquelesrésultatsobtenus

surunensembledejeuxd'essais.

2 Alignement de séquenes

2.1 Alignementparpaire

L'alignementparpairedeséquenesdeprotéinesest

unoutil fondamentalde labioinformatique.Ilapour

butprinipal defaireressortirlesséquenes apparen-

tées, en mettant en évidene les régions ommunes.

L'alignementparpaireestprinipalementutilisépour

la omparaison d'une séquene ave un ensemble de

séquenes.LesalgorithmesFasta[13℄etBlast[1℄per-

mettentde omparer uneséquene àun ensemble de

séquenesontenuesdansunebasededonnées.

Uneséquenepeutêtredénieommeunesérie or-

donnéedelettresprisesdansunalphabet

Σ

. Pourles

protéines,etalphabetestonstituéde20lettres,ap-

peléesaidesaminésourésidus.

Leoneptd'alignementdeséquenesestbasésurla

notiond'opérationsd'édition[2℄.Lesopérationsmath

oumismath orrespondentà une mise en regard de

dusidentiques,etdansleseondderésidusdiérents.

Les opérationsinsertion et deletion représententune

oupure,appeléebrèheougap,dansl'une oul'autre

desséquenes.Celle-iestmarquéeparlesymbole`

'

dansl'alignementrésultant.

Cesopérationspermettentdedénirunnombreex-

ponentield'alignements,leproblèmeonsisteàdéter-

miner le meilleur, au sens d'une fontion de sore.

Un oût est attribué àhaqueopérationd'édition au

moyend'unematriedesore

w

.Leoûtd'unaligne-

ment est donné par la somme des oûts de haune

desopérationsd'éditionassoiéesàetalignement.Le

problèmed'alignementde2séquenespeut donêtre

onsidéréommeunproblèmed'optimisation.

Déniton 1 Soient

S 1 = hx 11 , x 12 , . . . , x 1|S

1

| i

et

S 2 = hx 21 , x 22 , . . . , x 2|S

2

| i

2séquenesdénies surun

alphabet

Σ

.Unalignement

A

de

S 1

et

S 2

estunema-

triede aratères de

Σ ∪ {−}

déniepar:

A =

a 11 , a 12 , . . . , a 1q

a 21 , a 22 , . . . , a 2q

etvériant lespropriétés:

max

(|S 1 |, |S 2 |) ≤ q ≤ |S 1 | + |S 2 |

,

a ui = x uv

ou

,

∀u ∈ {1, 2}, ∀v ∈ [1..|S u |]

,

6 ∃i

telque

a 1i = a 2i = −

.

Déniton 2 La fontion de sore d'un alignement

parpairedesdeuxséquenes

S 1

et

S 2

estdéniepar:

f (A) =

i=q

X

i=1

w(a 1i , a 2i )

w

désignela matriede sore utilisée.

Déniton 3 Le problème d'alignement par paire

onsiste à onstruire un alignement qui optimise la

fontion de sore.

Leproblèmed'alignementparpairepeutêtrerésolu

en utilisant un algorithme de programmation dyna-

mique;eluiipermet d'obtenirl'alignementoptimal

enréantune matriedesores.Laomplexitédeet

algorithmeesten

O(m.n)

,

m

et

n

sontleslongueurs

desséquenesàaligner. Leproessusd'alignementde

deuxséquenespeutêtredéniformellementdelafa-

çonsuivante:

Déniton 4 Soient

S 1

et

S 2

deux séquenes de lon-

gueurs respetives

m

et

n

dénies sur unalphabet

Σ

.

Soient

P(i, j)

leproblèmeonsistantàalignerlesdeux

sous-séquenes

S 1 [1..i]

et

S 2 [1..j]

,

i ≤ m

et

j ≤ n

, et

D(i, j)

la distaned'édition assoiée.

leproblème onsisteàdéterminer

P(m, n)

,

(4)

le sous-problème

P (i, j)

onsiste à aluler

D(i, j)

.

l'initialisation sefaitave

P (i, 0)

et

P (0, j)

.

Les problèmes

P (i, 0)

et

P (0, j)

représententle déa- laged'unedesséquenesparrapportàl'autre,etleurs

oûts sontsimplesàaluler.

2.2 Alignementmultiple

Leproblèmed'alignementmultipleorrespondàune

généralisationdel'alignementparpaireave

k > 2

sé-

quenes. En revanhe il ne s'agit plusii de déteter

une simple similitude entre séquenes. L'alignement

multiple deséquenes estutilisépourdiérentes opé-

rations. Il permet de déterminerdes sous-groupesde

séquenes en fontion du degré de similarité. Ce qui

onstituelepointdedépartpourlareonstrutionde

phylogénie.

L'alignementmultiple permet égalementdemettre

enévidene leszonesonservéesdansunensemblede

séquenes.Enpartantduprinipequedesmotifssimi-

laires induisentdes fontionsidentiques,l'alignement

multiplepermetdeprédirelafontiondeprotéinesin-

onnuesenlesalignantavedesprotéinesonnues.

Déniton 5 Soit

S = {S 1 , . . . , S k }

un ensemble de

séquenes dénies sur unalphabet

Σ

. Un alignement

multiple de

S

est une matrie d'éléments de

Σ ∪ {−}

dénie par :

A =

a 11 , a 12 , . . . , a 1q

.

.

.

a k1 , a k2 , . . . , a kq

et vériantlespropriétés :

max

i (|S i |) ≤ q ≤ X

i

|S i |

,

a ui = x uv

ou

,

∀u ∈ {1..k}, ∀v ∈ [1..|S u |]

,

6 ∃j

telque

∀i, a ij = −

.

La fontion de sore utilisée pour l'alignement par

pairepeutégalementêtregénéralisée:

Déniton 6 Lafontiondesommedespairesestdé-

nie par:

f (A) =

i=k−1

X

i=1 j=k

X

j=i+1 l=q

X

l=1

w(a il , a jl )

w

désignela matriede soreutilisée.

Cettefontionest souventutiliséesousuneformedif-

férente appeléesomme despairespondérée.Un poids

p i

est assoié àhaunedes séquenesenfontion de

sonimportanedansl'alignement.Cepoidsestensuite

Déniton7 Lafontionde sommedespairespondé-

réeestdéniepar:

f (A) =

i=k−1

X

i=1 j=k

X

j=i+1 l=q

X

l=1

p i .p j .w(a il , a jl )

D'autres fontions d'évaluation ont été dévelop-

pées depuis quelques années [9, 11, 18℄. Les résul-

tats qu'elles permettent d'obtenir dans ertains as

semblentdemeilleurequalité queeuxde lafontion

desommedespairespondérée.

Déniton 8 Le problème d'alignement multiple de

séquenesonsisteàonstruireunalignementquiopti-

miseunedeesfontionsdesore.Dansleasdel'ali-

gnement multiple de séquenes de protéines, il s'agit

d'unproblème de maximisation.

La méthode de programmation dynamique peut

égalementêtreutiliséepourréoudreleproblèmed'ali-

gnement multiple de séquenes. Mais sa omplexité

spaialeest en

O(2 k−1 . Q i=k

i=1 |S i |)

,e qui en pratique

ne permet pas de l'utiliser pour plus de 4 ou 5 sé-

quenes.

Le problème d'alignement multiple de séquenes a

été démontré NP-Complet[19℄parrédutionpolyno-

mialeduproblème1-to-3SAT.

3 Etat de l'art

Diérentes heuristiques ont été développées pour

apporterdessolutionsauproblèmed'alignementmul-

tipledeséquenes.Elles peuventêtrelasséessuivant

deuxapprohesdiérentes.Unedesapprohesestdite

progressive,etonsisteàalignerlesséquenesgraduel-

lement.Alorsquelaseonde,diteiterative,onsisteà

alignertouteslesséquenessimultanément.Signalons

égalementl'existenedeméthodesomplètes,quiper-

mettentd'alignerquelquesséquenes.

Lesrésultatsobtenuspares diérentsalgorithmes

peuvent être omparés en utilisant les jeux d'essais

proposés par des bases de données. Celles-i sont

onstituées de nombreux jeux de séquenes et pro-

posentpourhaununalignementderéférene.

3.1 Lesalgorithmesprogressifs

Les algorithmes progressifs onstruisent l'aligne-

ment nal en plusieurs étapes. A haque étape, une

partieseulementdesséquenesest alignée,eten'est

qu'àlanquetouteslesséquenessetrouventregrou-

pées.

Laméthodeutiliséelassiquementpourdéterminer

l'ordredanslequeldoiventêtrealignéeslesséquenes

(5)

tous les ouples de séquenes, an de onnaître leur

degré de similarité. Il est ainsi possible de réaliser

unematriededistanes entre touteslesséquenes.

LeNeighbor-Joiningpermet deréerunarbre,appelé

GuideTree,quidéterminel'ordredanslequels'eetue

l'alignement. Leheminremontantdesbranhesvers

laraine indique quelssontles groupesde séquenes

àaligner,ainsiquel'ordredanslequeldoiventsefaire

lesalignements.

Le plus onnu des algorihmes progressifs est Clus-

tal W [16℄. Son prinipeest basé sur l'algorithme de

programmationdynamiqueappliquéàl'alignementde

deuxséquenes[5℄.Chaquealignementunefoisobtenu

estonverti enune uniqueséqueneonsensus,appe-

léeprol.Laréationd'unprolsefaitenfontiondu

ontenudehaunedesolonnesdel'alignement.Pour

onvertirl'alignementenuneséquene,haqueolonne

quileomposeestremplaéeparuneuniquelettre.Le

hoixse fait enfontion dunombred'ourrenesde

haquelettredans laolonne,ainsique leurprobabi-

litéd'apparition.Un prolainsi obtenu est onsidéré

omme une séquene à partentière, et peut dès lors

êtreréutilisépourunnouvelalignementavelemême

algorithme.Ilpeutêtrealignéaveunedesséquenes

initiales,maiségalementaveunautreprol.Tousles

noeudsinternesonstituantleguidetree représentent

desprols.

Il existe d'autres algorithmes proposant des va-

riantes de e type d'alignement, omme parexemple

T-Coee [11℄ qui dans un premier temps ommene

pargénérer une bibliothèque d'alignements.A partir

deettebibliothèque,haqueouplederésidussevoit

attribuerunevaleurenfontiondunombredefois

ilsontétéalignés.Cetteméthodepermetd'éviterl'uti-

lisationdesmatriesdeoûts,dontlesvaleursprévues

pourleasgénéral,nesontpastoujoursadaptées.

CitonségalementMultalin[3℄quionstruitunnou-

veau guide tree à partir de l'alignement obtenu. Le

proessusd'alignementestréitérétantquel'arbreob-

tenuest modié.

3.2 Lesalgorithmesiteratifs

Lesalgorithmesdetypeitératifréalisentunaligne-

mentsimultanédetouteslesséquenes.Ils n'utilisent

pas de guide tree omme les algorithmes progressifs,

equi lesrend moinsproheslesunsdesautres. Dif-

férentesapprohesontainsiétéproposées,ommepar

exempleSAGA[12℄quiestbasésurunalgorithmegé-

nétique. Une popluation

G 0

de ent alignements est initialementgénérée,etleprogrammepermetdefaire

évoluerettepopulationd'alignementsenlesroisant

entreeuxetenneonservantqueeuxquiaméliorent

séletiondelapartiedelapopulationdevantêtre

remplaée,

utilisation de l'un de nombreux opérateurs de

ombinaison oudemutationsur haqueindividu

séletionné,

mise à jour de la population ave les meilleurs

individus.

Ces trois opérations permettent de passer de la gé-

nération

G n

àlagénération

G n+1

.L'algorithmes'ar- rète lorsquelapopulationsestabilise.SAGAest l'al-

gorithme itératifdonnant lesmeilleurs résultats,quel

que soit letype d'alignement. Le tempsde alul est

toutefoisbeauoupplusimportantqueeluideClustal

W.

Citons égalementdesapprohesbaséessur les mo-

dèles de Markov ahés (HMM) [4℄, l'utilisation de

graphe ave ontraintes [8℄ ou enore un algorithme

basé surlaméthodetabou[14℄.

Pour les alignements multiples omposés de sé-

quenes assez similaires, les résultats obtenus par

les algorithmes progressifssontsouvent meilleurs. Ils

orentégalementl'avantaged'êtreplusrapides.

3.3 Balibase

An d'évaluerlesperformanesdesdiérentsalgo-

rithmes d'alignement, quelques bases de donnéesont

étéréées.Celles-iproposentdesjeuxd'essaisompo-

sésdeséquenes,ainsiqu'unalignementderéférene.

Balibase[17℄estunebasededonnéesontenantprès

de150alignementsmultiplesdeprotéines.Cesaligne-

ments sont regroupés en inq grandes atégories ap-

peléesréférenes,hauned'ellesorrespondantàune

lasse diérente de problèmes. La référene 1orres-

pondàdes jeux d'essaisontenantpeudeséquenes.

Ellessontlasséesparlongueur(small,medium,long),

etparpourentagedesimilitude(

< 20

,

< 40

et

> 40

).

Lesjeuxd'essaisdeetteréférenesontassezsimples,

et auunalgorithme de donne de très mauvais résul-

tats.Enrevanhe,lesautresréférenessontomposées

dejeuxd'essaisplusatypiques.Citonsparexemple,la

présene d'uneséqueneorpheline,qui n'aauunesi-

milaritéavelesautresséquenes;maiségalementdes

séquenes detaillestrès diérentes,ounéessitantde

trèsgrandesbrèhes(longueursupérieureà100).

Pour 139 de es jeux d'essais, un meilleur aligne-

mentaétéonstruitetestdisponible.Cesalignements

deréféreneontétéobtenusparlesbiologistesenpre-

nantenomptedesinformationstellesquelastruture

desséquenes.Ilspeuventdonêtreonsidérésomme

lasolutionoptimalepourhaundes jeuxd'essais,et

lesdiérentsalgorithmespeuventainsiêtreomparés

entreeux.Nousprésentonslaméthodedeomparaison

(6)

DansClustalWlesséquenesalignéessontrempla-

ées par un prol. L'utilisation de e prol fait dis-

paraitrelesséquenesréelles, risquantainsiuneperte

de la qualité. Ave Plasma nous proposons un nou-

velalgorithmede typeprogressif basé surle prinipe

de la programmation dynamique. Nous introduisons

leoneptdebloquinouspermetdedénirunemé-

thode d'alignement utilisant toutes l'information des

séquenes.

4.1 Le prinipede Plasma

L'utilisation d'un prol pour réaliser l'alignement

multipledeséquenesal'avantaged'êtreuneméthode

simpleet rapide àutiliser.Lesrésultats obtenus sont

bonslorsque lesséquenes sont assezsimilaires.Tou-

tefoisleompromisquidoitêtrefaitdansleasd'une

faiblesimilaritéengendrelerisquedeproduiredespro-

ls de mauvaise qualité. Si le prol n'est pas repré-

sentatifdesséquenesàpartirdesquellesil est formé,

l'alignement qui en déoule risque de perdre en qua-

lité.Leproblèmeseréperutantaufuretàmesuredes

alignements.

L'algorithmede Plasmaaété réaliséen partantde

e onstat. Comme l'alignement risque de perdre en

qualité àauseduprol,nousavonsdéidédenepas

utiliser etteméthode.Lesalignementssonteetués

enonservantàhaqueitérationtouteslesséquenes.

Comme pour les autres algorithmes progressifs,

Plasma ommene par réaliser un guide tree en uti-

lisantl'algorithmeduNeigbour-Joining.

Lepremierniveaud'alignementdansl'arbreorres-

pondauxn÷udsdontleslsreprésententlesséquenes

initiales.Laméthodeutiliséepourréeresnoeudsest

elle del'alignement parpaire. Lesrésultats obtenus

par et algorithme ne sont en revanhe pas onver-

tisenprol.Nousonservonshaquealignementsous

formed'unblo.Leoneptdebloestdéniàpar-

tir de l'alignement d'un sous-ensemble de séquenes.

Le bloonstitueune struturepourl'alignement,de

sorte qu'il puisse être aligné par la suite. Lorsqu'un

bloestaligné,touteslesinsertionsdebrèhessefont

entre les olonnes du blos. Un blo est un aligne-

ment qui peut à son tour être aligné ave d'autres

séquenes, mais dont le ontenu de haque olonnes

resteinhangé.L'algorithmedePlasmavadéterminer

omment insérer des brèhes à l'intérieur d'un blo

pour que l'alignement soit optimal. Ces brèhes sont

toujours inséréesaudébut, àlanou entre deux o-

lonnesdublo.

Laraisonprinipaledel'utilisationdeetteméthode

vient de l'ordre d'alignement des séquenes. Comme

mentalignésdoitêtreonservée.Noussupposonsdon

iiquetouteolonnepréédemmentobtenuedoitêtre

onservée.Ceraisonnementneprendévidemmentpas

en ompte les similarités qui peuvent exister loale-

mententre desséquenesdistantes.

4.2 Utilisation de la programmation dynamique

dansPlasma

L'algorithme de Plasma utilise la programmation

dynamiquepourréaliserl'alignemententredeuxblos

ouentreunbloetuneséquene.Touslesalignements

parpairerestenteetuésenutilisantl'algorithmetra-

ditionneldeprogrammationdynamique.

Le prinipe général de l'algorithme reprend elui

existantpourdeuxséquenes,mais étenduàl'aligne-

ment d'un blo ave une séquene oud'un bloave

unautreblo.Laonstrutiondel'alignementestréa-

liséeengénéralisantlaméthodeutiliséepourdeuxsé-

queneset déritesdans[6℄.

Ande réaliserl'alignementdedeux blosoud'un

bloaveuneséquene,nousavonsredéni lesopéra-

tionsd'édition. Pourl'alignementde deuxséquenes,

es opérations dénissent la valeur assoiée aux dif-

férentsouplesderésidus possibles.Lagénéralisation

desopérationsd'éditionauxblosnéessitededénir

unevaleurpourdesouplesdeolonnesderésidus.La

sommedes valeursobtenuespourhaunedesopéra-

tionsd'éditionassoiéesàl'alignementdesdeuxblos

doitêtreégaleàlavaleurdel'alignementmultiple.

Soit

B

unblodelongueur

l

omposéde

n

séquenes

dénies sur un alphabet

Σ

. Nous noterons

B i

la o-

lonne

i

deeblo,et

B ij

leontenudelaligne

j

de

B i

.

Soit

Σ = Σ ∪ {−}

et

w

lafontiondéniesur

Σ × Σ

quiadeuxélémentsde

Σ

assoieleurévaluation.

Soit

B(p)

l'évaluationdelaolonne

B p

.

B(p) =

i=n− 1

X

i=1 j=n

X

j=i+1

w(B pi , B pj )

Les opérations math et mismath étendues aux

blos, onsistent à mettre en regard une olonne de

haqueblo.Soient

B

et

B

deuxblosde longueur

l

et

l

omposéesde

n

et

n

séquenes. Lavaleurasso-

iéeàl'opérationd'éditionentre

B p

et

B q

est donnée

par:

M (B p , B q ) = B(p) + B (q) +

i=n

X

i=1 j=n

X

j=1

w(B pi , B qj )

Les opérations insertion et deletion étendues aux

Références

Documents relatifs

En notant str1 = prefixe1L et str2 = prefixe2L, une plus longue sous-chaine commune aux deux mots s’obtient en prenant une plus longue sous-chaine commune aux deux préfixes prefixe1

– choisir une paire de séquences de score max, tq exactement une des séquences est dans l’alignement partiel obtenu. – Aligner la nouvelle séquence avec la matrice consensus

• La plus grande valeur V(i,j) est le score du meilleur alignement local.. Alignement

• Alignement local: Plus long chemin entre n’importe quelles arêtes (i,j) et (i’, j’) du graphe d’édition.. • Quelle mesure

global, c'est-à-dire entre les deux séquences sur toute leur longueur local, entre une séquence et une partie d’une autre séquence.. Similarité global

En bioinformatique, la comparaison de séquences ADN deux à deux doit permettre de trouver des homologies c’est-à-dire comment les séquences ont muté à travers les espèces

Pour le tracing back (principe de la programmation dynamique, c'est par essence un processus off- line), on part de la case en bas à droite et on remonte le chemin d'alignement

Pour des distances évolutives plus grandes, les probabilités de substitution des acides aminés les uns envers les autres sont estimées et non calculées directement en comparant