• Aucun résultat trouvé

Distance induite par le mod`ele sse

3.2 S´equences r´ep´et´ees en tandem

4.1.2 Distance induite par le mod`ele sse

Pour compl´eter le mod`ele, nous avons besoin d’un crit`ere quantitatif pour juger de la similarit´e des cartes. Pour cela, `a chaque op´eration est associ´e un coˆut r´eel strictement positif. Une s´erie d’´ev´enements qui transforme s en r est appel´ee un alignement. Le coˆut de l’alignement est la somme des coˆuts des op´erations qui le composent. Nous d´esignons chaque coˆut par l’initiale majuscule de l’op´eration correspondante : M, I, D, A et C.

Ici, nous consid´erons un mod`ele sym´etrique o`u les op´erations inverses ont le mˆeme coˆut : I = D et A = C. La fr´equence des amplifications et des contractions sur les cartes de minisatellite ´etant plus ´elev´ee que celle des autres op´erations, ces deux ´ev´enements ont un coˆut plus faible : A, C < M, D, I. Pour unifier les notations de la mutation et de l’identit´e, nous utilisons M (a, b) qui est ´egal `a 0 si a = b et `a M sinon.

Pour des raisons pratiques, nous consid´erons que toutes les mutations possibles ont le mˆeme coˆut, sans tenir compte de la s´equence nucl´eotidique des variants. C’est une hypoth`ese raisonnable pour l’application aux minisatellites car les variants sont longs et diff`erent l’un de l’autre par un petit nombre de paires de bases (voir le cas de MSY1 au chapitre 7, section 7.3). Par exemple, soit v1, v2 et v3 trois variants d’une carte de

muter le variant v1 en variant v2 ou muter le variant v2 en variant v3 coˆutent la mˆeme

chose, M, alors que cela n´ecessite une substitution de nucl´eotide dans le premier cas, et deux dans le second.

Notons qu’une d´el´etion peut ´egalement ˆetre obtenue par une mutation suivie d’une contraction et une insertion par une amplification suivie d’une mutation. Suivant le coˆut affect´e aux op´erations, on pr´ef´erera une solution `a l’autre. En effet, comme notre mod`ele est sym´etrique, nous avons soit :

– H1 : (D > M + C et I > A + M ) ; – H2 : (D ≤ M + C et I ≤ A + M).

Sans perte de g´en´eralit´e, nous supposons la premi`ere hypoth`ese, H1. Cela influence le coˆut des g´en´erations/compressions d’arche (cf. section 4.3.2) et modifie l´eg`erement l’algorithme. Sous l’hypoth`ese H1 un variant est « ins´er´e » par une amplification+mutation, ou « d´el´et´e » par une mutation+contraction. Nous notons ces op´erations par AM et MC, leurs coˆuts

sont A + M et M + C respectivement. AM et MC sont des op´erations ´el´ementaires dans le

sens o`u elles s’appliquent `a un seul variant. Le mod`ele sse contient donc sept op´erations ´el´ementaires, M, I, D, A, C, AM et MC.

Le coˆut d’alignement que nous venons de d´efinir est une m´etrique ; ceci est important pour l’utilisation du coˆut en tant que distance, par exemple en reconstruction phylog´en´e- tique.

Th´eor`eme 2 Distance Le coˆut d’alignement d´efinit une m´etrique sur Σ∗.

Preuve (Distance m´etrique) Nous voulons montrer que notre coˆut d’alignement est une distance au sens math´ematique, c’est-`a-dire qu’il v´erifie les propri´et´es donn´ees au chapitre 2, page 41 :

(i) Positivit´e ; (ii) S´eparation ; (iii) Sym´etrie ;

(iv) In´egalit´e triangulaire.

Nous construisons notre preuve sur l’analyse des propri´et´es m´etriques des distances d’alignement de [Sankoff et Kruskal, 1999, Chapitre 9, p. 307-8].

Quelques propri´et´es des coˆuts ´el´ementaires sont directement transmises `a la distance entre les cartes :

(i) La positivit´e, puisque tous les coˆuts ´el´ementaires sont positifs ; (ii) La s´eparation, puisque seule l’identit´e coˆute z´ero ;

(iii) La sym´etrie, puisque les coˆuts des op´erations inverses sont les mˆemes.

Il reste `a prouver (iv), l’in´egalit´e triangulaire. Soit r, s, t trois cartes. Notons d notre distance d’alignement entre deux cartes. Nous devons montrer que d(r, t) ≤ d(r, s)+d(s, t). L’in´egalit´e triangulaire peut ne pas ˆetre respect´ee si et seulement si nous ne pouvons pas combiner l’alignement de r `a s et de s `a t en un alignement de coˆut inf´erieur de r `a t.

4.1. Mod`ele d’´evolution sse Premi`ere Seconde R´esultat Premi`ere Seconde R´esultat

A(−, a) C(a, −) pop C(a, −) A(−, a) M (a, a) A(−, a) D(a, −) pop C(a, −) I(−, a) M (a, a) A(−, a) M (a, b) AM(−, b, a) C(a, −) I(−, b) M (a, b)

AM(−, b, a) D(b, −) pop C(a, −) AM(−, b, a) M (a, b)

AM(−, b, a) M (b, c) AM(−, c, a) MC(a, −, b) A(−, b) M (a, b)

AM(−, b, a) M (b, a) A(−, a) MC(a, −, b) I(−, a) M (a, a)

AM(−, b, a) MC(b, −, a) pop MC(a, −, b) I(−, b) M (a, b)

I(−, a) D(a, −) pop MC(a, −, b) I(−, c) M (a, c)

I(−, a) C(a, −) pop MC(a, −, b) AM(−, c, b) M (a, c)

I(−, a) MC(a, −, b) pop MC(a, −, b) AM(−, a, b) M (a, a)

I(−, a) M (a, b) I(−, b) M (a, b) C(b, −) MC(a, −, b)

D(a, −) A(−, a) M (a, a) M (a, b) D(b, −) D(a, −) D(a, −) I(−, b) M (a, b) M (a, b) MC(b, −, a) C(a, −)

D(a, −) I(−, a) M (a, a) M (a, b) MC(b, −, c) MC(a, −, c)

D(a, −) AM(−, b, a) M (a, b) M (a, b) M (b, a) M (a, a)

M (a, b) M (b, c) M (a, c)

Tab. 4.1 – Toutes les combinaisons possibles de paires d’op´erations ´el´ementaires et pour chacune une op´eration ´equivalente, o`u pop signifie « pas d’op´eration » et M(a,a) est mis pour un appariement exact.

Ceci ne peut ˆetre le cas que si deux op´erations ´el´ementaires successives appliqu´ees `a la mˆeme position dans l’alignement coˆutent moins cher qu’une simple op´eration. Nous avons donc besoin de v´erifier toutes les paires possibles d’op´erations ´el´ementaires. Pour cela, nous avons besoin d’introduire des notations l´eg`erement plus complexes. Tout d’abord, l’alphabet d’alignement est Σ ∪ {−} o`u − est le symbole d’absence de variant. Si E est une op´eration ´el´ementaire, nous notons E(a, b) l’op´eration E qui transforme le symbole source, a, en symbole destination, b, o`u a, b ∈ Σ ∪ {−}. Ainsi, si a, b, c sont trois variants distincts de Σ, nous notons par A(−, a) l’amplification (elle transforme − en a `a partir d’un a adjacent), par C(a, −) la contraction, par AM(−, b, a) l’amplification+mutation

(elle amplifie le a adjacent et ensuite le mute en b, ici le troisi`eme argument est le variant adjacent se trouvant `a gauche), par MC(b, −, a) la mutation+contraction (elle mute b en a

et contracte la position en un a adjacent, ce qui produit un −), par M(a, b) la mutation si a 6= b et l’identit´e si a = b, par I(−, a) l’insertion d’un a, et par D(a, −) la d´el´etion d’un a. Maintenant, certaines paires d’op´erations ordonn´ees sur la mˆeme position d’alignement sont impossibles :

– une fois que la position a ´et´e ins´er´ee, amplifi´ee, ou amplifi´ee+mut´ee de r `a s, elle ne peut pas ˆetre `a nouveau ins´er´ee, amplifi´ee ou amplifi´ee+mut´ee de s `a t ;

– une fois que la position est pr´esente, c’est-`a-dire apr`es une identit´e ou une mutation, la position ne peut pas ˆetre ins´er´ee, amplifi´ee ou amplifi´ee+mut´ee ;

– une fois que la position a ´et´e supprim´ee de r `a s, elle ne peut pas ˆetre supprim´ee `a nouveau de s `a t ; ainsi, ni deux d´el´etions, contractions ou MC successives, ni une des

pr´ec´edentes suivie par une mutation ou une identit´e est possible ;

– quels que soient a et b ∈ Σ, A(−, a)MC(a, −, b) est impossible car amplifier un a

n´ecessite un a `a la position gauche et muter et contracter un a en b n´ecessite un b sur la gauche ; pour la mˆeme raison, AM(−, b, a)C(b, −) n’est pas admis.

Dans la table 4.1, nous montrons que toutes les paires possibles restantes peuvent ˆetre remplac´ees par une seule op´eration ou pas d’op´eration du tout (ce que nous avons not´e pop). Dans de telles paires, le symbole destination de la premi`ere op´eration doit ˆetre le mˆeme que le symbole source de la deuxi`eme. Cette preuve est ind´ependante de l’hypoth`ese H1, c’est pourquoi nous incluons des paires qui ne sont pas toujours optimales, ni possible suivant les variants voisins. Il est direct de v´erifier que les op´erations ´el´ementaires coˆutent moins que les paires, cela prouve l’in´egalit´e triangulaire et termine la preuve. 

* * *

Le probl`eme que nous traitons dans ce chapitre est le suivant :

D´efinition 21 (Alignement avec amplification et contraction sous le mod`ele sse) Soient deux s´equences s et r de longueurs respectives n et m. Le probl`eme de l’alignement de s´equences avec amplification et contraction est de trouver un alignement global optimal de score minimum entre s et r, sous le mod`ele sse.