Arches - Comparaison de séquences répétées en tandem et application à la génétique

Dans cette section, nous introduisons la notion d’arche. Dans un premier temps, nous donnons la définition des arches. Nous montrons ensuite un alignement entre séquences sous le modèle sse en utilisant les arches. Enfin nous discutons de l’ordre des opérations induit par les arches dans l’alignement que nous calculons.

4.2.1 D´efinition

Regardons pas à pas l’exemple artificiel d’évolution du même minisatellite dans deux individus ; ceci est montré à la figure 4.1.

L’alphabet des variants est {a, b, c, d, e}. L’état ancêtre a la carte aaaaa. Les cartes résultantes chez les individus 1 et 2 sont r = aeaaa et s = aaabbcbddba. Un alignement de ces deux cartes est donné à la figure 4.2.

Chez l’individu 2, le variant b est amplifié cinq fois. Ces variants amplifiés subissent ensuite d’autres amplifications et mutations. Cela résulte en une sous-chaˆıne dans laquelle les variants proviennent du même variant ancêtre, qui est appelé la graine de la sous-chaˆıne. Nous pouvons délimiter cette sous-chaˆıne par le fait que les variants à ses extrémités sont

4.2. Arches Individu 1 ´ Evénement Séquence a a a a a mutation a e a a a 1 2 3 4 5 Individu 2 ´ Evénement Séquence a a a a a mutation a a a b a 5*amplification a a a b b b b b b a mutation a a a b b c b b b a mutation a a a b b c b d b a amplification a a a b b c b d d b a 1 2 3 4 5 6 7 8 9 10 11

Fig. 4.1 – Exemple d’´evolution d’un minisatellite chez 2 individus.

identiques. Dans notre exemple, la sous-chaˆıne de s[4..10] = bbcbddb a pour graine le b de la position 4. Pendant l’évolution de cette sous-chaˆıne, le variant final à chaque position n’apparaˆıt pas dans l’ordre de la séquence (gauche-droite ou inversement) : à un moment donné, la position 8 a toujours l’état ancêtre b et pas son état final d, tandis que la position 10 a déjà son état final, un b. Par conséquent, de telles sous-chaˆınes peuvent être obtenues par plusieurs séries d’opérations, mais la solution optimale sera dépendante de l’ordre de ces opérations. Si nous calculons incrémentalement l’alignement pour des préfixes de plus en plus longs, comme cela est fait dans les algorithmes d’alignement classiques, c’est-à- dire en ajoutant une opération à la fois, nous ne pouvons pas trouver l’ordre optimal des événements. Pour notre exemple de sous-chaˆıne, si la position 6 devient d’abord un c, il n’est pas possible d’obtenir un b à la position 7 par une amplification. Ainsi, pour retrouver la série optimale d’opérations qui conduit à une telle sous-chaˆıne, nous devons la considérer comme un tout et non pas variant après variant. Cela nous mène à la notion d’arche. Définition 22 (Arche) Soit s une carte de longueur n et i, j deux entiers tels que 1 ≤ i < j ≤ n. La sous-chaˆıne s[i..j] est une arche de s si et seulement si s[i] = s[j].

Dans une arche, nous différencions les variants externes ou extrémaux, qui par définition sont identiques, de tous les autres, que nous appelons internes. Tous les variants d’une arches ne sont pas forcément identiques, et une arche peut contenir récursivement d’autres arches, appelées arches internes. La graine d’une arche interne peut être différente de la graine de l’arche qui l’englobe, comme dd dans bbcbddb. En effet, une fois qu’une position interne a été mutée, elle peut subir une amplification, qui va créer une arche interne.

4.2.2 Alignement et arches

Nous montrons ici un alignement sous le modèle sse qui prend en compte les arches des séquences. La figure 4.2 montre un exemple d’un tel alignement. Cet alignement peut se lire de la manière suivante :

Chapitre 4. Alignement avec amplification et contraction sous le mod`ele sse \ ( \ ( \ \ ] ] − − − − − − 1 2 3 4 5 6 7 8 9 10 11 c d d a a a a a a a a b b b b e f r s

Fig. 4.2 – Alignement des cartes des individus 1 et 2 de la figure 4.1. L’arche bbcbddb et ses arches internes sont représentées par des arcs en dessous de s. Dans la ligne du milieu, ’|’, ’]’, ’\’, ’(’ représentent respectivement un appariement exact, une mutation, une amplification et une AM.

2. Le a à la position 4 de r est muté en b ; 3. Ce b est ensuite amplifié cinq fois ; 4. Le b de la position 6 est muté en c ; 5. Le b de la position 8 est muté en d ;

6. Enfin, le d de la position 8 est amplifi´e une fois.

L’ordre des événements est important, l’événement 3 ne peut pas se produire avant le 2, de même l’événement 6 ne peut pas se produire avant le 5. Les événements 4 et 5 sont interchangeables mais doivent se produire après le 3. L’événement 1 peut se placer n’importe où.

Dans l’alignement de la figure 4.2, on peut voir qu’aucune position correspondant à l’arche bbcbddb de s existe dans r à l’exception de la position de la graine. Pour imiter l’évolution, nous voulons aligner une arche de s avec un seul variant de r, celui à la position originale de la graine.

Nous pouvons voir l’arrivée d’une arche comme un seul événement évolutif avec une fonction de coût spécifique. Selon le sens dans lequel on observe l’évolution, de s à r ou de r à s, nous nommons cette événement compression d’arche ou génération d’arche. Dans notre approche par programmation dynamique, les générations/compressions d’arche sont vues comme une seule opération qui exprime une dépendance entre deux cases non adjacentes de la matrice de programmation dynamique (voir figure 4.4, page 89).

La génération et la compression d’arche sont symétriques. Sous l’hypothèse H1, celle que nous avons choisie, la génération d’arche correspond à une série d’amplifications et de mutations qui donne naissance à la sous-chaˆıne associée à partir du variant graine (sous l’hypothèse H2, ce serait une série d’amplifications et d’insertions). Symétriquement, la compression sous H1 est une série de contractions et de mutations qui « rembobine » la sous-chaˆıne en sa graine.

Supposons que l’on veuille générer une arche dans s. Comme la génération n’implique pas de caractère de r, son coût optimal peut être calculé indépendamment de r. Nous

4.3. Algorithme d’alignement

Dans le document Comparaison de séquences répétées en tandem et application à la génétique (Page 107-110)