• Aucun résultat trouvé

Analyse des diff´erences : trace, alignement et listing

1.6 Outils de d´etermination du patrimoine g´en´etique

1.6.1 S´equen¸cage

2.2.2.3 Analyse des diff´erences : trace, alignement et listing

Comme on vient de le voir, pour analyser la diff´erence totale entre deux s´equences, on peut regarder l’ensemble des diff´erences ´el´ementaires entre caract`eres. Une op´eration transforme une s´equence dite source en une s´equence dite cible.

Il existe au moins trois modes diff´erents de repr´esentation de cette analyse de diff´erences entre s´equences : les traces, les alignements et les listings [Sankoff et Kruskal, 1999]. Des

2.2. Alignements de s´equences Trace O T A R I E O C T O B R E  Alignement  O C T O B R − E O − T A − R I E  Listing OCT OBRE D´el´etion du C OT OBRE D´el´etion du B OT ORE Substitution du 2e O en A OT ARE Insertion du I OT ARIE

Fig. 2.1 – Trois modes d’analyse de diff´erences entre s´equences. exemples de ces trois types d’analyse sont donn´ees `a la figure 2.1.

Trace Une trace de s `a r est la s´equence source s au dessus de la s´equence cible r, avec des lignes joignant des caract`eres de la source et de la cible. Un caract`ere ne peut pas ˆetre adjacent `a plus d’une ligne et les lignes ne peuvent pas se croiser. Si les caract`eres connect´es par la mˆeme ligne sont identiques, on parlera d’un appariement exact1, (les O de la premi`ere position par exemple) et sinon d’un m´esappariement ou

substitution2, (le deuxi`eme O de OCT OBRE et le A de OT ARIE). Un caract`ere

source n’ayant pas de ligne montre une d´el´etion (le C de OCT OBRE), un caract`ere cible n’ayant pas de ligne, une insertion( le I de OT ARIE).

Alignement Un alignement entre s et r est une matrice de deux lignes. La premi`ere ligne est la source s dans laquelle des caract`eres nuls ont ´eventuellement ´et´e ins´er´es. Nous repr´esentons les caract`eres nuls par des − (on peut ´egalement voir selon les auteurs ∅, λ ou un blanc). Un caract`ere nul est aussi appel´e trou. Une suite de trous est une br`eche3. La deuxi`eme ligne de la matrice est la cible r dans laquelle des caract`eres

1 Match en anglais. 2 Mismatch en anglais. 3 Gap en anglais.

nuls ont ´eventuellement ´et´e ins´er´es. La colonne „ − −

«

de caract`eres nuls n’est pas autoris´ee. Chaque colonne, ´egalement appel´ee paire align´ee, a une signification :

 x −



avec un − en bas, indique la d´el´etion de x ;

 −

y 

ayant un − en haut, indique l’insertion de y ;

 x y



sans −, est appel´ee un appariement exact si x = y ou une substitution de x par y si x 6= y.

L’alignement de la figure 2.1 correspond `a la trace de la mˆeme figure.

Comme mode d’analyse, les alignements sont plus riches que les traces dans le sens o`u ils font une distinction entre les indels adjacents. Il peut exister plusieurs alignements qui correspondent `a la mˆeme trace. Par exemple, les alignements

 S A − P − I N S A V − O − N  et S A P I − − N S A − − V O N  correspondent tous les deux `a la mˆeme trace :

S A P I N | | | S A V O N Listing Un listing de s `a r est une alternance de s´equences et d’op´erations ´el´ementaires,

commen¸cant par la s´equence source s et terminant par la s´equence cible r, et qui satisfait la propri´et´e de consistance suivante : deux s´equences adjacentes dans le listing doivent diff´erer seulement par l’application d’une op´eration ´el´ementaire. Le listing est en fait un algorithme qui d´ecrit comment changer la source en la cible. Le listing de la figure 2.1 correspond `a l’alignement et `a la trace de la mˆeme figure. Les listings sont un mode d’analyse plus riche que les alignements et les traces, plusieurs op´erations peuvent ˆetre appliqu´ees `a la mˆeme position, alors que dans les deux autres modes d’analyse ce n’est pas possible. De plus, les listings donnent l’ordre d’application des op´erations et cet ordre peut ˆetre important. En effet, `a une position i, la substitution A → B peut directement pr´ec´eder mais ne peut pas directement suivre la substitution B → C. D’un autre cˆot´e, les op´erations qui ne se produisent pas sur la mˆeme position peuvent ˆetre effectu´ees dans un ordre quelconque.

Pour chacun de ces modes, plusieurs analyses pour les mˆemes deux s´equences sont possibles, ceci est illustr´e `a la figure 2.2 en utilisant les traces.

La multiplicit´e de ces analyses alternatives est une des difficult´es centrales de ce do- maine. Une notion de parcimonie va ˆetre introduite dans la suite pour choisir la plus courte ou la moins coˆuteuse de ces analyses. Une partie de la multiplicit´e vient du simple fait que la substitution de a par b peut ´egalement ˆetre analys´ee comme un couple de d´el´etion-insertion, d´el´etion de a et insertion de b. L’analyse la plus plausible d´epend alors du contexte, comme

2.2. Alignements de s´equences P A I N P R U N E P A I N P R U N E P A I N P R U N E @ @ P A I N P R U N E P A I N P R U N E

Fig. 2.2 – Diff´erentes analyses pour la mˆeme paire de s´equences.

par exemple des coˆuts donn´es `a ces op´erations, on choisit dans ce cas la combinaison d’op´e- rations la moins ch`ere, ou des r`egles d’applications de ces op´erations, et on choisit alors la combinaison qui n’enfreint aucune r`egle.

Dans les deux principaux domaines d’application, la biologie et l’informatique, les lis- tings correspondent directement aux m´ecanismes naturels par lesquels les s´equences sont suppos´ees ´evoluer. Les diff´erents types d’analyse que nous avons vus m`enent au mˆeme r´e- sultat dans beaucoup de cas, mais les calculs bas´es sur les alignements ou les traces sont beaucoup plus rapides que les calculs bas´es sur les listings. Ainsi, les listings sont essen- tiellement d’un int´erˆet th´eorique, tandis que les alignements et les traces sont utilis´es en pratique. En fait les traces et les alignements r´esument des listings de mˆeme coˆut.