• Aucun résultat trouvé

L’alignement de s´equences comme support de l’analyse comparative

1.5 L’analyse comparative de s´equences nucl´eiques

1.5.1 L’alignement de s´equences comme support de l’analyse comparative

L’alignement de s´equences consiste `a ´etablir une correspondance maximale entre les ´el´ements qui les composent. Les algorithmes `a mˆeme d’accomplir cette tˆache de mani`ere optimale sont issus de la communaut´e de l’algorithmique du texte. Ces algorithmes ne sont pas l’objet de cette section centr´ee sur l’utilisation des alignements dans le cadre de l’analyse comparative. Pour plus de d´etails sur ces algorithmes, on pourra se r´ef´erer au chapitre 4 o`u plusieurs sections leurs sont consacr´ees.

La repr´esentation la plus courante d’un alignement, quelque soit la m´ethode de construc- tion utilis´ee, est une matrice o`u les bases align´ees sont empil´ees et les insertions/d´el´etions marqu´ees par un tiret. Parfois, les s´equences align´ees sont s´epar´ees par des symboles qui fa- cilitent la lecture de l’alignement : l’identit´e entre deux ´el´ements est marqu´ee par une barre verticale, la substitution d’un ´el´ement par un autre est marqu´ee par un point. La figure 1.16 pr´esente un alignement semi-global de deux s´equences nucl´eiques.

1.5. L’analyse comparative de s´equences nucl´eiques AAN33049 1 CGAATGCCAGGCCCAGCCCTCA---CCTCTCGCTCCGCAGGGGGGAGTCG 47 ||| ||||..|| ..||||||||| ||.|| AAA31576 1 ATG---AGCCGGCAGAGTATCTCGCTCC---GATTC- 30 AAN33049 48 CCTGCACCGGTGGCCGCTGCTCCTGCTGCTGCTGCTGCTGC-TCCC---- 92 ||||||||.||.|||||||||..|| | |||| AAA31576 31 ---CCGCTGCTTCTCCTGCTGCTGTCGC--CATCCCCCGT 65 AAN33049 93 ---GCCGCCCCCGGTCCTGCCCGCG---GAAGCC 120 ||.|.||||||..| ||||||| |||.|| AAA31576 66 CTTCTCAGCGGACCCCGGGGC-GCCCGCGCCAGTGAACCCCTGCTGTTAC 114

Fig.1.16 – Exemple d’alignement semi-global entre deux fragments de s´equences homologues de g`enes codants pour la prostaglandine dont le pourcentage d’identit´e est de 44,9%.

points de vue : la similarit´e, l’identit´e et l’homologie. L’identit´e d´esigne la proportion de nucl´eotides ou d’acides amin´es identiques entre deux s´equences. Elle est souvent exprim´ee en pourcentage et s’obtient en calculant le ratio entre le nombre de nucl´eotides ou d’acides amin´es identiques et la longueur de l’alignement. La similarit´e d´esigne la proportion de sub- stitutions, identit´es incluses, entre deux s´equences align´ees par rapport `a la longueur de l’ali- gnement. L’homologie a une connotation ´evolutive : deux s´equences sont dites homologues si elles sont issues d’un mˆeme ancˆetre commun et partagent une mˆeme fonction. La similarit´e est un indicateur d’homologie : on consid`ere qu’une similarit´e significative est signe d’homo- logie. L’inverse n’est cependant pas vrai : une absence de similarit´e significative entre deux s´equences n’implique pas n´ecessairement que ces s´equences ne soient pas homologues.

Construire un alignement de deux ou plusieurs s´equences est toujours possible. Sans connaissance a priori sur la nature des s´equences, l’exactitude d’un alignement est variable en fonction du degr´e de similarit´e des s´equences `a aligner : plus les s´equences sont similaires, meilleur sera leur alignement, et inversement pour des s´equences divergentes. Pour que les r´esultats apport´es par une analyse comparative de s´equences men´ee `a partir d’un alignement fassent du sens, il est n´ecessaire que l’alignement employ´e soit fiable.

1.5.2 L’analyse de s´equences codantes et de s´equences structur´ees

L’analyse comparative de s´equences nucl´eiques est de plus en plus employ´ee `a des fins pr´edictives, par exemple pour d´eterminer si des s´equences sont des s´equences codantes homo- logues, ou si elles partagent une structure commune. Sans connaissance a priori sur la fonction des s´equences, les aligner semble un bon point de d´epart. Sur l’alignement, on devrait voir apparaˆıtre des mutations dont l’analyse permettra de d´eterminer si elles sont ou non corr´el´ees `

a la conservation d’une fonction particuli`ere. Pour illustrer notre propos, nous avons produit deux alignements de s´equences homologues report´es sur la figure 1.17.

La sous-figure (a) de la figure 1.17 pr´esente un alignement de deux fragments de s´equences codantes homologues. Les s´equences d’acides amin´es cod´ees par chacune des s´equences sont ´egalement report´ees. Sur cet alignement, on peut clairement voir apparaˆıtre les mutations silencieuses et synonymes entre les codons car les bases de chaque s´equence sont ici correc- tement align´ees avec leurs homologues dans l’autre s´equence. Sans connaissance a priori de la nature de ces s´equences nucl´eiques ni des s´equences d’acides amin´es qu’elles codent, cet alignement constitue donc un support fiable pour une analyse comparative dont le but est de pr´edire la s´equence conserv´ee d’acides amin´es.

(a) Alignement correct de deux fragments de s´equences codant pour une prostaglandine dont le pourcentage d’identit´e est 77,8%.

AE008837.1 CGCGGGGUGGAGCAGCCUGGUAGCUCGUCGGGCUCAUAACCCGAAGGUCGUCGGUUCAAAUCCGGCCCCCGCAA ||||||||.|||||| .||||||||||.|||||||||||||||.||||||..|||||.|.|||.|||||||||| X16759.1 CGCGGGGUAGAGCAG-UUGGUAGCUCGCCGGGCUCAUAACCCGGAGGUCGCAGGUUCGAGUCCUGCCCCCGCAA

(b) Alignement correct de deux s´equences d’ARN de transfert dont le pourcentage d’identit´e est de 86,5%.

Fig. 1.17 – Deux alignements semi-globaux optimaux corrects de s´equences codantes homo- logues (a) et de s´equences partageant une structure commune (b).

1.5. L’analyse comparative de s´equences nucl´eiques

La sous-figure (b) de la figure 1.17 pr´esente un alignement de s´equences homologues d’ARN de transfert. Les structures secondaires individuelles de chaque s´equence sont ´egalement re- port´ees sous forme arc-annot´ee. Sur cet alignement se produit le ph´enom`ene analogue `a celui pr´ec´edemment observ´e sur l’alignement des s´equences codantes : les bases appari´ees de chaque s´equence sont bien align´ees avec leurs homologues dans l’autre s´equence. Les mutations qui pr´eservent les appariements, compens´ees ou non, sont ainsi clairement r´ev´el´ees. Sans connais- sance a priori de la nature de ces s´equences ni de leurs structures secondaires, cet alignement constitue donc un support de qualit´e pour une analyse comparative dont le but est de pr´edire la structure conserv´ee.