• Aucun résultat trouvé

III Swelfe : un outil pour détecter les répétitions dans les séquences

III. A.2 Comparaison de structures

H *i, j = Hi, j E *i, j = Ei, j F *i, j = Fi, j      Équation 4

III.A.2 Comparaison de structures

Plusieurs méthodes sont utilisées pour comparer les structures. Je présenterai ici cinq méthodes qui donnent de bons résultats (Novotny et al., 2004) et sont parmi les plus utilisées.

III.A.2.a DALI

La méthode DALI a été proposée par Holm et Sander (Holm and Sander, 1993). Chacune des deux structures est représentée par une matrice de distances internes contenant toutes les distances entre tous les couples de Cα de chaque structure. Les matrices sont ensuite divisées en sous matrices chevauchantes de taille six. Seules les 40 000 meilleures paires de sous-matrices sont conservées, puis les résidus correspondant des deux protéines sont alignés. Les sous-matrices de taille six sélectionnées sont divisées en trois sous-matrices de taille quatre chevauchantes, afin de trouver la meilleure série de matrices correspondantes entre les deux protéines. Ensuite les sous-matrices des deux structures sont comparées pour trouver des sous-sous-matrices similaires avec la méthode de Monte-Carlo. Comme il serait trop long de calculer toutes les combinaisons de sous-matrices, cette méthode permet d’explorer aléatoirement l’espace des solutions. Le but est de trouver la meilleure série de sous-matrices de taille quatre similaire entre les deux protéines, et qui maximise un score de similarité structurale défini en terme d’équivalence des distances intra-moléculaires. Le résultat est donc une correspondance entre les résidus de deux tétramatrices et non un alignement. L’algorithme est initié avec plusieurs points de départ, c’est à dire avec plusieurs correspondances entre les résidus. Finalement, la correspondance optimale entre les

deux structures est affinée en enlevant 30% des correspondances et en réitérant l’algorithme à partir de ces nouveaux points de départ.

L e p r o g r a m m e e s t m i s à d i s p o s i t i o n s u r l e s i t e

http://ekhidna.biocenter.helsinki.fi/dali_server/ et peut être téléchargé. Il a servi pour la classification FSSP (Families of Strucurally Similar Proteins). Il est parmi ceux qui donnent les meilleurs résultats (Novotny et al., 2004).

III.A.2.b CE

La méthode CE a été publiée par Shindyalov et Bourne (Shindyalov and Bourne, 1998). Elle se déroule en deux étapes : la recherche de fragments similaires de 8 résidus, puis l’assemblage de ces fragments.

Lors de la 1ère

étape, les fragments similaires de huit résidus contigus sont recherchés. Deux fragments sont considérés comme similaires si la moyenne des différences des distances internes est inférieure à 3Å : ils sont appelés AFP (Aligned Fragment Pair). Dans un deuxième temps, ces fragments similaires sont assemblés si plusieurs conditions sont respectées : le nouveau fragment ne doit être chevauchant avec aucun des fragments déjà présents, il doit être contigu avec un AFP déjà présent sur au moins une protéine, les gaps éventuels doivent être de taille inférieure à 30 résidus, la moyenne des distances internes entre toutes les AFP réunies, y compris la nouvelle, doit être inférieure à 4Å.

Parmi les 20 meilleurs alignements obtenus, seul celui qui a le meilleur RMSD est conservé. Il est ensuite affiné entre autre par une procédure de superposition-alignement de type Needleman et Wunsch (Needleman and Wunsch, 1970). Un Z-score est également calculé. Il est disponible sur le site http://cl.sdsc.edu/ce.html et peut être utilisé en ligne ou téléchargé.

III.A.2.c VAST

La méthode VAST (Gibrat et al., 1996) est basée sur la théorie des graphes. Les structures secondaires des protéines sont représentées par un nœud sur le graphe. Les nœuds sont reliés entre eux si les structures secondaires des deux protéines se ressemblent suffisamment. Il faut ensuite rechercher le sous-graphe le plus grand, tel que chaque nœud du sous-graphe est connecté à un autre nœud du sous-graphe et qu’il ne soit pas inclus dans un autre sous-graphe qui ait la même propriété. Cette méthode

permet aussi de calculer la significativité des alignements trouvés. La p-value calculée est la probabilité que ce score soit obtenu par hasard en dessinant aléatoirement les paires de structures secondaires à partir de la banque multiplié par le nombre d’alignements sub-structuraux alternatifs possibles pour une paire de structures donnée. VAST peut être téléchargé à http://mig.jouy.inra.fr/logiciels/vast.

III.A.2.d MATRAS

Matras (Kawabata and Nishikawa, 2000) est basé sur le principe de matrices de substitution analogues à celle de Dayhoff (Dayhoff et al., 1978). Ces matrices sont calculées à l’aide d’un modèle de transition markovien. Le score de substitution adopté est le suivant : € Si, j = logP(i → j) p( j) Équation 5

P(i → j) est la probabilité que l’état i change vers l’état j au cours de l’évolution,

p( j) est la probabilité que l’état j apparaisse par hasard. Une matrice de probabilités de transition est calculée à partir d’alignements de structures homologues, sélectionnées en fonction de leur similarité de séquence. Il y a trois types de scores : un score SSE sur les changements de structures secondaires, un score environnement sur l’état des structures secondaires (enfoui ou exposé au solvant) (SSE), et un score de distances basé sur les distances internes entre les résidus.

Ensuite, un premier alignement est effectué sur les scores SSE et d’environnement, puis à partir de cet alignement, plusieurs autres alignements sont effectués par programmation dynamique à partir des scores de distance, jusqu’à convergence.

MATRAS est disponible à l’adresse http://biunit.aist-nara.ac.jp/matras/. Il permet de faire à la fois des comparaisons entre deux structures, des comparaisons multiples de structures, et des recherches de répétitions internes.

III.A.2.e YAKUSA

Yakusa (Carpentier et al., 2005) cherche les similarités entre une structure et une banque. Les structures sont codées en angles α entre –180° et +180° (angle dièdre entre 4 Cα successifs, cf. III.B.2), ce qui permet de les représenter par une suite de symboles.

Les angles α de la structure requête sont rangés dans un automate par groupe de k angles successifs chevauchants, avec leur position. L’automate contient aussi les motifs similaires avec des angles α proches. Ensuite, pour chaque structure de la banque, l’automate est parcouru à la recherche de motifs communs aux deux structures, les graines. Ensuite les graines sont sélectionnées et étendues en segments structuraux les plus longs possibles : les SHSP (Structural High Scoring Pairs). Les SHSP compatibles sont ensuite sélectionnés et un score est calculé.

Il est utilisable en ligne ou téléchargeable à l’adresse suivante :

http://bioserv.rpbs.jussieu.fr/Yakusa/index.html. Il donne de bons résultats et est plus rapide : moins d’une minute pour comparer une structure contre une banque, contre au moins 5 minutes pour DALI (Novotny et al., 2004).