• Aucun résultat trouvé

1.7 Conclusion

2.1.1 M´ethodes bas´ees sur l’analyse de s´equences

Ces m´ethodes exploitent les caract´eristiques de la s´equence nucl´eique ou prot´eique pour rechercher des homologues dans une base de donn´ees de s´equences. Il existe plusieurs fa¸cons d’identifier des homologues `a partir des s´equences, depuis une simple mesure de similarit´e `a des m´ethodes plus complexes impliquant des graphes.

Similarit´e

Les m´ethodes bas´ees sur le pourcentage de similarit´e sont tr`es efficaces pour d´etecter les homologues proches mais cette efficacit´e diminue gran- dement pour des homologues distants. Les outils de type BLAST (et plus r´ecemment PSI-BLAST) [3] sont largement utilis´es dans cette famille de m´ethodes. On sait toutefois que deux prot´eines peuvent ˆetre homologues et avoir un faible pourcentage de similarit´e, soit parce que les prot´eines ont beaucoup diverg´e en terme de fonctions et de structures, donc de s´equences, soit parce que la structure a ´et´e bien conserv´ee lors de l’´evolution mais pas la s´equence. Pour d´etecter des homologues distants (faible similarit´e de s´equences) des m´ethodes plus ´elabor´ees ont ´et´e mises en place. Par exemple, on peut utiliser les similarit´es, non plus directement mais en pas- sant par un homologue interm´ediaire. Ainsi, l’une des m´ethodes les plus r´ecentes [29] utilise PSI-BLAST pour faire des alignements multiples de la prot´eine connue, afin d’obtenir les interm´ediaires (s´electionn´es selon des crit`eres de score) qui vont eux-mˆemes ˆetre utilis´es pour trouver les homo-

logues distants par similarit´e. D’autres approches permettent d’am´eliorer encore ces strat´egies e.g. en cherchant `a reconstruire phylog´eniquement des s´equences ancestrales de la famille d’int´erˆet [8]

Motifs

Les m´ethodes bas´ees sur les motifs sont une extension des m´ethodes de similarit´e. La notion de motifs repr´esente de courtes s´equences plus ou moins bien conserv´ees dans une famille de g`enes ou de prot´eines. Ces motifs sont parfois directement li´es `a une caract´eristique fonctionnelle ou structurale de la famille. A titre d’illustration, on peut ´evoquer le motif (W SXW S) des r´ecepteurs aux cytokines de type I, d´ecrit dans le premier chapitre. 25 des 34 membres de cette famille poss`edent ce motif ce qui en fait un bon moyen d’identifier des homologues.

L’identification de motifs sp´ecifiques se fait g´en´eralement par alignement des s´equences des membres connus de la famille et identification, sou- vent visuelle, de zones conserv´ees, avec des d´eg´en´erescences possibles, per- mises par l’utilisation de matrices de substitutions. De ce point de vue, les s´equences prot´eiques offrent une plus grande vari´et´e de motifs que les s´equences nucl´eiques, de part la diversit´e de leur alphabet mais aussi par la possibilit´e de substitutions plus importantes. Les s´equences nucl´eiques offrent tout de mˆeme la possibilit´e d’utiliser des motifs, particuli`erement dans des zones non traduites telles que le promoteur ou, dans une moindre mesure, les UTR (UnTranslated Regions, r´egion non traduite de l’ARNm). De nombreuses bases de donn´ees de motifs sont disponibles, les principales ´etant PROSITE pour les motifs prot´eiques et TRANSFAC qui est une base de facteurs de transcription incluant leurs motifs de fixation sur le promo- teur.

Une fois le(s) motif(s) sp´ecifique(s) d´efini(s), il suffit d’appliquer des algo- rithmes de ”pattern matching” sur les s´equences d’int´erˆet. Ces motifs sont ´egalement utilis´es pour am´eliorer les performances des algorithmes clas- siques d’alignement pour la recherche d’homologues [22].

2.1. ´ETAT DE L’ART DES M ´ETHODES DE RECHERCHES D’HOMOLOGUES 79

Cette strat´egie est assez s´eduisante car elle s’int´eresse `a des consid´erations ´evolutives et semble relativement simple `a mettre en oeuvre. Ce n’est tou- tefois pas toujours le cas du fait de l’absence de motifs d´etectables dans certaines familles, entre autre celles des cytokines qui sont particuli`erement difficiles `a aligner du fait de leur faible similarit´e. Certaines solutions ont ´et´e propos´ees comme celle de Mikolajczak [41] qui permet d’identi- fier un grand nombre de motifs de mani`ere automatique en autorisant une d´eg´en´erescence importante bas´ee sur les propri´et´es physico-chimiques des acides amin´es. Bien que peu ad´equate pour une recherche de motifs en elle-mˆeme, cette possibilit´e peut ˆetre exploit´ee par des m´ethodes d’appren- tissage.

Graphes

Couramment utilis´es dans plusieurs domaines informatiques, les graphes ont connu plusieurs applications en bioinformatique. Les graphes sont un outil math´ematique formalis´e dans les ann´ees 60 et utilis´e pour d´ecrire des ensembles, flux, r´eseaux . . .. Sch´ematiquement, un graphe est un ensemble d’objets, appel´es sommets, reli´es par des arˆetes. Un graphe poss`ede des propri´et´es comme le nombre de sommets, d’arˆetes, leur orientation, leur type (parall`eles, arc . . .) ou leur coloration, qui sont utilis´ees pour d´ecrire l’ensemble d’objets `a repr´esenter. Cet outil s’est av´er´e extrˆemement effi- cace dans un grand nombre d’applications r´eelles. Concernant la recherche d’homologues distants, on peut citer le logiciel TRIBES [15], qui convertit les scores de similarit´e d’un ensemble de prot´eines en une matrice et effec- tue une marche au hasard sur le graphe repr´esentant cette matrice pour retrouver les groupes d’homologues, et CLUSTER-C [42] qui s’appuie sur la recherche de cliques. Dans ces deux cas, la d´emarche diff`ere de la plupart des autres m´ethodes de recherche d’homologues. Ces m´ethodes cherchent `a former des groupes les plus coh´erents possibles dans l’ensemble de la base de s´equences, sans contrainte sur la famille ´etudi´ee alors que, classique- ment, on s’appuie sur les membres connus d’une famille pour en trouver

les homologues.