• Aucun résultat trouvé

Un outil, nomm´e TaxI, se basant sur les codes barres d’ADN a ´et´e d´evelopp´e (Steinke et al., 2005) afin de permettre l’identification de s´equences d’ADN. Cette application est bas´ee sur des calculs de divergences de s´equences entre la s´equence requˆete (le taxon utilis´e en tant que code barre) et chaque s´equence de la banque de r´ef´erence d´efinie par l’utilisateur. Le programme consid`ere toutes les paires de s´equences possibles puis utilise T-Coffee pour aligner toutes ces paires. Enfin la divergence entre chaque paire de s´equences est d´etermin´ee `a partir des alignements obtenus. Plusieurs m´ethodes de calcul de distances sont propos´ees dont le mod`ele de Jukes-Cantor et celui de Kimura `a deux param`etres.

La plus petite distance est identifi´ee et le fichier de sortie pr´esente toutes les distances d’´evolution entre les paires de s´equences.

4 Les motivations

Nous avons vu que l’identification de nouvelles s´equences est utilis´ee dans de nom-breux cas tels que la classification d’une s´equence dans un ensemble pr´ed´efini de s´equences connues, l’aide au diagnostic m´edical, la tra¸cabilit´e alimentaire, la mise `a jour de banque de donn´ees,etc. De plus, le nombre de s´equences inconnues augmente exponentiellement avec le d´eveloppement du s´equen¸cage. Ainsi, de plus en plus de s´equences ont besoin d’ˆetre identifi´ees et des outils automatis´es sont n´ecessaires pour mener `a bien cette tˆache.

Selon les donn´ees `a traiter l’outil utilis´e est diff´erent. En effet, les donn´ees biologiques sont complexes. Ainsi les outils d’identification sont souvent d´ependants du type de s´equences et donc des banques de s´equences pour lesquels ils ont ´et´e d´evelopp´es. Les divers outils que nous avons d´ecrit pr´ec´edemment sont sp´ecifiques `a un domaine ou `a un type de donn´ees comme par exemple BIBI qui a ´et´e d´evelopp´e sp´ecifiquement pour l’identification bact´erienne, RIDOM pour l’identification m´edicale ou encore MitALib pour l’identification alimentaire, etc.

Diff´erentes banques de familles de s´equences telles que HOVERGEN et HOGENOM regroupent les s´equences homologues de g`enes prot´eiques en familles et fournissent un

alignement et un arbre pour chacune de ces familles. Ces banques peuvent ˆetres utilis´ees de diff´erentes mani`eres, et notamment dans le but de faire des analyses phylog´en´etiques.

L’ajout d’une seule s´equence `a une famille donn´ee de ces banques peut avoir beaucoup de r´epercussions sur la topologie de l’arbre phylog´en´etique associ´e. Ces changements peuvent ˆetre situ´es pr`es de la s´equence introduite, mais ils peuvent ´egalement ˆetre situ´es dans des noeuds profonds. Dans un tel cas, l’information phylog´en´etique apport´ee par la famille enti`ere doit ˆetre prise en consid´eration. En outre, ´etant donn´e que HOVERGEN et HOGENOM contiennent de nombreuses familles avec plusieurs milliers de s´equences, il faut de puissants algorithmes afin d’ajouter rapidement une s´equence `a un grand alignement.

Actuellement les outils d’identification de s´equences disponibles comme ceux pr´esent´es pr´ec´edemment sont d´evelopp´es pour traiter des donn´ees sp´ecifiques telles que des s´equences d’ARN ribosomique.

L’approche utilis´ee par MitALib pr´esente l’avantage de ne pas avoir `a recalculer l’ali-gnement complet puisque la s´equence requˆete est simplement align´ee sur le profil de la famille. En effet, aussi bien dans le cas de BIBI que de MitALib, l’´etape limitante du processus d’identification est celle correspondant au calcul de l’alignement. Par ailleurs, ces deux syst`emes ne sont effectivement fonctionnels dans le cadre d’une utilisation en ligne que parce que les banques sur lesquelles ils travaillent sont de petite taille. De ce fait, ils peuvent retourner des r´esultats en un temps CPU consid´er´e comme acceptable par l’utilisateur. Dans le cas des donn´ees trait´ees par MitALib et BIBI, il suffit de ne r´ecup´erer qu’un petit nombre de s´equences, pr´esentant les plus fortes similarit´es avec la s´equence requˆete, avant de calculer l’alignement.

De mˆeme que pour MitAlib, dans le cas de PhyID/CD, l’alignement n’est pas recalcul´e int´egralement. La s´equence est simplement ajout´ee `a l’ensemble de s´equences pr´e-align´ees choisi. Il faut donc au pr´ealable calculer l’alignement de toutes les s´equences avec lesquelles l’identification doit ˆetre effectu´ee.

De la mˆeme mani`ere que BIBI et MitALib, RIDOM et MicroSeq utilisent des banques de petite taille, garantissant ainsi une rapidit´e d’ex´ecution. Ce sont des syst`emes ferm´es : le choix des s´equences int´egr´ees dans la banque et la vitesse de mise `a jour d´epend de la subjectivit´e et de la r´eactivit´e des concepteurs. De plus MicroSeq est un syst`eme commer-cial.

Enfin, l’outil de classification de RDP permet d’identifier des s´equences d’ARNr uniquement. Il utilise un algorithme de classification bas´e sur une approche bay´esienne na¨ıve qui n´ecessite d’entraˆıner l’outil de classification sur un jeu d’essai de s´equences de r´ef´erence d’ARNr 16S. Taxi, quant `a lui, se base sur des codes barres d’ADN qui correspondent `a des g`enes d’ARNr 16S ou des g`enes mitochondriaux de la sous-unit´e 1 de l’oxydase du cytochrome c.

Ainsi tous ces outils ne peuvent pas ˆetre employ´es efficacement avec des grandes

4 Les motivations

banques de familles de g`enes homologues telles que HOVERGEN et HOGENOM. Nous avons donc d´evelopp´e une application, appel´e HoSeqI (Homologous Sequence Identifica-tion), permettant l’identification automatique de s´equences homologues et leur classifica-tion `a l’int´erieur de grandes banques de familles de g`enes homologues.

Chapitre 3

L’outil d’identification d´ evelopp´ e : HoSeqI

Afin de r´epondre aux diff´erents besoins d’identification dans les grandes banques de familles de g`enes homologues telles qu’HOGENOM, nous avons d´evelopp´e une application, appel´ee HoSeqI (Homologous Sequence Identification). Elle permet de classer automati-quement de nouvelles s´equences dans les familles de g`enes homologues afin de les identifier.

Cette application, accessible par une interface Web, int`egre diff´erents programmes de re-cherche de similarit´e, d’alignements multiples et de constructions d’arbres phylog´en´etiques ainsi que des outils sp´ecifiques. L’identification se fait par une approche phylog´en´etique, permettant ainsi l’analyse des relations ´evolutives entre s´equences.

1 Les objectifs

Les diff´erents outils que nous avons pr´esent´es au chapitre pr´ec´edent sont utilis´es pour des g`enes sp´ecifiques et sont, pour la plupart, destin´es `a des identifications bact´eriennes.

Une application d’identification d´edi´ee aux banques de familles homologues doit utiliser une approche diff´erente puisqu’il ne s’agit pas du mˆeme type d’identification. En effet, il faut qu’elle soit adapt´ee aux particularit´es de l’identification de nouvelles s´equences dans ce type de banque.

Diff´erents probl`emes doivent ˆetre abord´es lorsqu’il s’agit de travailler avec des banques de familles de g`enes. Tout d’abord, il faut ´etudier l’acc`es aux donn´ees. Les bases de donn´ees ne sont pas toutes construites sur le mˆeme mod`ele et utilisent des syst`emes de gestion diff´erents. Ainsi l’outil d’interrogation permettant d’acc´eder aux donn´ees doit ˆetre ´etudi´e afin d’utiliser les fonctionnalit´es adapt´ees `a nos besoins et trouver les informations qui nous int´eressent le plus rapidement possible.

De plus, lors de l’ajout d’une nouvelle s´equence `a une famille, l’ensemble de celle-ci doit ˆetre pris en compte (cf. chapitre 2, page 31 section 4, page 43). En outre, ces bases de donn´ees peuvent contenir des familles de plusieurs milliers de s´equences. Cela n´ecessite

donc l’utilisation d’algorithmes capables de traiter un grand nombre de s´equences.

Enfin, l’application d´evelopp´ee est destin´ee `a ˆetre utilis´ee via Internet. Il s’agit de d´evelopper une application Web qui permettra d’obtenir des r´esultats rapidement. Il est donc indispensable d’utiliser des m´ethodes et des programmes pouvant effectuer les tˆaches demand´ees dans un intervalle de temps acceptable pour une telle application. De plus l’interface doit ˆetre facile `a manipuler et doit permettre d’interagir le plus efficacement possible avec l’utilisateur.

2 L’acc` es aux donn´ ees