• Aucun résultat trouvé

2.2 Les m´ethodes d´evelopp´ees en parall`ele

Les deux travaux que je m’apprˆete `a pr´esenter, (Snel et col., 2000) et (Bergeron et col., 2003) sont ceux qui se rapprochent le plus de ma m´ethode. De nombreuses autres m´ethodes, recherchant la conservation d’un certain ordre `a l’int´erieur des g´enomes, ont ´et´e d´evelopp´ees. Elles ont pour but de pr´edire la fonction des g`enes et utilisent des relations d’homologie et de voisinage. De plus, la masse d’informations trait´ee est telle qu’il faut rechercher des algorithmes tr`es performants pour traiter le probl`eme en un temps acceptable. Je citerai rapidement (Mazumder et col., 2001), (Tamames et col., 2001), et (Suyama et Bork, 2001) dont l’objectif est surtout de montrer que la conservation des g`enes n’est pas al´eatatoire. Abordons maintenant la plus aboutie de ces m´ethodes, puisque dot´ee d’une interface conviviale et accessible directement sur internet : le serveur web String.

2.2.1 STRING

La m´ethodologie de String a ´et´e d´ecrite dans (Snel et col., 2000) et une mise `a jour a ´et´e faite (von Mering et col., 2003), portant sur l’augmentation du nombre de g´enomes disponibles ainsi que sur l’am´elioration de l’interface web et des outils d’analyse exploratoire disponibles (http ://www.bork.embl-heidelberg.de/STRING). L’utilisateur doit fournir un g`ene de requˆete qui sera utilis´e comme g`ene d’ancrage – le seed gene. S’il n’y a aucun g`ene conserv´e dans le voisinage de ce g`ene, alors ce sont ses g`enes orthologues qui seront utilis´es en tant que g`ene d’o-rigine (ancrage). Le processus est effectu´e par it´erations successives. Dans la premi`ere it´eration, String r´ecup`ere et affiche les g`enes qui apparaissent de mani`ere r´ep´et´ee en co-occurrence avec le g`ene d’origine dans des groupes de g`enes de multiples g´enomes issus de la bangue de donn´ees SwissProt. Les groupes de g`enes sont ici d´efinis en utilisant le concept de g`enes en s´erie d’Over-beek et col. (1999).

D´efinition 2.1 Un ensemble de g`enes en s´erie – ou run – est un ensemble de g`enes sur le mˆeme brin qui ne sont pas interrompus par des s´equences de plus de 300 paires de bases ne codant pour aucun g`ene (Overbeek et col., 1999).

Il faut noter que deux g`enes ayant fusionn´e au cours de l’´evolution seront d´efinis comme ap-partenant `a une mˆeme s´erie ; le g`ene r´esultant portant alors deux domaines fonctionnels. Dans les it´erations suivantes, ce processus sera r´ep´et´e en utilisant successivement tous les nouveaux g`enes, d´ecouverts lors de l’it´eration pr´ec´edente, comme g`ene d’origine. Le nombre d’it´erations est fix´e par l’utilisateur ; dans la derni`ere version ce param`etre est masqu´e par un autre : le nombre maximum de g`enes en interaction (la valeur par d´efaut est fix´ee `a 10). Le processus g´en´eral s’ach`eve lorsque ce nombre est atteint ou lorsqu’aucun nouveau g`ene n’est d´ecouvert (convergence).

Dans la derni`ere version de String, les orthologues sont issus de la base de donn´ees COG (pour Clusters of Orthologous Genes) (Tatusov et col., 2001). Comme cette base (voir Chapitre 1) n’est pas mise `a jour aussi rapidement que les g´enomes nouvellement s´equenc´es apparaissent,

✁✁✁ ✁✁✁ ✁✁✁ ✂✁✂✁✂ ✂✁✂✁✂ ✂✁✂✁✂ ✄✁✄✁✄ ✄✁✄✁✄ ☎✁☎✁☎ ☎✁☎✁☎ ✆✁✆✁✆ ✆✁✆✁✆ ✝✁✝✁✝ ✝✁✝✁✝ ✞✟✞✟✞✟✞✟✞ ✞✟✞✟✞✟✞✟✞ ✠✟✠✟✠✟✠✟✠ ✠✟✠✟✠✟✠✟✠ ✡✟✡✟✡✟✡✟✡☛✟☛✟☛✟☛✟☛ gène d’origine espacement supérieur à 300 pb Génome C Génome D Génome E

Fig.2.16 – Fonctionnement de String : voisinage conserv´e autour de g`enes d’origine (en noir) dans trois g´enomes C, D et E. Les g`enes orthologues poss`edent le mˆeme motif, les g`enes en blanc sont des g`enes ne poss´edant pas d’orthologue, et les doubles barres indiquent la fin d’une s´erie. La pointe se situant `a l’avant d’un g`ene indique le sens de transcription du g`ene (ou le brin auquel il appartient). Il s’agit ici de la premi`ere it´eration. Dans la seconde it´eration, les g`enes hachur´es seront tour `a tour consid´er´es comme g`ene d’origine. Puis les it´erations se succ`edent jusqu’au nombre fix´e ou jusqu’`a la convergence.

elle est enrichie par des pr´edictions : par analyse de similarit´e les nouveaux g`enes sont affect´es `a un groupe COG. Les groupes de g`enes d´ecouverts sont ensuite affich´es graphiquement, accom-pagn´es d’une table indiquant le nombre de fois o`u le g`ene d’origine apparaˆıt en co-occurrence avec chaque autre g`ene dans la mˆeme s´erie. Ceci permet d’appr´ecier le degr´e de l’association g´enomique entre ces deux g`enes, et donc d’´evaluer la force de l’association fonctionnelle de leurs produits. Un exemple de d´eroulement de cet algorithme est donn´e en figure 2.16.

Cette m´ethode est simple, efficace et rapide. En outre, elle b´en´eficie dans sa version r´evis´ee d’une tr`es bonne interface graphique aux informations multiples. De plus, des outils de pr´edictions suppl´ementaires sont utilis´es en parall`ele : fouille de donn´ees dans les textes scientifiques, donn´ees exp´erimentales, ... Tout ceci en fait donc un outil de choix pour l’´etude de la conservation du voisinage d’un g`ene. Toutefois, nous ne pouvons pas ignorer certaines limites du syst`eme :

– L’utilisateur doit fixer le nombre maximum de g`enes en interaction. La m´ethode utilise des g`enes d’ancrage diff´erents au fil des it´erations et ces g`enes appartiennent `a des groupes COG qui peuvent contenir de nombreux ´el´ements. Il y a donc un risque d’explosion : la masse d’informations sera trop grande pour ˆetre exploitable. C’est notamment ce qui se produit avec certains g`enes de transporteurs ABC car cette famille contient des g`enes hautement paralogues.

– A l’int´erieur des groupes de g`enes conserv´es, les g`enes doivent tous avoir la mˆeme orien-tation (ce fait provenant de l’utilisation de la notion de g`enes en s´erie). Or, il existe des groupes de g`enes fonctionnellement li´es qui pr´esentent la particularit´e de contenir in-diff´eremment des g`enes sur un brin ou sur l’autre (en sens codant ou en sens inverse). C’est le cas de nombreux syst`emes de transport ABC. String ne permet donc que d’obtenir des r´esultats tr`es partiels pour de tels syst`emes.

GeneTeams 43

2.2.2 GeneTeams

Le formalisme de cette m´ethode ayant d´ej`a ´et´e employ´e, je renverrai le lecteur en page 31 pour les d´efinitions de la position d’un g`ene, la permutation et la distance. Ces notions nous permettent de d´efinir ce que les auteurs appellent des δ-chaˆınes. Il s’agit de groupes de g`enes d’orientation quelconque dans lesquels la distance entre deux g`enes cons´ecutifs n’est pas plus grande que le seuil δ.

D´efinition 2.2 Soit S un sous-ensemble de Σ du chromosome C, et (g1...gk) la permutation induite sur S. Pour δ > 0, l’ensemble S est une δ-chaˆıne du chromosome C si pour 1 ≤ j < k, ∆C(gj, gj+1) ≤ δ.

Ainsi, en prenant pour exemple un chromosome D avec Σ = {a, b, c, d, e, f, g}, o`u l’on note par une ´etoile les g`enes qui ne sont pas identifi´es dans Σ, posons D = c a ∗ e ∗ d ∗ ∗ ∗ b g f .

Alors, si δ = 2, {a, e}, {e, d}, {a, e, d} sont des δ-chaˆınes, mais {a, d} ne l’est pas (si l’on ne tient pas compte du e entre a et d alors ∆D(a, d) = 4). On peut noter que tous les singletons sont des δ-chaˆınes.

D´efinition 2.3 Une δ-chaˆıne maximale sur un chromosome C est un ensemble de δ-chaˆınes {d1...dk} telles que pour 1 ≤ j < k, ∆C(dd

j, dpj+1) > δ o`u dd

j est le dernier ´el´ement de la δ-chaˆıne dj et dpj+1 est le premier ´el´ement de la δ-chaˆıne dj+1. De plus, tout ´el´ement situ´e entre dd

j et dpj+1 n’appartient pas `a Σ.

En consid´erant toujours le mˆeme exemple sur D, pour δ = 2 on obtient la δ-chaˆıne maximale : {{c, a, e, d}, {b, g, f }}.

D´efinition 2.4 Un sous-ensemble S de Σ est un δ-ensemble des chromosomes C et D si S est une δ-chaˆıne `a la fois dans C et dans D.

Prenons pour exemple les g`enes de la figure 2.17. En consid´erant δ = 2, on a {a, c} qui est une δ-chaˆıne `a la fois sur C et sur D ; donc {a, c} est un δ-ensemble de C et D.

D´efinition 2.5 Une δ-´equipe sur les chromosomes C et D est un δ-ensemble maximal, c’est-`

a-dire un ensemble de δ-ensembles couvrant le plus de g`enes possible sur C et D et dont l’inter-section est nulle.

Notation 2.6 Une ligue sur les chromosomes C et D est l’union des ´equipes des chromosomes C et D.

En utilisant ce formalisme, nous allons maintenant pouvoir ´etudier les deux algorithmes d´evelopp´es par Bergeron et col. (2003) pour d´ecouvrir les ´equipes de g`enes27. Le premier d’entre eux est une approche polynomiale du probl`eme.

✂✁✂ ✂✁✂ ✂✁✂ ✄✁✄ ✄✁✄ ☎✁☎ ☎✁☎ ✆✝✆✝✆✝✆✞✝✞✝✞✝✞ ✟✝✟✝✟✝✟ ✟✝✟✝✟✝✟ ✠✝✠✝✠✝✠ ✠✝✠✝✠✝✠ ✡✁✡ ✡✁✡ ✡✁✡ ☛✁☛ ☛✁☛ ☞✁☞ ☞✁☞ ✌✁✌ ✌✁✌ ✍✁✍ ✍✁✍ ✎✁✎ ✎✁✎ ✏✁✏ ✏✁✏ ✏✁✏ ✑✁✑ ✑✁✑ ✑✁✑ ✒✁✒ ✒✁✒ ✓✁✓ ✓✁✓ ✔✁✔✁✔ ✕✁✕✁✕ ✖✁✖ ✖✁✖ ✖✁✖ ✗✁✗ ✗✁✗ ✗✁✗ ✘✁✘ ✘✁✘ ✙✁✙ ✙✁✙ a b c d e f a g b c e d g f * * * * * * * * * * C D

Fig. 2.17 – Conservation entre deux s´equences de chromosomes C et D. Le ”nom” de chaque g`ene est port´e au-dessus de ce dernier dans le chromosome C (respectivement au-dessous dans le chromosome D). Les d´elimitations en pointill´es indiquent les δ-chaˆınes maximales pour δ = 1. Ainsi, sur C a-t-on {{a, b, c, d, e}, {f, g}} et sur D : {{c, a, e, d}, {b, g, f }}.

Soient deux permutations sur Σ, πC et πD d´ej`a partitionn´ees en δ-chaˆınes maximales sur les chromosomes C et D :

πC = (c1...ck1)(ck1+1...ck2)...(cks+1...cn) πD = (d1...dl1)(dl1+1...dl2)...(dlt+1...dn)

Soit (ci...cj) une des classes de la partition de πC. (ci...cj) est une ligue. Le but de cet algorithme est de d´ecouper cette classe en m sous-classes S1, ..., Sm telles que :

– chaque sous-classe est une ligue,

– chaque sous-classe est une δ-chaˆıne dans C,

– chaque sous-classe est contenue dans une des classes de πD.

Au d´ebut, il faut cr´eer une sous-classe S1 = (ci), puis il faut lire successivement les g`enes ck

pour i + 1 ≤ k ≤ j. Lorsque l’on traite le g`ene ck, consid´erant que les sous-classes S1 `a Su ont d´ej`a ´et´e cr´e´ees, qu’elles sont toutes des δ-chaˆınes, et que chacune d’elles est contenue dans une des classes de πD, alors :

– le g`ene ck peut ˆetre ajout´e comme le dernier ´el´ement d’une sous-classe d´ej`a cr´e´ee et dont le dernier ´el´ement est c, si et seulement si c et ck appartiennent `a une mˆeme classe dans πD et que ∆C(c, ck) ≤ δ. Sinon,

– le g`ene ck commence une nouvelle sous-classe Su = (ck).

L’algorithme r´ep`ete ce processus alternativement sur les classes de πC et πD jusqu’`a ce que des classes soient ´egales dans les deux permutations. Sa complexit´e est en O(n2), o`u n est le nombre de g`enes.

Reprenons l’exemple de la figure 2.17 et d´eroulons quelques it´erations de l’algorithme. Pour δ = 1 nous avons :

πC = (a b c ∗ d e) ∗ ∗ (f g) ∗ ∗ πD = (c a ∗ e ∗ d) ∗ ∗ ∗ (b g f )

– S1= (a), on lit b :

a et b appartiennent `a une mˆeme classe dans πC,

2.3 R´esultats 45