Les méthodes développées en parallèle

2.2 Les méthodes développées en parallèle

Les deux travaux que je m’apprête à présenter, (Snel et col., 2000) et (Bergeron et col., 2003) sont ceux qui se rapprochent le plus de ma méthode. De nombreuses autres méthodes, recherchant la conservation d’un certain ordre à l’intérieur des génomes, ont été développées. Elles ont pour but de prédire la fonction des gènes et utilisent des relations d’homologie et de voisinage. De plus, la masse d’informations traitée est telle qu’il faut rechercher des algorithmes très performants pour traiter le problème en un temps acceptable. Je citerai rapidement (Mazumder et col., 2001), (Tamames et col., 2001), et (Suyama et Bork, 2001) dont l’objectif est surtout de montrer que la conservation des gènes n’est pas aléatatoire. Abordons maintenant la plus aboutie de ces méthodes, puisque dotée d’une interface conviviale et accessible directement sur internet : le serveur web String.

2.2.1 STRING

La méthodologie de String a été décrite dans (Snel et col., 2000) et une mise à jour a été faite (von Mering et col., 2003), portant sur l’augmentation du nombre de génomes disponibles ainsi que sur l’amélioration de l’interface web et des outils d’analyse exploratoire disponibles (http ://www.bork.embl-heidelberg.de/STRING). L’utilisateur doit fournir un gène de requête qui sera utilisé comme gène d’ancrage – le seed gene. S’il n’y a aucun gène conservé dans le voisinage de ce gène, alors ce sont ses gènes orthologues qui seront utilisés en tant que gène d’o-rigine (ancrage). Le processus est effectué par itérations successives. Dans la première itération, String récupère et affiche les gènes qui apparaissent de manière répétée en co-occurrence avec le gène d’origine dans des groupes de gènes de multiples génomes issus de la bangue de données SwissProt. Les groupes de gènes sont ici définis en utilisant le concept de gènes en série d’Over-beek et col. (1999).

Définition 2.1 Un ensemble de gènes en série – ou run – est un ensemble de gènes sur le même brin qui ne sont pas interrompus par des séquences de plus de 300 paires de bases ne codant pour aucun gène (Overbeek et col., 1999).

Il faut noter que deux gènes ayant fusionné au cours de l’évolution seront définis comme ap-partenant à une même série ; le gène résultant portant alors deux domaines fonctionnels. Dans les itérations suivantes, ce processus sera répété en utilisant successivement tous les nouveaux gènes, découverts lors de l’itération précédente, comme gène d’origine. Le nombre d’itérations est fixé par l’utilisateur ; dans la dernière version ce paramètre est masqué par un autre : le nombre maximum de gènes en interaction (la valeur par défaut est fixée à 10). Le processus général s’achève lorsque ce nombre est atteint ou lorsqu’aucun nouveau gène n’est découvert (convergence).

Dans la dernière version de String, les orthologues sont issus de la base de données COG (pour Clusters of Orthologous Genes) (Tatusov et col., 2001). Comme cette base (voir Chapitre 1) n’est pas mise à jour aussi rapidement que les génomes nouvellement séquencés apparaissent,

✁✁✁ ✁✁✁ ✁✁✁ ✂✁✂✁✂ ✂✁✂✁✂ ✂✁✂✁✂ ✄✁✄✁✄ ✄✁✄✁✄ ☎✁☎✁☎ ☎✁☎✁☎ ✆✁✆✁✆ ✆✁✆✁✆ ✝✁✝✁✝ ✝✁✝✁✝ ✞✟✞✟✞✟✞✟✞ ✞✟✞✟✞✟✞✟✞ ✠✟✠✟✠✟✠✟✠ ✠✟✠✟✠✟✠✟✠ ✡✟✡✟✡✟✡✟✡☛✟☛✟☛✟☛✟☛ gène d’origine espacement supérieur à 300 pb Génome C Génome D Génome E

Fig.2.16 – Fonctionnement de String : voisinage conservé autour de gènes d’origine (en noir) dans trois génomes C, D et E. Les gènes orthologues possèdent le même motif, les gènes en blanc sont des gènes ne possédant pas d’orthologue, et les doubles barres indiquent la fin d’une série. La pointe se situant à l’avant d’un gène indique le sens de transcription du gène (ou le brin auquel il appartient). Il s’agit ici de la première itération. Dans la seconde itération, les gènes hachurés seront tour à tour considérés comme gène d’origine. Puis les itérations se succèdent jusqu’au nombre fixé ou jusqu’à la convergence.

elle est enrichie par des prédictions : par analyse de similarité les nouveaux gènes sont affectés à un groupe COG. Les groupes de gènes découverts sont ensuite affichés graphiquement, accom-pagnés d’une table indiquant le nombre de fois où le gène d’origine apparaˆıt en co-occurrence avec chaque autre gène dans la même série. Ceci permet d’apprécier le degré de l’association génomique entre ces deux gènes, et donc d’évaluer la force de l’association fonctionnelle de leurs produits. Un exemple de déroulement de cet algorithme est donné en figure 2.16.

Cette méthode est simple, efficace et rapide. En outre, elle bénéficie dans sa version révisée d’une très bonne interface graphique aux informations multiples. De plus, des outils de prédictions supplémentaires sont utilisés en parallèle : fouille de données dans les textes scientifiques, données expérimentales, ... Tout ceci en fait donc un outil de choix pour l’étude de la conservation du voisinage d’un gène. Toutefois, nous ne pouvons pas ignorer certaines limites du système :

– L’utilisateur doit fixer le nombre maximum de gènes en interaction. La méthode utilise des gènes d’ancrage différents au fil des itérations et ces gènes appartiennent à des groupes COG qui peuvent contenir de nombreux éléments. Il y a donc un risque d’explosion : la masse d’informations sera trop grande pour être exploitable. C’est notamment ce qui se produit avec certains gènes de transporteurs ABC car cette famille contient des gènes hautement paralogues.

– A l’intérieur des groupes de gènes conservés, les gènes doivent tous avoir la même orien-tation (ce fait provenant de l’utilisation de la notion de gènes en série). Or, il existe des groupes de gènes fonctionnellement liés qui présentent la particularité de contenir in-différemment des gènes sur un brin ou sur l’autre (en sens codant ou en sens inverse). C’est le cas de nombreux systèmes de transport ABC. String ne permet donc que d’obtenir des résultats très partiels pour de tels systèmes.

GeneTeams 43

2.2.2 GeneTeams

Le formalisme de cette méthode ayant déjà été employé, je renverrai le lecteur en page 31 pour les définitions de la position d’un gène, la permutation et la distance. Ces notions nous permettent de définir ce que les auteurs appellent des δ-chaˆınes. Il s’agit de groupes de gènes d’orientation quelconque dans lesquels la distance entre deux gènes consécutifs n’est pas plus grande que le seuil δ.

D´efinition 2.2 Soit S un sous-ensemble de Σ du chromosome C, et (g₁...g_k) la permutation induite sur S. Pour δ > 0, l’ensemble S est une δ-chaˆıne du chromosome C si pour 1 ≤ j < k, ∆C(gj, g_j+1) ≤ δ.

Ainsi, en prenant pour exemple un chromosome D avec Σ = {a, b, c, d, e, f, g}, où l’on note par une étoile les gènes qui ne sont pas identifiés dans Σ, posons D = c a ∗ e ∗ d ∗ ∗ ∗ b g f .

Alors, si δ = 2, {a, e}, {e, d}, {a, e, d} sont des δ-chaˆınes, mais {a, d} ne l’est pas (si l’on ne tient pas compte du e entre a et d alors ∆D(a, d) = 4). On peut noter que tous les singletons sont des δ-chaˆınes.

D´efinition 2.3 Une δ-chaˆıne maximale sur un chromosome C est un ensemble de δ-chaˆınes {d1...dk} telles que pour 1 ≤ j < k, ∆C(dd

j, d^p_j+1) > δ o`u dd

j est le dernier élément de la δ-chaˆıne dj et d^p_j+1 est le premier élément de la δ-chaˆıne d_j+1. De plus, tout élément situé entre dd

j et d^p_j+1 n’appartient pas `a Σ.

En consid´erant toujours le mˆeme exemple sur D, pour δ = 2 on obtient la δ-chaˆıne maximale : {{c, a, e, d}, {b, g, f }}.

D´efinition 2.4 Un sous-ensemble S de Σ est un δ-ensemble des chromosomes C et D si S est une δ-chaˆıne `a la fois dans C et dans D.

Prenons pour exemple les gènes de la figure 2.17. En considérant δ = 2, on a {a, c} qui est une δ-chaˆıne à la fois sur C et sur D ; donc {a, c} est un δ-ensemble de C et D.

D´efinition 2.5 Une δ-´equipe sur les chromosomes C et D est un δ-ensemble maximal, c’est-`

a-dire un ensemble de δ-ensembles couvrant le plus de g`enes possible sur C et D et dont l’inter-section est nulle.

Notation 2.6 Une ligue sur les chromosomes C et D est l’union des ´equipes des chromosomes C et D.

En utilisant ce formalisme, nous allons maintenant pouvoir étudier les deux algorithmes développés par Bergeron et col. (2003) pour découvrir les équipes de gènes²⁷. Le premier d’entre eux est une approche polynomiale du problème.

✁ ✁ ✁ ✂✁✂ ✂✁✂ ✂✁✂ ✄✁✄ ✄✁✄ ☎✁☎ ☎✁☎ ✆✝✆✝✆✝✆✞✝✞✝✞✝✞ ✟✝✟✝✟✝✟ ✟✝✟✝✟✝✟ ✠✝✠✝✠✝✠ ✠✝✠✝✠✝✠ ✡✁✡ ✡✁✡ ✡✁✡ ☛✁☛ ☛✁☛ ☞✁☞ ☞✁☞ ✌✁✌ ✌✁✌ ✍✁✍ ✍✁✍ ✎✁✎ ✎✁✎ ✏✁✏ ✏✁✏ ✏✁✏ ✑✁✑ ✑✁✑ ✑✁✑ ✒✁✒ ✒✁✒ ✓✁✓ ✓✁✓ ✔✁✔✁✔ ✕✁✕✁✕ ✖✁✖ ✖✁✖ ✖✁✖ ✗✁✗ ✗✁✗ ✗✁✗ ✘✁✘ ✘✁✘ ✙✁✙ ✙✁✙ a b c d e f a g b c e d g f * * * * * * * * * * C D

Fig. 2.17 – Conservation entre deux séquences de chromosomes C et D. Le ”nom” de chaque gène est porté au-dessus de ce dernier dans le chromosome C (respectivement au-dessous dans le chromosome D). Les délimitations en pointillés indiquent les δ-chaˆınes maximales pour δ = 1. Ainsi, sur C a-t-on {{a, b, c, d, e}, {f, g}} et sur D : {{c, a, e, d}, {b, g, f }}.

Soient deux permutations sur Σ, πC et πD déjà partitionnées en δ-chaˆınes maximales sur les chromosomes C et D :

πC = (c1...ck₁)(ck₁+1...ck₂)...(cks+1...cn) πD = (d₁...dl₁)(dl₁+1...dl₂)...(dlt+1...dn)

Soit (ci...cj) une des classes de la partition de πC. (ci...cj) est une ligue. Le but de cet algorithme est de d´ecouper cette classe en m sous-classes S₁, ..., Sm telles que :

– chaque sous-classe est une ligue,

– chaque sous-classe est une δ-chaˆıne dans C,

– chaque sous-classe est contenue dans une des classes de πD.

Au début, il faut créer une sous-classe S1 = (ci), puis il faut lire successivement les gènes ck

pour i + 1 ≤ k ≤ j. Lorsque l’on traite le gène ck, considérant que les sous-classes S₁ à Su ont déjà été créées, qu’elles sont toutes des δ-chaˆınes, et que chacune d’elles est contenue dans une des classes de πD, alors :

– le gène c_k peut être ajouté comme le dernier élément d’une sous-classe déjà créée et dont le dernier élément est c, si et seulement si c et ck appartiennent à une même classe dans πD et que ∆C(c, ck) ≤ δ. Sinon,

– le g`ene c_k commence une nouvelle sous-classe S_u = (c_k).

L’algorithme répète ce processus alternativement sur les classes de πC et πD jusqu’à ce que des classes soient égales dans les deux permutations. Sa complexité est en O(n²), où n est le nombre de gènes.

Reprenons l’exemple de la figure 2.17 et d´eroulons quelques it´erations de l’algorithme. Pour δ = 1 nous avons :

πC = (a b c ∗ d e) ∗ ∗ (f g) ∗ ∗ π_D = (c a ∗ e ∗ d) ∗ ∗ ∗ (b g f )

– S1= (a), on lit b :

a et b appartiennent `a une mˆeme classe dans πC,

2.3 R´esultats 45

Dans le document Algorithmes pour la recherche de classes de gènes en relations fonctionnelles par analyse de proximités et de similarités de séquences (Page 56-60)