• Aucun résultat trouvé

Utilisation de familles de séquences orthologues

3.2 Construction d’un réseau de Petri à partir d’un ensemble de réactions . 32

4.1.2 Utilisation de familles de séquences orthologues

Un moyen de contourner le problème du transfert erroné d’annotation par la simi-larité entre deux séquences est de construire des familles de séquences orthologues. Les séquences de chaque famille étant orthologues, il est supposé (voir § précédent) que toutes les protéines associées à ces séquences partagent la même fonction. On peut alors asso-cier à la famille l’annotation fonctionnelle consensuelle de ses membres. Si une nouvelle séquence est classée comme faisant partie d’une famille déjà définie (elle est donc considé-rée comme orthologue à toutes les séquences de la famille), c’est un indice suffisant pour lui assigner la même annotation fonctionnelle que celle associée à la famille. La décision d’associer l’annotation fonctionnelle à la séquence se base ainsi non plus sur la similarité avec une seule séquence mais sur la similarité avec l’ensemble des séquences membres de la famille.

4.1.2.1 Construction de familles de séquences orthologues

Il existe plusieurs façons de construire des familles de séquences orthologues, mais la première étape consiste toujours à comparer deux à deux l’intégralité des séquences que l’on veut classer pour en inférer des liens d’orthologie entre chaque couple de séquences. Cette comparaison deux à deux est effectuée le plus souvent en calculant la distance d’édition entre les deux séquences.

Définition 4 Distance d’édition

Soient deux chaînes de caractères s1 et s2 définies sur un alphabet commun Σ et un

ensemble de transformations élémentaires (la délétion, l’insertion et la substitution d’un caractère) auxquelles est associé un coût individuel, la distance d’édition entre les deux

chaînes s1 et s2 est le coût minimum des transformations élémentaires à appliquer à la

Exemple : la figure 4.4 montre quelques un des chemins les plus courts permettant de

passer de la chaîne s1 = aagcg à la chaîne s2 = agagt.

S agcg agag aagcg aagcgt aagag aagagt agagt I I D D I S S

Fig. 4.4: Distance d’édition entre deux séquences - Dans le cas où les trois opérations

élémentaires délétion(D), insertion(I) et substitution(S) ont un coût identique de 1, alors

la distance d’édition entre les deux chaînes s1 = aagcg et s2 = agagt est de 3 (c’est le

plus petit nombre d’opérations à réaliser pour passer de s1 à s2)

Le critère pour décider s’il y a un lien d’orthologie entre deux séquences s1 et s2de deux

organismes G1 et G2 est généralement un des trois critères suivants (ou une association de

ces critères) :

1. la distance d’édition entre s1 et s2 est au dessous d’un seuil fixé

2. s2 est la séquence de G2 qui est la plus proche de s1

3. s1 est la séquence de G1 qui est la plus proche de s2

La combinaison de 2 et 3 correspond au critère BBH (Bidirectional Best Hit) mentionné au § 4.1.1.

Il faut noter que sur la base du critère BBH, la relation inférée n’est alors pas réflexive. Si le critère BBH est utilisé, dans le cas de duplications récentes d’une des deux séquences, il est possible que le lien soit raté.

Sur la base d’une telle relation d’orthologie, il est possible de définir des familles de séquences orthologues. Dans le meilleur des cas, toutes les séquences regroupées au sein d’une même famille devraient être orthologues deux à deux.

Il est possible de représenter ces relations d’homologie dans un graphe où chaque nœud représente une séquence et où chaque arête entre deux nœuds indique que les deux séquences associées à ces deux nœuds sont homologues. Dans un tel graphe, une clique représente un groupe de séquences toutes deux à deux homologues au sens d’un des critères

4.1. Assignation des fonctions enzymatiques s4 s1 s2 s3 s5 s6 s4 s1 s2 s3 s5 s6 s4 s1 s2 s3 s5 s6

Fig. 4.5: Effet de la perte de quelques arêtes sur la taille de la clique de taille maximale

dans un graphe complet

précédents et devant donc appartenir à une même famille. Dans ce graphe, les familles correspondent donc idéalement aux cliques de taille maximale. Dans la réalité, la taille des cliques est souvent réduite et leur nombre important car certaines relations d’homologie ne sont pas trouvées [Bize et al., 2001].

Exemple : le graphe de la figure 4.5 montre un graphe complet représentant un en-semble de 6 séquences homologues deux à deux. Si trois liens d’homologie (sur quinze possibles) sont ratés, la taille maximale de la famille qu’il est possible de construire passe de six à quatre. Le nombre de familles de taille maximale passe de 1 à 2 et 3 séquences

sont communes à ces deux familles (s4, s5 et s6).

Comme la recherche de clique de taille maximale dans un graphe est un problème dif-ficile [Garey and Johnson, 1979] et que les graphes représentant les relations d’homologie entre séquences peuvent être de taille importante, de nombreuses heuristiques sont mises en œuvre. L’utilisation des heuristiques a pour objectif principal d’augmenter la taille des familles construites tout en garantissant que la ressemblance des séquences reste bonne au sein de la famille. Dans [Perrière et al., 2000], les critères stringents appliqués à la construction des liens d’homologie entre deux séquences autorisent de construire les fa-milles en suivant les liens d’homologie de façon transitive (i.e deux séquences d’une même famille peuvent être reliées indirectement par des liens d’homologie). Chaque composante connexe du graphe représente alors une famille de séquences homologues. Dans [Tatusov et al., 1997], on commence par construire toutes les cliques de taille trois qui représentent des familles initiales. Chaque clique initiale est donc un triangle. Deux familles sont fu-sionnées pour former une famille de plus grande taille si ces deux familles ont un segment commun, i.e. utilisent un même lien d’homologie. [Fujibuchi et al., 2000] introduit la no-tion de graphe complet à P %, i.e. qui contient au moins P % des arcs totaux d’un graphe complet de même taille. Dans ce cas, une famille est un plus grand sous-graphe complet à P %.

4.1.2.2 Evaluation de l’appartenance d’une séquence à une famille de sé-quences homologues

Une fois que les familles sont disponibles, il est possible, pour une nouvelle séquence, de tester son appartenance aux différentes familles. Dans certains cas, l’ajout d’une nouvelle séquence peut impliquer le recalcul de toutes les familles ou d’un nombre important d’entre elles.

Documents relatifs