• Aucun résultat trouvé

3.3 Prédiction des interactions protéine-protéine

3.3.1 Méthodes de conservation du contexte génomique

L’analyse comparative des génomes, et en particulier de la conservation des contextes génomiques à travers les espèces, a permis de mettre en évidence des liens fonctionnels entre des gènes ou entre les protéines que ces derniers codent. Ces interactions fonction- nelles ne sont pas nécessairement des interactions physiques. Différentes méthodes ont été comparées par Huynen et al. [Huynen et al., 2000].

3.3.1.1 Transfert par interologue

La méthode de transfert par interologue est basée sur l’hypothèse que des protéines liées fonctionnellement ont tendance à co-évoluer. L’idée est donc de combiner des inter- actions connues dans un organisme donné et de tenter de les transférer en considérant les relations d’orthologie entre les deux organismes considérés (voir page 43). Ce concept,

PRÉDICTION DES INTERACTIONS PROTÉINE-PROTÉINE

Fig. 3.4 – Représentation des interactions protéine-protéine sous forme d’un graphe non orienté. Chaque nœud du graphe représente une protéine. Les arêtes représentent les interactions entre les protéines.

Fig. 3.5 – Représentation des interactions protéine-protéine sous forme d’un graphe orienté. Chaque nœud du graphe représente une protéine. Les interactions entre les protéines sont ici représentées par des arêtes orientées, ce qui peut être utile lorsque les détections des interactions A → B et B → A sont distinctes.

Fig. 3.6 – Nombre d’interactions disponibles dans IntAct. Cet histogramme re- présente le nombre d’interactions binaires (en rouge) présentes par espèce dans la base de données IntAct [Kerrien et al., 2007a], ainsi que le nombres de protéines (en bleu) impliquées dans ces interactions. La levure est l’organisme pour lequel le plus d’inter- actions ont été identifiées (environ 50 000 interactions protéine-protéine). Seuls quatre organismes ont plus de 10 000 interactions disponibles : la levure (Saccharomyces cere- visiae), l’homme (Homo sapiens), la mouche du vinaigre (Drosophilia melanogaster ) et la bactérie Escherichia coli.

PRÉDICTION DES INTERACTIONS PROTÉINE-PROTÉINE introduit par Walhout et al., est connu sous le nom d’interologue (association d’interac- tions et d’orthologues) [Walhout et al., 2000].

De tels transferts ont déjà été effectués pour un petit nombre d’organismes mo- dèles et avec différentes méthodes d’identification des relations d’orthologie. Matthews et al. ont notamment transféré deux expériences de double-hybride à grande échelle de la levure vers l’homme [Matthews et al., 2001]. Des carte d’interactions protéine- protéine ont été construites pour différents organismes comme C. elegans, H. pylori ou D. melanogaster [Yu et al., 2004b] en se basant sur l’interactome de la levure. Des réseaux d’interactions protéine-protéine ont été inférés chez l’homme à partir de plusieurs organismes sources en utilisant l’algorithme InParanoïd [Remm et al., 2001] pour déterminer les protéines orthologues [Huang et al., 2007b], [Huang et al., 2004], [Lehner et Fraser, 2004], [Persico et al., 2005]. Brown et al. ont développé la base de données OPHID [Brown et Jurisica, 2005] qui contient des interactions protéine- protéine chez l’homme également. Pour identifier les relations d’orthologie, les au- teurs ont utilisé BLASTP [Altschul et al., 1990] et l’approche dite RBH pour Re- ciprocal Best Hit [Tatusov et al., 1997], [Hirsh et Fraser, 2001], [Jordan et al., 2002]. Une carte d’interactions protéine-protéine a été établie chez Plasmodium falciparum [Wuchty et Ipsaro, 2007]. Wojcik et al. ont, quant à eux, construit une carte d’interac- tions protéine-protéine chez Helicobacter pylori en se basant sur les interactions domaine- domaine [Wojcik et al., 2002].

3.3.1.2 Profils phylogénétiques

De la même façon que pour le transfert par interologue, cette méthode est basée sur l’hypothèse que des protéines liées fonctionnellement ont tendance à co-évoluer. Au lieu de transférer les interactions d’un organisme vers un autre en considérant des relations d’orthologie de l’un vers l’autre, on se propose ici de considérer des groupes d’orga- nismes. Dans ce cas, des protéines reliées fonctionnellement doivent avoir des protéines homologues dans des ensembles proches d’organismes (voir page 43).

Chaque protéine est alors représentée par un vecteur binaire indiquant la pré- sence ou l’absence de celle-ci dans chaque génome étudié [Pellegrini et al., 1999], [Gertz et al., 2003], [Wu et al., 2003]. Les protéines ayant un profil phylogénétique proche sont prédites comme fonctionnellement liées, c’est-à-dire qu’elles participent à un même complexe protéique ou à une même voie métabolique.

Des développements ont été faits pour quantifier le niveau de confiance porté à ces prédictions [Wu et al., 2006b]. Wu et al. ont en effet étendu la méthode initiale en pre- nant en compte la probabilité qu’un degré de similarité arbitraire donné entre deux profils apparaisse aléatoirement. Certaines méthodes prennent en compte également les relations phylogénétiques entre les organismes. Ceci donne des résultats plus précis mais engendre une plus forte complexité algorithmique. Cokus et al. ont proposé une heu- ristique pour prendre en compte ces relations phylogénétiques entre les organismes de manière efficace [Cokus et al., 2007].

Un des principaux inconvénients de cette méthode est qu’il faut considérer des gé- nomes entiers de façon à être sûr de l’éventuelle absence de protéines homologues pour

une protéine donnée dans ce génome. De plus, comme pour la méthode des interologues, des seuils arbitraires sont utilisés pour déterminer si une protéine homologue est présente ou non. Enfin, il a été montré que des protéines homologues peuvent avoir des fonctions différentes [Bandyopadhyay et al., 2006]. Ainsi, la présence d’une protéine homologue ne garantit pas que la fonction soit conservée à travers les espèces.

3.3.1.3 Conservation du contexte génomique local

Cette méthode est basée sur le fait que, dans les génomes bactériens et archaebacté- riens, les gènes voisins ont tendance à coder des protéines qui montrent des interactions physiques ou fonctionnelles entre elles. Cette observation a donné naissance à plusieurs variantes.

La conservation du contexte génomique à travers les génomes peut être détec- tée entre autres par l’analyse de l’ordre des gènes ou de la structure en opéron [Dandekar et al., 1998]. Cette conservation peut aussi être détectée par l’analyse de clus- ters particuliers de gènes. Overbeek et al. ont notamment définis des clusters comme des ensembles de gènes qui apparaissent sur le même brin d’ADN et sont séparés d’au plus 300 paires de bases [Overbeek et al., 1999].

La principale limitation de ces méthodes est qu’elles ne sont pas applicables aux eu- caryotes où, à part quelques exceptions, les gènes semblent être distribués aléatoirement [von Mering et Bork, 2002].

3.3.1.4 Analyse de la fusion des gènes

Une interaction fonctionnelle peut également être inférée par la présence, dans un organisme, de protéines ayant des homologues fusionnées en une seule protéine dans un autre organisme (voir page 43). L’existence d’une telle protéine de fusion dans un génome, appelée "Rosetta Stone sequence" [Marcotte et al., 1999a] ou "protéine com- posite" [Enright et al., 1999], permet de prédire une interaction entre les protéines pos- sédant un unique domaine dans d’autres génomes même si elles ne sont pas codées par des gènes voisins. Cette méthode est limitée par le nombre d’événements de fusion de gènes qui varie selon l’organisme et les types de gènes.

Ainsi, la conservation du contexte génomique permet d’identifier des relations fonc- tionnelles entre des gènes, et par la suite entre des protéines, en considérant l’ordre, la proximité ou l’existence des gènes dans différentes espèces. Ceci peut s’étudier également de façon plus détaillée au niveau des bases azotées elles-mêmes dans le cas des gènes, ou au niveau des acides aminés dans le cas des protéines. C’est ce que nous allons voir maintenant.