• Aucun résultat trouvé

Chapitre 1: Introduction générale

3. Les réseaux biologiques

3.2. Des protéines aux réseaux biologiques

On a pu voir que les données étaient amenées à jouer un rôle central dans une démarche d’acquisition de connaissances en bioinformatique. Aussi, il est nécessaire de bien comprendre de quelles données on dispose en pratique et de savoir comment elles ont été obtenues pour mieux décider du niveau de confiance qu’on peut leur accorder.

Dans cette partie, nous parlerons essentiellement de données disponibles publiquement dans des bases puisque c’est ce type de données que nous avons principalement utilisé. Certaines bases de données sont généralistes (KEGG), d’autres sont spécifiques d’un organisme (EcoCyc). Il existe également des jeux de données disponibles publiquement qui sont spécifiques à une question biologique et qui ont été constitués précisément pour y répondre. Au sein des données disponibles dans les bases, on distingue ainsi 3 types :

– les données issues de la littérature (ou données bas débit) ; – les données issues d’expériences à haut débit ;

– les données inférées.

On peut également faire la différence entre données qualitatives (quelles sont les molécules qui interagissent) et données quantitatives (quelles sont les constantes d’association). On parlera dans cette partie essentiellement de données qualitatives. Ces données permettent de travailler avec des modèles qualitatifs afin de poser des questions d’ordre structurel. On note qu’en pratique, les données quantitatives ne sont disponibles que pour des voies très étudiées. Enfin, parmi les types de données dont nous ne parlerons pas, on peut mentionner les données issues de la métabolomique, nouveau domaine en expansion. Une expérience de métabolomique consiste à mesurer tous les métabolites présents à un instant donné dans une cellule. Ces données peuvent être qualitatives ou quantitatives. Pour une introduction à ce domaine, voir [Nobeli et Thornton, 2006].

3.2.2. Interactions protéine-protéine (IPP)

Les protéines sont l’un des principaux composants de la matière vivante. En effet, elles constituent la majeure partie de la masse sèche des cellules (Alberts, 1998) et sont impliquées dans de très nombreux processus allant de la protection de l’organisme à la réplication de l’information génétique, en passant par la transduction de signaux cellulaires.

Les protéines ne travaillent pas seules. En effet, la majorité des processus biologiques font intervenir plus d’une dizaine d’entre elles, chaque protéine interagissant avec une ou plusieurs autres protéines et formant ainsi des complexes protéiques transitoires ou permanents. Ainsi, on estime l’interactome humain (l’ensemble des interactions protéine-protéine) à environ 130 000 interactions (Venkatesan et al., 2009). A une échelle moindre, la base de données SynSysNet spécialisée dans les protéines de la synapse recense 4638 interactions connues au sein des synapses (von Eichborn et al., 2013). Au sein de ce réseau d’interactions, toutes les protéines ne sont pas également connectées. En effets certaines n’interagissent qu’avec une protéine, alors que d’autre interagissent avec plusieurs centaines de protéines. Par analogie avec les réseaux de télécommunications, ces protéines centrales sont dénommées “hub” et sont particulièrement importantes pour le fonctionnement des cellules de par leur rôle central dans la formation de complexes (Jeong et al., 2001, Pang et al., 2010).

3.2.3. Mise en évidence d’interactions physiques entre protéines

Il existe de nombreuses techniques expérimentales pour mettre en évidence les interactions physiques entre protéines. L’une des premières méthodes haut débit développée est la méthode du “double hybride”. Les paires des protéines dont on veut tester l’interaction sont exprimées sous forme de protéines chimériques. Sur l’une des deux protéines on ajoute un domaine de fixation à l’ADN et sur la seconde protéine un domaine activateur de la

transcription. Si les deux protéines interagissent, la présence de ces deux domaines entrainera la transcription d’un gène rapporteur et donc la détection de la transcription (Ito et al., 2001). Cette technique est puissante car elle se déroule in vivo et permet de détecter des interactions même transitoires.

Contrairement à la méthode du double hybride qui n’identifie que des couples de protéines interagissant, la méthode TAP-MAS (Tandem Affinity Purification - Mass Spectrometry) permet de mettre en évidence les complexes multiprotéiques (Puig et al., 2001). Cette technique s’appuie sur la création d’une protéine chimère formée d’une séquence tag et de la protéine d’intérêt. Cette séquence tag permettra de retenir la protéine d’intérêt dans une colonne d’affinité. Ainsi, lors du passage des protéines à tester dans la colonne, les protéines formant un complexe avec la protéine chimère seront retenues. La purification des complexes permettra ensuite d’identifier leurs composants par spectrométrie de masse.

3.2.4. Mise en évidence d’interactions fonctionnelles

Il existe également des méthodes dites indirectes pour détecter des interactions entre protéines. On parle alors plutôt d’interactions fonctionnelles au lieu d’interactions physiques. Une méthode indirecte utilisée pour les organismes procaryotes est la notion de voisinage génomique. Cette méthodologie est possible grâce à l’organisation en opérons des génomes procaryotes. Les opérons sont des ensembles de gènes voisins qui sont régulés par le même facteur de transcription et impliqués dans les mêmes voies biologiques. Ainsi, en observant que deux gènes sont très fréquemment voisins dans le génome de plusieurs organismes, il est probable que les protéines issues de ces deux gènes aient une interaction fonctionnelle (Overbeek et al., 1999).

Pour les organismes dont les gènes ne sont pas organisés en opérons, il est possible d’étudier les co-expressions de gènes. En effet, une conservation de la co-expression de 2 gènes dans de multiples organismes indique un avantage sélectif lors de l’évolution et donc que les protéines codées par ces gènes interagissent (Stuart et al., 2003).

Une autre manière de détecter des interactions fonctionnelles est d’étudier les évènements de fusion de gènes. En effet, deux protéines d’un organisme peuvent être en interaction si elles sont également présentes dans un autre organisme sous la forme de deux domaines d’une seule protéine (Yanai et al., 2001).

Les interactions protéine-protéine peuvent être conservées entre les organismes proches (Walhout et al., 2000), on parle alors d’interologues (issue de la combinaison d’interaction et d’orthologue). En utilisant cette notion, on peut alors prédire des interactions en recherchant les interactions existantes dans des organismes proches.