• Aucun résultat trouvé

3.3 Prédiction des interactions protéine-protéine

3.3.5 Méthodes d’apprentissage

Différentes méthodes de classification avec apprentissage ont été utilisées pour pré- dire des interactions entre des protéines, ou entre des domaines. L’idée est d’apprendre les caractéristiques des paires de protéines en interaction, afin de prédire pour deux pro- téines quelconques si elles interagissent ou non, ou quelle est la probabilité qu’elles inter- agissent. On peut citer par exemple les méthodes des noyaux [Yamanishi et al., 2004], [Ben-Hur et Noble, 2005], [Geurts et al., 2007], les méthodes basées sur les forêts aléatoires (random forest decision) [Qi et al., 2005], [Chen et Liu, 2005], les ma- chines à vecteurs de support (SVM) [Bradford et Westhead, 2005], les réseaux de neurones [Koike et Takagi, 2004], [Fariselli et al., 2002], ou encore un grand nombre de méthodes statistiques basées en général sur des modèles bayésiens [Deng et al., 2002],[Jansen et al., 2003b], [Lee et al., 2006].

Pour finir, une méthode a récemment été développée pour prédire des relations fonc- tionnelles à partir de l’usage des codons [Najafabadi et Salavati, 2008], c’est-à-dire basée simplement sur la séquence (voir page 42).

'

&

$

% Nous avons parcouru ici un ensemble de méthodes de prédiction permettant

d’identifier des relations fonctionnelles entre des gènes ou des protéines, ces re- lations pouvant être des interactions physiques dans certains cas. Par la suite, nous nous intéresserons plus particulièrement à la première méthode présentée, la méthode par interologue, qui consiste à transférer des interactions d’un or- ganisme vers un autre en utilisant des relations d’orthologie entre les protéines. La fin de cette étude bibliographique est consacrée aux méthodes d’intégration de données.

Chapitre 4

Intégration des données

"Les gènes, comme les diamants, sont éternels, mais pas tout à fait de la même façon que ces derniers." Richard Dawkins, Le gène égoïste, 1976

Nous présentons d’abord les questions biologiques principales qui sont posées et amènent les chercheurs à intégrer différents types d’information. Les stratégies adop- tées par certaines méthodes d’intégration sont ensuite exposées.

4.1

Présentation des questions biologiques

Dans le domaine de la recherche biomédicale, un des principaux objectifs est d’iden- tifier des cibles thérapeutiques, c’est-à-dire des gènes qui sont impliqués dans certaines maladies, en particulier les cancers, directement ou par l’intermédiaire de leurs pro- duits (ARNs, protéines). La connaissance de ces cibles permet de diriger entre autres la conception de médicaments. Jeong et al., ainsi que Yu et al., ont par exemple proposé des critères topologiques pour prédire les gènes essentiels, c’est-à-dire des gènes dont l’absence est létale, et par conséquent importants pour l’organisme [Jeong et al., 2003], [Yu et al., 2007].

Plus généralement, l’objectif est de comprendre les mécanismes cellulaires de régula- tion, par exemple les mécanismes de réponse aux stress oxydants et aux métaux lourds. Pour cela, la description et la compréhension se font principalement à deux niveaux : global et local.

À l’échelle globale, le but est d’obtenir une description complète des systèmes géné- tiques de contrôles cellulaires. Ceci se traduit notamment par deux problèmes : l’anno- tation des gènes et la modélisation des réseaux biologiques. Annoter un gène consiste à décrire ses fonctions. Il est souvent nécessaire de prédire les fonctions quand celles-ci sont inconnues. Pour cela, des méthodes ont été développées qui utilisent les relations entre les gènes et les annotations déjà connues, de manière à prédire les fonctions en- core inconnues de certains gènes. Brun et al. ont notamment proposé une méthode de

prédiction de fonction basée sur les réseaux d’interactions protéine-protéine et les voi- sinages des protéines dans ces réseaux [Brun et al., 2003]. De plus, McDermott et al. ont proposé une méthode de pondération des voisins (neighborhood weighting method) [McDermott et al., 2005].

La modélisation des réseaux biologiques concerne non plus les gènes séparément mais les relations entre eux. Ceci consiste notamment à décrire les structures géné- rales des réseaux biologiques, et à modéliser les relations entre les acteurs biologiques (gène, ARN, protéine, métabolite), par exemple sous la forme de voies moléculaires (métaboliques ou signalisation). Albert et al., ainsi que Jeong et al., ont par exemple montré que les réseaux d’interactions protéine-protéine semblaient avoir une topologie appelée scale-free [Albert et al., 2000], [Jeong et al., 2001], c’est-à-dire que la plupart des protéines sont en interaction avec peu d’autres protéines, alors qu’un petit nombre d’entre elles possèdent énormément de partenaires d’interaction. De plus, Wang et al. ont posé la question de la pertinence des réseaux actuels, dans la mesure où certaines méthodes expérimentales détectent des complexes entre plusieurs protéines qui sont en- suite traduits en plusieurs interactions binaires [Wang et Zhang, 2007]. Concernant les voies de signalisation ou les voies métaboliques, différentes méthodes ont été dévelop- pées pour extraire cette information à partir de réseaux d’interactions protéine-protéine [Ideker et al., 2002], [Segal et al., 2003], [Calvano et al., 2005], [Scott et al., 2006].

À l’échelle locale, l’accent est mis sur la description détaillée d’un mécanisme d’in- térêt, centrée autour d’un ensemble de protéines directement impliquées dans ce mé- canisme. Pour répondre à ce problème, différentes stratégies sont utilisées. D’un côté les études classiques de biochimie permettent d’obtenir des résultats détaillés, mais sont coûteuses et nécessitent beaucoup de temps pour être mises en place de manière effective. D’un autre côté, les approches dites à haut-débit permettent au contraire d’avoir des ré- sultats étendus rapidement, mais produisent un grand nombre d’erreurs. Par conséquent, les méthodes qui combinent ces deux aspects sont utiles afin de compléter la connaissance déjà acquise de certains réseaux biologiques clefs. Pour cela, il faut combiner la génétique classique et les techniques de biologie cellulaire avec l’analyse des données de génomique fonctionnelle obtenues par des approches à haut-débit. L’objectif est notamment d’iden- tifier les gènes clefs et les voies moléculaires impliqués dans la régulation cellulaire, le développement ou les maladies en se focalisant sur certains aspects. Calvano et al. ont par exemple étudié les leucocytes du sang chez des patients humains ayant reçu un sti- mulus inflammatoire [Calvano et al., 2005]. Par ailleurs, dans le domaine des métastases en cancérologie, Jonsson et al. ont concentré leur étude autour de quelques protéines à fort potentiel métastatique chez le rat [Jonsson et al., 2006].

Il est évident que toutes ces questions sont très liées les unes avec les autres. Ainsi, les différentes études répondent à plusieurs questions biologiques en même temps et ces problématiques progressent en parallèle. Pour répondre à l’ensemble de ces ques- tions, des méthodes d’intégration de différentes données ont été développées. Dans sa revue, Troyanskaya montre en particulier comment les données transcriptome, qui ont fait partie, après le séquençage, des résultats des premières approches à haut-débit, sont maintenant complétées par d’autres données biologiques [Troyanskaya, 2005]. Combiner

PRÉSENTATION DES MÉTHODES D’INTÉGRATION différents types de données a entre autres les trois objectifs suivants : combiner les forces, combiner les spécificités et tirer profit des relations qui existent entre ces données. Nous allons développer ces trois objectifs dans la partie suivante.