• Aucun résultat trouvé

4.2 Caractérisation de la dynamique des modules

4.2.4 Identification de groupes isolées

L’objectif était de séparer du graphe des transitions les composantes connexes, afin d’extraire les groupes de modules isolés les uns des autres. Pour cela, nous avons construit des groupes de modules, ou méta-modules, regroupant tous les modules reliés par des événements.

Les résultats montrent que les réseaux SatoCore et surtout SatoFull sont composés de nettement plus de composantes isolées que le réseau InteroFull (voir Table 4.7).

Le formalisme que nous proposons permet donc de dégager les groupes stables. En effet, chaque temps d’une cinétique constitue une légère perturbation par rapport à la dé- composition globale du réseau. Les transitions mettent en évidence les changements. De plus, l’identification des groupes isolés permet de faire un consensus entre les différentes décompositions en modules.

'

&

$

% Nous avons exploité les aspects dynamiques des cinétiques pour moduler les dé-

compositions en modules des différents réseaux d’interactions protéine-protéine. Ceci nous a permis de caractériser l’évolution des modules, notamment en défi- nissant des événements de transition entre les modules d’un temps d’une ciné- tique au suivant. De plus, nous avons identifié les modules stables au cours des cinétiques. Enfin, nous avons extrait des groupes de modules isolés.

4.2. CARACTÉRISATION DE LA DYNAMIQUE DES MODULES

Réseau Stress Filtrage Nb C

InteroFull Cd 0 100 SatoFull Cd 0 343 SatoCore Cd 0 347 InteroFull Cd 5 0 SatoFull Cd 5 8 SatoCore Cd 5 13 InteroFull H2O2 0 86 SatoFull H2O2 0 277 SatoCore H2O2 0 320 InteroFull H2O2 5 4 SatoFull H2O2 5 17 SatoCore H2O2 5 25

Tab. 4.6 – Identification de modules stables. La colonne Réseau indique le réseau d’interactions protéine-protéine considéré. La colonne Stress indique la cinétique utili- sée pour pondérer les interactions. La colonne Filtrage indique la taille en-dessous de laquelle les modules n’ont pas été pris en compte. La colonne Nb C indique le nombre de modules stables au cours de la cinétique.

Réseau Stress Filtrage Nb C

InteroFull Cd 0 347 SatoFull Cd 0 637 SatoCore Cd 0 493 InteroFull Cd 5 92 SatoFull Cd 5 184 SatoCore Cd 5 92 InteroFull H2O2 0 319 SatoFull H2O2 0 576 SatoCore H2O2 0 450 InteroFull H2O2 5 83 SatoFull H2O2 5 180 SatoCore H2O2 5 96

Tab. 4.7 – Identification de groupes isolés. La colonne Réseau indique le réseau d’interactions protéine-protéine considéré. La colonne Stress indique la cinétique utili- sée pour pondérer les interactions. La colonne Filtrage indique la taille en-dessous de laquelle les modules n’ont pas été pris en compte. La colonne Nb C indique le nombre de groupes isolés au cours de la cinétique, c’est-à-dire qui n’interagissent pas avec d’autres modules.

Conclusion

Dans ce chapitre, nous avons proposé des méthodes d’analyse des modules de pro- téines en nous basant sur des réseaux d’interactions protéine-protéine et des données d’expression des gènes correspondants. Nous avons ainsi identifié des modules pour les différents réseaux et les différents stress étudiés. Nous avons extrait les modules régulés et ceux faisant intervenir des protéines impliquées dans certains mécanismes d’intérêt, comme l’homéostasie du fer et du soufre. Ceci nous a permis de mettre en évidence des protéines inconnues potentiellement impliquées dans ces processus. De plus, nous avons proposé un formalisme pour étudier la dynamique de ces modules, et notamment les transitions entre les différents temps d’une cinétique.

Si ces méthodes sont encore très simples et très exploratoires, elles permettent néan- moins de combiner les données à l’échelle du génome pour se recentrer sur certains processus biologiques particuliers. Il conviendrait d’analyser en détails les résultats ob- tenus, notamment en termes fonctionnels, afin de les évaluer globalement et d’obtenir de nouvelles pistes en termes de biologie. Les méthodes proposées pourraient éventuel- lement être adaptées en fonction des observations fonctionnelles. D’autres méthodes de décomposition en modules pourraient également être considérées [Hwang et al., 2006], [Ulitsky et Shamir, 2007].

D’autre part, il serait intéressant d’exploiter les réseaux d’interactions protéine- protéine non plus pour extraire des modules, mais plutôt des voies de signalisation [Segal et al., 2003], [Baudot et al., 2008].

Discussion

"La science n’est pas "le bon sens systématisé". Pour être passionnante, elle doit remettre en question notre vision du monde et opposer des théories solides aux vieux préjugés anthropocentristes que nous appelons intuition." Stephen Jay Gould, Darwin et les grandes énigmes de la vie, 1997

Le concept de classification a été utilisé à plusieurs reprises dans ce travail, que ce soit la classification mixte hiérarchique pyramidale, ou la classification fonctionnelle utilisée pour annoter les protéines.

Une classification est un système organisé et hiérarchisé, qui permet de classer les connaissances dans un domaine particulier. Les classifications sont utilisées entre autres dans les sciences de la nature (classification phylogénétique, tableau périodique des élé- ments) ou les bibliothèques (classification bibliothéco-bibliographique BBK créée du temps de l’Union Soviétique, principes de classement des documents musicaux PCDM, classification décimale de Dewey CDD). Certaines classifications, comme par exemple la classification hiérarchique, permettent de représenter des données notamment en hiérar- chisant les relations entre les objets considérés. Ainsi, la structure hiérarchique est une suite d’inclusions qui décrit une organisation en différents niveaux. À chaque niveau, la classification hiérarchique définit une partition des objets.

Néanmoins, cette organisation hiérarchique suppose que ces différentes classes sont disjointes, c’est-à-dire qu’un élément ne peut appartenir qu’à une seule classe. Or, si l’on considère les protéines et leur implication dans une fonction donnée, on est confronté à un problème. En effet, la plupart des protéines interviennent dans plusieurs fonctions différentes.

Prenons par exemple une protéine ayant les fonctions A et B. D’un côté, on peut estimer qu’il s’agit de fonctions alternatives, c’est-à-dire que l’on étudie parfois la pro- téine de fonction A, et d’autres fois la protéine de fonction B. Dans ce cas, il faudrait considérer deux objets différents qui seraient classés séparément, et apparaîtraient donc à deux endroits différents de la hiérarchie.

Mais d’un autre côté, on peut vouloir exprimer le fait que cette protéine a une capa- cité particulière avec deux fonctions différentes, par exemple dans le cas de la présence ou de l’absence d’un partenaire. Dans ce cas, la représentation de l’organisation des pro- téines doit tenir compte de cette multifonctionalité. Pour représenter ceci, l’utilisation

du modèle pyramidal est très utile. Les pyramides permettent en effet de représenter des classes recouvrantes qui sont rarement étudiées en général [Palla et al., 2005], mais sont pourtant importantes.

Le découpage automatique que nous avons développé permet de réaliser notamment des classifications mixtes hiérarchiques-pyramidales. Nous avons mis en pratique cette méthode de classification avec des données transcriptome, permettant ainsi de faire ap- paraître des relations entre les gènes et de les classer. Cette méthode de classification peut s’appliquer de manière beaucoup plus générale à d’autres types de données. En effet, la classification est basée sur la définition d’une distance entre des individus. Par conséquent, cette méthode peut être utilisée dans des domaines bien différents, comme par exemple des groupes de consommateurs dans un supermarché, ou bien encore des groupes de joueurs de tennis ayant des profils de victoires plus ou moins similaires. Dans notre cas, il est clair que cette méthode peut s’appliquer à d’autres espèces ou d’autres types de données. De plus, dans le cas de l’utilisation que nous en avons faite sur les données transcriptome, il pourrait être intéressant d’enrichir la distance entre les gènes par une annotation fonctionnelle, en plus des données d’expression. Différents types d’in- formation peuvent être combinés de manière à obtenir une distance plus complète avant de réaliser la classification.

Certes, le découpage automatique n’est pas très robuste en l’état. Il pourrait être intéressant, plutôt que de qualifier les partitions de plus haut niveau, d’étudier plus généralement la fonction qualifiant les partitions de manière globale, et de chercher un extremum en utilisant par exemple des méthodes numériques (Monte-Carlo, recuit simulé).

Par ailleurs, il faut noter que la structure hiérarchique même n’est pas très robuste. Ainsi, de faibles variations des données transcriptome conduisent à des structures diffé- rentes. Or, ces données sont largement bruitées. Par conséquent, il pourrait être intéres- sant de considérer une approche de construction de multiples structures hiérarchiques. Par similarité avec les études phylogénétiques, une structure consensus pourrait ensuite être construite de manière à refléter une structure plus générale et plus robuste des don- nées [Clauset et al., 2008]. De plus, les pyramides pourraient être remplacées par des méthodes permettant des recouvrements multiples, comme par exemple les treillis de Galois.

Concernant la méthode d’identification automatique de biais que nous avons déve- loppée et implémentée sous la forme de l’outil BiasSeeker, plusieurs aspects pourraient être approfondis. La limite principale de cette méthode est que nous ne tenons compte ni des niveaux d’induction des gènes, ni de la relation quantitative entre les ARNm et les protéines. Une information sur les concentrations relatives serait intéressante, mais elle n’est pas directement disponible par les données transcriptome. D’autre part, les dépendances entre les différents biais pourraient être explicitées, afin de développer un modèle plus réaliste, et de prendre en compte les tests statistiques multiples et leurs dépendances. L’exploitation de ce travail est en cours et elle devrait permettre de rendre cet outil disponible. Il pourrait aussi être intéressant de généraliser l’approche en consi-

DISCUSSION dérant non plus deux échantillons mais plusieurs. Pour cela, le test de Wilcoxon pourrait être remplacé par le test de Kruskal-Wallis.

Les méthodes de prédiction d’interactions protéine-protéine que nous avons dévelop- pées nous ont permis de construire un réseau d’interactions chez Synechocystis. Pour toutes les interactions prédites, nous avons étudié si certains critères étaient vérifiés, comme la similarité fonctionnelle des protéines en interaction, ou la présence de domaines connus pour interagir. Cette analyse est intéressante mais reste qualitative, chaque in- teraction prédite vérifiant ou non les critères étudiés. Il serait intéressant de réaliser une évaluation quantitative des interactions prédites, de manière à les classer toutes les unes par rapport aux autres. Goldberg et al. ont proposé d’évaluer les interactions protéine-protéine en se basant sur l’hypothèse que le réseau vérifie certaines propriétés topologiques (small-world) [Goldberg et Roth, 2003]. Ils utilisent ainsi un coefficient, appelé coefficient hypergéométrique, qui permet d’évaluer dans quelle mesure chaque interaction correspond au modèle défini. Néanmoins, les caractéristiques topologiques globales des réseaux restent des hypothèses fortes qui ne sont pas démontrées et sont remises en question [Han et al., 2005], [Yu et al., 2008].

La méthode InteroBH possède l’avantage d’être assez flexible, puisque différents seuils de confiance peuvent être définis. Ceci pose la question du compromis entre la spécificité et la sensibilité. En effet, si on choisit un seuil très strict, on limite le nombre de faux positifs et on augmente par conséquent la spécificité de la méthode de prédic- tion. Par contre, on limite alors le nombre d’interactions prédites, ce qui diminue sa sensibilité.

La méthode InteroPorc est quant à elle moins flexible, mais permet une automatisa- tion. Toutefois, il faut noter que le transfert ne peut être effectué que pour les protéines très conservées entre les espèces. La sensibilité de cette méthode est donc plus limitée. Cela dit, dans le cadre d’une approche à grande échelle et automatique telle que nous l’avons adoptée pour l’implémentation de l’outil InteroPorc, il est important de limiter les faux positifs.

Il conviendrait ici de faire des estimations des taux de faux positifs et faux négatifs de manière à étudier les performances de ces méthode de manière quantitative.

Outre la méthode utilisée, la qualité des interactions prédites dépend de la qualité des interactions sources transférées. Si les jeux de données récents semblent de très bonne qualité [Yu et al., 2008], ce n’est pas nécessairement le cas de tous les premiers jeux de données pour lesquels de forts taux de faux positifs ont été mis en évidence [Huang et al., 2007a]. Ainsi, il est essentiel de choisir les données sources en fonction du problème considéré. C’est pourquoi la possibilité d’utiliser l’outil InteroPorc avec un jeu de données quelconque pour les interactions sources est très importante. Pour qualifier les interactions prédites, il faudrait alors prendre en compte non seulement les paramètres du transfert, comme cela a été fait pour la méthode InteroBH avec la E-value jointe, mais aussi la qualité de l’interaction source. Il manque à ce niveau des indicateurs qualitatifs ou quantitatifs pour caractériser les interactions mises en évidence expérimentalement.

Même si les seuils sur la similarité de séquence sont très stricts, les relations d’or- thologie restent des hypothèses qui ne pourraient être confirmées que par la construc- tion d’arbres phylogénétiques. Les solutions choisies ici restent assez simplistes et ne prennent pas en compte les éventuelles difficultés, comme lorsque la protéine orthologue ayant gardé la même fonction n’est pas celle qui a la plus forte similarité de séquence par exemple. De plus, les transferts sont limités quand il s’agit d’espèces très éloignées, comme des eucaryotes supérieurs et des bactéries par exemple.

Par ailleurs, nous avons utilisé des méthodes de prédiction très génériques, c’est-à-dire qui peuvent s’appliquer à toutes les espèces. Ceci nous a permis par la suite d’implémen- ter un outil automatique applicable à toutes les espèces séquencées. Toutefois, il serait intéressant de profiter de certaines spécificités de Synechocystis afin de compléter ce premier réseau. Par exemple, certaines méthodes tiennent compte de la synthénie chez les procaryotes (fusion de gènes, structure d’opérons).

Concernant l’outil de prédiction d’interactions protéine-protéine InteroPorc que nous avons développé, il faut noter qu’il est limité de par sa nature aux interactions déjà connues dans d’autres espèces. C’est en effet le principe de la méthode de prédiction de transférer des interactions d’une espèce vers une autre en utilisant les interologues. Par conséquent, cette méthode permet de prédire des interactions nouvelles pour une espèce, mais pas d’interactions spécifiques à celle-ci. L’espace exploré reste celui des interactions déjà mises en évidence expérimentalement chez au moins une espèce. En revanche, cette méthode de prédiction permet de transférer de manière rapide la connaissance actuelle sur différentes espèces, à une espèce non encore explorée, et notamment les espèces nouvellement séquencées.

Deux autres approches ont été adoptées dans d’autres travaux pour construire des réseaux plus larges de relations fonctionnelles. D’un côté, la base de données STRING met à disposition des prédictions provenant de la co-expression, la co-localisation, la co-citation dans la littérature et l’identification expérimentale [Jensen et al., 2008]. L’in- terface web associée permet d’explorer les interactions prédites pour certaines protéines. Néanmoins, il est beaucoup plus difficile d’obtenir des résultats complets à l’échelle d’une espèce, et les données sources ne peuvent pas être contrôlées. Ainsi, les objectifs sont différents de ceux de l’outil InteroPorc qui permet de prédire des interactions physiques à l’échelle d’un protéome à partir de données éventuellement choisies par l’utilisateur.

D’un autre côté, Kim et al. ont élaboré une base de données de relations fonctionnelles chez Synechocystis [Kim et al., 2008] à partir de quatre bases de données : PSIMAP [Park et al., 2001], iPFAM [Finn et al., 2005], InterDom [Ng et al., 2003b] et STRING [Jensen et al., 2008]. Même si ces relations ne sont pas nécessairement des interactions physiques, il serait intéressant de comparer nos prédictions avec celles-ci.

Jusqu’à présent, l’outil InteroPorc fonctionne pour une espèce donnée, de manière globale. Ainsi, il suffit de choisir une espèce et les interactions sources sont transférées sur cette espèce. Néanmoins, on est souvent amené à se poser des questions sur une protéine en particulier, ou un groupe de protéines. Par conséquent, il serait très utile de mettre en place un système d’interrogation centré sur une protéine. Ceci permettrait

DISCUSSION d’obtenir la liste des interactions prédites avec cette protéines. De plus, un accès par un service web pourrait également s’avérer utile.

L’analyse des réseaux d’interactions protéine-protéine obtenus par des méthodes d’identification à grande échelle pourrait être enrichie en considérant d’autres espèces, en particulier Caenorhabditis elegans et Drosophilia melanogaster. D’autre part, il convien- drait de faire une analyse fonctionnelle des différents réseaux d’interactions, afin de caractériser les différences et ressemblances en termes de fonctions biologiques. En ef- fet, ces différentes études restent biaisées même lorsqu’elles sont à grande échelle. Les appâts sont souvent choisis par rapport à l’espèce considérée ou par rapport à certaines problématiques. Ainsi, en plus des limitations techniques des différentes méthodes d’iden- tification, les interactomes ne sont pas explorés de manière uniforme. C’est pourquoi il serait intéressant de quantifier ces différences, notamment entre les différentes espèces.

Finalement, nous avons identifié les modules fonctionnels en nous basant sur les ré- seaux d’interactions protéine-protéine, mais d’autres structures pourraient être étudiées dans ces graphes, par exemple des voies de signalisation. De plus, la dynamique a été introduite ici au niveau des modules. On pourrait également l’introduire au niveau des protéines et considérer des graphes dont les nœuds sont caractérisés par un état, par exemple actif ou inactif.

Pour étudier les réponses aux stress oxydants et aux métaux lourds, nous avons fait une analyse de la réponse transcriptionnelle au niveau des gènes. Nous avons identi- fié et classé les gènes qui répondent par un signal semblable, c’est-à-dire ceux qui sont co-exprimés. Le but est de regrouper les gènes qui fonctionnent ensembles pour la réa- lisation d’un processus biologique. On imagine alors que ceci provient d’un stimulus particulier. Néanmoins, certains gènes peuvent envoyer un signal similaire, sans pour autant répondre au même stimulus. Il est alors intéressant de compléter l’information sur la régulation de la transcription par une information sur les contacts physiques entre les protéines. Ainsi, cette information complémentaire permet d’enrichir la vision du phénomène global et potentiellement de distinguer les cas où les gènes répondent à un même stimulus ou pas. En d’autres termes, ceci peut permettre de distinguer les liens de corrélation des liens de causalité. En effet, les protéines codées par les gènes co-exprimés et qui sont en interaction ont de fortes chances de réaliser un processus biologique. Par conséquent, les réseaux d’interactions protéine-protéine permettent de préciser la pré- diction des réseaux de régulation réalisée à partir de données d’expression. Par ailleurs, l’intégration des ces deux types de données pourrait permettre une prédiction conjointe des réseaux de régulation et des réseaux d’interactions protéine-protéine.

Une vérité importante naissait dans ma tête : une vie scientifique pouvait être intéressante socialement et intellectuellement. James D Watson, The double helix, 1968

À l’interface de la biologie et de la bioinformatique, ce travail a donné lieu au déve- loppement de méthodes et d’outils pour étudier entre autres les réponses cellulaires aux stress oxydants et aux métaux lourds. Nous avons mis en évidence en particulier quatre résultats principaux.

Tout d’abord, un découpage automatique de hiérarchie a été développé. Il nous a permis de réaliser une classification mixte hiérarchique-pyramidale dont l’un des avan- tages est d’être très générale. En effet, cette classification est seulement basée sur une distance entre des objets quelconques.

De plus, une méthode d’identification de biais de composition entre deux groupes de protéines a été réalisée. Cette méthode présente l’avantage d’être automatique et très générale puisqu’elle peut s’appliquer à deux groupes quelconques de protéines. Dans notre cas, nous avons considéré des groupes provenant de données d’expression. En outre, nous avons développé un outil, BiasSeeker, permettant de mettre en œuvre cette méthode de manière simple, rapide et visuelle.

Par ailleurs, un outil automatique de prédiction d’interactions protéine-protéine a été développé. Il nous a permis entre autres de construire un réseau d’interactions protéine-