• Aucun résultat trouvé

Application de la biologie des systèmes pour l'identification de marqueurs moléculaires des maladies rénales dans les fluides biologiques

N/A
N/A
Protected

Academic year: 2021

Partager "Application de la biologie des systèmes pour l'identification de marqueurs moléculaires des maladies rénales dans les fluides biologiques"

Copied!
142
0
0

Texte intégral

(1)

HAL Id: tel-02735976

https://tel.archives-ouvertes.fr/tel-02735976

Submitted on 2 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

l’identification de marqueurs moléculaires des maladies

rénales dans les fluides biologiques

Franck Boizard

To cite this version:

Franck Boizard. Application de la biologie des systèmes pour l’identification de marqueurs moléculaires des maladies rénales dans les fluides biologiques. Bio-Informatique, Biologie Systémique [q-bio.QM]. Université Paul Sabatier - Toulouse III, 2019. Français. �NNT : 2019TOU30157�. �tel-02735976�

(2)

THÈSE

En vue de l’obtention du

DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE

Délivré par l'Université Toulouse 3 - Paul Sabatier

Présentée et soutenue par

Franck BOIZARD

Le 8 octobre 2019

Application de la biologie des systèmes pour l'identification de

marqueurs moléculaires des maladies rénales dans les fluides

biologiques

Ecole doctorale : BSB - Biologie, Santé, Biotechnologies

Spécialité : BIO-INFORMATIQUE, GENOMIQUE ET BIOLOGIE DES SYSTEMES Unité de recherche :

I2MC - Institut des Maladies Métaboliques et Cardiovasculaires

Thèse dirigée par

Joost Peter SCHANSTRA et Olivier TESTE

Jury

M. Vincent Fromion, Rapporteur Mme Sandra Bringay, Rapporteure

M. Stanislas Faguer, Examinateur

(3)

Application de la biologie des systèmes pour l'identication de

marqueurs moléculaires des maladies rénales dans les uides

biologiques

Directeurs de thèse :

Joost-Peter Schanstra, Directeur de recherche  I2MC Olivier Teste, Professeur de l'Université Toulouse 2  Jean Jaures

Résumé

Les maladies rénales concernent 5 millions de personnes en France et ce nombre ne cesse de croître compte tenu de l'augmentation de l'espérance de vie et de l'évolution de nos modes de vie (sédentarité, alimentation). La prise en charge des malades est actuellement peu ecace en raison d'un diagnostic trop tardif et de notre méconnaissance des mécanismes complexes qui régissent leur progression. L'étude du protéome urinaire s'est imposée comme un excellent moyen pour découvrir des biomarqueurs des néphropathies et ainsi mieux comprendre les mécanismes phy-siopathologiques. La biologie des systèmes permet d'exploiter l'information moléculaire contenue dans l'urine pour en déduire l'organisation globale des réseaux de régulation dans le tissu rénal malade. C'est dans ce contexte que se situe ce travail de thèse.

Deux problématiques ont été abordées dans cette thèse :

La première relève de la compréhension des mécanismes physiopathologiques : Comment identier de nouveaux acteurs clés dans le développement des maladies rénales à partir de l'ana-lyse de la composition moléculaire de l'urine ? . L'information du protéome urinaire se limitant majoritairement aux protéines excrétées, il est essentiel d'avoir à disposition des méthodes d'ana-lyses bio-informatiques pour "remonter" aux protéines clés présentes dans le tissu rénal, mais non excrétées dans l'urine. Ce type de méthodes étant peu utilisé en néphrologie, nous avons développé un outil méthodologique able pour identier in silico de nouveaux acteurs clés des maladies rénales à partir de l'analyse du protéome urinaire. Ce nouvel outil, appelé PRYNT (PRioritization bY causal NeTwork), repose sur l'utilisation des interactions protéine-protéine associée à une méthode de priorisation pour repérer les protéines du réseau qui interagissent préférentiellement avec les biomarqueurs protéines urinaires.

La seconde problématique s'inscrit dans une démarche de médecine diagnostique, la question étant : Comment détecter la présence d'une maladie rénale ou prédire son évolution à partir de l'analyse de la composition de l'urine ?. J'ai développé une approche quantitative pour proposer une réponse à cette question. J'ai ensuite appliqué cette approche au métabolome de l'urine et au peptidome du liquide amniotique qui reètent la fonction rénale. La modélisation et les méthodes statistiques permettent dans ce contexte de prédire la maladie.

Institut des Maladies Métaboliques et Cardiovasculaires  Inserm/UPS UMR 1048 Institut de Recherche en Informatique de Toulouse  UMR 5505 CNRS

(4)

The use of systems biology for the identication of biomarkers of

renal diseases in biological uids

Supervisors:

Joost-Peter Schanstra, Director of research I2MC

Olivier Teste, Professor at Toulouse 2 University  Paul Sabatier Abstract

Kidney disease aects about 5 million people in France mostly due to the increase in life expectancy and the evolution of our lifestyles (sedentary living, diet). Patient management is currently largely ineective due to late diagnosis and our lack of understanding of the complex mechanisms that govern its progression. The study of the urinary proteome has emerged as an excellent way to discover biomarkers of nephropathies and thus to better understand the underlying pathophysiological mechanisms. Systems biology allows the molecular information contained in urine to be used to understand the overall organization of the regulatory networks in the diseased kidney tissue. In my thesis we have applied systems biology with two aims :

The rst aim was to improve the understanding of the pathophysiological mechanisms of kidney disease based on the analysis of urine molecular composition. Since the information in urinary proteome is mainly limited to excreted proteins, it is essential to have bioinformatic analysis methods available to "trace back" the key proteins present in the kidney tissue, but not excreted in the urine. Since this type of method is not widely used in nephrology, I have developed a methodological tool to identify in silico new key actors in kidney disease from the analysis of the urinary proteome. This new tool, called PRYNT (PRioritization bY causal NeTworks), is based on the use of protein-protein interactions with a prioritization method to identify proteins in the network that preferentially interact with urinary protein biomarkers.

The second aim of my thesis was to develop systems biology approaches for the detection and progression of kidney disease using the molecular composition of urine. We developed a quantitative approach to propose an answer to these questions. I then applied this approach to the analysis of the urinary metabolome and amniotic uid peptidome. Modelling and statistical methods allowed in these contexts to predict the presence of kidney disease and its progression.

Institut des Maladies Métaboliques et Cardiovasculaires  Inserm/UPS UMR 1048 Institut de Recherche en Informatique de Toulouse  UMR 5505 CNRS

(5)
(6)

Introduction générale 1

I Sélection de protéines importantes dans les maladies rénales 3

Introduction 5

1 Réseaux d'interactions protéine-protéine et centralités pour l'identication des

acteurs clés des maladies 7

1.1 Réseaux d'interactions protéine-protéine . . . 7

1.1.1 Interactions protéine-protéine . . . 7

1.1.2 Identication des interactions protéine-protéine . . . 8

1.1.3 Base de données d'interactions protéine-protéine . . . 13

1.1.4 Les réseaux d'interactions protéine-protéine . . . 15

1.1.5 Structures des réseaux d'interactions protéine-protéine . . . 16

1.2 Centralités . . . 18

1.2.1 Diérents type de centralités . . . 18

1.2.2 Application des centralités aux réseaux d'interactions protéine-protéine . . 24

1.2.3 Propriétés des centralités des protéines pathologiques . . . 24

1.3 Identication des acteurs clés des maladies rénales . . . 27

1.3.1 Méthodes basées sur l'expérimentation . . . 28

1.3.2 Méthodes utilisant Ingenuity Pathway Analysis (IPA) . . . 28

1.3.3 Méthodes basées sur les réseaux des gènes diérentiellement exprimés . . . 29

1.3.4 Méthodes basées sur des réseaux spéciques au tissu rénal . . . 33

1.3.5 Méthodes basées sur l'utilisation du réseau d'interactions protéine-protéine global . . . 36

Conclusion . . . 41

2 PRYNT, une méthode de priorisation du protéome urinaire au service des maladies rénales - Résultats 43 Introduction . . . 44

(7)

Results . . . 47

Discussion . . . 53

Material and methods . . . 54

Conclusion 59 II Identication de nouveaux biomarqueurs des maladies rénales dans les uides biologiques 61 Introduction 63 1 La Boize, développement d'un outil de diagnostic à partir de données omiques 65 1.1 Faciliter l'accès aux biologistes . . . 66

1.2 Les données . . . 67

1.3 Identication et validation des biomarqueurs . . . 67

1.3.1 Identication statistique des biomarqueurs . . . 67

1.3.2 Construction d'un modèle de prédiction . . . 68

1.4 Application du modèle à de nouvelles données . . . 69

Conclusion . . . 70

2 Analyse du métabolome urinaire de l'obstruction de la jonction pyélo-uretérale - Résultats 71 3 Analyse du peptidome du liquide amniotique des anomalies congénitales du rein - Résultats 89 Introduction . . . 90

Results . . . 91

Discussion . . . 97

Material and methods . . . 100

Conclusion 105 Conclusion générale 107  Comment identier de nouveaux acteurs clés dans le développement des maladies rénales à partir de l'analyse de la composition moléculaire de l'urine ?  . . . 107

 Comment détecter la présence d'une maladie rénale ou prédire son évolution à partir de l'analyse de la composition moléculaire de l'urine ?  . . . 108

La multidiciplinarité : une complexité nécessaire. . . 108

Glossaire 111

(8)

Liste des gures 131

(9)
(10)

Systems biology ... is about putting together rather than taking apart, inte-gration rather than reduction. It requires that we develop ways of thinking about integration that are as rigorous as our reductionist programmes, but dierent. ... It means changing our philosophy, in the full sense of the term."

Denis Noble (2006)

L

'augmentation de la connaissance et la complexité des domaines de recherche ont poussé les scientiques à l'ultra-spécialisation (Guespin-Michel et Ripoll, 2000). Ce constat est parti-culièrement vrai en biologie où les disciplines telles que la biochimie, la biologie moléculaire, la biologie cellulaire ou la physiologie par exemple sont souvent étudiées de manière très cloison-née. Or, pour comprendre la complexité d'un système dynamique multi-échelles, que ce soit une cellule, un tissu ou un organisme, il est nécessaire de mobiliser les connaissances de diérentes spécialités. Depuis les années 2000, de nouvelles approches voient ainsi le jour an d'accompagner cette interdisciplinarité. La biologie des systèmes est l'une d'entre elles. Son but est d'intégrer dif-férents niveaux d'informations pour comprendre les interactions entre les diérents composants du système biologique, proposer une modélisation des fonctions et ainsi appréhender le vivant dans sa totalité. La biologie systémique combine une approche expérimentale et une approche théorique dans laquelle les mathématiques et l'informatique occupent une place centrale : le déve-loppement de technologies performantes conduit à l'identication simultanée d'un grand nombre de molécules, la généralisation de l'informatique assure la gestion de ces masses d'informations dans des bases de données, l'uniformisation des notations permet d'échanger et de comparer ces données et grâce à l'appui d'outils statistiques et mathématiques, les relations entre les données peuvent être modélisées. Le développement de la biologie des systèmes ouvre ainsi de nouvelles perspectives notamment dans le champ de la médecine pour la compréhension des maladies et le développement de cibles thérapeutiques potentielles.

Les maladies rénales concernent 5 millions de personnes en France et ce nombre ne cesse de croître compte tenu de l'augmentation de l'espérance de vie et de l'évolution de nos modes de vie (sédentarité, alimentation) (Zhang et Rothenbacher, 2008; Hill et al., 2016). Chez les patients concernés, les reins n'assurent plus leurs fonctions essentielles : les déchets ne sont plus susamment éliminés hors de l'organisme et la composition en eau et en ions du corps n'est plus maintenue de manière optimale. Dans les cas les plus graves, c'est l'insusance rénale

(11)

terminale qui nécessite le recours à des traitements lourds de suppléance tels que la dialyse ou la transplantation rénale. La prise en charge des malades est actuellement peu ecace en raison d'un diagnostic trop tardif et de notre méconnaissance des mécanismes complexes qui régissent leur progression.

L'accès au tissu rénal constitue une étape essentielle pour décortiquer la physiopathologie des maladies rénales (Glassock, 2015). Cependant, la biopsie rénale est une intervention chirurgicale, donc invasive, et une source de complications pour le patient (Corapi et al., 2012; Hogan et al., 2015). La recherche médicale en néphrologie se tourne de plus en plus vers l'étude des uides biologiques (sang, urine) dont le prélèvement est peu invasif et dépourvu de risque (Cs®sz et al., 2017; Mischak, 2015; Voss et al., 2011). L'urine constitue un liquide de premier choix dans le cas particulier des maladies rénales. En eet, la composition de l'urine est un excellent reet de la fonction rénale dans la mesure où c'est grâce aux reins qu'elle est synthétisée à partir du plasma sanguin (Barratt et Topham, 2007). De plus, l'évolution des technologies de chimie analytique et notamment l'apparition de la spectrométrie de masse permettent aujourd'hui d'identier des milliers de molécules, issues de diérents strates moléculaires (ARN messagers, micro-ARN, protéines, métabolites . . . ), dans l'urine de sujets sains ou atteints de maladie rénale. Deux démarches sont généralement utilisées en biologie systémique pour dénir les réseaux moléculaires qui reproduisent les comportements fonctionnels du vivant : une approche dite descendante (top down), dans laquelle les êtres vivants sont simpliés pour en déterminer les éléments essentiels, et une approche dite ascendante (bottom up) qui vise au contraire à reconstituer des éléments complexes du vivant à partir d'unités plus simples (Bruggeman et Westerho, 2007). Grâce à une démarche de type ascendante, la biologie des systèmes permet d'exploiter l'information moléculaire contenue dans l'urine pour en déduire l'organisation globale des réseaux de régulation dans le tissu rénal malade. C'est dans ce contexte que se situe ce travail.

Deux problématiques ont été abordées au cours de cette thèse :

 La première relève de la compréhension des mécanismes physiopathologiques :  Comment identier de nouveaux acteurs clés dans le développement des maladies rénales à partir de l'analyse de la composition moléculaire de l'urine ? 

 La seconde s'inscrit plus dans une démarche de médecine diagnostique, la question étant  Comment détecter la présence d'une maladie rénale ou prédire son évolution à partir de l'analyse de la composition de l'urine ? 

(12)

Sélection de protéines importantes

dans les maladies rénales

(13)
(14)

L

e phénotype d'un organisme découle du fonctionnement d'un grand nombre de molécules, incluant les protéines, les gènes ou encore les métabolites. Mais il dépend également for-tement des relations qui s'opèrent entre ces molécules (interactions protéine-protéine, réactions métaboliques, co-expressions. . . ) (Hartwell et al., 1999). L'ensemble de ces interactions intermo-léculaires est appelé interactome ; il peut être modélisé sous la forme d'un réseau. L'intérêt pour l'étude des réseaux a fortement évolué au début des années 2000 (Luke et Harris, 2007), avec l'augmentation de la puissance de calcul des ordinateurs et le développement de la biologie des systèmes. D'abord développés chez la levure, les réseaux biologiques sont rapidement passés de quelques dizaines à plusieurs milliers de molécules (Schwikowski et al., 2000; Ho et al., 2002) et la recherche s'est alors focalisée sur l'exploration de leur structure(Albert et Albert, 2004; Maslov, 2002; Jeong et al., 2001; Han et al., 2004). De tels réseaux, bien que plus complexes, ont ensuite été obtenus chez l'homme (Rual et al., 2005) et c'est à partir de ces connaissances qu'est né en 2007 un nouveau concept dans le domaine de la biologie des systèmes, celui de la  médecine par réseaux  (network medicine) (Barabási, 2007). Ce concept sous-tend que l'utilisation des réseaux permettrait de modéliser la perturbation simultanée des diérentes entités moléculaires au cours des pathologies. Autrement dit, il serait possible de comprendre les processus pathologiques dans leur globalité, et non plus en se limitant à la seule échelle de la mutation génique.

L'étude de la composition de l'urine a connu un progrès spectaculaire grâce à la spectrométrie de masse. Depuis l'étude d'Adachi en 2006 qui fut précurseure dans l'identication à large échelle du protéome urinaire (Adachi et al., 2006), plus de 6000 protéines ont été détectées dans l'urine (Zhao et al., 2017). Cependant, les protéines présentes dans le tissu rénal ne sont pas nécessai-rement toutes retrouvées dans l'urine et inversement, toutes les protéines urinaires ne sont pas issues du rein. La base de données Human Protein Atlas (Uhlen et al., 2015) répertorie plus de 10000 protéines ayant une expression rénale, mais seulement 4095 d'entre elles sont présentes parmi les 6000 protéines urinaires connues à l'heure actuelle (Figure I.1). Bien que l'urine reste un outil essentiel dans l'identication de protéines associées à des pathologies rénales, il est donc important de se rappeler que l'étude isolée du protéome urinaire implique une vision limitée des mécanismes moléculaires mis en ÷uvre in-situ dans le rein.

Nous verrons dans cette partie comment l'analyse des réseaux d'interactions protéine-protéine peut répondre à notre problématique. Notamment en quoi les analyses de centralité, que nous détaillerons plus loin, permmettent d'identier les protéines importantes du réseau. En reliant dans un même modèle les protéines urinaires et les protéines rénales, les réseaux d'interactions protéine-protéine pourraient prédire, à partir des modications du protéome urinaire, de nouvelles protéines importantes dans la maladie mais non-détectées dans l'urine.

(15)

Figure I.1  Comparaison des protéines détectées dans l'urine et dans le tissu rénal. L'étude d'Adachi et al. (Adachi et al., 2006) et l'étude de Zhao et al. (Zhao et al., 2017), ont détecté ensemble 6458 protéines diérentes dans l'urine de patients sains. La base de données Human protein Atlas (Uhlen et al., 2015), répertoria (au 01.03.2018) 10 126 protéines déjà détectées dans le tissu rénal de patients sains. Seulement 4095 de ces protéines ont déjà été détectées dans l'urine. Si la composition du protéome urinaire est donc un bon reet du protéome rénal, il n'est donc pas actuellement possible de détecter toutes les protéines exprimées dans le rein grâce à l'urine.

Ce chapitre sera découpé en deux parties. Dans une première partie, je ferai un état de l'art sur les réseaux d'interaction protéine-protéine, les centralités et les méthodes actuelles d'identication des mécanismes pathologiques. Dans la seconde partie, je présenterai les résultats de mes travaux qui proposent une nouvelle méthode (PRYNT) pour prédire les protéines clés des maladies rénales à partir de l'analyse de la composition urinaire.

(16)

1

Réseaux d'interactions

protéine-protéine et centralités

pour l'identication des acteurs

clés des maladies

There are no interactions more interesting and important than those between proteins.

J. L. Oncley et al. (1952)

1.1 Réseaux d'interactions protéine-protéine

1.1.1 Interactions protéine-protéine

Les protéines exercent leurs fonctions en coopération les unes avec les autres (Gonzalez et Kann, 2012). Un complexe protéique est l'assemblement de plusieurs protéines par des inter-actions protéine-protéine (PPI) et on estime que 80 % des protéines exercent leur fonction en formant des complexes protéiques (Berggård et al., 2007). Par exemple, l'ADN polymérase, es-sentielle à la réplication de l'ADN dans le noyau de toutes les cellules, est un complexe protéique dont la structure et la fonction sont conditionnées par les PPI (Garcia-Diaz et Bebenek, 2007). Le ribosome, impliqué dans la synthèse des protéines dans la cellule, est un complexe composé de pas moins de 80 protéines (Wool, 1979; Ishii et al., 2006). La communication entre les cel-lules (Pawson, 2004) et le transport des protéines dans le plasma (Kanai et al., 1968; Zanotti et al., 2008) sont également assurés par des PPI. Si l'on veut comprendre l'organisme en tant que système global, il est donc indispensable de comprendre les PPI.

Les PPI peuvent être classées de plusieurs manières selon leurs propriétés structurelles et fonctionnelles (De Las Rivas et Fontanillo, 2010; Keskin et al., 2016; Nooren, 2003; Phizicky et Fields, 1995). Le terme 'interaction' entre protéines est traditionnellement employé pour parler d'un contact physique entre deux protéines. L'interaction est alors qualiée de directe. L'inter-action physique peut être binaire ou macromoléculaire si elle forme respectivement un dimère ou

(17)

un polymère. Elle est homo-oligomérique si les protéines impliquées sont les mêmes mais hétéro-oligomérique si les protéines sont diérentes. De même, la durée de l'interaction détermine si elle est permanente ou transitoire et sa stabilité la rend obligatoire ou non. Une interaction physique donnée se caractérise alors par la combinaison de ces propriétés. Mais une interaction entre deux protéines n'est pas nécessairement physique (De Las Rivas et de Luis, 2004). Dans ce cas, on parle d'interaction fonctionnelle ou indirecte. Une interaction fonctionnelle existe entre deux protéines si elles sont impliquées dans une même activité biomoléculaire ou si elles sont co-localisées dans un même compartiment cellulaire.

Beaucoup de maladies sont dues à des mutations génétiques qui altèrent les propriétés d'in-teraction (directe ou indirecte) d'une protéine avec une autre protéine (Schuster-Böckler et Ba-teman, 2008). La possibilité d'agir sur les PPI constitue donc une piste pour le développement de cibles thérapeutiques (Zinzalla et Thurston, 2009; Arkin et Wells, 2004). Par conséquent, la compréhension des relations qui lient directement ou indirectement les protéines entre elles constituent un enjeu majeur en biologie et en clinique.

1.1.2 Identication des interactions protéine-protéine

Il existe un grand nombre de techniques disponibles pour étudier les interactions protéine-protéine. Snider et al. relèvent 4 caractéristiques clés les distinguant : (i) le nombre de PPI détectées, (ii) le type de PPI détectées, (iii) les contraintes de temps et de coûts liées à l'analyse des PPI, (iv) la nature des outils mis en ÷uvre. Beaucoup de publications présentent un état de l'art des diérentes technologies identiant les PPI (Petschnigg et al., 2011; Stynen et al., 2012; Rao et al., 2014; Snider et al., 2015; Keskin et al., 2016; Miura, 2018). Il est toutefois dicile de comparer les performances de ces diérentes méthodes car elles utilisent des technologies et des références diérentes. Dans la mesure où elles permettent d'identier des PPI variées, ces approches doivent plutôt être vues comme complémentaires (Jensen et Bork, 2008). Il existe deux grandes catégories de méthodes d'étude des PPI : les méthodes expérimentales de détection des PPI et les méthodes computationnelles de prédiction. Ce chapitre a pour but de les présenter en insistant sur les avantages et les inconvénients de chacune d'elles.

Méthodes expérimentales de détection des PPI

Plusieurs méthodes expérimentales sont disponibles pour détecter les PPI (Ta-bleau I.1.1). Elles se diérencient par (i) le type d'expérience utilisée - à bas débit ou à haut débit (Gonzalez et Kann, 2012; Safari-Alighiarloo et al., 2014), (ii) le contexte de l'expérience - in vitro ou in vivo (Rao et al., 2014) et (iii) le type d'interactions qu'elles détectent - directe ou indirecte, binaire ou macromoléculaire.

(18)

T yp e d'in teraction Tec hnique Prin cip e Con texte direct / indirect bi na ir e / complexe Référence Métho des ba s débit Cristallographie aux ra yons X Analyse de la structure des protéines en 3D par ra yon X in vitro directe binaire (Sm yth et Martin, 2000) Sp ectroscopie résonance magné-tique nu cléaire (RMN ) Analyse de la structur e des pr ot éines en 3D grâce aux magnétisme nucléa ire in vitro directe binaire (O'Connell et al. , 2009) Chromatographie d'anité Tec hnique de chromatographie séparan t un comp osé biologique grâce aux PPI in vitro directe binaire (Belanger, 2009) Transfert d'énergie en tre molé-cules uorescen tes Observ ation au microscop e de la pro ximité des pro-téines par uore sc ence in viv o directe binaire (Ken w orth y, 2001) Co-imm unoprecipitation Les an ticorps se lian t av ec une protéines en solution précipiteron t av ec le complexe auquel appartien t la protéine. La rép étition de ce pro cessus av ec des an-ticorps diéren t permet de connaitre les diéren tes protéines constituan t un complexe. in vitro directe complexe (Phizic ky et Fields, 1995) Métho des ha ut débit Luminescence-based mam malian in teractomemapping (LUMIER) Tec hnique de co-imm unoprécipitation mesuran t des réactions de bioluminescence in viv o directe binaire (Barrios-Ro diles et al. ,2005) Purication par anité en cou-plé à la sp ectrométrie de masse Analyse basée sur le double marquage de la protéine d'in térêt suivi d'un pro cessus de purication et ana-lyse sp ectroscopique de masse in vitro directe binaire / complexe (Kaiser et al. ,2008) Tec hnique de double hybride Détection de l'activité d'un gène rapp orteur xé aux protéines dans une cellule. L'organisme le plus utili sé étan t la levure in viv o directe binaire (Fields et Song, 1989) Létalité syn thétique Tec hnique analysan t la viabilité de la m utation com -binatoire des gènes sur la cellule in viv o indirecte binaire / complexe (T uc ker et Fields, 2003) T ableau I.1.1  Métho de s exp érimen tales d'iden tication des in teractions protéine-protéine

(19)

Bas débit / haut débit

Les méthodes expérimentales à bas débit sont les méthodes traditionnelles d'identi-cation des PPI. Leur avantage principal réside dans le fait qu'elles permettent de déter-miner les caractéristiques des interactions. La cristallographie par diraction de rayons X (Parker, 2003) et la résonance magnétique nucléaire (RMN) (Wüthrich, 2001) sont deux techniques qui réalisent des structures tridimensionnelles des domaines d'interaction. Fort de cette information, il est alors possible de concevoir des molécules capables de cibler des protéines particulières dans un but thérapeutique (Rao et al., 2014). D'autres techniques comme le FRET ou le BRET, qui reposent sur un transfert d'énergie entre deux protéines en interaction, permettent quant à elles de déterminer la stabilité des PPI (Kenworthy, 2001). De manière générale, les méthodes à bas débit sont utilisées comme standard pour conrmer les interactions déterminées par d'autres méthodes (Miura, 2018). Ces tech-niques demandent cependant beaucoup d'investissement et elles n'examinent qu'un petit nombre de protéines simultanément.

Les technologies à haut débit grâce à l'automatisation informatique conduisent à la découverte de PPI à plus large échelle. Ce sont des méthodes peu chères, capables d'identier un grand nombre d'interactions en une seule expérience. L'inconvénient de ces méthodes est le nombre élevé de faux positifs détectés (Huang et al., 2007).

In vitro / in vivo

L'expérimentation in vitro se fait dans un environnement contrôlé à l'extérieur de l'organisme vivant. À l'inverse, c'est dans l'organisme vivant que s'applique l'expérience in vivo. Les techniques d'identication in vitro des PPI sont plus faciles à mettre en ÷uvre. La spectrométrie RMN et la chromatographie d'anité permettent notamment de détecter des interactions de faible anité. Ces méthodes peuvent toutefois détecter une interaction entre deux protéines qui, dans l'organisme, ne seront peut-être jamais en contact.

Les expérimentations réalisées in vivo, bien que plus complexes, sont bien-sûr plus attractives car plus proches de la réalité biologique. Les méthodes basées sur des transferts d'énergie entre partenaires d'un complexe protéique permettent même d'observer les interactions en temps réel in vivo (Kenworthy, 2001).

Directe / indirecte

Les techniques que nous avons vues jusqu'à présent identient des PPI physiques (directes). D'autres méthodes expérimentales sont utilisées pour mettre en évidence les liens fonctionnels entre les protéines (indirectes). Par exemple, la technique de létalité synthétique consiste à induire une mutation de plusieurs gênes et à évaluer l'eet de ces mutations, seules ou combinées, sur la viabilité cellulaire (Tucker et Fields, 2003). Si la combinaison des mutations entraîne la mort cellulaire, alors que les mutations individuelles sont sans eet, cela indique que les protéines codées par les gènes considérés exercent leur fonction en coopération. Il s'agit alors de PPI fonctionnelles.

(20)

Binaire / macromoléculaire

Certaines méthodes, comme la technique de double hybride, mesurent les interactions physiques entre seulement deux protéines (binaire). D'autres mesurent les interactions macromoléculaires entre un groupe de protéines (De Las Rivas et Fontanillo, 2010). La méthode la plus utilisée est la purication par anité couplée à la spectrométrie de masse. La protéine d'intérêt est taguée et captée en même temps que les protéines potentiellement attachées. Le groupe de protéines est ensuite purié et analysé par spectrométrie de masse. L'inconvénient de ces techniques est qu'il est indispensable d'analyser les données, pour savoir spéciquement quelles protéines sont capables de se xer ensemble (Hakes et al., 2007).

Méthodes de prédiction des PPI

Les méthodes computationnelles sont utilisées pour prédire in silico les PPI (Ta-bleau I.1.2). Elles constituent une approche complémentaire souvent plus rapide et moins coûteuse que les méthodes expérimentales. Elles permettent d'identier un grand nombre d'interactions potentielles qui pourront par la suite être conrmées par des méthodes expérimentales. Ces méthodes de prédiction sont très diverses en fonction de la nature des données initiales, des algorithmes utilisés ou des concepts sous-jacents.

Empirique / théorique

Les méthodes empiriques de prédiction utilisent des données expérimentales relatives aux PPI pour prédire de nouvelles PPI. Les approches fondées sur le machine-learning ( apprentissage automatique ) en sont un très bon exemple. Ces approches utilisent les propriétés déjà connues des PPI, par exemple les séquences en acides aminés ou les domaines impliqués, comme critères pour détecter de nouveaux PPI. Puisque les méthodes empiriques reposent sur l'utilisation de données expérimentales, elles exploitent aussi leurs inexactitudes.

Les méthodes dites théoriques quant à elles tiennent compte d'un grand nombre de concepts biologiques. Le docking (Vakser, 2014) étudie la complémentarité entre les struc-tures 3D de deux protéines pour suggérer l'existence d'une interaction. Les méthodes basées sur la coévolution exploitent le fait que la fonction biologique de certaines pro-téines est conservée au cours de l'évolution malgré la modication de leur séquence en acides aminés : cette conservation de la fonction implique alors que des protéines qui in-teragissent ensemble n'évoluent pas de manière indépendante. La force des méthodes de prédiction théoriques réside dans le fait qu'elles sont capables de prédire des interactions entre des protéines pour lesquelles peu de choses sont connues.

Finalement, les technologies d'identication des PPI, qu'elles soient expérimentales ou basées sur des stratégies in silico, ont largement progressé depuis 20 ans. On estime que l'on ne connaît que 20 % de l'interactome humain (Venkatesan et al., 2009; Stumpf et al., 2008; Hart et al., 2006). Malgré cette connaissance partielle, l'interactome disponible dispose d'une couverture susante pour explorer les processus biologiques pouvant lier les maladies aux protéines (Menche et al., 2015).

(21)

T yp e d'in teraction Tec hnique Données de départ Princip e direct / indirect binaire / complexe Référence Métho des emp iriques Fréquence des domaines d'in teractions Signatures de la séquence des protéines Les signatures des séquences des pr oté ines conn ues pour in teragir peuv en t prédire de nouv elles in teractio ns. directe binaire (Sprinzak et Mar-galit, 2001) Estimation du maxim um de vraisem blance des do-maines d'in teractions Informations sur les domaines protéiques Calcul d'une probabilité d' in teraction grâce aux domaines conn us de PPI. directe binaire (Deng et al. ,2002) Prol de co expression des gènes Données d'expression génique Des protéines do nt le s gènes son t expri-més av ec des proles similaire on t de forte chance d'in te rag ir. indirecte binaire (F raser et al. ,2004) Top ologie du réseau PPI binaires De ux protéine sin teragissan ta ve c un gr and nom bre de protéines comm unes in ter-agissen t probabl emen t en tre elles.

directe /indi- recte

binaire (Ch ua et al. ,2006) Appro che par mac hine-learning Séquences / propr iétés bio chi-miques / st ructures ... Algorithmes utilisan t les propriétés des PPI conn ues av ec un mo dèle de prédiction.

directe /indi- recte complexe /binaire (Shen et al. ,2007) Métho des théor iques V oisinage génétique Séquences du génome Deux protéines ay an t des gènes très pro ches on t de forte chance d'i nteragir indirecte binaire (Ng et Tan, 2004) Appro che co ev olution-naire Séquences des protéines en tre plusieurs organismes Utilisation de l'arbre philog énétique pour caractériser l'év olution des protéines indirecte binaire (Gertz et al. ,2003) Fusion génétique Génome complet de plusieurs or-ganismes Aussi app elé la métho de pierre de Rosette. Deux protéines fusionnées dans un orga-nisme, in teragissen t probablemen t dans un organisme ou elles son t séparées. indirecte binaire (Marcotte et Mar-cotte, 2002) Text mining Littérature scien tique Ev aluation de l'in teraction de de ux pro-téines en fonction de leur co existence dans des textes de la littérature scien tique indirecte binaire (P apanik olaou et al. ,2015) Do cking Structure 3D des protéines Sim ulation de s orien tations possibles en tre deux protéines directe binaire (V akser, 2014) T ableau I.1.2  Métho des computationnelles de prédiction des in teractions protéine-p rotéine

(22)

1.1.3 Base de données d'interactions protéine-protéine

Avec l'essor des méthodes d'identication, la génération des données PPI a augmenté de manière exponentielle (Figure I.1.1). Ceci a engendré un nouveau besoin de recherches : la construction de bases de données, connue sous le terme de biocuration, pour collecter, annoter et mettre à disposition l'information biologique an de pouvoir la réutiliser et la partager de manière ecace (Howe et al., 2008; Snyder, 2009). Dans ce contexte, la littérature scientique est la principale source d'information, et les données peuvent être extraites des publications soit de manière manuelle, soit de manière automatisée (par exemple par text-mining).

Figure I.1.1  Augmentation de l'intérêt pour les intéractions protéine-protéine depuis 50 ans. Une recherche sur Pubmed permet de quantier le nombre de publications scientiques comportant "protein-protein interactions" dans le titre. Ce graphique nous permet d'évaluer l'importance de ce concept dans la littérature du do-maine de la biologie médicale.

La construction de la base de données Yeast protein Database en 1996 a été l'un des premiers projets collectant à grande échelle des informations en lien avec les protéines (sé-quence, annotation, localisation et PPI) (Garrels, 1996). Ce travail a démontré qu'il était possible d'assembler un grand nombre de données provenant de sources diérentes. Cepen-dant, le challenge du partage des données liées aux PPI s'est rapidement complexié, du fait de l'augmentation du volume des données à traiter et de la diversité des formats dans lesquels les résultats expérimentaux étaient publiés. La tâche est alors devenue fastidieuse, nécessitant beaucoup de moyens humains et nanciers (Howe et al., 2008).

An d'améliorer la représentation et l'échange des données PPI, le groupe de travail Proteomics Standards Initiative, sous couvert du Human Proteome Organization (HUPO-PSI) et soutenu par le consortium International Molecular Exchange (IMEx) (Orchard et al., 2012), a développé des directives communautaires standardisées (Hermjakob et al., 2004; Mackay et al., 2007) :

 les directives MIMIx (Minimum Information about a Molecular Interaction expe-riment), an de guider la publication des données PPI (Orchard et al., 2007).  le format PS-MI XML, an de normaliser le partage des données PPI ; ce format

(23)

Base de données URL Catégorie Protéines PPI

Biogrid thebiogrid.org Primaire 23140 473480

DIP dip.doe-mbi.ucla.edu/ dip/Main.cgi Primaire 4901 7794

HIPPIe cbdm-01.zdv.uni-mainz.de/mschaefer/

hippie/index.php Méta-base 17336 411430

HPRD hprd.org Primaire 30047 41327

IntAct ebi.ac.uk/intact Primaire 98932 882962

MINT mint.bio.uniroma2.it Primaire 11383 48352

PIP compbio.dundee.ac.uk/www-pips Méta-base /

Prédiction

7751 79441

STRING string-db.org Méta-base /

Prédiction

16073 3470906

Tableau I.1.3  Comparaison des bases de données open source de PPI chez l'humain

Le but est de décrire de manière objective toutes les expériences d'interaction molé-culaire, en tenant compte de la grande diversité des PPI et de leurs méthodes d'identi-cation et en communiquant les résultats de manière accessible aux outils informatiques. Ces eorts de standardisation sont ainsi principalement centrés sur la description des ex-périences et l'annotation des données expérimentales : méthode employée pour détecter les PPI, organisme dans lequel les PPI ont été identiées, liste des molécules participant à l'interaction, etc.

À l'heure actuelle, il existe plus de 300 bases de données spécialisées dans les PPI, dont une centaine chez l'humain. Une liste complète est disponible sur Pathguide1. Ces bases

de données travaillent majoritairement de façon indépendante et peuvent se distinguer en 3 catégories en fonction des méthodes d'identication des PPI ou de curation des données. On trouve ainsi (i) les bases de données primaires, (ii) les méta-bases de données et (iii) les bases de données de prédictions (De Las Rivas et Fontanillo, 2010).

 i) Les bases de données primaires prennent en compte uniquement les PPI démon-trées expérimentalement par des méthodes biophysiques. L'extraction et l'intégra-tion des données sont le plus souvent manuelles. Exemples : Database of Interacting Proteins (DIP), Molecular INTeraction database (MINT) (Licata et al., 2012) et The Human Protein Reference Database (HPRD) (Keshava Prasad et al., 2009).  ii) Les méta-databases combinent les données de plusieurs bases de données

pri-maires. Exemple : Human Integrated ProteinProtein Interaction rEference (HIP-PIE) (Alanis-Lobato et al., 2017) qui combine les données de 7 bases de données primaires, dont MINT, HPRD et DIP.

 iii) Les bases de données de prédiction incluent, en plus des PPI expérimentales, des PPI prédites grâce aux méthodes de computationnelles. Par ailleurs, la curation peut être manuelle ou automatisée. Exemple : Search Tool for the Retrieval of Interacting Genes (STRING) est la plus large base de données PPI de prédiction disponible à l'heure actuelle (Tableau I.1.3).

(24)

Les bases de données primaires, considérées comme ables, sont souvent utilisées pour valider les PPI prédites par des méthodes computationnelles ou celles extraites par cura-tion automatisée (Yu et al., 2008). De nombreuses bases de données attribuent un score de conance aux PPI. Plus ce score est haut, plus l'interaction a la probabilité d'exister in vivo. Chaque base de données calcule son propre score de notation. Celui-ci tient compte par exemple de la taille de l'expérience, la méthode d'identication (biophysique ou haut-débit, expérimentale ou computationnelle), ou encore le nombre de publications décrivant le PPI. Malgré cela, étant donné les nombreuses méthodes d'identication des PPI et la diversité des bases de données, les bases d'interactions contiennent des informations diérentes (Keskin et al., 2016) et ont un faible taux de PPI communes (De Las Rivas et Fontanillo, 2010).

1.1.4 Les réseaux d'interactions protéine-protéine

Les réseaux constituent des ensembles d'éléments (n÷uds) interconnectés par des re-lations particulières (arêtes). Des réseaux existent dans n'importe quel domaine. Un ré-seau informatique par exemple est un ensemble de machines connectées échangeant des informations entre elles, comme Internet. Un réseau social est un ensemble d'individus entretenant des relations les uns avec les autres, comme un groupe d'amis. En biologie aussi, l'ensemble des interactions intermoléculaires qui s'opèrent dans un organisme est souvent représenté comme un réseau. Dans le cas du réseau modélisant les PPI, les pro-téines constituent les n÷uds du réseau et les liens physiques ou fonctionnels forment les arêtes du réseau.

Les premiers réseaux PPI générés étaient relativement restreints et n'incluaient qu'un certain type de protéines. Par exemple Richter propose en 1975 de modéliser en ré-seau les PPI impliqués dans la reconnaissance des antigènes par des anticorps (Richter, 1975). Cette modélisation simpliée des réalités expérimentales lui permet de comprendre quelques phénomènes basiques, à une échelle locale, de la réponse immunitaire. Des ré-seaux PPI à plus large échelle ont ensuite été développés sur des organismes modèles. Schwikowski et al. (Schwikowski et al., 2000) ont ainsi construit un réseau chez la levure comprenant 2358 interactions entre 1548 protéines. Ce n'est qu'en 2005 que des réseaux PPI se focalisant sur l'homme ont vu le jour (Rual et al., 2005; Stelzl et al., 2005). Ces réseaux ont bénécié des progrès générés dans le domaine des bases de données (Costanzo, 2000; Mewes et al., 2000) et ils fournissent désormais un modèle mathématique de l'inter-actome humain permettant aux scientiques de formuler des hypothèses et de les vérier (Sevimoglu et Arga, 2014). Arthur D Lander (Lander, 2010) estime d'ailleurs que le réseau de l'interactome humain, qu'il représente à l'image d'une pelote de laine (Figure I.1.2), est la nouvelle icône de la biologie du 21ème siècle compte tenu de l'énorme masse de connaissances qu'il renferme et des avancées scientiques nécessaires à sa construction.

Les réseaux PPI d'aujourd'hui contiennent des milliers de protéines et d'interactions (Tableau I.1.3) et leur visualisation est un véritable challenge (Gehlenborg et al., 2010; Suderman et Hallett, 2007). La plupart des bases de données ont leur propre système d'interrogation permettant la visualisation de réseaux PPI. Certaines sont facilement ac-cessibles aux biologistes. C'est par exemple le cas pour l'interface KUPNetViz adossée à

(25)

Figure I.1.2  Représentation de l'interactome humain. Arthur D Lander com-pare l'interactome humain à une pelote de laine, car les interactions entre les molécules sont aussi intriquées que les ls d'une pelote de laine (Lander, 2010). Les PPI sont une formidable source d'informations mais sa visualisation et son analyse nécessitent des méthodes et des connaissances particulières.

la base de données KUPKB2 (Klein et al., 2012) ou celle de STRING qui ore la

pos-sibilité de visualiser un réseau de 2000 protéines. D'autres en revanche sont populaires chez les bioinformaticiens, mais peu utilisés par les biologistes, du fait de leur complexité. Le logiciel Cytoscape par exemple permet la visualisation de nombreux réseaux, notam-ment ceux issus de STRING (Doncheva et al., 2018), mais la représentation graphique qu'il donne de la totalité des PPI actuellement connus est très dense et peu informative (Keskin et al., 2016) (Figure I.1.2). L'exploitation des réseaux PPI passera donc par une amélioration des logiciels de visualisation associée à la réduction du fossé qui existe entre biologistes et informaticiens.

Les réseaux PPI constituent un point de départ des recherches en biologie des systèmes. C'est en eet par l'étude de leur organisation et de leur comportement qu'il sera possible de mieux comprendre le fonctionnement des systèmes biologiques.

1.1.5 Structures des réseaux d'interactions protéine-protéine

Les recherches décrivant la structure des réseaux posent les bases de l'analyse moderne de réseaux biologiques. D'une manière générale, tous les réseaux biologiques sont

(26)

nés par des lois universelles communes (Barabási et Oltvai, 2004). Les 3 principales lois sont : l'eet petit monde, l'invariance d'échelle et la transitivité.

L'eet petit monde (small world eect) (Watts et Strogatz, 1998) est connu des réseaux sociaux sous le nom de la  théorie des 6 poignées de main  (Karinthy, 1929). Appliqué aux PPI, cela signie que deux protéines sont toujours reliées par un chemin comprenant au maximum 6 interactions. Cet eet petit monde explique pourquoi un organisme ou une cellule sont capables de réagir rapidement et ecacement à une perturbation (Albert, 2005).

L'invariance d'échelle (scale-free network) a été dénie en 2005 pour exprimer l'idée selon laquelle seulement quelques protéines, appelés  hubs , possèdent beaucoup d'in-teractions avec d'autres protéines alors qu'inversement, la majorité des protéines n'en possède qu'un nombre réduit (Albert, 2005) (Figure I.1.3). Cette propriété est due au fait que les réseaux grandissent par l'ajout successif de nouveaux n÷uds qui se xent préférentiellement à des n÷uds ayant déjà beaucoup d'interactions (Barabasi et Albert, 1999). Deux principales conséquences découlent d'une telle structure. En premier, les ré-seaux biologiques sont très stables, insensibles à la délétion aléatoire de leurs n÷uds. En eet, un réseau restera quasi-entier malgré la suppression aléatoire de 80 % de ses n÷uds (Albert et al., 2000) puisque cette suppression aectera principalement les n÷uds ayant un petit nombre de relations. En revanche, la structure des réseaux est très vulnérable à la suppression ciblée de ses n÷uds essentiels, les hubs. Il a été démontré que la majorité des protéines hubs joue un rôle important dans la survie cellulaire (Jeong et al., 2001) ; on comprend donc aisément que la désorganisation du réseau induite par l'altération de ces hubs sera lourde de conséquences pour les cellules, au point de mettre en péril leur survie.

Enn, la notion de transitivité, étudiée depuis longtemps dans les réseaux sociaux, peut se résumer à l'adage  l'ami de mon ami est mon ami  (Holland et Leinhardt, 1971). Transposée aux réseaux de PPI, cette notion signie que deux protéines qui interagissent avec une même troisième, ont de fortes chances d'interagir entre elles. Ces agrégations de protéines en interaction constituent des petits groupes appelés modules (Yeger-Lotem et al., 2004; Gavin et al., 2002) (Figure I.1.4). Les protéines de ces modules forment généralement un groupe fonctionnellement cohérent (Hartwell et al., 1999). La réciproque est également vraie puisqu'il a été observé qu'un ensemble de protéines ayant une fonction commune appartiennent à un même bloc de modules dans le réseau (Yook et al., 2004). Ces modules peuvent adopter des formes particulières en fonction du nombre de protéines impliquées et du nombre de relations qui lient ces protéines. Ainsi, un module carré par exemple est constitué de 4 protéines, chacune étant liée à seulement 2 autres protéines du module . Un module dans lequel les protéines, quel que soit leur nombre, sont toutes connectées entre elles est un module particulier appelé clique (Giot, 2003; Albert, 2005). L'existence de ces diérentes formes de modules repose sur des phénomènes biologiques particuliers (Yeger-Lotem et al., 2004). Par exemple, la duplication du gène codant une protéine A interagissant avec B et C conduira à la production d'une protéine A', proche de A, qui elle aussi interagit avec B et C ; il se formera de fait le module carré ABA'C dans le réseau (Force et al., 1999). De même, les protéines interagissant les unes avec les autres au sein des complexes macromoléculaires expliquent les cliques.

(27)

Figure I.1.3  Distribution des degrés du réseau PPI STRING. La distribution des degrés est représentée par la fréquence du nombre d'interaction par protéine du réseau (les axes suivent une échelle logarithmique). Les hubs sont dénis comme les 20 % des protéines ayant le plus grand nombre d'interactions (Yu et al., 2004). La distribution du réseau PPI, ici celle de STRING (Szklarczyk et al., 2019), nous montre que la majeure partie des protéines ont peu d'interactions, la moitié des protéines ont moins de 120 interactions, et une petite partie a beaucoup d'interaction, les hubs (en rouge) ont plus de 1000 interactions.

1.2 Centralités

Une centralité est une mesure capable de quantier l'importance relative d'un n÷ud dans un réseau (Kang et al., 2011). Couramment utilisée depuis les années 1970 dans l'étude des réseaux sociaux (Burt, 1976; White et al., 1976; Cook et al., 1983), la centralité est appliquée pour la première fois aux réseaux PPI avec le travail de Jeong en 2001 (Jeong et al., 2001). Il est intéressant de remarquer que Freeman, pionnier de l'analyse des réseaux, qualie l'évolution de l'utilisation de la centralité comme à contre-courant car il est assez rare qu'une méthode soit transférée des sciences sociales vers les sciences naturelles (Freeman, 2008).

1.2.1 Diérents type de centralités

Une centralité permet donc de classer les n÷uds selon leur participation à la structure du réseau. Il existe de nombreuses centralités diérentes dans la mesure où la notion d'importance d'un n÷ud dépend de la question que l'on se pose. Certaines centralités,

(28)

Figure I.1.4  Hubs et modules d'un réseau modèle. Le modèle Barabasi génère un réseau PPI sans échelle (Barabasi et Albert, 1999) décrivant la plupart des réseaux biologiques. Le réseau jouet représenté ici est généré à partir du package igraph du logiciel R (Csardi et Nepusz, 2006). Les hubs du réseau (en rouge) ont ici plus de 4 interactions. Les modules du réseau sont des groupes de protéines interagissant entre eux.

dites locales, ne prennent en compte que le voisinage direct d'un n÷ud pour mesurer son importance. Elles incluent la centralité de degré, de sous-graphe, et de vecteur propre. D'autres centralités, dites globales, considèrent tous les n÷uds du réseau. Il s'agit des centralités de proximité, d'excentricité et d'intermédiarité.

Centralités locales Degré

La centralité de degré mesure l'importance d'un n÷ud selon le nombre de voisins directs (Freeman, 1978). Dans les réseaux PPI, seul un petit nombre de protéines possède une grande centralité de degré, les hubs (Figure I.1.3). L'expérience de Jeong, Lethality and centrality in protein networks, utilisait sans la nommer une centralité de degré dans le réseau PPI de la levure pour prouver que les protéines hubs ont un rôle important pour la survie cellulaire. Cette observation est connue depuis sous le nom de la règle de centralité-mortalité (the centrality-lethality rule) (He et Zhang, 2006).

Sous-graphe

(29)

Cette centralité donne plus d'importance aux petits groupes de protéines formant des modules de 3 ou 4 protéines. Csg(x) = ∞ X k=0 (A)k k! (1.1)

1.1  Équation de la centralité de sous graphe Avec Csg(x) la centralité de sous graphe du n÷ud x

k la longueur chemin A la matrice d'adjacence

Une boucle est un chemin partant d'une protéine x, passant par k protéines distinctes dans le réseaux et revenant à la protéine x. La centralité de sous-graphe d'une protéine est grande si elle participe à un grand nombre de boucles. Le nombre de boucle est divisé par le factoriel de sa longueur k. Ce qui signie que plus la boucle est longue moins elle fera augmenter la centralité de sous-graphe. En pratique, la centralité de sous-graphe est surtout basée sur le nombre de triangles (boucle de longueur 3) ou de carrés (boucle de longueur 4).

Inventée en 2005 par Ernesto Estrada et Juan Rodríguez-Velázquez (Estrada et Rodríguez-Velázquez, 2005), la centralité de sous-graphe permet d'identier plus de protéines essentielles à la survie cellulaire que ne le fait la centralité de degré (Jeong et al., 2001). Ce résultat prouve que le caractère indispensable d'une protéine dans le réseau PPI est une conséquence de son imbrication dans des modules, plus que de ses interactions (Yeger-Lotem et al., 2004).

Vecteur propre

La centralité de vecteur propre classe les n÷uds selon l'importance de ses voisins (Bonacich, 1987). Le concept de  prestige  dans les réseaux sociaux illustre bien la centralité de vecteur. Le prestige d'une personne ne se résume pas au nombre de personnes qu'elle connaît ; il tient compte aussi de l'importance des personnes avec qui elle est connectée (Rusinowska et al., 2011).

Cvp(x) = 1 λ X y∈V (x) Cvp(y) (1.2)

1.2  Équation de la centralité de vecteur propre Avec Cvp(x) la centralité de vecteur propre du n÷ud x

λla valeur propre, une constante

V(x) l'ensemble des voisins directs du n÷ud x

La centralité de vecteur propre est dénie comme la somme des centralités de ses voisins et se calcule grâce à un algorithme de convergence.

Centralités globales

Les mesures de centralités globales se réfèrent à l'ensemble des n÷uds du réseau pour dénir l'importance d'un n÷ud donné. Elles mobilisent la notion de distance séparant deux n÷uds. La distance la plus utilisée est celle du plus court chemin, aussi appelée la distance géodésique. L'hypothèse est alors que l'information entre deux n÷uds se propage uniquement par les plus courts chemins. La distance de la marche aléatoire (random walk) est aussi beaucoup utilisée (Newman, 2005). Dans ce cas, la distance entre deux

(30)

protéines est la probalité partant d'une protéine d'atteindre la deuxième suivant des chemins sélectionnés aléatoirement (Ghasemi et al., 2014).

Proximité

La centralité de proximité indique quels n÷uds peuvent communiquer rapidement avec les autres n÷uds du réseau (Borgatti, 2005).

Cc(x) =

X

y6=x

1

dist(x, y) (1.3)

1.3  Équation de la centralité de proximité

Avec Cc(x) la centralité de vecteur propre du n÷ud x

dist(x,y) la distance entre x et y

La centralité de proximité est dénie comme l'inverse de la somme des distances entre le n÷ud x et les autres n÷uds du réseau. Plus le n÷ud x sera proche de beaucoup de n÷uds du réseau plus sa centralité de proximité sera proche. Les n÷uds éloignés du n÷ud x n'auront pas beaucoup d'inuence sur sa centralité.

Cette mesure a contribué à dénir le centre des réseaux biologiques (Wuchty et Stadler, 2003). En eet, une protéine avec une grande centralité de proximité sera située à une faible distance des autres protéines du réseau. Elle occupera donc une position centrale dans le réseau et aura plus de chance d'être une protéine essentielle (Hahn et Kern, 2005).

Excentricité

La centralité d'excentricité mesure l'accessibilité d'un n÷ud par les autres n÷uds. Sa dénition est très proche de celle de la centralité de proximité. Traditionnellement cette centralité est utilisée dans les problèmes d'emplacement d'installation (facilities location problem). Un hôpital par exemple doit être localisé de manière à minimiser le trajet maximum en cas d'urgence (Krnc et al., 2018).

Ce(x) =

1

max(dist(x, y)) (1.4)

1.4  Équation de la centralité d'excentricité Avec Ce(x) la centralité d'excentricité du n÷ud x

max(dist(x,y)) la distance maximale entre x et y, toutes autres protéines du réseau

La centralité d'excentricité est dénie par l'inverse de la distance maximale entre x et les autres n÷uds du réseau. Plus le n÷ud x sera proche de tous les n÷uds du réseau, plus sa centralité d'excentricité sera grande. Les n÷uds les plus proches du n÷ud x n'ont aucune inuence sur la centralité d'excentricité.

Dans les réseaux PPI, les protéines avec une grande centralité d'excentricité sont les protéines les plus proches du centre géométrique du réseau (Jalili et al., 2016). Par cette position centrale, elles sont facilement accessibles à d'autres composants du réseau et peuvent donc percevoir les changements dans le réseau (Pavlopoulos et al., 2011).

(31)

Intermédiarité

La centralité d'intermédiarité identie les n÷uds qui sont des intermédiaires indispen-sables pour la communication entre les n÷uds du réseau.

Ce(x) =

X

(y,z)6=x

cheminx,y(x)

cheminx,y (1.5)

1.5  Équation de la centralité d'intermédiarité Avec Cb(x) la centralité d'intermédiarité du n÷ud x

y, z deux autres n÷uds du réseau

cheminy,z sont tous les chemins entre y et z

cheminy,z(x) sont tous les chemins entre y et z passant par x

La centralité d'intermédiarité de x, est dénie comme le nombre de chemins passant par x. Pour chaque couple de n÷uds, il est nécessaire de dénir le chemin les reliant. Si l'on considère la distance géodésique, alors on considérera le ou les chemins les plus courts entre les 2 n÷uds. Dans le cas des marches aléatoires, on considérera plusieurs chemins générés aléatoirement entre les 2 n÷uds. Un n÷ud avec une grande centralité d'intermédiarité sera présent dans beaucoup de chemins reliant les autres n÷uds du réseau.

Les protéines avec une grande centralité d'intermédiarité sont notamment à l'origine d'une structure de goulot d'étranglement (bottleneck) (Yu et al., 2007) (Figure I.1.5). Ces protéines relient plusieurs groupes d'autres protéines qui ne peuvent pas interagir sans elles. Les protéines avec une grande centralité d'intermédiarité apparaissent ainsi comme des protéines essentielles à la survie cellulaire (Joy et al., 2005; Hahn et Kern, 2005).

Figure I.1.5  Illustration de la structure en goulot d'étranglement (Yu et al., 2007). Une protéine qui a une grande centralité d'intermédiarité. Ce sont des protéines essentielles à la survie cellulaire. Cette gure montre qu'une protéine avec une grande centralité d'intermédiarité n'est pas forcément un hub du réseau, et un hub n'a pas nécessairement une grande centralité d'intermédiarité.

(32)

Figure I.1.6  Calcul des centralités dans un réseau modèle. Une centralité est une mesure de l'importance d'une protéine dans un réseau. J'ai relevé 6 centralités très utilisées dans les réseaux PPI : (A) centralité de degré, (B) centralité de vecteur propre, (C) centralité de sous-graphe, (D) centralité de proximité, (E) centralité d'excentricité et (F) centralité d'intermédiarité. Cette gure montre bien que selon la centralité, les protéines considérées comme importantes, en rouge, ne sont pas toujours les mêmes.

(33)

1.2.2 Application des centralités aux réseaux d'interactions protéine-protéine Toutes les centralités précédemment énoncées peuvent être utilisées seules pour évaluer l'importance relative d'une protéine au sein des réseaux PPI. En eet, toutes ont prouvé leur ecacité puisque les protéines qu'elles placent au centre du réseau sont des protéines essentielles, c'est-à-dire dont la présence est indispensable à la survie de l'organisme (Jeong et al., 2001; Estrada, 2006; Estrada et Rodríguez-Velázquez, 2005; Zotenko et al., 2008). Les centralités peuvent également être utilisées en association pour obtenir de meilleures performances (Jalili et al., 2016). Par exemple, Mistry et collègues combinent l'équation mesurant la centralité de degré avec celle mesurant la centralité de vecteur propre pour générer une nouvelle équation encore plus performante dans l'identication de protéines essentielles (Mistry et al., 2017). Wang et al. quant à eux considèrent que les protéines importantes sont celles qui possèdent une centralité élevée quelle que soit la méthode de mesure utilisée (Wang et al., 2014).

Il est donc dicile de préconiser à l'avance l'application d'une centralité plutôt que d'une autre, de manière isolée ou combinée tout dépend du contexte. Premièrement, les performances des diérents types de centralité sont dépendantes du réseau étudié. Zotenko et al. calculent les centralités (dont celles de degré, de sous-graphe, de vecteur-propre et d'intermédiarité) sur 6 réseaux PPI diérents pour identier les protéines essentielles à la survie cellulaire. Même si elles sont toujours meilleures qu'une sélection aléatoire, les centralités présentent des performances relatives qui dièrent suivant les réseaux. Deuxiè-mement, les centralités ont des liens entre elles, mais ces derniers évoluent en fonction du réseau étudié (Figure I.1.7) (Wuchty et Stadler, 2003; Estrada et Rodríguez-Velázquez, 2005; Koschutzki et Schreiber, 2004; Ashtiani et al., 2018). De manière générale, les cen-tralités n'ont pas de corrélation négative entre elles (Estrada et Ross, 2018), ce qui sug-gère qu'elles ne sont jamais fondamentalement opposées. De plus, des corrélations élevées existent entre la centralité de degré et celle de proximité (Estrada et Rodríguez-Velázquez, 2005), ce qui signie que les protéines avec une haute centralité de degré sont situées à une faible distance des autres n÷uds du réseau. En revanche, des liens peuvent exister dans un réseau donné alors qu'ils n'existent pas dans un autre : par exemple, une forte corrélation entre la centralité de vecteur propre et la centralité de degré a été observée dans le réseau PPI humain (Ashtiani et al., 2018) mais pas dans le réseau PPI de levure (Koschutzki et Schreiber, 2004).

Ainsi, en pratique, lorsqu'on veut analyser un réseau particulier, il est recommandé de tester dans un premier temps l'ensemble des centralités à disposition, seules puis en association, puis de comparer dans un second temps ces méthodes, à l'aide par exemple d'une analyse ACP, an de choisir la méthodologie la plus appropriée au réseau considéré (Ashtiani et al., 2018).

1.2.3 Propriétés des centralités des protéines pathologiques

La biologie a permis d'identier un grand nombre de gènes, nommés  gènes patho-logiques  qui contribuent à des maladies chez l'homme (Jimenez-Sanchez et al., 2001) et la connaissance des liens qui existent entre ces gènes permet de mieux comprendre les mécanismes pathologiques. L'analyse de ces  gènes pathologiques , avec leurs relations,

(34)

Figure I.1.7  Corrélations des cen tr alités en tre elles dans un réseau mo dèle. Cette gure est un tableau à double en trée représen tan t les corrélations en tre les 6 cen tralités présen tées précédemmen t. Cette représen tation met en av an t les lien s qui exis ten t en tre les diéren tes mesures de cen tra lités dans le réseau mo dèle présen té précédemen t (Figure I.1.6). La cen tralité de degré et celle de sous graphe on t la plus gra nde corrélation :une protéine av ec une grande cen tralité de degré aura aussi une grande cen tralité de sous graphe, in versemen t une protéin e av ec une petit e cen tralité de deg ré aura une petit e cen tralité de sou s graphe. Il est in téressan t de rem arquer que ma lg ré leur diérence aucune des cen tralités ne son t fondamen talemen t opp osé es (elles ne son t jamais corrélées négativ emen t.

(35)

peut être élargie à celle des protéines pour lesquelles ils codent (nommées par analogie  protéines pathologiques ), associées à leurs PPI. L'analyse du réseau PPI est alors un formidable outil pour améliorer la compréhension des maladies (Kann, 2007).

L'analyse de la centralité des protéines pathologiques du réseau PPI a permis de mettre en avant 3 propriétés (Figure I.1.8) :

i) Plus les protéines pathologiques ont des centralités élevées, plus elles sont liées à un nombre élevé de maladies.

Quel que soit le réseau, les protéines pathologiques ont toujours plus d'interactions que les autres protéines du réseau (Barrenas et al., 2009; Chavali et al., 2010; Goh et al., 2007). De plus, les protéines impliquées dans beaucoup de maladies occupent des positions centrales dans le réseau, comparée à des protéines liées à une seule maladie, que ce soit en termes de degré, de proximité, d'intermédiarité ou d'excentricité (Chavali et al., 2010).

ii) Plus les protéines pathologiques ont des centralités élevées, plus elles aectent l'organisme dans sa globalité.

En séparant les protéines selon la diversité des phénotypes dans lesquels elles sont impliquées, l'expérience de Chavali et al. a en plus prouvé que les protéines pathologiques impliquées dans des maladies très diérentes sont plus au centre du réseau que les protéines impliquées dans des maladies semblables. L'explication de ce phénomène vient du fait que les protéines pathologiques de centre du réseau sont exprimées dans plus d'organes diérents (Goh et al., 2007). Les protéines pathologiques centrales touchent donc l'organisme de façon plus globale. Les protéines pathologiques ont également tendance à interagir entre elles (Goh et al., 2007; Feldman et al., 2008). Ce phénomène est encore plus fort avec les protéines impliquées dans des maladies possédant des phénotypes semblables (Barrenas et al., 2009). Celles-ci créent des modules distincts fonctionnellement cohérents qui sont exprimés dans les mêmes organes (Goh et al., 2007). iii) Plus les protéines pathologiques ont des centralités élevées, plus elles sont liées à des maladies sévères.

Barrenas et al. ont classé les protéines en fonction du type de maladies auxquelles elles sont liées (Barrenas et al., 2009). Les maladies peuvent en eet être monogéniques. Dans ce cas, la mutation d'un seul gène est susante pour générer un phénotype pathologique. Les maladies peuvent être au contraire multigéniques. Cela signie que des mutations dans plusieurs gènes sont requises pour provoquer la maladie. L'analyse des centralités de proximité et d'excentricité ont montré que les protéines associées aux pathologies monogéniques occupent dans le réseau une position plus centrale que celles des maladies multigéniques. Cela montre que la perturbation d'une protéine centrale mène plus sûre-ment vers un phénotype pathologique que ne le fait l'altération d'une protéine située en périphérie. Ce résultat est conrmé par le fait que les protéines essentielles à la survie cel-lulaire sont plus centrales que les protéines non-essentielles (Goh et al., 2007). Il est aussi corroboré par l'observation que les protéines responsables des cancers ont aussi une place

(36)

bien particulière dans le réseau PPI, avec bien plus d'interactions et engagées dans plus de modules que les protéines des autres maladies (Jonsson et Bates, 2006; Wang et al., 2011). En conclusion, l'analyse de la centralité des protéines pathologiques a permis de relier la position occupée par les protéines au sein du réseau PPI avec diérents types de maladies. La perturbation d'une protéine centrale aura donc plus d'impact sur le réseau dans son ensemble et mènera vers un état pathologique plus certain.

Figure I.1.8  Illustration de la centralité des protéines pathologiques. La topologie des protéines pathologiques a été étudiée dans plusieurs publications grâce aux mesures de centralités (Barrenas et al., 2009; Chavali et al., 2010; Goh et al., 2007). Il a été remarqué que plus la centralité d'une protéine pathologique est grande, plus cette protéine est liée (i) à un nombre élevé de maladies, (ii) de sévérité importante et (iii) touchant un large panel d'organes.

1.3 Identication des acteurs clés des maladies rénales

Les maladies rénales se manifestent par une perte progressive de la fonction rénale (Ro-magnani et al., 2017). Les mécanismes biologiques à l'origine de ces maladies et de leur progression ne sont pas toujours bien compris (Cijiang He et al., 2012; Brosius et Ju, 2018; Nicoll et al., 2018). Il est donc important d'identier de nouveaux acteurs moléculaires des maladies rénales. Dans ce but, 5 types d'approches sont actuellement utilisées : (i) une approche simple basée uniquement sur l'expérience, et 4 approches plus complexes, qui as-socient les résultats expérimentaux à (ii) l'utilisation d'un logiciel commercial (Ingenuity Pathway Analysis) ou l'analyse de réseaux PPI (iii) focalisés sur les molécules

Figure

Figure I.1  Comparaison des protéines détectées dans l'urine et dans le tissu rénal. L'étude d'Adachi et al
Tableau I.1.3  Comparaison des bases de données open source de PPI chez l'humain
Figure I.1.2  Représentation de l'interactome humain. Arthur D Lander com- com-pare l'interactome humain à une pelote de laine, car les interactions entre les molécules sont aussi intriquées que les ls d'une pelote de laine (Lander, 2010)
Figure I.1.3  Distribution des degrés du réseau PPI STRING. La distribution des degrés est représentée par la fréquence du nombre d'interaction par protéine du réseau (les axes suivent une échelle logarithmique)
+7

Références

Documents relatifs

Le preneur devra être inscrit au Registre du Commerce et des Sociétés (extrait K bis) ; il devra être en règle avec la législation en vigueur, notamment avoir satisfait à

On observe très bien ici, d'une part la raréfaction des images vasculaires dans les zones les plus noires (embolie pulmonaire périphérique ancienne) , d'autre part le calibre

est le logiciel phare de La Solution Crypto dédié au métier de la Gérance. LE

La croissance a été un peu plus faible qu’en 2002, l’excédent des nais- sances sur les décès ayant légèrement diminué (les naissances sont restées au même niveau, mais

Dans notre rôle impor- tant de gardiens du système, les médecins de famille ont le pouvoir de contribuer à le soutenir tout en gar- dant à l’esprit

Être béni par Dieu, recevoir de Dieu le bien qu’il a préparé pour ses enfants, voilà notre besoin le plus grand.. Bénir Dieu et être béni

L’enquête réalisée auprès des usagers des bains-douches parisiens montre, en effet, que parmi les personnes qui les fréquentent, seule une minorité est effectivement sans abri

Néanmoins, si vous souhaitez découvrir la ville au-delà de son centre historique tout suivant une narration amène de l’histoire de Cordoue, nous vous conseillons de monter à bord