Mesurer les associations protéiques à proximité in vivo en utilisant la complémentation de fragments protéiques

(1)

Mesurer les associations protéiques à proximité in vivo

en utilisant la complémentation de fragments protéiques

Mémoire

Andrée-Ève Chrétien

Maîtrise en biologie

Maître ès sciences (M. Sc.)

Québec, Canada

© Andrée-Ève Chrétien, 2017

(2)

Mesurer les associations protéiques à proximité in vivo

en utilisant la complémentation de fragments protéiques

Mémoire

Andrée-Ève Chrétien

Sous la direction de :

(3)

III

Résumé

Les interactions protéine-protéine (PPI) sont à la base du fonctionnement cellulaire de tous les organismes. Regroupées en deux catégories, les méthodes pour étudier les PPI permettent soit d’identifier les protéines composant le complexe, soit de déterminer les relations entre les protéines. Il existe peu de méthodes hybrides permettant d’obtenir ces deux informations et ces méthodes comportent plusieurs limitations. Le but de ce projet était de développer une nouvelle méthode hybride en modifiant la complémentation de fragments protéiques (DHFR PCA) chez la levure Saccharomyces cerevisiae. Le principe de la DHFR PCA repose sur l’association de deux fragments rapporteurs complémentaires en présence d’une interaction protéine-protéine. Les fragments rapporteurs sont fusionnés aux protéines via un connecteur peptidique. La longueur du connecteur limite la distance maximale à laquelle il est possible de détecter une interaction entre deux protéines. Notre hypothèse était qu’en augmentant la longueur du connecteur, nous serions en mesure de détecter des interactions plus éloignées. Nous avons d’abord vérifié que l’augmentation de la longueur du connecteur permettait de modifier notre capacité à détecter des interactions sans toutefois perdre la spécificité de la méthode. De nouvelles interactions ont été détectées à l’intérieur d’un même complexe protéique et entre deux complexes. Nous avons ensuite validé notre capacité à mieux disséquer l’architecture des complexes protéiques en approfondissant le cas de cinq complexes protéiques à l’aide de plusieurs combinaisons de longueurs de connecteurs. Enfin, nous avons confirmé que la méthode permettait effectivement de détecter des interactions entre protéines plus distantes en comparant les résultats obtenus aux distances calculées à partir des structures du protéasome disponibles. La variation apportée à la DHFR PCA permet de moduler la résolution de l’étude des PPI et ainsi de mieux définir l’architecture des complexes protéiques.

(4)

IV

Abstract

Protein-protein interactions (PPI) are central to all cellular processes in all organisms. Grouped in two categories, methods to study PPI allow either to identify proteins composing protein complexes or to determine relationships between proteins. Only a few hybrid methods can be used to obtain both of those informations and these methods present many limitations. The goal of this project was to develop a new hybrid method by modifying the Protein-fragment complementation assay (DHFR PCA) in the yeast Saccharomyces cerevisiae. DHFR PCA is based on the association of two complementary reporter fragments in presence of an interaction. Both fragments are fused to proteins with a peptide linker. Linker length limits the maximal distance at which it is possible to detect an interaction between two proteins. Our hypothesis was that increased linker length would allow the detection of more distant interactions. We first verified if the augmentation of linker length modified our capacity to detect interactions without losing specificity. New interactions were detected inside and between complexes. Then, we validated our capacity to better dissect protein complexes architecture by studying five protein complexes with different linker length combinations. Finally, we confirmed that the method allowed the detection of interactions that were further in space by comparing our results with distances calculated with available proteasome structures. This variation of DHFR PCA allows to modulate the resolution of PPI study and thus better define protein complexes architecture.

(5)

V

Table des matières

Résumé ... III Abstract ... IV Table des matières ... V Liste des tableaux ... VII Listes des figures ... VIII Listes des abréviations ... IX Remerciements ... XI Avant-propos ... XIII

Introduction générale ... 1

1.1 L’aspect fondamental des interactions protéine-protéine ... 1

1.2 Applications concrètes de l’étude des interactions protéine-protéine ... 2

1.3 Catégories de méthodes permettant d’étudier les interactions protéine-protéine ... 3

1.3.1 Méthodes identifiant les membres d’un complexe protéique : Purification de complexes protéiques suivie de la spectrométrie de masse ... 4

1.3.2 Méthodes déterminant le réseau d’interactions protéiques ... 5

1.4 Défi actuel dans l’étude des interactions protéine-protéine ... 8

1.5 Le connecteur : un paramètre potentiellement intéressant pour moduler la détection des interactions protéine-protéine ... 9

1.6 Objectifs de recherche ... 9

Measuring proximate protein association in living cells using Protein-fragment complementation assay (PCA) ... 11

Résumé ... 11

Abstract ... 12

Introduction ... 13

Material and Methods ... 14

Yeast ... 14

Bacteria ... 15

Plasmid construction ... 15

Strain construction... 16

Estimation of protein abundance ... 16

(6)

VI

PCA images and statistical analyses ... 19

Analysis of protein distances within complexes ... 21

Results and discussion ... 22

Longer linkers increase signal-to-noise ratio in large-scale screens ... 22

PCA signal reflects the super-organization of protein complexes ... 23

Longer linkers allow detection of more distant proteins in complexes ... 25

Conclusion... 26

Acknowledgements ... 26

Conclusion générale ... 43

(7)

VII

Liste des tableaux

Table S1A. Description of the strains constructed and used for this study ... 30

Table S1B. PCA data for global PCA experiment ... 30

Table S1C. PCA data for intra-complexes experiment ... 30

Table S1D. PCR primers used in this study ... 30

Table S2A. Distances between C-termini calculated from molecular modeling ... 31

Table S2B. Identity between each RNApol structures and the experimental sequences ... 32

Table S2C. Identity between proteasome structure and the experimental sequence ... 34

Table S2D. Number of missing residues in C-termini of studied proteins in RNApol I, II and III and proteasome structures ... 37

(8)

VIII

Listes des figures

Figure 1. Longer linkers increase signal-to-noise ratio in a large-scale Protein-fragment complementation (PCA) screen and proves to be useful to infer the super-organization of protein complexes ... 27 Figure 2. Longer linkers allow for the detection of more distant proteins within complexes. ... 29 Figure S1. Data related to the PCA experiments. ... 40 Figure S2. Illustration of the methods used to build the proteasome structure and to

(9)

IX

Listes des abréviations

% : Pourcentage °C : Degré Celsius Å : Ångström

ADN : Acide désoxyribonucléique Amp : Ampicilline

ARNm : Acide ribonucléique messager

BioID : « Proximity-dependent biotinylation » ClonNAT : Nourséothricine

COG : « Conserved oligomeric Golgi » DHFR : Dihydrofolate réductase DMSO : Diméthylsulfoxyde F[1,2] : Fragment 1,2 de la DHFR F[3] : Fragment 3 de la DHFR FDR : Valeur P corrigée

FRET: Transfert d’énergie entre molécules fluorescentes g : Gramme Gly ou G : Glycine h : Heure HygB : Hygromycine B Is : Score d’interaction L : Litre Log : Logarithme M : Molaire Min : Minute mL : Millilitre mM : Millimolaire MS : Spectrométrie de masse

MS/MS : Spectrométrie de masse en tandem MTX : Méthotrexate

(10)

X

NaCl : Chlorure de sodium

NMR : Résonance magnétique nucléaire OD : Densité optique

PBS : Tampon phosphate salin

PCA : Complémentation de fragments protéiques PCR : Réaction en chaîne de polymérisation PKA : Protéine kinase A

PPI : Interaction protéine-protéine Q1 : Quartile 1

Q3 : Quartile 3

r : Coefficient de corrélation RNApol : ARN polymérase Sdb : Déviation standard Ser ou S : Sérine

SDS : Sodium dodécyl sulfate

SDS-PAGE : Électrophorèse en gel de polyacrylamide contenant du sodium dodécyl sulfate t-test : Test de Student

YPD : Extrait de levures, peptone, dextrose Y2H : Double hybride

Zs : Score Z

µb : Moyenne estimée µg : Microgramme µL : Microlitre µM : Micromolaire

2YT : 2 extraits de levures, tryptone

2xL : Connecteur contenant 2 répétitions du motif Gly-Gly-Gly-Gly-Ser 3xL : Connecteur contenant 3 répétitions du motif Gly-Gly-Gly-Gly-Ser 4xL : Connecteur contenant 4 répétitions du motif Gly-Gly-Gly-Gly-Ser

(11)

XI

Remerciements

L’accomplissement de ce projet a nécessité l’aide de plusieurs personnes que je tiens sincèrement à remercier. Tout d’abord, je me dois de remercier Dr Christian Landry, mon directeur de maîtrise. Christian m’a encouragée tout au long de ce périple à donner le meilleur de moi-même, tant scientifiquement que collectivement. Il a non seulement su me donner les moyens matériels de le faire, mais il a également su me montrer que je possédais les capacités de le faire. Christian est un directeur très présent et disponible pour ses étudiants. Il m’a offert des opportunités et m’a appuyée pour chacune d’elles.

Je voudrais aussi remercier les membres de mon comité aviseur, Dr Yves Bourbonnais et Dr Nicolas Bisson, pour leurs conseils et le temps qu’ils m’ont consacré dans ce projet.

J’aimerais également remercier Isabelle Gagnon-Arsenault et Alexandre K. Dubé, les deux professionnels de recherche du laboratoire. Leur grande expertise et leur passion pour la science sont un pilier dans cette équipe. Sans leurs précieux conseils, leur dévotion et leur disponibilité, la réalisation de ce projet aurait été particulièrement ardue. Je souhaite également remercier mes collaborateurs Xavier Barbeau et Patrick Lagüe. Grâce à leur excellent travail, mon mémoire s’en trouve bonifié. Un merci particulier à Xavier pour son entraide, sa disponibilité et les discussions entraînantes.

Je crois qu’il est important de remercier tous les membres du laboratoire Landry. Les études supérieures demandent de passer beaucoup de temps dans le laboratoire qui devient comme un second foyer. De là provient l’importance de partager des fous rires et de cultiver une complicité avec ses membres. Je voudrais tous les remercier pour les bavardages et les rigolades aux fameux « tea break », les discussions animées et évidement le support autant au laboratoire que moralement. Merci à Claudine pour l’été partagé ensemble, à Lou et à Éléonore pour leur aide avec la programmation, à Anne-Marie pour sa collaboration et son sourire ainsi qu’à Marie pour ses conseils en analyse. Un merci tout spécial à Guillaume et Hélène qui ont particulièrement su m’accrocher un sourire ou m’appuyer et me conseiller lors de difficultés.

(12)

XII

Il est aussi important de remercier mes parents, mais également toute ma famille et mes amis. Mes parents m’ont toujours encouragée à me réaliser et à aimer mon travail. Ils m’ont fourni non seulement un cadre idéal pour atteindre mes objectifs durant l’ensemble de mes études, mais ils m’ont aussi offert leur soutien moral et m’ont inculqué l’importance de toujours faire de son mieux. Les valeurs qu’ils m’ont transmises m’ont permis d’avoir un grand sens des responsabilités, d’honnêteté et d’implication. Grâce à ma famille et mes amis, j’ai pu décompresser, simplement m’amuser et me vider le cœur de temps en temps! Ils ont été un support moral.

Enfin, je tiens à remercier du plus profond de mon cœur mon conjoint, Marc Bélanger. Marc est une personne incroyablement généreuse, généreuse de son temps, de son écoute, de son savoir et de ses passions. Il a été d’un appui inestimable durant ce parcours, et ce, à tout moment. Ses encouragements, son épaule, ses mouchoirs et sa compréhension ont apaisé mes craintes et mes chagrins. Il était aussi là pour célébrer les réussites. Je n’ai aucun mot pour décrire à quel point cette personne m’a apporté personnellement, humainement, et professionnellement. Marc a fait de moi une personne meilleure et je lui en serai toujours reconnaissante. Merci mon amour, merci pour tout.

(13)

XIII

Avant-propos

Ce mémoire comporte un unique chapitre, rédigé sous la forme d’un article scientifique qui sera soumis pour publication. Cet article présente l’adaptation de la méthode PCA permettant de détecter des associations entre des protéines éloignées dans l’espace et son application pour l’étude de complexes protéiques. J’ai contribué à la planification des expériences avec Christian R. Landry (directeur du projet), Isabelle Gagnon-Arsenault et Alexandre K. Dubé (professionnels de recherche). Plusieurs personnes, m’incluant, ont participé à l’exécution de ces expériences, soit Isabelle Gagnon-Arsenault, Claudine Lamothe (étudiante au baccalauréat), Alexandre K. Dubé et Anne-Marie Dion-Côté (étudiante au post-doctorat). La réalisation des analyses structurelles a été effectuée par Xavier Barbeau (collaborateur) et Patrick Lagüe (collaborateur). L’analyse des résultats et la rédaction de l’article ont été faites conjointement par Isabelle Gagnon-Arsenault, Christian Landry et moi-même.

Durant ce projet, j’ai également contribué à la rédaction d’une revue de littérature publiée dans Briefings in functional genomics en mars 2016 sous le titre Multi-scale perturbations of

protein interactomes reveals their mechanisms of regulation, robustness and insights into genotype-phenotype maps. Plusieurs personnes ont participé à la rédaction : Marie Filteau

(étudiante au post-doctorat), Hélène Vignaud (étudiante au post-doctorat), Samuel Rochette (étudiant au doctorat), Guillaume Diss (étudiant au post-doctorat), Caroline M. Berger (étudiante à la maîtrise) et Christian R. Landry. Cet article n’est pas présenté dans ce mémoire.

(14)

1

Introduction générale

1.1 L’aspect fondamental des interactions protéine-protéine

Les protéines, par leur grande diversité de rôles, sont considérées comme la machinerie du vivant. Leurs associations temporaires ou permanentes sont au cœur des voies de signalisation et de régulation ainsi que des complexes protéiques. Les protéines peuvent interagir entre elles via des forces intermoléculaires, comme les liaisons hydrogène, les interactions hydrophobes, les forces de Van der Waals et les interactions ioniques. Les interactions protéine-protéine (PPI) sont essentielles pour le bon fonctionnement de la cellule, puisqu’elles interviennent dans tous les processus cellulaires ainsi que dans le maintien des fonctions cellulaires.

Les interactions qui se forment de manière transitoire sont souvent retrouvées dans les processus de signalisation et de régulation. Elles nécessitent une excellente coordination spatiotemporelle, ce qui explique, lors d’une mauvaise coordination, l’apparition de maladies comme le cancer (1). Un exemple d’association transitoire est celui des deux sous-unités catalytiques et des deux sous-unités régulatrices de la protéine kinase A (PKA) (2). L’activité de cette enzyme est régulée par l’association et la dissociation des sous-unités catalytiques et régulatrices. La transition d’une forme vers l’autre contrôle, chez la levure et les mammifères, plusieurs processus dont le métabolisme énergétique, la croissance cellulaire, le vieillissement et la réponse à des stimuli (3-7). Une mauvaise régulation de la kinase est reliée chez l’homme à des maladies telles que le syndrome de Cushing (8).

En plus des interactions passagères, la cellule est le foyer d’interactions stables entre protéines, menant ainsi à la formation de complexes protéiques. Bien que les PPI d’un complexe soient stables, il est possible que ce complexe protéique ne se forme que dans un contexte particulier. On peut définir un complexe protéique comme étant une association entre deux protéines ou plus (9). L’association entre ces protéines permet l’émergence d’activités biologiques additionnelles qui seraient impossibles en considérant les protéines individuellement. Un exemple illustrant très bien ce concept est le protéasome, un complexe protéique impliqué dans l’homéostasie des protéines par la dégradation des protéines obsolètes marquées par une chaîne d’ubiquitine. Sa structure, conservée chez les eucaryotes,

(15)

2

est composée d’un sous-complexe catalytique en forme de tonneau encadré par un ou deux sous-complexes régulateurs. Elle compte 33 protéines présentes parfois en plus d’une copie (10-13). Étant donné son importance dans le recyclage des protéines, le protéasome est une cible intéressante pour combattre le cancer et les maladies neurodégénératives, par exemple (14-16).

Les deux exemples précédents démontrent bien le rôle primordial des associations protéine-protéine. Néanmoins, ils ne représentent qu’une infime partie d’un grand réseau d’interactions beaucoup plus élaboré. La cartographie des réseaux de PPI est essentielle pour comprendre l’organisation, le fonctionnement et la viabilité cellulaire d’un organisme donné. Le réseau de PPI a été cartographié à grande échelle pour plusieurs organismes, notamment l’humain (17), Saccharomyces cerevisiae (18-20), Drosophila melanogaster (21),

Caenorhabditis elegans (22), plusieurs bactéries (23-26) et plusieurs virus (27-29). Ces

cartographies représentent une image statique du réseau, ne prenant pas complètement en considération la capacité d’adaptation de la cellule à différentes conditions (p. ex. environnement, cycle cellulaire). Pour pallier cette limite, des cartographies additionnelles ont ensuite été réalisées en considérant la dynamique des réseaux d’interactions, soit en perturbant les conditions de croissance cellulaire. Elles renseignent entre autres sur l’adaptation ou encore la plasticité d’un organisme en présence d’un stress ou d’un nouvel environnement. Malgré cette nouvelle perspective, il demeure encore difficile de distinguer une interaction stable d’une interaction transitoire à l’aide des cartographies.

1.2 Applications concrètes de l’étude des interactions protéine-protéine

L’étude des PPI apporte un nouveau regard sur des domaines tels que l’évolution et la médecine. Il est possible de retracer l’histoire évolutive des complexes protéiques par la comparaison des PPI, comme le démontre l’étude du pore nucléaire de la levure et du trypanosome (30). Ces deux organismes, ayant divergé il y a plus de 1,5 milliard d’années, présentent des ressemblances et des différences dans la structure de leur pore nucléaire. Ce complexe protéique essentiel forme un canal dans la membrane du noyau cellulaire et contrôle le transport de molécules entre le noyau et le cytoplasme. Ainsi, Obado et collaborateurs ont identifié la partie ancestrale du pore nucléaire et celle ayant ensuite divergé. Les différences dans la structure expliquent les mécanismes distincts d’exportation

(16)

3

de l’ARNm chez les deux organismes (30). En outre, la perturbation des PPI permet d’élucider la robustesse d’un complexe protéique aux mutations, c’est-à-dire la capacité qu’a le complexe de fonctionner en dépit de la perturbation. Diss et collaborateurs ont délété systématiquement les gènes codant pour les protéines retrouvées dans le pore nucléaire et le rétromère (31). Le rétromère est un complexe protéique non essentiel qui a pour fonction le recyclage de récepteurs membranaires. En analysant les interactions présentes dans ces complexes après chaque perturbation, les auteurs ont observé que le pore nucléaire demeurait fonctionnel malgré la perte de certaines protéines alors que le rétromère se dissociait complètement après la perte d’une protéine. Ils sont ainsi parvenus à identifier les protéines essentielles pour l’assemblage de ces complexes et à démontrer l’importance des paralogues pour la robustesse (31).

Dans le domaine médical, l’étude des PPI a largement été utilisée pour découvrir de nouveaux médicaments (32-34). De plus, l’identification des différences structurales d’un complexe protéique entre deux organismes peut fournir des cibles intéressantes pour inhiber sélectivement le complexe d’un organisme. Très récemment, un groupe de recherche a développé un inhibiteur qui cible le protéasome de Leishmania donovani, Leishmania major,

Trypanosoma cruzi et Trypanosoma brucei, ce qui permettra éventuellement de traiter les

infections causées par ces parasites (35). Les PPI permettent également de comprendre les bases génétiques des maladies, comme l’ont démontré Sahni et collaborateurs. Cette équipe s’est intéressée à près de 3000 mutations retrouvées dans un spectre de maladies mendéliennes. Dans près de 60% des cas, la perturbation des réseaux d’interactions était responsable des maladies à l’étude, soit en affectant partiellement ou complètement les réseaux. Par ailleurs, différentes mutations dans un même gène entraînent différentes perturbations (36).

1.3 Catégories de méthodes permettant d’étudier les interactions

protéine-protéine

Étant donné l’importance des réseaux de PPI en biologie cellulaire, plusieurs méthodes ont été développées pour les étudier. Ces méthodes sont complémentaires, puisqu’elles possèdent toutes des avantages et des limites qui ne leur permettent de cibler que différents sous-ensembles du réseau d’interactions (37). Malgré tout, l’ensemble des méthodes peut être

(17)

4

divisé en deux principales catégories : les méthodes permettant de déterminer la composition des complexes protéiques et les méthodes permettant de déterminer les interactions physiques entre deux protéines.

La première catégorie inclut les méthodes qui permettent de purifier un complexe protéique, soit par chromatographies d’affinité ou de séparation, pour ensuite l’analyser à l’aide de la spectrométrie de masse (MS). La seconde catégorie regroupe une grande diversité de méthodes dont la double hybride (Y2H : « yeast hybrid »), le « membrane yeast

two-hybrid » (MYTH) et la complémentation de fragments protéiques (PCA : « protein-fragment complementation assay »). Le principe des méthodes appartenant à la deuxième catégorie est

très similaire et se base sur la reconstitution d’un rapporteur fonctionnel qui émet un signal lorsque les deux protéines interagissent physiquement. La seconde catégorie compte également trois méthodes hybrides : le transfert d’énergie entre molécules fluorescentes (FRET), le « cross-linking » suivi de la MS et le « proximity-dependent biotinylation » (BioID). Dans ce contexte, l’expression « méthode hybride » signifie des méthodes qui permettent de détecter des associations entre protéines rapprochées dans l’espace, sans qu’elles ne soient nécessairement des interactions physiques. Ces méthodes possèdent donc à la fois les caractéristiques des deux catégories de méthodes. Dans le cadre de ce projet, ces méthodes sont considérées comme faisant partie de la seconde catégorie, car elles donnent des informations sur les relations spatiales entre les protéines.

Les deux catégories de méthodes sont complémentaires, car elles permettent de définir d’un côté les composantes d’un complexe protéique et d’un autre côté, les relations qu’elles maintiennent ensemble.

1.3.1 Méthodes identifiant les membres d’un complexe protéique : Purification de complexes protéiques suivie de la spectrométrie de masse

La purification de complexes protéiques et l’identification des composantes par MS est une méthode ayant pour but d’isoler un complexe protéique et d’identifier ses membres. Plusieurs techniques sont utilisées pour purifier les complexes protéiques, dont la chromatographie d’affinité. La chromatographie d’affinité sépare une protéine d’intérêt et ses interactants d’un extrait protéique à l’aide d’un épitope spécifique à cette protéine. Cet épitope est reconnu par un anticorps lié à la colonne de purification. Plusieurs purifications peuvent être effectuées

(18)

5

afin de diminuer les interactions non spécifiques qui occasionnent un bruit de fond. Ensuite, les protéines isolées sont digérées en peptides. Le spectromètre de masse ionise ces peptides et les sépare selon leur ratio masse-charge, résultant en un spectre de masse. La comparaison des profils obtenus avec ceux d’une banque de données permet d’identifier les protéines retrouvées dans le complexe (38-40). Il est également possible de faire une spectrométrie de masse en tandem (MS/MS). À partir d’une première MS, un peptide est sélectionné et fragmenté, et une nouvelle spectrométrie est réalisée avec les fragments résultants. Ce spectre additionnel permet d’obtenir davantage d’informations sur ce peptide (41, 42). Il existe d’autres techniques de purification telles que la chromatographie d’exclusion stérique où la séparation repose sur la taille des complexes protéiques. Cette purification a pour principal intérêt de permettre d’isoler l’ensemble des complexes protéiques d’un organisme en vue de leur étude (43).

1.3.2 Méthodes déterminant le réseau d’interactions protéiques

1.3.2.1 La double hybride, le « membrane yeast two-hybrid » et la complémentation de fragments protéiques

La Y2H, le MYTH et la PCA sont des techniques basées sur l’assemblage de fragments rapporteurs complémentaires liés aux deux protéines d’intérêt via un connecteur. Lorsque les deux protéines d’intérêt interagissent physiquement, les deux fragments rapporteurs s’assemblent, reconstituant ainsi un rapporteur fonctionnel qui permet de détecter un signal. Dans le cas de la Y2H, le rapporteur est un facteur de transcription qui, lorsque reconstitué, permet la croissance de la levure S. cerevisiae sur un milieu de sélection spécifique. Initialement, le facteur de transcription était Gal4p et le milieu de sélection contenait du galactose (44). La Y2H a été une méthode pionnière qui a permis le développement de plusieurs autres méthodes. Par contre, cette technique présente quelques limitations. D’une part, dans le cas de la Y2H classique, les protéines étudiées doivent être solubles. Néanmoins, des variations ont été apportées à cette méthode pour permettre l’étude de protéines membranaires (45-47). Cette méthode sera le sujet du paragraphe suivant. D’autre part, puisque le rapporteur est un facteur de transcription, les interactions testées doivent être localisées dans le noyau, modifiant possiblement la localisation endogène des protéines. Cette technique est aussi peu sensible, présente du bruit de fond et n’est pas quantitative. Elle

(19)

6

nécessite souvent la surexpression des protéines, ce qui peut générer des faux-positifs. Il est par conséquent impossible d’établir des liens entre l’abondance d’une protéine et la force ou l’abondance d’une interaction entre protéines (48-50). Malgré ces contraintes, elle est encore largement utilisée parce qu’elle permet d’étudier les PPI d’une autre espèce comme l’humain dans un modèle plus simple (51).

En ce qui a trait au MYTH, les deux fragments rapporteurs sont une ubiquitine mutée à laquelle est lié un facteur de transcription. En présence d’une interaction physique entre les protéines d’intérêt, le facteur de transcription, lié sur l’ubiquitine reconstituée, est libéré activant ainsi la transcription d’un gène rapporteur. Les méthodes basées sur le «

split-ubiquitin » ont permis de grandes avancées dans l’étude des protéines membranaires,

insolubles et hors du noyau. Par contre, le MYTH partage certains inconvénients avec la Y2H, comme l’importance du bruit de fond et l’impossibilité de quantifier les résultats (47-50, 52, 53).

La PCA est une méthode similaire aux deux méthodes décrites précédemment, mais plutôt que d’utiliser un facteur de transcription comme rapporteur, elle utilise une protéine qui a été clivée en deux fragments. Le choix du rapporteur et du lieu de clivage ont été des éléments déterminants dans la conception de la méthode. Par ailleurs, puisque les fragments rapporteurs proviennent d’une seule protéine plutôt que de deux sous-unités d’une même protéine, ils n’ont pas tendance à interagir ensemble spontanément à moins d’être très près l’un de l’autre, ce qui diminue le bruit de fond (54). Chez la levure, la PCA utilise comme rapporteur une version mutée de l’enzyme dihydrofolate réductase (DHFR), conférant à la cellule une résistance au méthotrexate (MTX). Cette enzyme est essentielle à la croissance cellulaire et intervient notamment dans les réactions de synthèse de certaines bases de l’ADN (les purines et la thymine). Chez la levure, le signal observé est la densité de cellules, c’est-à-dire le nombre de cellules ayant réussi à croître sur le milieu de sélection. Cette technique possède l’avantage d’être quantitative en plus de conserver le promoteur naturel des protéines étudiées (48, 55, 56). Par ailleurs, les résultats obtenus par la PCA suggèrent que la localisation cellulaire des protéines est conservée. En effet, il existe un enrichissement « gene

ontology » pour plusieurs protéines connues partageant la même localisation cellulaire (55).

(20)

7

donné que les fragments rapporteurs sont ajoutés du côté C-terminal, ce qui pourrait interférer avec la séquence signal de localisation des protéines (57).

Un des inconvénients majeurs pour la majorité de ces techniques découle de l’ajout de fragments rapporteurs qui peuvent affecter le repliement, la fonction cellulaire ou l’abondance de la protéine. Par contre, l’ajout d’un connecteur réduit souvent ces risques en éloignant le fragment rapporteur de la protéine à laquelle il est attaché, ce qui réduit l’interférence entre les deux protéines. Il peut être nécessaire d’optimiser sa composition ou sa longueur. Il existe trois catégories de connecteurs, soit les connecteurs flexibles, les connecteurs rigides et les connecteurs clivables in vivo. Les connecteurs flexibles sont généralement utilisés lorsqu’il est souhaitable d’avoir une certaine mobilité entre la protéine d’intérêt et le fragment rapporteur. Les connecteurs rigides permettent une meilleure séparation entre la protéine d’intérêt et le fragment rapporteur, et assurent que les fonctions de chaque élément soient maintenues. Ils sont surtout utiles dans les cas où le connecteur flexible est insuffisant pour bien séparer les deux éléments ou qu’il interfère avec l’activité de la protéine. Les connecteurs clivables in vivo permettent la libération du fragment rapporteur sous certaines conditions. Ils sont particulièrement intéressants pour permettre à chaque élément de réaliser une activité biologique qui lui est propre. Par conséquent, il est essentiel de bien choisir le connecteur et ses paramètres pour obtenir les résultats escomptés (58, 59).

1.3.2.2 Méthodes hybrides

Bien que classés dans la deuxième catégorie de méthodes, le FRET, le « cross-linking » suivi de la MS et le BioID sont des méthodes hybrides qui permettent de mesurer à plus faible résolution les associations protéine-protéine.

Le FRET repose sur le transfert d’énergie entre deux protéines fluorescentes à proximité l’une de l’autre. Les deux protéines fluorescentes sont fusionnées aux deux protéines dont on veut vérifier la proximité. L’excitation de la protéine fluorescente donneuse permet l’excitation de la protéine fluorescente receveuse lorsque les deux protéines sont près l’une de l’autre. L’interaction est détectée par microscopie ou par cytométrie via l’émission de la protéine fluorescente receveuse. Cette méthode est particulièrement intéressante pour suivre

(21)

8

une interaction dans le temps. Par contre, l’importance du bruit de fond et le chevauchement partiel de la fluorescence des deux protéines peuvent nuire à l’interprétation des résultats (60-63).

Le « cross-linking » suivi de la MS est pratiquement identique aux techniques de purification et de MS, à l’exception qu’avant la purification, les protéines sont attachées entre elles par des liens covalents. Ces liens résistent à la digestion enzymatique, donnant ainsi des informations structurales sur l’association des protéines dans le complexe protéique. Néanmoins, le « cross-linking » complexifie l’analyse des données, en plus d’entraîner potentiellement une mauvaise conception de l’architecture du complexe protéique. Cette méthode est difficilement applicable pour l’étude globale des complexes protéiques (64-67). Le BioID utilise la biotinylation pour marquer le contact entre la protéine d’intérêt et les protéines à proximité. La biotinylation est effectuée par une biotine ligase mutante, dépourvue de spécificité, fusionnée à la protéine d’intérêt. Les interactants ayant un groupement biotine sur leurs lysines accessibles sont isolés sélectivement et identifiés par MS. Le BioID permet de détecter des interactions faibles et transitoires en plus des interactions entre des protéines voisines. Toutefois, la biotine ligase possède une taille supérieure à celle de la « green fluorescence protein » (GFP), une protéine fluorescente très utilisée en biologie moléculaire. Cette grande taille peut nuire à l’activité de la protéine d’intérêt ou à la formation d’interactions. De plus, cette méthode n’est pas quantitative (68).

1.4 Défi actuel dans l’étude des interactions protéine-protéine

Les méthodes hybrides décrites ci-dessus sont particulièrement intéressantes, puisqu’elles donnent une vision plus globale du réseau des PPI. Elles renseignent sur la proximité des protéines, donnant accès à une nouvelle échelle moléculaire de résolution difficilement accessible. En plus de leur complexité, les techniques existantes demandent des infrastructures particulières (équipements et bases de données) et sont difficilement applicables à grande échelle. Le développement de méthodes hybrides de plus grande simplicité et à plus grand débit permettrait de mieux définir l’architecture des complexes protéiques et de leurs sous-complexes à une faible résolution moléculaire. Elles seraient un complément aux deux catégories de méthodes. Ces nouvelles méthodes hybrides

(22)

9

compenseraient pour les lacunes des méthodes de haute résolution moléculaire, comme la cristallographie ou la résonance magnétique nucléaire, qui déterminent la structure précise de protéines ou de complexes protéiques. En effet, elles sont difficilement applicables à de nombreux complexes protéiques et demandent une démarche propre à chaque complexe.

1.5 Le connecteur : un paramètre potentiellement intéressant pour

moduler la détection des interactions protéine-protéine

En raison de sa relative simplicité et du connecteur qui relie les fragments rapporteurs aux protéines d’intérêt, la PCA est une méthode de choix pour le développement d’une méthode hybride. Le connecteur est un court segment peptidique, soluble et flexible, composé de deux répétitions du motif suivant : quatre glycines et une sérine (GGGGS). Il assure une bonne flexibilité et une bonne association des fragments rapporteurs dans l’environnement cellulaire. En effet, la glycine et la sérine sont deux petits acides aminés, l’un neutre et l’autre basique respectivement. Le connecteur relie le fragment rapporteur au C-terminal des protéines à l’étude.

La longueur du connecteur applique également une certaine contrainte sur la capacité à détecter une interaction, ce qui a notamment été observé par l’équipe de recherche ayant développé la PCA à grande échelle (55). Les auteurs ont remarqué, en étudiant l’ARN polymérase (RNApol) II et plusieurs autres complexes protéiques, qu’une interaction avait 3,5 fois plus de chance d’être détectée lorsque les C-termini des protéines d’intérêt se situaient à une distance inférieure à 82 Å (55). Cette distance correspond à la longueur des deux connecteurs bout à bout. Par ailleurs, une étude précédente avait démontré qu’en augmentant la longueur du connecteur, il était possible de déterminer la conformation d’un récepteur dimérique (69). Ainsi, il est possible de détecter de nouvelles interactions et par le fait même, d’obtenir de nouvelles informations structurelles.

1.6 Objectifs de recherche

Les résultats précédents suggèrent que la longueur du connecteur peut influencer notre capacité à détecter des PPI. L’hypothèse de mes travaux était que l’augmentation de la longueur du connecteur de la DHFR PCA permettrait de détecter des interactions de plus en plus éloignées dans l’espace, ce qui modulerait l’échelle de résolution moléculaire. Cette

(23)

10

adaptation permettrait alors d’obtenir une nouvelle méthode hybride qui pourrait aider à définir les associations protéine-protéine entre complexes et sous-complexes protéiques. Le premier objectif était de vérifier l’impact général de différentes longueurs de connecteur sur la capacité à détecter des associations protéine-protéine. Pour atteindre cet objectif, les associations protéine-protéine entre 15 protéines retrouvées dans sept complexes protéiques ont été testées avec les protéines retrouvées dans ces complexes et leurs interactants connus. Le second objectif était de vérifier l’impact de l’augmentation de la longueur du connecteur sur la compréhension de l’architecture de complexes protéiques et de leurs sous-complexes. Cinq complexes protéiques différents au niveau de leur taille et de leur flexibilité ont été étudiés. Il s’agit du protéasome, des RNApol I, II et III et du complexe « conserved

oligomeric Golgi » (COG). L’étude a été effectuée avec différentes combinaisons de

longueurs de connecteurs. Le dernier objectif était de vérifier si l’augmentation de la longueur des connecteurs permettait de détecter des associations entre des protéines plus éloignées dans l’espace. Pour ce faire, les distances ont été calculées entre les protéines contenues dans les structures du protéasome et elles ont été comparées aux résultats expérimentaux.

Cette étude a été effectuée en utilisant l’organisme modèle eucaryote S. cerevisiae. En effet, la levure est particulièrement intéressante pour plusieurs aspects, notamment la disponibilité de nombreux et puissants outils génétiques, sa vitesse de division cellulaire rapide et l’abondance de données concernant la structure des complexes protéiques et les PPI. Par ailleurs, cet organisme a joué un rôle primordial dans l’avancement des connaissances dans divers domaines, tels que la détermination de la fonction des protéines, les réseaux de régulation, l’expression des gènes, les réseaux d’interactions protéiques et l’étude des maladies humaines (70).

(24)

11

Measuring proximate protein association in living cells using

Protein-fragment complementation assay (PCA)

Résumé

La compréhension du fonctionnement du système cellulaire nécessite de cataloguer comment les protéines s’assemblent les unes aux autres en complexes et de déterminer leurs agencements spatiaux. Nous avons examiné le potentiel de la complémentation de fragments protéiques basée sur la dihydrofolate réductase (DHFR PCA) chez la levure pour obtenir les contraintes structurales de complexes protéiques à faible résolution. Nous avons montré que l’utilisation de connecteurs peptidiques allongés entre les protéines de fusion et les fragments DHFR améliore la détection des interactions protéine-protéine et permet de révéler des interactions plus distantes dans l’espace. Les connecteurs allongés fournissent ainsi un outil amélioré pour détecter et mesurer les interactions protéine-protéine et la proximité protéique

in vivo. Nous avons utilisé cet outil pour investiguer davantage l’architecture des ARN

polymérases, du protéasome et du « conserved oligomeric Golgi » (COG) chez la levure. Nos résultats offrent de nouvelles avenues pour disséquer les réseaux protéiques in vivo.

(25)

12

Abstract

Understanding the function of cellular systems requires to catalogue how proteins assemble with each other into complexes and to determine their spatial relationships. Here we examine the potential of the yeast Protein-fragment Complementation Assay based on the dihydrofolate reductase (DHFR PCA) to obtain low-resolution structural restraints on protein complexes. We show that the use of longer peptide linkers between the fusion proteins and the DHFR fragments significantly improves the detection of protein-protein interactions and allows to reveal interactions further in space. Longer linkers thus provide an enhanced tool for the detection and measurements of protein-protein interactions and protein proximity in living cells. We use this tool to further investigate the architecture of the RNA polymerases, the proteasome and the conserved oligomeric Golgi (COG) complexes in yeast. Our results open new avenues for the dissection of protein networks in living cells.

(26)

13

Introduction

Protein-protein interactions (PPIs) are central to all cellular functions and are largely responsible for translating genotypes into phenotypes (1). Investigations into the organization of PPI networks have revealed important insights into the evolution of cellular functions (30, 31, 55, 71-73), the robustness of protein complexes to mutations (31, 36, 74, 75) and have shown how the regulation of protein expression at the transcriptional, translational and posttranslational levels contributes to the diversity of protein complex assemblies (76-80). Methods used to investigate the organization of PPIs can be grouped into two main categories based on whether they infer co-complex memberships or detect physical association (81). The first category includes methods based on protein purification followed by mass-spectrometry. In this case, protein assignment to a specific complex is dependent on stable association among proteins that survive cell lysis and fractionation or affinity purification (82, 83). The majority of PPIs that populate interactome databases derive from such methods because a single purification leads to the inference of many interactions among the co-purified proteins. Unfortunately, very little is known about the structural and context dependencies of PPIs inferred from co-complex membership because detecting an association does not provide information on the spatial organization of the complex (84-86). The second category of methods reports binary or pairwise interactions between proteins and reveals direct or nearly direct interactions. Such methods include the commonly used yeast-two-hybrid (Y2H) (51), protein-fragment complementation assays (PCAs) (87) and technologies based on similar principles (52). These methods are potentially complementary because on the one hand, they tell us which proteins assemble into complexes in the cell and on the other hand, how proteins may be physically located relative to one another (84, 88). Despite this recent progress, there is still a need for tools that can detect proximate relationships among proteins in vivo, which would complement and further enhance our ability to infer the relationships among proteins within and between complexes or subcomplexes. Being able to infer such relationships at different levels of resolution in living cells is key to future development in cell and systems biology because high-resolution methods such as NMR or X-ray crystallography are not yet amenable to high-throughput analysis and cannot be applied to all protein types. PCA (87, 89) may provide the

(27)

14

technological advantages required for such an approach by complementing methods detecting co-complex membership and direct interactions.

PCA relies on the fusion of two proteins of interest with fragments of a reporter protein, usually at their C-terminus. Upon interaction, the two fragments assemble into a functional protein that acts as a reporter for the association of the two proteins (55, 89-94). Proteins are usually connected to the reporter fragments with a linker of ten amino acids. In principle, the length of the linker limits the maximum distance between the proteins for an interaction to be detectable. In the first large-scale study performed using DHFR PCA in yeast, it was shown that distance constraint determined by linker length could affect the ability to detect PPIs (55). For the RNA polymerase (RNApol) II complex and several other protein complexes for which the distance between C-termini of proteins could be measured, protein interactions were 3.5 times more likely to be detected if the C-termini were within less than 82 Å of each other. In addition, an earlier study in mammalian cells showed that increasing linker length of the PCA reporter allows to detect configuration changes in a dimeric membrane receptor (69). Together, these results suggest that linkers of variable sizes could improve the detection of PPIs and even be used as a ruler to infer, albeit roughly, distances between proteins in living cells. Here we test the effect of linker size on the ability to detect PPIs by PCA in living cells using the yeast DHFR PCA.

Material and Methods

Yeast

Yeast strains used in this study were constructed (as described below) or are from the Yeast Protein Interactome Collection (55). They all derive from BY4741 (MATa his3∆ leu2∆

met15∆ ura3∆) and BY4742 (MATα his3∆ leu2∆ lys2∆ ura3∆) background. Cells were

grown on YPD medium (1% Yeast Extract, 2% Tryptone, 2% Glucose, and 2% Agar (for solid medium)) containing 100 µg/mL nourseothricin (clonNAT) and/or 250 µg/mL hygromycin B (HygB) for transformations and diploid selection. For the DHFR PCA experiment, cells were grown on MTX medium (0.67% Yeast Nitrogen Base without amino acids and without ammonium sulfate, 2% Glucose, 2.5% Noble Agar, Drop-out without adenine, methionine and lysine, and 200 µg/mL methotrexate (MTX) diluted in DMSO).

(28)

15

Bacteria

Escherichia coli MC1061 was used for all DNA cloning and propagation steps. Cells were

grown on 2YT medium (1% Yeast extract, 1.6% Tryptone, 0.2% Glucose, 0.5% NaCl, and 2% Agar (for solid medium)) supplemented with 100 µg/mL ampicillin (Amp).

Plasmid construction

Plasmids pAG25-linker-F[1,2]-ADHterm and pAG32-linker-F[3]-ADHterm were used as templates to create new plasmids containing DHFR fragments fused to a linker of varying size. Both original plasmids contained the sequence coding for two repetitions of the motif Gly-Gly-Gly-Gly-Ser (2xL). Additional repetitions of the motif (one for the 3xL and two for the 4xL) were introduced between the linker present and the DHFR fragments, resulting in plasmids pAG25-3x-linker-F[1,2]-ADHterm, pAG32-3x-linker-F[3]-ADHterm, pAG25-4x-linker-F[1,2]-ADHterm and pAG32-4x-linker-F[3]-ADHterm. The new repetitions were composed of synonymous codons leading to the same peptide sequence.

In order to replace the 2xL from pAG25-linker-DFFR F[1,2]-ADHterm with the 3xL and 4xL, 3xL-DHFR F[1,2] and 4xL-DHFR F[1,2], DNA fragments were synthesized and inserted in the plasmid pUC57 containing flanking BamHI and XbaI restriction sites. The 3x/4xL-F[1,2] fragments were then amplified by PCR, digested with DpnI and purified. The plasmid pAG25-linker-DHFR F[1,2]-ADHterm was digested with XbaI and BamHI. The fragment corresponding to the plasmid without the 2xL-DHFR F[1,2] region was extracted on gel. The fragments and plasmids were assembled by Gibson cloning (95) with an insert:vector ratio of 5:1. Cloning reactions were transformed in E. coli and clones were selected on 2YT+Amp. Finally, positive clones were verified and confirmed by double digestion with XbaI and BamHI and Sanger sequencing.

The pAG25-3x/4xL-DHFR F[1,2]-ADHterm plasmids were used as a template to construct the pAG32-3x/4xL-DHFR F[3]-ADHterm plasmids. 3xL and 4xL fragments were PCR amplified from pAG25-3xL-DHFR ADHterm and pAG25-4xL-DHFR F[1,2]-ADHterm respectively. The DHFR F[3] fragment was amplified from pAG32-linker-DHFR F[3]-ADHterm. All PCR reactions were digested with DpnI and purified. Plasmid pAG32-linker-DHFR F[3]-ADHterm was digested with XbaI and BamHI. The fragment

(29)

16

corresponding to the plasmid without the 2xL-DHFR F[3] region was extracted on gel. The remaining steps were performed as described above for the pAG25-3x/4xL-DHFR F[1,2]-ADHterm with an insert (linker):insert (DHFR F[3]):vector ratio of 4:4:1.

Strain construction

Strains were constructed in BY4741 and BY4742 for the DHFR F[1,2] and DHFR F[3] fusions respectively (Table S1A). All fusions were performed at the 3' end of genes. 2x/3x/4xL-DHFR F[1,2]/F[3] fragments along with the NAT (for DHFR F[1,2]) or HPH (for DHFR F[3]) resistance modules (respectively for resistance to clonNAT and HygB) were amplified by PCR from their respective plasmid with oligonucleotides specific to the gene to fuse with the DHFR fragments (PCR primer sequences are found in Table S1D). BY4741 and BY4742 competent cells were transformed with the amplified modules following standard procedures and selection was performed on YPD+clonNAT (DHFR F[1,2]-tagged strains) or YPD+HygB (DHFR F[3]-tagged strains). PCR and Sanger sequencing for all strains confirmed proper DHFR fragment fusions.

Estimation of protein abundance

Protein quantification was done for several strains with proteins fused with the 2xL and 4xL by Western blot. These proteins were selected because we could easily assess their abundance using antibodies tagged against them. 20 OD600 of exponentially growing cells were resuspended in 200 µL of water containing peptidase inhibitors (1 mM PMSF, 0.7 µg/mL Pepstatin A, 0.5 µg/mL Leupeptin and 2 µg/mL Aprotinin). 425-600 µM of glass beads (Sigma) were added (0.1g) and cells were vortexed using a TurboMix attachment (Scientific Industries, Inc.) for 5 min. After addition of 1 % SDS, samples were boiled and supernatants were transferred in a new tube. Protein extracts equivalent to 0.1 OD600 of cells were separated on 8% (Vps35p) or 10% (Vps5p, Vps17p, Pep8p, Vps29p and Bcy1p) SDS-PAGE gel and transferred on a nitrocellulose membrane using a TE 77 PWR semi-dry device (Amersham). After saturation in Odyssey® Blocking Buffer (PBS) overnight at 4°C, membranes were probed with Rabbit anti-Vps5p, anti-Vps17p, anti-Vps26p, anti-Vps29p, anti-Vps35p (kindly provided by M. N. J. Seaman) (1:2000), Goat anti-Bcy1p (1:1000) or Mouse anti-Actin (as a loading control; 1:5000) in Blocking Buffer + 0.2 % Tween 20 during 2 hours at room temperature. After three 10 min washes in PBS + 0.2 % Tween 20,

(30)

17

membranes were secondly probed with IRDye®680RD Goat anti-Rabbit IgG (1:10000), IRDye®680RD Donkey anti-Goat IgG (1:5000) or IRDye®800CW Goat anti-Mouse IgG (1:10000) in Blocking Buffer + 0.02% SDS + 0.2% Tween 20. Three washes of 10 min in PBS + 0.2 % Tween 20 were performed and signal on membranes was detected using Odyssey® Fc Imaging System (LI-COR®). Quantifications were done with Image StudioTM Lite software.

Protein-fragment complementation assays

For the global PCA experiment, baits consisted of 15 proteins fused to 2x/3x/4xL-DHFR F[1,2] that are part of seven complexes. Prey proteins fused to the 2xL-DHFR F[3] (495 strains) were selected according to the criteria that they were belonging to the same complexes as the baits or that they were interacting with one of them based on data reported in BioGRID in October 2014 (96). A random set of 97 strains corresponding to proteins found in the cytoplasm or the nucleus was also included in the set of preys as controls. Each prey was present in four replicates, two on each prey plate, so each interaction was measured four times. Preys were randomly positioned to avoid location biases.

For the intra-complexes experiment, we performed a review of the literature and considered the consensus protein complexes published by (84) to choose 95 central and associated proteins members of the following complexes: the RNApol I, II and III, the proteasome, and the COG complex. These complexes were selected because they vary in size (RNApol I (n=14), II (n=12), III (n=17), and associated proteins (n=9, 7 tested), proteasome (n=47, 44 tested), and COG complex (n=8)) and interactions among protein members of these complexes have been shown to be detectable at least partially by DHFR PCA. In addition, there are published structures available for the RNApol and proteasome complexes, making it possible to compare our results with known protein complex organization. We successfully constructed 80.0% and 76.6% of the strains in MATa and 65.0% and 70.2% in MAT for the RNApol and proteasome respectively and 100% for the COG complex. In total, 286 strains harboring proteins fused to 2xL/4xL-F[1,2] and/or 2xL/4xL-F[3] were used, a representation of 89.5% (85 out of the 95 proteins selected at first are tagged with 2xL and 4xL in at least one mating type) of the proteins. MATα 2xL/4xL-DHFR F[3] cells were used as baits. Two different prey plates of MATa cells were generated including all strains mentioned above.

(31)

18

Baits and preys were positioned in a way that in a block of four strains, all combinations of linker sizes could be tested for a specific interaction (2xL-2xL, 2xL-4xL, 2xL and 4xL-4xL). Each block of bait-prey interactions was present in 14 replicates for the RNApol and COG complexes, and in 16 replicates for the proteasome complex. The blocks were randomly positioned on the colony arrays. Each 1536-array was finally designed to contain a double border of a strain showing a weak interaction (Pop2-2xL-F[1,2]-Arc35-2xL-F[3]) to avoid any border effects on the growth of the colonies.

Bait plates were first prepared from 10 mL saturated cultures in YPD+clonNAT (for MATa cells) or YPD+HygB (for MATα cells) that were plated on YPD Omnitray plates and incubated at 30°C for 24 h. Cells were then printed on a 1536-array with a 1536-pin (or a 384-pin) replicating tool manipulated by a BM3-BC automated colony processing robot (S&P Robotics) and incubated for another 24 h at 30°C. In parallel, prey plates were assembled by arraying strains onto specific positions in a 96-format with a re-arraying tool. Colonies were further condensed in 384-format arrays and finally, in 1536-format arrays using a 96-pin and 384-pin replicating tool respectively. Two different prey plates of 1536-format were generated and replicated a few times to have enough cells to perform crosses with all of the individual baits. Second, each bait plate was crossed with the two 1536-prey plates with a 1536-pin replicating tool and incubated for two days at 30°C. Two rounds of diploid selection were performed on YPD+clonNAT+HygB with an incubation time of two days at 30°C per round. Finally, diploid strains were replicated on MTX medium and incubated at 30°C for four days, after which a second round of MTX selection was performed. Plates were incubated at 30°C for another four days. Images were taken with an EOS Rebel T3i camera (Canon) each day from the second round of diploid selection to the end of the experiment.

For the global PCA experiment, we confirmed by standard DHFR PCA 25 PPIs that differences in signal were increased, null or decreased. The same procedure as described above was used to assess the growth on MTX medium of selected diploid cells resulting from a new cross between bait and prey strains. Correlation between the results of the two experiments can be seen in Fig S1E. For the intra-complexes experiment, we confirmed results for 10 pairs of interacting proteins by measuring cell growth in a spot-dilution assay

(32)

19

(Fig S1F). Briefly, precultures of diploid cells expressing 2xL/4xL DHFR fragments fusions to proteins of interest were adjusted to an OD600/ml of 1 in water. 5-fold serial dilutions were performed and 6 µL of each dilution were spotted on MTX and DMSO DHFR PCA media. Plates were incubated for seven days at 30°C and subsequently imaged with an EOS Rebel T3i camera (Canon).

PCA images and statistical analyses

For the initial screen, colony size was estimated by measuring number of pixels using the integrated intensity function as implemented in a custom script in ImageJ64 1.44o. We applied an image correction where the intensity of each pixel was extracted and the pixel intensity matrix was smoothened using a two-way median polish and averaged with the raw image. We then converted the images to binary files and a manual threshold was applied across plates. We selected colonies for measurement with a circular selection using particle detection with the built-in function “Analyze particle” in ImageJ64. We excluded particles touching the edge of the selection and those that had an area inferior to 20 pixels and circularity inferior to 0.5 using the particle that is closest to the center. We considered the particle as being a colony if the mass center was within the mid-distance between two colonies. All plate images were also examined. The average of the background pixels was subtracted from the colony intensity.

Colony intensity values from day 4 of growth of the second MTX selection were log2 transformed after adding 1 to each value to avoid null values. All colonies with a size smaller than 16 on the diploid selection plate were eliminated.

For the global PCA experiment, interactions with at least two replicates for all linker combinations were conserved and the median of colony size was used as the interaction score (Is). For each combination of linkers (2xL-2xL, 3xL-2xL, 4xL-2xL), distribution of interaction scores was modeled as a mixture of two normal distributions using the R package mixtools (functional NormalmixEM) (Fig S1B). The estimated mean (b) and standard deviation (sdb) of the background distribution was used to convert each interaction score into a z-score (Zs = (Is – b)/sdb)). Interactions with a Zs greater than 2.5 were considered as significant, detected interactions. These Zs were used to compare the same interaction with

(33)

20

different linker size combinations. We considered significant changes when Zs differed by more than 2.

For the intra-complexes experiment, extreme outliers on the MTX selection plates that were more distant from the median than Q1-3*(Q3-Q1) or Q3+3*(Q3-Q1) were excluded (Q1 and Q3 represent first and third quartiles). Colonies corresponding to the control interaction and positioned on the array edges were removed from downstream analyses as well as strains for which sequencing results revealed mutations in the DHFR fusion proteins. After these final filtering steps, interactions with at least four replicates for every linker combinations were conserved and the median of colony size was used as the Is. Significant interactions were identified as described above (Fig S1B). For the RNApol and the proteasome, the estimated mean (b) and standard deviation (sdb) of the background distribution were calculated for each linker combination and each complex separately. For the COG complex, because the number of pairwise interactions is limited to 64, all the results were combined to calculate these parameters. An interaction was considered as being detected when the Zs was larger than 2.5. From the 236 protein pairs presenting detected interactions with at least one linker combination, some pairs were filtered out, mainly because they did not pass all of the thresholds or because the fusion strains (Taf14 and Spt5 fused to DHFR F[3]) presented incoherent results for all tested interactions, leaving us with a total of 228 (197 unique) pairs of interacting proteins.

At this step, pairs of interacting proteins presenting a new interaction (i.e. the interaction was not detected with the reference linker size (2xL-2xL) but was detected with a longer linker combination) were separated from others and classified as new interactions (Table S1C). For the remaining pairs, because baits and preys were positioned in a way that, in a block of four adjacent strains, all combinations of linker lengths could be tested for a specific interaction (2xL-2xL, 2xL-4xL, 4xL-2xL and 4xL-4xL), Is for the different linker size combinations could be compared directly. The difference with the reference 2xL-2xL interaction was calculated for each linker combination: 2xL-4xL, 4xL-2xL and 4xL-4xL. A paired t-test was used to discriminate significant difference in colony size (with FDR corrected p-values). These pairs of interacting proteins were separated in two additional categories: unchanged interactions, in cases where the interaction was detected with the reference linker size

(34)

(2xL-21

2xL) and also with the longer linker combinations but without any significant change (t-test FDR p-value above 0.05), and quantitative changes, in cases where the interaction was detected with the reference linker size (2xL-2xL) and presented significant changes for at least one longer linker combinations (Difference greater than 1 or smaller than -1 with t-test FDR p-value < 0.05) (Table S1C).

Analysis of protein distances within complexes

Yeast protein sequences of the RNApol I, II and III were obtained from SGD (http://www.yeastgenome.org) and searched through the RNApol I, II and III protein complexes of the RCSB protein data bank (http://www.rcsb.org) using usearch software. PDB files 4C3I, 4V1N and 5FJA were selected as representative monomeric complexes for the RNApol I, II and III respectively as they included the largest number of proteins from the experimental set with the highest sequence identities. Similarly, structure 4C2M was selected as the representative RNApol I dimeric complex. Table S2B presents the identity between each RNApol structures and the experimental sequences.

The proteasome is composed of three sections, the barrel-shaped core particle, the base and the lid (Fig S2A, top). There was no complete structure of the yeast proteasome complex in the RCSB protein data bank at the time of the analyses. Sequence alignment of the experimental protein sequences of the individual sections of the proteasome complex with the sequences of the RCSB protein data bank identified PDB IDs 5A5B and 5CZ4. Structure PDB ID 5A5B is composed of the base, the lid and half of the core. Structure PDB ID 5CZ4 is composed of a full core. A complete proteasome structure was built by superposing two PDB 5A5B structures on the structure of 5CZ4, one on each side of the CP using the super command in PyMOL software. Visual inspection of the resulting superposed 5A5B structures showed an incorrect overlap in the central core (Fig S2B). This overlap is well solved in 5CZ4. Thus, final proteasome structure was composed of 5A5B for the base, the lid and the outer rings of the core. The inner rings of the core were from structure 5CZ4. Fig S2A summarizes the methodology used to build the final proteasome structure. Table S2C presents the identity between the built structure and the experimental sequences.

(35)

22

The distances between the different proteins within a complex were calculated between terminal residues. In several cases, the structure of the protein is not complete in the C-terminal section. In these cases, the last available residue was used instead to calculate the distance (a list is provided in Table S2D). The distances were calculated from the weighted shortest path using the dijkstra algorithm as implemented in NetworkX (example of shortest path between Scl1p and Rpn5p is presented in Fig S2C). Surface residues Cα were used as nodes to build the graph. The edges of the graph were placed between each pair of nodes using a distance cutoff of 15 Å for the RNApol II and of 30 Å for the proteasome. The weight of the edges was equal to the distance between node pairs. Surface residues were identified as follows. First, the structure of the protein complex was represented using the “show dots” and “set dots_solvent” commands in PyMOL, using a solvent radius of 10 Å for the RNApol II complex and of 20 Å for the proteasome, respectively. These dots were exported in the “.wrl” graphic file format. From this file, each dot coordinates were extracted. Residues within 15 Å of any dot of the RNApol II structure, and within 20 Å of the proteasome structure, were considered as surface residues (see Fig S2D for a representation of the method for the proteasome). In cases where multiple copies of the proteins were present within the complexes, the mean of the minimal distances possible was used for the analyses.

All PPIs data related to the global PCA and intra-complexes experiments can be found in Table S1B and S1C.

Results and discussion

Longer linkers increase signal-to-noise ratio in large-scale screens

The standard linker used in DHFR PCA consists of two repetitions of the peptide GGGGS (55), which we refer to as the 2x-linker (2xL). We modified existing plasmids to include three and four repetitions of this sequence (referred to as 3xL and 4xL) and used them as PCR template for both complementary DHFR fragments (DHFR F[1,2] and DHFR F[3]) to be introduced in yeast (Table S1A for strains used in this study). We assessed whether longer linkers destabilize proteins and therefore interfere with the detection of PPIs. No evidence of protein degradation was found for any of the six proteins examined using antibodies targeting

(36)

23

the endogenous proteins (Fig S1A), suggesting that if linker length affects protein stability, it has a minor effect that is not generalized.

To verify the effect of longer linker length on the detection of PPIs by DHFR PCA (55), we constructed reporter strains for 15 proteins that are part of seven complexes with the 2xL, 3xL and 4xL fused to the DHFR F[1,2] fragment each time. Using high-density yeast colony arrays (57), we queried these baits (n=45) against 592 prey proteins fused to DHFR F[3] (with regular 2xL). These include proteins known to interact with the baits, that are within the same complexes as the baits or that are random proteins used as controls, for a total of 26,640 potential interactions in four replicates (Table S1B). We detected 99, 110 and 126 PPIs (z-score greater than 2.5) with the 2xL, 3xL and 4xL respectively (Fig S1B top left

panel), revealing a significant increase in signal-to-noise ratio with longer linkers,

particularly for the 4xL. Four and seven PPIs showed greater than two-fold z-score differences with the 3xL (two decreases, two increases) and the 4xL (seven increases) as compared to the 2xL assay (Fig 1A). Decreased interactions may represent steric effects that reduce signal due to the fusion of the DHFR fragments. Four out of nine increased interactions were reported by affinity-capture mass spectrometry (18) but not by PCA with standard linkers, suggesting that longer linkers may allow for the detection of PPIs that are not necessarily direct. Moreover, the four interactions with the highest PCA signal represent cases between baits and preys within the same complexes, suggesting that there is no decrease in specificity with the elongated linkers. Finally, for the cases where proteins were not in the same complex or were not previously shown to interact, it is likely that they represent actual interactions previously undetected in living cells. For example, many genetic interactions and physical interactions (in vitro and in vivo) have been described between the actin cytoskeleton and the proteasome (97, 98). Here, we detect some interactions in living cells (such as between Arc18 and Pup1) often with an increased signal with the 4xL compared to the 2xL (Table S1B). All of these results thus show that the DHFR PCA with increased linker size reveals new interactions and could be an improved tool to study inter-complex associations.

PCA signal reflects the super-organization of protein complexes

To examine the effect of a longer linker on the detection of PPIs within complexes, we selected five complexes (RNApol I, II and III, proteasome and COG complexes), which