• Aucun résultat trouvé

Les méthodes automatiques et semi-automatiques de design

Chapitre 1 : Introduction Générale

1.6. Design d’interactions protéines-protéines par des approches rationnelles

1.6.2. Les méthodes automatiques et semi-automatiques de design

Les progrès réalisés dans ce domaine montrent que le succès des méthodes de design repose sur deux facteurs : des algorithmes efficaces permettant de gérer l'exploration de l'espace des séquences et sa combinatoire exponentielle, et des fonctions d'énergie (ou d'évaluation) dont le rôle est de trier les séquences relativement à leur adéquation avec le repliement de la protéine. Du fait de la précision requise par ce type d'approche, leur efficacité dépend directement des fonctions d'énergie sur lesquelles elles s'appuient.

Le développement de fonctions de score précises est donc l'un des enjeux majeurs de la bioinformatique structurale, particulièrement en ce qui concerne le design de protéines. À l'heure actuelle, différents programmes de design des protéines ont été rendus accessibles à la

communauté scientifique (Madaoui et al., 2006) (Tableau 5). Les fonctions d'énergies utilisées par ces programmes se divisent en trois sous-catégories (Lazaridis and Karplus, 2000) : les méthodes statistiques (SEEF pour « Statistical Effective Energy Function »), les méthodes basées sur un champ de force physique (PEEF pour « Physical Effective Energy Function ») et enfin une troisième classe de méthode basée sur l'utilisation de données expérimentales (EEEF pour « Empirical Effective Energy Function »).

Méthode Description Site web

Prédiction de l'effet stabilisant de mutations ponctuelles PoPMuSiC

Potentiel statistique issu de l'analyse de bases de données

http://babylone.ulb.ac.be/popmusic

Prédiction de l'effet stabilisant de mutations ponctuelles Version 1.0 basée sur un réseau de neurones

Version 2.0 basée sur un SVM a

I-Mutant

Apprentissage à partir de données thermodynamiques

http://gpcr2.biocomp.unibo.it/cgi/predictors/I- Mutant2.0/I-Mutant2.0.cgi

Ingénierie des protéines

Prédiction de l'effet stabilisant de mutations ponctuelles b EGAD

Basée sur le champ de force OPLS-AA

http://egad.berkeley.edu/software.php

Prédiction de l'effet stabilisant de mutations ponctuelles Dfire-

Dmutant Potentiel distance dépendant, résidu-spécifique

http://sparks.informatics.iupui.edu/

Prédiction de l'effet stabilisant de mutations ponctuelles Evaluation de l'énergie libre ∆G

Foldx

Paramétrisation à partir de mutants expérimentaux

http://foldx.embl.de

Ingénierie des protéines

Prédiction de l'effet stabilisant de mutations ponctuelles Rosettac

Evaluation de l'énergie de la protéine cible

http://rosettadesign.med.unc.edu

c

Tableau 5. Différentes méthodes de design de protéines. Quelques méthodes de design automatiques basées sur des

fonctions d’énergie SEEF (a), PEEF (b) ou EEEF (c) sont présentées. Ces méthodes sont analysées plus en détail dans (Madaoui et al., 2006).

Méthodes SEEF. Les potentiels statistiques sont dérivés des données de la PDB. Le premier

programme dans cette catégorie est Prosa (Sippl, 1993). Son principe est d'identifier au sein de la PDB quelles distances peuvent séparer chaque paire de résidus, et de comparer ces données statistiques à la structure à évaluer. Il s'agit donc d'un potentiel statistique entre

paires de résidus. De nombreux autres programmes ont été développés depuis la version initiale de Prosa. La caractéristique commune à toutes ces méthodes SEEF est avant tout de se servir exclusivement de statistiques collectées au sein de la PDB pour évaluer les structures proposées en fonction de leur adéquation avec ces données statistiques. De ce fait, les méthodes SEEFs ont l'avantage d'être très rapides et peu sensibles aux petites erreurs de positionnement des atomes ; c'est la raison pour laquelle elles sont fréquemment utilisées dans le domaine de la modélisation par homologie (Lazaridis and Karplus, 2000).

Méthodes PEEF. Les potentiels physiques combinent des fonctions d'énergies issues de la

mécanique moléculaire, ainsi que des modèles prenant en compte les effets de la solvatation sur l'énergie libre du système. La principale différence par rapport aux méthodes statistiques concerne la paramétrisation de ces méthodes qui n'est pas dérivée de la structure de protéines, mais de la mesure de paramètres physiques. Ces méthodes sont largement utilisées dans le domaine de la dynamique moléculaire, pour simuler le comportement des protéines.

Méthodes EEEF. Ces méthodes combinent une description physique des interactions et une

connaissance basée sur des données expérimentales et statistiques. À titre d'exemples, l'algorithme AGADIR (Munoz and Serrano, 1995), le programme FOLDX (Guerois et al., 2002; Schymkowitz et al., 2005), ainsi que le programme RosettaDesign (Kuhlman et al., 2003) sont trois méthodes empiriques couramment utilisées pour le design de mutation permettant d'augmenter la stabilité des protéines. En particulier, différents succès de design de protéines ont été reportés aussi bien par le programme FOLDX (van der Sloot et al., 2004) que par le programme RosettaDesign (Dantas et al., 2003; Kuhlman et al., 2003; Kuhlman et al., 2001; Kuhlman et al., 2002; Nauli et al., 2001).

La méthode RosettaDesign. L'objectif principal de ce programme est l'identification de

séquences protéiques permettant la stabilisation de structures protéiques cibles. À partir de la structure d'une protéine cible, et de la position des résidus à optimiser, RosettaDesign détermine spécifiquement les mutations permettant d'augmenter la stabilité de la protéine. Pour cela, RosettaDesign couple une fonction d'énergie d'évaluation, et une procédure d'optimisation destinée à l'exploration de l'espace des séquences.

Concernant la phase d'optimisation, RosettaDesign utilise un algorithme de recuit simulé. En partant d'une séquence protéique aléatoire, des mutations ponctuelles des résidus à modifier, couplées à des modifications de leur rotamères associés sont acceptées selon un critère de Métropolis. Les chaînes latérales des acides aminés à modifier vont ainsi adopter un ensemble discret de rotamères, tirés de la librairie de rotamères de Dunbrack (Dunbrack and Cohen, 1997). Certaines variations de ces conformations préférentielles sont autorisées pour les résidus enfouis au sein de la protéine, ceci par de légères modifications des valeurs de chi1 et chi2.

L'originalité du programme RosettaDesign consiste en l'incorporation de la flexibilité du squelette peptidique dans le processus d'optimisation de séquence décrit précédemment. L'introduction de la flexibilité permet d'explorer un champ plus large de possibilités au niveau de l'espace des séquences, et représente donc une étape essentielle pour le design de protéines non naturelles de topologie inconnue. C’est probablement cette originalité qui a permis la synthèse d’une nouvelle protéine de 93 résidus baptisée Top7, dont la topologie était jusqu’alors inconnue (Kuhlman et al., 2003) (Figure 22).

Figure 22. Structure cristallographique de la protéine Top7 (code PDB 1QYS).