• Aucun résultat trouvé

Fonction d’énergie

comparaison des différentes séquences. Ces approches ont été appliquées par Dahiyat & Mayo [1997] et Koehl & Levitt [1999] mais elles ne sont pas optimales car elles contraignent l’espace des séquences exploré.

La méthode la plus utilisée dans les programmes de CPD consiste à définir une énergie

de référence pour chaque type d’acide aminé, notée EX. Ce modèle fait ainsi l’hypothèse

que, dans l’état déplié, les chaines latérales des résidus n’interagissent pas entre elles. On peut alors calculer chaque énergie de référence en considérant un acide aminé entièrement exposé au solvant. Cette énergie est généralement calculée dans un tripeptide où le résidu X est encadré par deux alanines (Dahiyat & Mayo [1996] ; Wernisch et al. [2000]). L’énergie totale de l’état déplié est ensuite calculée en sommant les énergies de référence selon les types présents dans la séquence. Les énergies de référence influent directement sur la composition des séquences explorées et doivent donc être choisies avec soin. Si par exemple les énergies de référence ne sont pas prises en compte, cela conduit à une composition fantaisiste (Suárez & Jaramillo [2009]).

2.2 Fonction d’énergie

Pour comparer les conformations générées par le programme de CPD, il faut définir une fonction d’énergie. Elle doit être suffisamment juste pour capturer les interactions interato- miques de la protéine tout en étant rapide à calculer. Cette fonction est généralement basée sur les fonctions de la dynamique moléculaire auxquelles s’ajoutent parfois des termes issus d’analyses statistiques. Dans le cas du CPD, lorsque l’espace conformationnel est discrétisé, la fonction d’énergie est généralement décomposable par paire de résidus. Comme nous le verrons un peu plus loin, cette propriété permet de déterminer rapidement l’énergie du système en sommant les énergies de chaque paire.

2.2.1 Fonction d’énergie issue de la mécanique moléculaire

En mécanique moléculaire, le système est décrit comme un ensemble de particules sphé- riques reliées par des ressorts. L’énergie d’une protéine est composée de deux termes : un terme

l’effet du solvant sur la protéine (Esolv) :

E = EM M + Esolv (2.1)

Le terme EM M peut lui-même se décomposer en deux parties, un terme lié qui correspond

aux interactions des atomes séparés par une à trois liaisons covalentes, et un terme non-lié qui correspond aux autres paires d’atomes.

2.2.1.1 Énergie d’interactions liées

L’énergie d’interactions liées correspond aux interactions entre les atomes distants de moins de trois liaisons covalentes :

Eliées = Eliaison+ Eangle+ Edièdre+ Eimpropre (2.2) Eliaison correspond à l’élongation des liaisons, Eangle à la déformation des angles, Edièdre à la

torsion des angles dièdres et Eimpropre à la déformation de groupes plans. (figure 2.2)

Figure 2.2 – Les quatre termes contribuant aux interactions liées. Les cercles et les

lignes représentent respectivement les atomes et les liaisons covalentes.

2.2.1.2 Énergie d’interactions non liées

En mécanique moléculaire, les interactions non-liées sont prises en compte lorsque les atomes sont distants de plus de trois liaisons covalentes. Ces interactions sont généralement

séparées en deux composantes, les interactions de type van der Waals (EvdW) et les interactions

électrostatiques (Eelec) (figure 2.3).

Énergie de van der Waals Les interactions de van der Waals sont des interactions élec-

2.2. Fonction d’énergie

Figure 2.3 – Représentation schématique des deux termes contribuant aux inter- actions non liées. Les cercles représentent les atomes.

modélisées par un potentiel de Lennard-Jones :

EvdW(i,j) = 4[( σ rij )12− ( σ rij )6] (2.3)

où  et σ sont des constantes et rij est la distance entre les atomes i et j. Le premier terme

modélise les forces répulsives de Pauli et domine lorsque les atomes sont proches. Le deuxième terme modélise les forces attractives entre dipôles instantanés et domine lorsque les atomes sont éloignés.

Énergie électrostatique L’énergie électrostatique est modélisée par un terme de Coulomb

entre charges partielles atomiques. Ce terme dépend de la distance entre les charges et de l’écrantage diélectrique du milieu :

Eelec = qiqj rij

(2.4)

où qi, qj représentent les charges,  la constante diélectrique du milieu et rij la distance entre

les atomes i et j.

2.2.1.3 Modélisation implicite du solvant

Le solvant, de par sa constante diélectrique élevée, joue un rôle important en écrantant les interactions électrostatiques. Sa modélisation explicite est trop couteuse pour être appliquée

au CPD. Le solvant est donc modélisé de manière implicite. L’énergie de solvatation (Esolv)

comprend deux termes : un terme Epol

solv qui décrit les interactions polaires et un terme E

apol solv

qui décrit l’effet hydrophobe :

Esolv = Esolvpol + E apol

solv (2.5)

Dans le CPD, la protéine est souvent définie comme un corps de faible constante diélectrique entourée d’un milieu continu ayant une constante diélectrique élevée. La limite entre ces deux

régions est déterminée par la surface moléculaire. Le terme apolaire est généralement modélisé par un terme surfacique :

Esolvsurf =X i

σiAi (2.6)

Ai correspond à la surface accessible au solvant de l’atome i et σi à un coefficient d’énergie

de surface (en kcal/mol/Å2) qui dépend de l’hydrophobicité de l’atome (Wesson & Eisenberg

[1992]).

Modèle CASA (Coulombic Accessible Surface Area) Le modèle CASA utilise une

constante diélectrique  pour pondérer le terme de Coulomb et mimer l’effet d’écrantage du

solvant. À ce terme s’ajoute le terme surfacique Esurf

solv :

EsolvCASA = (1

 − 1)Eelec− E

surf

solv (2.7)

Ce modèle a donné de bons résultats dans le développement de protéines plus stables et le dessin de cœurs hydrophobes (Dahiyat & Mayo [1996] ; Raha et al. [2000]). Cependant, l’utilisation d’une constante diélectrique unique le rend moins adapté au dessin de la surface des protéines.

Modèle de Poisson-Boltzmann Le modèle de Poisson-Boltzmann (PB) est actuellement

considéré comme le meilleur modèle de solvant implicite et présente l’avantage d’être fondé sur des concepts physiques. Il décrit la protéine comme une cavité de faible constante diélectrique entourée d’un milieu de forte constante diélectrique. Ce modèle permet de prendre en compte à la fois les fortes interactions électrostatiques entre les groupes chargés et le solvant polarisé, mais également le phénomène d’écrantage du solvant sur les interactions au sein de la protéine. Bien qu’il existe une version décomposable par paires du modèle PB (Marshall et al. [2005] ; Vizcarra et al. [2008]), cette méthode reste couteuse en temps de calcul. D’autres approches lui sont donc préférées dans le cadre du CPD.

Modèle de Born généralisé Le modèle de Born généralisé (ou GB pour Generalized Born)

est une approximation du modèle PB (Born [1920]). Dans le modèle GB, les atomes sont modélisés par des sphères ayant une constante diélectrique plus faible que l’environnement. L’effet d’écrantage appliqué à chaque atome i dépend directement de sa distance au solvant.

2.2. Fonction d’énergie

Cette distance, appelée rayon de Born, reflète l’enfouissement de la charge dans la protéine. L’énergie a la forme : EelecGB =X ij τ qiqj 2 (rij+ bibje−r 2 ij/4bibj)−1/2 (2.8) avec τ = 1 ext − 1

int, rij la distance entre les charges qi et qj, et bi le rayon de Born de l’atome

i.

2.2.2 Décomposition de l’énergie par paires pour le CPD

Lors de l’exploration des séquences, il est faut évaluer rapidement et efficacement l’énergie. Une approche consiste à précalculer l’ensemble des interactions entre paires de rotamères de manière indépendante (Dahiyat & Mayo [1997] ; Gaillard & Simonson [2014]). L’énergie totale du système est ensuite calculée en sommant l’ensemble des énergies de paires. Cela suppose que l’énergie a la forme :

Etotale = N X i Eii+ N X ij Eij (2.9)

Eii est l’énergie d’interaction du résidu i avec lui-même et avec le squelette de la protéine,

Eij l’énergie d’interaction entre les résidus i et j et N le nombre de résidus. L’ensemble des

termes énergétiques sont rassemblés dans une matrice carrée. La diagonale contient les termes

Eii pour chaque rotamère de chaque position, tandis que les termes Eij sont hors-diagonaux.

Cette matrice est ensuite lue au cours de l’exploration des séquences pour déterminer l’énergie des conformations.

La décomposition par paires du terme EM M est exacte, ce qui n’est pas le cas du terme

Esolv lorsque le GB est utilisé. En effet, l’interaction GB entre deux atomes ne dépend pas

uniquement de ces deux atomes mais également des atomes environnants. Pour pallier ce pro- blème, une approximation est réalisée en calculant l’énergie électrostatique de chaque paire dans l’environnement natif (ou NEA pour Native environnent approximation). Dans la mé- thode NEA, les rayons de Born pour un résidu sont ainsi évalués en supposant que les autres atomes sont dans leur conformation native.

Une approximation est également nécessaire pour le terme Esurf

solv . En effet, la surface enfouie

d’une paire de résidus peut être recouverte par la chaine latérale d’un troisième résidu qui n’est pas prise en compte lors du calcul. La surface commune aux trois résidus est alors comptabilisée pour chaque paire, ce qui aboutit à une surestimation de la surface enfouie (figure 2.4). Pour

1

2

3

Figure 2.4 – Représentation de trois résidus et de leurs surfaces de contact res- pectives. Vert : surface de contact entre les résidus 1 et 2 ; rouge : surface de contact entre

les résidus 2 et 3 ; bleu : surface de contact entre les résidus 1 et 3 ; gris : surface de contact commune aux trois résidus et comptabilisée plusieurs fois. D’après Street & Mayo [1998] limiter cette surestimation, un facteur de correction de l’enfouissement peut être appliqué (Street & Mayo [1998]).