• Aucun résultat trouvé

L’identification du site de liaison est nécessaire et cruciale pour pouvoir réaliser un criblage

virtuel basé sur la structure. Pour cela, deux solutions sont possibles : obtenir une structure 3D

de la protéine co-cristallisée avec un ligand, ou utiliser des outils de prédiction

205

.

107

4.1.1 Structure co-cristallisée avec un ligand

L’analyse de la structure cristallisée d’une protéine avec un ligand permet de rechercher les

interactions s’établissant entre ces deux partenaires

28

. Les acides aminés clés, c’est-à-dire

impliqués dans les interactions ligand-protéine, permettent ainsi de guider la définition du site

de liaison. Il s’agit de la méthode la plus sûre pour identifier un site de liaison puisqu’elle

utilise des données expérimentales et non pas des données prédites.

4.1.2 Outils de prédiction de site de liaison

Les outils de prédiction de site de liaison peuvent être divisés en trois catégories, ceux basés

sur la géométrie, ceux basés sur les énergies et ceux basés sur la connaissance

205

.

4.1.2.1Outils de prédiction basés sur la géométrie

Les outils de prédiction basés sur la géométrie utilisent comme hypothèse de départ

l’assertion que les poches et les cavités sont souvent associées aux sites de liaison. En effet,

diverses études ont suggéré que les sites de liaison sont souvent situés dans la plus grande

poche de la protéine

206 , 207 , 208

. De nombreux logiciels s’attachent donc à identifier celles-ci

au sein de la structure protéique. Pour cela, la plupart utilise une grille tridimensionnelle pour

définir la surface moléculaire (MOLCAD

209

, POCKET

210

, LIGSITE

211

et son

implémentation Pocket-Finder

212

, VolSite

213

…). Ainsi, le programme MOLCAD

(MOLecular Computer Aided Design)

209

utilise l’algorithme de Connolly

214

permettant de

calculer la surface exclue au solvant ou surface de Connolly pour identifier au sein d’une

structure les canaux et les cavités. Pour cela, la surface de Connolly est générée pour la

protéine entière et est placée dans une grille cartésienne. Tous les points de la grille qui se

trouvent dans l’espace défini par la surface de Connolly sont nommés « in » et tous les autres

points de la grille « out ». Pour chaque point de la grille « out », les points voisins de moins

de 12 Å sont étudiés. Si un point de la grille « out » possède des points voisins « in » dans au

moins 2 directions de l’espace, le point « out » est défini comme étant un « point de la

cavité ». Tous les « points de la cavité » sont combinés ensemble pour former des clusters.

Deux opérations de « logique cellulaire » sont effectuées sur ces clusters : la « contraction » et

« l’expansion ». La contraction définit que tout point de la cavité avec un voisin qui n’est pas

un point de la cavité est supprimé alors que l’expansion affirme que tout point de la cavité

avec au moins un voisin défini comme étant un point de la cavité est ajouté au cluster

correspondant. A travers ces opérations, les petits clusters sont éliminés et ceux de taille plus

108

importante sont subdivisés en plus petits clusters. Ceci permet d’obtenir un ou plusieurs

clusters représentants des régions concaves de la protéine. Des algorithmes de surface

moléculaire utilisant des sondes parcourant la surface de la molécule peuvent aussi être

employés (Automatic PROtein POcket Search APROPOS

215

, CASTp

216

, SurfNet

217

). Le

logiciel CASTp (Computed Atlas of Surface Topography of proteins)

216

utilise un système de

triangulation (dit de Delaunay) pour identifier et mesurer le volume et la surface des poches

accessibles mais aussi les cavités intérieures inaccessibles (Figure 41). Les ouvertures de la

molécule permettant d’accéder aux poches et cavités sont aussi recherchées.

Figure 41. Schématisation de la triangulation de Delaunay pour un modèle simplifié

d’atomes possédant tous le même rayon (a). Lorsque l’on relie le centre de tous les atomes,

un polygone est formé (b) qui peut être triangulé de manière à ce que tout le polygone soit

couvert sans superposition de triangles (c). Selon la méthode « discrete flow », un triangle

agit comme un « puit » pour les triangles voisins et la poche est définie (d). Dans certains

cas, ce « puit » ne peut pas être créé et CASTp ne considère donc pas cette partie comme une

poche. (d’après

218

)

4.1.2.2Outils de prédiction basés sur les énergies

Les outils de prédiction basés sur les énergies tentent d’estimer les énergies d’interaction entre

une sonde (qui peut être un groupement méthyle, hydroxyle ou amine) et un point donné de la

protéine pour définir des zones favorables d’interaction. Différentes techniques emploient

cette approche (GRID

219

, méthode de Ruppert et al

220

), parmi lesquelles le logiciel

Q-SiteFinder. La recherche de sites de liaison avec Q-SiteFinder

212

est réalisée par liaison de

sondes hydrophobes (CH

3

) à la protéine puis génération de clusters en regroupant les zones où

les sondes se lient avec les énergies de liaison les plus favorables (Figure 42).

109

Figure 42. Site de liaison (code PDB: 1BBP) pour la protéine liant la biline (Biling Binding

Protein BBP) prédit avec Q-SiteFinder. Les sondes utilisées pour prédire ce site

correspondent aux nœuds de la grille. (

212

)

Les clusters sont rangés par ordre de probabilité d’être un site de liaison en se basant sur la

somme totale des énergies de liaison pour chaque cluster. Contrairement aux outils de

prédiction basés sur la géométrie, les volumes des sites prédits ne sont que très faiblement

corrélés aux volumes des sites de liaison de la protéine.

4.1.2.3Outils de prédiction basés sur la connaissance

Les outils de prédiction basés sur la connaissance utilisent notamment des données

biochimiques, de mutagénèse dirigée et de similarité de séquence ou structurale

205

. La

recherche de similarité de séquence, reposant sur la haute conservation de séquence des sites

de liaison, est employée par différents outils de prédiction (Rate4Site

221

, Consurf

222

,

l’algorithme de Dai et al.

223

) réalisant des études d’homologie avec des protéines similaires.

La recherche de similarité structurale avec un complexe connu protéine/ligand peut aussi

permettre d’identifier un site de liaison, et ce particulièrement lorsque l’on considère des

enzymes catalysant la même réaction

205

. Pour cela, différentes bases de données regroupant

des informations sur les sites de liaisons et permettant leur comparaison sont disponibles,

parmi lesquelles CavBase

224

, PINTS (Patterns In Non-homologous Tertiary Structures)

225

,

SiteEngine

226

, eF-site

227

, ProFunc

228

, SitesBase

229

. WebFEATURE

230

est un outil

d’analyse structurale qui permet aux utilisateurs de scanner des structures à la recherche de

sites fonctionnels. Le logiciel fournit des modèles de sites précédemment générés et testés

(Figure 43), à utiliser lors de la recherche de sites de liaison, par exemple pour les protéines :

des sites de liaison pour le calcium, des sites de liaison pour le chlore et des sites de liaison de

110

l’ATP. Le modèle choisi est utilisé pour scanner la structure à tester à la recherche d’un site

similaire, c'est-à-dire présentant un environnement physico-chimique identique.

Figure 43. Exemples de modèles de sites proposés par WebFEATURE représentant

l’environnement 3D en utilisant différentes propriétés physico-chimiques : (a) site de liaison

pour le calcium, (b) site de pont disulfure et (c) site actif de sérine protéase. (

231

) (en bleu :

carbones, en bleu foncé : azotes, en rouge : oxygènes, en vert : calcium, jaune : soufre)

Parmi tous les logiciels utilisables pour identifier un site de liaison, certains sont disponibles

librement sur internet. C’est notamment le cas de CASTp, Pocket-Finder, Q-SiteFinder et

WebFeature qui proposent des interfaces graphiques pour visualiser le résultat de leur

prédiction (Figure 44).

Figure 44. Résultats de la recherche d’un site de liaison sur le domaine C-terminal de la

Hsp90 d’un modèle construit par homologie à l’aide des logiciels Pocket-Finder (a), CASTp

(b) Q-SiteFinder(c) et WebFEATURE (d)