• Aucun résultat trouvé

Sondes potentielles sélectionnées par la PCA pour l’amarrage protéique

4.2 Corrélations SPF pour l’amarrage protéique

4.2.5 Sondes potentielles sélectionnées par la PCA pour l’amarrage protéique

Une des difficultés que présente l’amarrage macromoléculaire est de concevoir une fonction de score fiable basée sur l’énergie avec laquelle on évaluera les orientations échantillonnées d’amarrage. La complémentarité de forme est très efficace comme premier filtre, mais il serait souhaitable d’incorporer des interactions chimiques dans le schéma de score pour aider à distinguer le vrai complexe des nom-breux faux-positifs produits par une recherche de corrélation d’amarrage. Cependant, on ne peut pas déduire directement lesquels des multiples types d’interactions intermoléculaires (électrostatiques, li-aisons d’hydrogène, désolvatation, ponts salins, forces de dispersion, etc.) donnent la force motrice pour lier deux molécules dans un quelconque cas particulier. Par conséquent, dans le cadre de projet de thèse de doctorat d’Alessandra Fano, nous avons étudié comment l’analyse de composantes prin-cipales (ou “principal component analysis,” PCA) des champs interactifs moléculaires (ou “molecular interaction fields,” MIFs) peut être utilisée afin de choisir les types d’interactions chimiques les plus significatifs pour une certaine cible d’amarrage. Pour vérifier l’efficacité de cette approche, nous avons essayé d’amarrer les composants non liés du complexe entre la subtilisine de streptomyces (SUP) et son inhibiteur naturel (SSI). Ce complexe, qui est un cas difficile à amarrer avec les techniques courantes, présente ainsi un test parfait.

En premier, nous avons utilisé le programme GRID (Goodford, 1985) afin de produire des cartes 3D d’énergie potentielle de plusieurs types d’atomes de sonde placés dans une grille pour les sur-faces de chaque protéine. Seuls les points avec des valeurs potentielles au delà d’un seuil donné sont maintenus; les autres sont rejetés. La figure 4.15 illustre cette approche pour la protéine SSI. Un calcul semblable a été effectué pour la SUP. Bien que le but soit d’apparier les distributions de tels potentiels avec des distributions complémentaires des potentiels de l’associé d’amarrage, il serait impraticable d’utiliser toutes les cartes d’énergie potentielle possibles pendant un calcul d’amarrage. Donc nous avons utilisé la PCA pour choisir les types de sondes les plus pertinents et les plus signifi-catifs pour guider la recherche d’amarrage. La PCA est une approche standard de chemoinformatique

pour extraire des informations à partir d’ensembles de données très grands. En général, la PCA est utilisée dans des études de conception de médicaments, en particulier pour l’association quantitative entre la structure 3D et l’activité (ou “3D quantitative structure-activity relationship, 3D-QSAR; Pastor

et al., 1995) et elle est aussi utilisée pour relier les sites de liaison de récepteur-ligand (Matter &

Schwab, 1999). Cependant, l’approche d’Alessandra représente une première application de PCA sur des potentielles des sondes pour classer les solutions de l’amarrage macromoléculaire. La raison principale d’effectuer une PCA sur les MIF est le fait que ces sondes qui contribuent le plus à la vari-ance dans les cartes d’énergie sont supposées d’être les meilleures indicatrices de complémentarité pour le système sous considération.

Figure 4.15: À gauche : la protéine SSI placée dans une grille 3D. À droite : positions des sondes de surface codées en couleur par le potentiel de GRID – donneur de protons en rouge, accepteur de protons en bleu et hydrophobe en vert.

Dans une PCA, la matrice de sondes potentielles est décomposée en deux matrices plus petites des chargements et scores. Les chargements mesurent la pondération des variables originales dans l’analyse et les scores donnent une réprésentation simplifiée des objets (les sondes dans notre cas) en termes d’un petit nombre de nouvelles variables non-corrélatives (les composantes principales, ou PCs). Le graphe des scores des objets contre les PC nous permet d’identifier les objets (ou clusters d’objets) qui expliquent en grande partie la variance. Les graphes de PCA montrés sur la figure 4.16 montrent la distribution des six sondes les plus significatives (C sp3, NH amide, N+ sp3, O carbonyle, O- carboxyle et Sèche, ou “Dry”) dans les deux premiers composants de l’espace de chimiométrie pour SUP et SSI. Il est intéressant de noter la symétrie de miroir dans le plan horizontal. Ceci suggère qu’il y a une bonne complémentarité chimique entre les protéines. Ces graphes montrent que seulement trois sondes (N+, O- et Dry) sont suffisantes pour expliquer en grande partie la variance dans les cartes de potentiels. Par conséquent, seul ces trois sondes sont utilisées dans les prochains calculs d’amarrage.

Pour un certain type de sonde, les sondes potentielles sélectionnées par la PCA peuvent être transformées en fonctions continues lisses pour l’amarrage dans Hex de la même façon que les

Figure 4.16: À gauche : Le graphe de PCA pour SUP montrant les contributions des six types de sondes potentielles les plus significatifs (C sp3, NH amide, N+ sp3, O carbonyle, O- carboxyle et Dry) aux deux pre-mières composantes principales, PC1 et PC2. PC1 et PC2 expliquent 69.3% et 21.5% de la variance totale, respectivement. À droite : pareillement, le graphe de PCA pour SSI. PC1 et PC2 expliquent 74.3% et 16.0% de la variance totale, respectivement.

charges des atomes points (ou “point-charges”) sont transformées pour donner une fonction de charge-densité (voir la section 2.5.2). Par exemple, en traitant les positions de sonde N+ pour la protéine A comme une somme sur les points potentiels,φN +(xi), on peut écrire la somme de poten-tiels comme :

φN +(x) =X

i

φN +(xi)δ(x − xi). (4.24)

Ceci peut alors être représenté comme une série coupée de SPF dans la façon usuelle φN +(r) ≃X

nlm

aN +nlmRnl(r)ylm(θ, φ), (4.25)

où les coefficients d’expansion sont calculés en utilisant (c.f. Eq 2.133) : aN +nlm=X

i

φN +(ri)Rnl(ri)ylmi, φi). (4.26)

Des expressions similaires peuvent être écrites pour les autres types potentiels. L’énergie globale d’interaction peut alors être estimée comme

EGRID = 1 2

Z

A(r) φN+B (r) + φO−B (r) + φDryB (r) + τB(r) φN+A (r) + φO−A (r) + φDryA (r)dV. (4.27) Il est à noter que cette expression ne favorise pas spécifiquement des paires complémentaires de types de sondes individuelles, ni ne pénalise des paires non-favorables. Cependant, par conception, cela devrait donner un minimum profond quand les protéines sont contraposées dans une orientation bien ajustée. Par conséquent, ce terme d’énergie devrait augmenter les scores des orientations

d’amarrage basées sur la complémentarité de forme. La figure 4.17 montre le potentiel N+ calculé par SPF sur la SAS de la protéine SSI, avec le potentiel correspondant O- sur la protéine SUP.

Après comparaison avec les calculs d’amarrage basés sur la forme-seulement et la forme-plus-électrostatique décrites précédemment, nous avons trouvé qu’en ajoutant le potentiel de grille dans la fonction de corrélation de forme améliore le rang de la première solution presque-native par au moins un facteur de 2 (spécifiquement, la meilleure solution trouvée basée sur la forme-seulement était classée 13-ème, la forme-plus-électrostatique 10-ème et la forme-plus-grille 5-ème). Malheureuse-ment, puisque notre approche exige plusieurs étapes manuelles pour effectuer les analyses PCA et pour importer les données de GRID dans Hex, il n’a pas été possible de faire des tests plus ap-profondis pendant la période où Alessandra était à Aberdeen. Cependant, ce travail a démontré pour la première fois l’utilité des corrélations des potentiels chimiques dans des calculs d’amarrage. L’approche globale a été par la suite utilisée pour produire quelques modèles utiles d’amarrage pour la protéine co-réceptrice de surface CCR5 et des protéines chemokines MIP-1β et RANTES (Fano

et al., 2006).

Figure 4.17: À gauche : le potentiel N+ (régions bleues) calculé à partir de la SAS (montrée en blanc) de SSI. Les points bleus montrent les positions des points originaux de N+ de GRID, les points rouges montrent les positions O- et les points verts montrent les points hydrophobes. À droite : les points chauds de sonde N+ (bleu) et O- (rouge) sur les surfaces SAS de SSI et de SUP, respectivement. Cette image montre l’orientation de liaison du complexe mais avec les deux protéines légèrement séparées pour une meilleure vue.