• Aucun résultat trouvé

PHARMACO-CHIMIQUES : QSAR-3D BASES SUR DES CHAMPS D’INTERACTIONS OU D’INDICES DE SIMILARITE MOLECULAIRE

4 - CALCUL DES CHAMPS D’INTERACTION MOLECULAIRES

Pour CoMFA comme pour CoMSIA, les champs d’interaction moléculaire sont calculés par l’évaluation du potentiel d’interaction entre une sonde et la molécule étudiée. Cette évaluation est faite sur des points régulièrement espacés d’une matrice englobant la molécule.

CoMFA calcule le champ stérique avec un potentiel de Lennard-Jones et le champ électrostatique avec un potentiel de Coulomb [6]. Cette approche, bien que largement acceptée et très efficace, pose quelques problèmes. En particulier, les deux fonctions de potentiels ont une pente très forte à proximité de la surface de Van der Waals de la molécule (Figure 2). Cela provoque des changements brusques dans la description des surfaces et conduit à l’emploi de valeurs seuils pour éviter de calculer les potentiels à l’intérieur de la molécule. De plus un facteur d’échelle est appliqué au champ stérique pour qu’il soit comparable et utilisable avec le champ électrostatique dans la même PLS. Pour finir, si l’on change l’orientation de la matrice de mesure par rapport au jeu de molécules alignées, on peut observer des changements significatifs

seuils strictes.

Dans CoMSIA, ce sont 5 champs de similarité distincts qui sont calculés. Ce sont les champs stérique, électrostatique, hydrophobe, donneur de liaison hydrogène et accepteur de liaison hydrogène. Ces champs couvrent les types majeurs d’interaction impliqués dans la liaison ligand récepteur [31]. Les indices de similarité sont calculés dans une matrice 3D comparable à celle de CoMFA. Les potentiels dépendant de la distance entre la sonde et la molécule sont modélisés par une fonction gaussienne (Figure 2). La forme de cette fonction est différente de celle des fonctions de potentiels classiques et permet de calculer les indices de similarité de tous les points de la matrice, à l’intérieur comme à l’extérieur de la surface de Van der Waals.

Figure 2 : Forme générale des potentiels classiques utilisés par CoMFA (traits fins) et du potentiel utilisé par CoMSIA (trait gras).

L’indice de similarité A en un point q de la matrice F est calculé par la somme des interactions de type F de tous les atomes j de la molécule i. La fonction d’indice de similarité est décrite par l’Équation 12. Équation 12 :

=

i r ik k sonde q k F q j

e

w

w

j

A

2 , , ,

( ) α

Wsonde,k est la sonde, de rayon 1Å, de charge +1, d’hydrophobicité +1 , donneur d’1 liaison hydrogène et accepteur d’1 liaison hydrogène.

Wi,k est la valeur de la propriété physico-chimique k de l’atome i. ri,q est la distance entre la sonde au point q et l’atome i de la molécule.

α est le facteur d’atténuation dont la valeur par défaut est de 0,3 mais qui peut varier de 0,2 à 0,4 [32].

Les valeurs des propriétés physico-chimiques proviennent de différentes sources.

Pour le champ stérique, CoMSIA utilise la table de Van der Waals implémentée dans SYBYL. Cette table est codée et n’est pas modifiable.

Pour le champ électrostatique, les charges partielles atomiques sont directement utilisées.

Pour le champ hydrophobe, CoMSIA utilise une table d’hydrophobicité dont les valeurs sont basées sur les travaux de Viswanadhan et al. [33].

Pour les champs donneur et accepteur de liaison hydrogène, CoMSIA crée des atomes fantômes (dummy atoms) sur les sites donneurs et accepteurs. Les mêmes atomes fantômes sont utilisés pour les deux champs. Le champ accepteur contient les informations sur les positions de possibles groupements donneurs sur le récepteur. Le champ donneur indique les régions où des groupements accepteurs du récepteur pourraient se trouver.

5 - SEQUENCE ET RESULTATS DES ANALYSES COMFA ET COMSIA a . Construction d’une table de molécules

Les molécules de la série à analyser sont construites et optimisées avec leurs charges partielles puis alignées selon les techniques adéquates. Les structures sont enregistrées dans une base de données de SYBYL.

Les analyses QSAR sont réalisées sur une table de molécules (Molecular Spreadsheet™ – MSS) construite à partir de la base de données. Sur cette table, chaque ligne correspond à une molécule de la base et chaque colonne peut contenir un descripteur ou un indicateur.

Une de ces colonnes doit contenir la valeur cible à exploiter. Les valeurs sont saisies à la main ou importées selon la procédure proposée par le MSS.

b . Calcul des descripteurs

Le MSS permet ensuite de calculer les différents descripteurs CoMFA et CoMSIA de son choix. Lors du calcul d’un premier champ d’interaction, le logiciel crée une matrice dont la position, l’orientation et les dimensions sont automatiquement fixées de façon à englober largement toutes les molécules de la série. Pour le calcul des autres champs, il est souhaitable d’utiliser la même matrice pour obtenir une série de champs homogènes et comparables. Cette méthodologie est proposée par le logiciel mais n’est pas automatique. Il est possible de modifier l’espacement entre les points de la matrice et le facteur d’atténuation α, grâce à des variables d’environnement du logiciel (Tailor Values). Chaque descripteur calculé occupe une colonne et la valeur affichée

est l’écart-type du champs. Une fois les descripteurs calculés, la table est prête pour l’analyse PLS.

Afin de limiter le bruit généré par les faibles variations de champ, il est possible de filtrer les valeurs des descripteurs (Column Filtering). La PLS ne tiendra pas compte des variations inférieures à un certain seuil. Ce seuil est défini par l’utilisateur avant de lancer un calcul et est généralement fixé à 1,0 kcal.mol-1. Le filtrage permet également de raccourcir considérablement les temps de calcul.

c . Séquences des analyses PLS

La première analyse à réaliser est une PLS avec validation croisée par la procédure LOO et un nombre de composantes allant de 1 à Cmax, le nombre maximal de composantes. Pour que le modèle puisse être significatif, il est souhaitable que Cmax soit inférieur ou égal au tiers du nombre de molécules dans le jeu d’apprentissage. Cette première analyse nous donne le q2 du modèle et son erreur standard de prévision ainsi que le nombre optimal de composantes Copt. On dérive alors un second modèle, sans validation croisée mais avec le nombre optimal de composantes indiqué par l’analyse précédente. On obtient l’indice de corrélation r2, l’erreur standard d’estimation et la valeur F avec les degrés de liberté du modèle et du résidu. Le poids relatif de chaque descripteur utilisé dans le modèle est également donné à chaque analyse.

On peut ensuite répéter cette séquence en calculant les modèles centrés afin d’estimer le biais d’ajustement des modèles non centrés.

Il est possible que certains descripteurs soient corrélés entre eux et donc redondants. L’emploi simultané de ces descripteurs risque de générer plus de bruit que de signal. Il se peut aussi que certains descripteurs ne soient pas corrélés à la propriété cible. Leur intégration dans le modèle ne génèrera que du bruit et alourdira inutilement les calculs. Evidemment, il est difficile de prévoir quelle est la meilleure association de descripteurs. Il faudrait les tester toutes pour le savoir …

Nous avons donc écrit un script, dans le langage de programmation de SYBYL (Sybyl Programming Langage – SPL) qui permet de dériver un modèle pour toutes les combinaisons de descripteurs et pour tous les jeux d’apprentissage souhaités. Il collecte également les indices descriptifs de chaque modèle dans un fichier de sortie. Ce script a été nommé QBF1.spl (Qsar Best Fit). L’exécution de ce script doit être paramétrée par l’utilisateur. Son fonctionnement est décrit dans la partie expérimentale et son code est donné dans l’Annexe II p.157. Un exemple de fichier de sortie est fourni dans l’Annexe III p.161.

Les fichiers « pls » sont codés en binaires et ne sont lisibles que par l’intermédiaire du logiciel. Ils permettent d’accéder à tous les paramètres de la PLS et au modèle calculé. C’est à partir de ce fichier que l’on pourra visualiser un modèle et l’utiliser pour faire des prévisions d’activité.