• Aucun résultat trouvé

Chapitre IV : Molécules sur mesure : Criblage Virtuel et étude QSAR

V. Relation structure-activité (QSAR)

V.5. Paramètres du QSAR

1. QSAR et Descripteurs

Le domaine des QSAR est une étude visant à relier les structures moléculaires à une activité biologique présentant un intérêt pertinent. Cette étude a pour but de construire avec succès un modèle QSAR. Ce modèle est généré essentiellement par des descripteurs moléculaires codant principalement pour la structure et les propriétés physicochimiques d’une molécule(275).

Le moyen le plus simple de représenter cette dernière est d’attribuer à sa structure un ensemble d’indices. Ces indices sont appliqués à l’étude des corrélations avec des propriétés allant du physique au biologique(276).

Une inspection des modèles QSAR publiés montre que les indices topologiques (TI) sont utilisés avec succès. Cette inspection a également démontré qu’en plus qu’ils soient précieux pour la structure chimique(277), ils ont un coût de calcul relativement faible, ce qui est nécessaire pour la génération des modèles QSAR(165).

La recherche de la meilleure combinaison des descripteurs moléculaires ou de variables, révèle d’avantage les relations d'activité dans une large gamme de complexes ligand/cible. Lesquels complexes peuvent avoir de nombreux modes de liaison.

2. Descripteurs moléculaires

Les descripteurs moléculaires sont des termes qui caractérisent un aspect spécifique d'une molécule (278). Ils jouent un rôle important dans la description quantitative de la structure moléculaire pour trouver des modèles prédictifs appropriés.

En principe, la structure chimique 2D, l'électrostatique et la forme moléculaire jouent tous un rôle significatif dans le mode de liaison des ligands aux cibles et devraient être corrélés avec la réponse à l'activité observée dans les composés de dépistage. Par conséquent, ils devraient en principe fournir la facilité(278) d'utilisation et le pouvoir discriminatoire nécessaires pour révéler les relations d'activité.

90

a. Type de descripteurs

Les descripteurs moléculaires peuvent être classés en fonction de la manière dont ils caractérisent la structure moléculaire. A cet effet, plusieurs descripteurs peuvent être générés pour chaque composé. Le pool de descripteurs contient des valeurs structurelles électroniques, physicochimiques, topologiques et géométriques. Ces derniers sont calculés à partir des représentations tridimensionnelles et incluent les rapports longueur/largeur, le rayon de giration et le volume moléculaire et la surface. Les caractéristiques structurelles électroniques incluent la charge atomique la plus négative ou la plus positive (279, 280).

Les paramètres physicochimiques contiennent la réfraction molaire, le logP et la réfraction moléculaire. Il existe également des descripteurs hybrides qui combinent des aspects de plusieurs types, tels que les descripteurs de surfaces partielles chargées (CPSA)(281). En effet ils combinent une surface moléculaire accessible au solvant, et une information de charge atomique partielle(280). Ces descripteurs ont été conçus pour coder les propriétés qui dépendent des interactions intermoléculaires.

Les indices topologiques sont parmi les plus utiles des descripteurs de nos jours(282), ils

peuvent être dérivés directement des tables de connexion et inclure des quantités telles que des indices de connectivité simples et corrigés en fonction de la valence et des comptes de sous-structure. Ce sont des «valeurs numériques associées à la constitution chimique pour la corrélation de la structure chimique avec diverses propriétés physiques, réactivité chimique ou activité biologique» (278).

b. Selection de descripteurs

Parallèlement au développement, l’élection des meilleurs descripteurs est devenue une étape cruciale dans l’étude QSAR. De nouveaux outils statistiques ont été établis et perfectionnés au cours des 30 dernières années.

De nos jours, il existe des milliers de descripteurs disponibles dans la littérature(273). Pour sélectionner ceux qui caractérisent l’activité de la manière la plus efficace, les chercheurs sont donc confrontés à un problème mathématique basé sur la sélection d'un sous-ensemble de descripteurs à partir d'un ensemble beaucoup plus grand. La selection d’un ensemble optimal peut être contrôlée par la minimisation ou la maximisation d'un paramètre statistique choisi. Pour réduire la taille du pool de descripteurs, on utilise des procédures statistiques standard basées sur le rejet et l’élimination de tous les descripteurs qui contiennent peu ou pas d'informations utiles, ou dont la valeur et le contenu sont similaires à d'autres descripteurs. Autrement dit, ceux qui ont la même valeur pour presque tous les composés. Tout comme ceux qui sont fortement corrélés (r> 0,95) avec d'autres descripteurs. Lorsque la corrélation

91

par paire est rencontrée, le descripteur qui a une représentation des caractéristiques évidentes ou est plus facile à calculer est conservé.

Les seules méthodes appliquées à la construction des modèles QSAR étaient les méthodes linéaires. Parmi elles on compte; l'analyse discriminante linéaire (LDA) ou la régression linéaire multivariée (MLR).

3 Descripteurs et Régression Linéaire

a. Selection des Descripteurs

Avec la disponibilité de la puissance informatique développée, le contenu informationnel du descripteur est devenu plus important que la facilité de calcul du descripteur. La raison pour laquelle les chercheurs ont créés un pool de descripteurs qui maximise la quantité totale d'informations représentées. La taille de ce pool augmente de manière factorielle, ce qui rend peu pratiques les tests de toutes les combinaisons possibles de descripteurs. A cet effet, une technique d'optimisation doit être utilisée pour trouver un sous-ensemble de descripteurs approprié. Ceci permettra de générer un modèle mathématique qui relie les valeurs numériques de ces descripteurs à l'activité biologique. Cette étape s’effectue grâce à l’utilisation de plusieurs régressions linéaires ou des réseaux neuronaux computationnels. Après avoir déterminé et sélectionné le type de descripteurs moléculaires nécessaire pour réaliser une étude QSAR, une procédure statistique doit être introduite pour les relier à l'activité biologique. En vue de cela, plusieurs techniques sont utilisées pour sélectionner un ensemble de descripteurs permettant d'obtenir un bon modèle QSAR. La forme générale d’un tel modèle est la suivante :

Activité biologique= f(descripteurs)

Les techniques les plus courantes actuellement sont celles basées sur une analyse de régression, telles que la sélection à l’avance ou la rétrocession(283). Ces techniques conduisent malheureusement souvent à des modèles inadéquats.

b. Etape de selection des descripteurs

Pour trouver le meilleur groupe de descripteurs, il faut examiner tous les sous-ensembles possibles par le programme des sauts et des limites, qui est un algorithme efficace. Il dispose de pool de descripteurs en sous-ensembles de descripteurs, et calcule les valeurs carrées du coefficient de corrélation multiple (R2) des sous-ensembles(284).

La valeur R2 est calculée pour tous les petits sous ensemble généré à partir des plus grands, en supprimant ceux qui génèrent des valeurs R2 faibles. Les descripteurs qui ne semblent pas être importants sont supprimés. Cette opération est répétée de cette manière jusqu'à ce qu'un sous-ensemble adéquat de descripteurs soit trouvé. En générale l'algorithme donne généralement d’excellents sous-ensembles.

92

4. Régression partielle des moindres carrés

a. Définition

La régression partielle des moindres carrés (PLS) est une technique permettant de modéliser une relation linéaire entre un ensemble de variables de sortie(285). Elle crée des composantes orthogonales en utilisant les corrélations existantes entre les variables explicatives et les sorties correspondantes, tout en conservant l'essentiel de la variance des variables explicatives. La PLS(286) est l’une des technique les plus populaire dans son domaine d'origine, la chimieométrie(287). Elle est devenue un outil bien établi pour modéliser les relations linéaires entre les mesures multivariées.

b. Application de la PLS

Les méthodes de régression multivariée telles que la régression en composante principale (PCR) et la régression partielle des moindres carrés (PLSR) jouissent d'une grande popularité dans un large éventail de domaines. Récemment des études(285, 288) ont montrés que les paramètres du modèle du PLS ne changent pas beaucoup lorsque de nouveaux échantillons d'étalonnage sont prélevés dans la population totale. Pour cette raison la PLS est considéré comme une bonne alternative aux méthodes classiques de la régression en composantes principales et de la régression linéaire multiple.

La méthode de régression des moindres carrés partiels (PLS) gagne en importance dans de nombreux domaines de la chimie et des sciences naturelles. Elle peut être bénéfique pour le contrôle analytique, la chimie clinique, la physique, et le contrôle des processus industriels(289).