• Aucun résultat trouvé

Chapitre IV : Molécules sur mesure : Criblage Virtuel et étude QSAR

V. Relation structure-activité (QSAR)

V.7. Approches de validation du modèle QSAR

1. Importance de la validation

Le processus de construction d’un modèle QSAR est réalisé en trois étapes essentielles, illustré dans la figure 26 :

(1) La préparation des données; (2) l'analyse des données; (3) la validation du modèle.

Les modèles résultants sont ensuite utilisés pour concevoir de nouvelles molécules basées sur des caractéristiques chimiques ou des tendances jugées statistiquement significatives concernant l'activité biologique sous-jacente.

La préparation des données: Cette étape comprend la sélection d'un ensemble de données

pour les études QSAR et le calcul des descripteurs moléculaires.

L'analyse des données: Elle concerne le choix d'une technique d'analyse de données

statistiques. Cette dernière peut être linéaire ou non linéaire telle que la PLS. Une variété de différents algorithmes et logiciels sont disponibles. Dans toutes les approches, les descripteurs sont considérés comme des variables indépendantes et les activités biologiques comme des variables dépendantes.

La validation du modèle: En règle générale, c’est la dernière partie du développement du

modèle QSAR, dans laquelle sont calculées des estimations de la puissance prédictive du modèle. Ce pouvoir prédictif est l’une des caractéristiques les plus importantes des modèles QSAR. Idéalement, elle devrait être définie comme la capacité du modèle à prédire avec précision la propriété cible, en particulier l’activité biologique de composés qui n’ont pas été utilisés dans le développement du modèle. Le résultat de cette procédure est un coefficient de corrélation croisé validé q2, qui est calculé selon la formule suivante :

Dans cette formule; (yi), sont les activités réelles. Et (ŷi), les activités estimées par la

procédure de validation croisée LOO. Alors que ȳ représente la moyenne des activités. Cette équation est appliquée sur tous les composés de l'ensemble d'apprentissage utilisés pour construire un modèle. Généralement, q2 est utilisé comme critère de robustesse et de capacité prédictive du modèle. De nombreux auteurs considèrent q2 élevé comme un indicateur d’une preuve ultime du pouvoir prédictif élevé d'un modèle QSAR.

94

Les caractéristiques statistiques dérivés d’un ensemble d’apprentissage sont insuffisantes pour établir et estimer le pouvoir prédictif des modèles QSAR(291). Le seul moyen de s'assurer du pouvoir prédictif élevé d'un modèle QSAR est de démontrer une corrélation significative entre les activités prédites et les activités observées pour un ensemble de validation de composés non employé dans le développement du modèle(292).

La meilleure mesure de la fiabilité d'un modèle 2D-QSAR est un q2 et un r2 élevé. Ce dernier pourrait résulter d'un sur-ajustement des données. En général, une valeur de q2> 0,5 est considérée comme acceptable(293).

Figure 26: Les étapes de développement d’un modèle QSAR. (redessiné).

2. Randomisation Y

C'est une autre approche importante de validation d’un modèle QSAR. Elle est largement utilisée pour établir la robustesse d’un modèle(294). C’est une méthode qui consiste à répéter la procédure de calcul de dérivation de ce modèle. L’évaluation de la probabilité des statistiques résultantes est ensuite utilisée pour évaluer la robustesse du modèle développé avec les activités réelles. Elle est souvent utilisée avec la validation croisée. Les modèles basés sur les données randomisées ont souvent une valeur élevée de q2, qui peut être expliquée par une corrélation aléatoire ou redondance structurelle(295).

95

3. Division rationnelle des ensembles de données disponibles

Il est important de souligner que la randomisation Y et la validation externe doivent faire partie du développement du modèle. Pour atteindre cet objectif, un ensemble de données expérimental est divisé en deux ensembles; De Training set et de test set. Ces ensembles sont utilisés respectivement pour le développement et la validation de modèles. A cet effet, des approches spéciales devraient être utilisées pour sélectionner un ensemble de training set assurant la plus haute signification, la robustesse et le pouvoir prédictif des modèles QSAR(296).

Afin d’estimer le véritable pouvoir prédictif d’un modèle QSAR, il est nécessaire de comparer les activités prédites et observées d’un ensemble de test externe suffisamment grand, et contenant des composés qui n’ont pas été utilisés dans l’élaboration du modèle. Un paramètre approprié est un q2 externe défini comme suit (similaire à q2 pour l'ensemble d'apprentissage):

Pour cette formule: (yi) et (ŷi) sont respectivement les activités mesurées et prévues de l'ensemble de tests, les valeurs de la variable dépendante et (ȳtr) est la valeur moyenne de la variable dépendante pour l'ensemble d'apprentissage. Les sommations couvrent tous les composés de l'ensemble de test. Cette formule n’a de sens que si ȳtr ne diffère pas de manière significative de la valeur similaire pour l’ensemble de test (297).

La division de l’ensemble des composés ayant une structure et une activité connues en plusieurs jeux de training set et de test set (296) se fait de façon aléatoire (ces ensembles n’ont aucune particularité)

Il a été démontré (292, 296) que l'utilisation des caractéristiques statistiques de l'ensemble de tests sont nécessaires pour évaluer correctement la capacité prédictive d'un modèle QSAR. Les caractères les plus utilisés sont : le coefficient de corrélation R2 entre les activités prédites et observées; les coefficients de détermination des activités prévues par rapport aux activités observées R20 et les activités observées par rapport aux prévisions R20; les pentes k et k0 des droites de régression passant par l'origine. En résumé, nous considérons un modèle QSAR prédictif si les conditions suivantes sont remplies (296):

96

FORMULE

La méthode QSAR est un domaine expérimental de modélisation de données statistiques. Cependant, il est impossible de décider a priori de la méthode de modélisation QSAR qui aura le plus de succès. A cet effet, l'application de différentes combinaisons de techniques de modélisation et d'ensemble de descripteurs est susceptible de saisir certains aspects uniques du modèle QSAR. Ces aspects devraient augmenter les chances de succès (298, 299). Les modèles résultants vont être utilisés spécifiquement dans l'exploration de bases de données pour découvrir diverses molécules biologiquement actives.

VI. Validation des composés criblés