• Aucun résultat trouvé

Généralités sur les approches (Q)SAR 43 !

Chapitre 1 : Données bibliographiques – Les méthodes in silico pour

3. Les approches (Q)SAR orientées vers la prédiction ADME-Tox 43 !

3.1. Généralités sur les approches (Q)SAR 43 !

3.1.1.!

Historique

La modélisation (Q)SAR est née il y a plus de 150 ans, lorsque des scientifiques ont essayé de quantifier les relations entre la structure chimique et l’activité de petites molécules organiques. Crum-Brown et Fraser ont émis l’hypothèse en 1868 que l’action physiologique d’une substance était fonction de sa constitution chimique. Ainsi, ils ont proposés le postulat selon lequel une modification de la structure chimique engendrait une modification de l’activité biologique 109. A la fin du XIXe siècle, des scientifiques

comme Richet, Meyer ou encore Overton démontrent que l’activité d’un composé est fortement corrélée à ses propriétés constitutionnelles 110,111. D’autres approches de ce

type ont été élaborées tout au long du XXe siècle, comme par exemple les travaux de

Hammett ou de Taft 112,113. Mais c’est en 1964 que Hansch et al. parviennent à élaborer

une équation mathématique permettant de prédire le coefficient de partition H2O/Octanol

à partir des constantes électroniques de Hammett développées quelques années plus tôt : c’est le premier modèle QSAR de l’histoire 114. Dans les années qui ont suivies, la

nécessité de résoudre de nouveaux problèmes et la contribution de nombreux chercheurs, ont généré des milliers de variations de la méthodologie proposée par Hansch, ainsi que des approches complètement nouvelles, comme par exemple l’introduction des études qualitatives des relations structure-activité. A l’heure actuelle,

fondé sur l'utilisation systématique de modèles mathématiques, les approches (Q)SAR sont les outils de base pour la conception contemporaine de nouveaux médicaments, se situant à l’intersection de la chimie, des statistiques et de la biologie.

Par conséquent, un modèle (Q)SAR peut être décrit comme un modèle statistique qui approxime une fonction (f) à partir descripteurs moléculaires (X) et d’une activité biologique (Y) selon l’équation Y = f(X). L’objectif d’un modèle est alors de capter la relation existante entre les descripteurs moléculaires et l’activité, afin de créer des règles génériques permettant d’expliquer l’activité étudiée. Le but est ensuite d’appliquer ces règles afin de prédire l’activité de molécules inconnues à partir de leurs descripteurs moléculaires. L’élaboration d’un modèle nécessite trois composantes : i) un ensemble de données constitué des mesures expérimentales de l’activité biologique pour un groupe de molécules (Y) ; ii) des valeurs de descripteurs moléculaires pour décrire la structure des molécules (X) ; iii) des méthodes statistiques, pour identifier la relation entre les deux ensembles de données (f). Plusieurs méthodologies peuvent être employées afin de créer un modèle de prédiction, mais toutes doivent respecter les règles de bonnes pratiques approuvées par la communauté scientifique, comme par exemple les principes de l’Organisation de Coopération et de Développement Economique (OCDE).

3.1.2.!

Principes de l’OCDE et bonnes pratiques

Lors du congrès QSAR de Setubal (Portugal) en mars 2002, les lignes directrices pour déterminer la validité des modèles (Q)SAR, en particulier à des fins réglementaires

115 ont été définies. Suite à ce congrès, les membres de l’OCDE ont convenus de 5

principes fondamentaux à suivre pour établir la validité scientifique d’un modèle (Q)SAR. Il est intéressant de noter que des observations similaires ont été proposées par Unger et Hansch en 1973 116. Ces principes sont un aperçu des points impératifs auxquels doit

répondre le modèle pour être considéré comme cohérent, fiable et reproductible 117. Les

cinq principes adoptés par l'OCDE sont les suivants :

i)! Une activité définie – pour s’assurer que les données modélisées soient homogènes (même activité, même unité et dans la mesure du possible même protocole expérimental).

ii)! Un algorithme non ambigu – Les méthodes statistiques utilisées pour construire un modèle (Q)SAR doivent être explicitement détaillées dans la mesure du possible, afin d’assurer la reproductibilité des prédictions.

iii)! Un domaine d’applicabilité défini (Ch1 3.2.4.7) – Les modèles sont construits sur des sous-ensembles spécifiques de l’espace chimique. Des prédictions peu fiables peuvent être obtenues pour des molécules qui n’appartiennent pas au sous-espace chimique couvert par le modèle.

iv)! Des mesures appropriées de la qualité, de la robustesse et de la prédictivité du modèle – Les performances des modèles doivent être évaluées à l’aide de métriques détaillées suite à une validation interne puis une validation externe (Ch1 3.2.4.5). La validation interne consiste à estimer la qualité statistique du modèle sur le jeu d’apprentissage (jeu de données utilisées pour créer le modèle). La validation externe consiste à estimer la capacité du modèle à prédire de nouvelles molécules (pouvoir prédictif) à l’aide d’un jeu de test (Ch1 3.2.4.3).

v)! Une interprétabilité du modèle (si possible) – Le modèle doit être interprétable chimiquement, c’est-à-dire qu’il doit permettre d’expliquer l’importance de chaque descripteur moléculaire sur la propriété modélisée, afin de définir des règles génériques. Le respect de ce principe n’est pas toujours évident à mettre en œuvre, car certaines méthodes d’apprentissages (algorithmes) ainsi que des descripteurs peu explicatifs, comme les empreintes moléculaires, ne permettent pas une interprétation facile. Toutefois, si ce dernier principe n’est pas respecté, un modèle statistique disposant de bonnes performances peut tout de même être utilisé s’il respecte les principes précédemment énoncés.

Comme nous venons de le voir, cette liste fait appel à des termes spécifiques dans la construction de modèles QSAR qui seront détaillés par la suite. L'OCDE a également présenté des indications pour l'interprétation et la mise en œuvre de ces principes 118.

Cependant, ces règles fondamentales ne sont pas toujours suivies. Dearden, Cronin et Kaiser ont fourni en 2009 une liste de 21 erreurs rencontrées lors de l’élaboration, l’interprétation et l’utilisation d’un modèle (Q)SAR 119. Les erreurs rencontrées

comprennent i) l’utilisation de données inadéquates, incorrectes ou non homogènes, ii) l’utilisation de descripteurs moléculaires colinéaires, incompréhensibles et/ou incorrects, iii) l’utilisation d’un nombre excessif de descripteurs, iv) le manque de normalisation des descripteurs, v) la présence de doublons dans le jeu de données utilisé pour élaborer le modèle, vi) la mauvaise sélection du jeu d’apprentissage et du jeu de test, vii) l'omission injustifiée de points de données, viii) le sur-apprentissage des données, ix) l’absence ou l’utilisation d’un domaine d’applicabilité inadéquat, x) ou encore l'absence, la mauvaise

utilisation de méthodes statistiques ou l'incapacité de valider correctement le modèle. En 2009, Scior et al. ont suggéré des pistes pour reconnaître de tels pièges et de les éviter

120. D’autres initiatives de ce type ont été proposées par Varnek et Baskin en 2012 et

Cherkasov et al. en 2014 121,122. Ces travaux sont importants pour la communauté

scientifique et constituent de véritables bases de travail et de réflexion pour l’élaboration de nouveaux modèles (Q)SAR.

En résumé, le défi actuel n'est plus de développer un modèle capable de prédire l'activité pour le jeu d’apprentissage d'une manière statistiquement valable, mais de développer un modèle qui a la capacité de prédire avec précision l'activité de composés chimiques encore non testés 123. De ce fait, nous allons voir les aspects pratiques à prendre en

compte lors de la création d’un modèle de prédiction en respect avec les bonnes pratiques énoncées précédemment.