• Aucun résultat trouvé

Chapitre 1 : Données bibliographiques – Les méthodes in silico pour

3. Les approches (Q)SAR orientées vers la prédiction ADME-Tox 43 !

3.2. Aspects pratiques : élaboration de modèles (Q)SAR 46 !

3.2.1. Jeux de données expérimentaux 46 !

La mise en place d’un modèle de prédiction nécessite avant tout une étape de fouille et de collecte de données. L’objectif est de constituer un jeu de données, c’est-à- dire une liste de composés chimiques pour lesquels des valeurs d’activité ont été

mesurées expérimentalement. Pour cela, différentes sources de données peuvent être exploitées à savoir des sources de données internes ou publiques.

Les données internes à un laboratoire présentent plusieurs avantages, comme par exemple l’accès à une méthode expérimentale permettant de mesurer l’activité biologique et l’information sur le protocole utilisé. Dans le cas où aucune mesure de l’activité n’est disponible pour l’étude d’un espace chimique précis, il est alors possible de générer un jeu de données, a priori homogène (même méthode), permettant d’élaborer un modèle performant pour une série chimique précise. Cependant, l’obtention de ces données homogènes requiert du temps et des coûts supplémentaires du fait de la réalisation expérimentale des mesures. Lorsque le laboratoire ne dispose pas des ressources nécessaires pour la détermination expérimentale de l’activité souhaitée, il lui est possible de constituer un jeu de données à partir d’une grande variété de sources publiques. Certaines de ces sources proposent des données formatées et spécifiques à une activité (jeux de données publiés), tandis que d’autres proposent une grande diversité de mesures expérimentales extraites de la littérature pour une multitude d’activités biologiques (bases de données). Quelle que soit la nature de la source utilisée, un jeu de données doit posséder trois caractéristiques essentielles, à savoir des données fiables, des données homogènes et une taille suffisante.

3.2.1.1.!Fiabilité et homogénéité des données

Avant toute étape de modélisation, une préparation du jeu de données est nécessaire afin de s’assurer de la qualité i) des représentations moléculaires et ii) des données expérimentales.

Plusieurs études ont été menées pour estimer et améliorer la qualité des informations transmises par les sources de données publiques 124–126. Bien que le nombre d’erreurs

soit faible, les résultats de ces études montrent que toutes les sources transmettent des informations structurales erronées, qui peuvent être introduites par inadvertance lors de la conversion de structures moléculaires à l’aide d’outils automatiques ou lors de la transcription par un humain. Ainsi, l’activité expérimentale d’une molécule n’est pas associée à la bonne structure moléculaire. Dans ce cas, une molécule peut disposer de plusieurs structures qui vont être considérées comme indépendantes mais disposant d’une valeur d’activité similaire. Ceci peut avoir pour conséquence une perte de sensibilité du modèle pour les séries congénériques. En plus des structures erronées, des problèmes peuvent également survenir en raison de la duplication des structures, de la

présence de mélanges, ou encore de la présence d'isomères. Dans ce cas, les descripteurs moléculaires calculés à partir de deux représentations non homogènes ne disposeront pas des mêmes valeurs numériques. Il est important de noter qu’une structure peut avoir différentes formes tautomériques qui ne constituent en aucun cas une erreur de représentation moléculaire. Ainsi, la vérification des structures et leur standardisation sont indispensables pour la création de modèles de prédiction robustes.

Les valeurs d’activité expérimentales doivent être dans la mesure du possible homogènes, c’est-à-dire que toutes les mesures doivent exprimer la même propriété biologique, avoir la même unité, et pour finir lorsque plusieurs protocoles ont été utilisés, qu’ils soient comparables. Cependant, il n’est pas rare de rencontrer des erreurs de retranscription ou de conversion d’unité dans les bases de données publiques. Ainsi, le modèle peut avoir des difficultés pour identifier les tendances existantes entre les molécules et leur activité. Il existe néanmoins des solutions pour identifier les valeurs aberrantes ou erronées comme la comparaison de plusieurs points de mesure pour une même molécule, ou encore l’identification des individus mal prédits par le modèle (outliers). Il est à noter que l’utilisation de ces solutions est limitée lorsque des sauts d’activité (activity cliffs) sont observés pour des séries congénériques. D’autre part, la majorité des jeux de données rencontrés dans la littérature n’apportent pas l’information sur la variabilité inhérente des données biologiques, et ne nous transmettent pas les conditions opératoires utilisées pour réaliser la mesure. Une incertitude supplémentaire s’applique lorsque plusieurs sources de données sont combinées, dans le but de créer un modèle (Q)SAR couvrant un plus vaste espace chimique. Le risque de ce genre de pratique est de mélanger des mesures non homogènes rendant le jeu de données inutilisable pour une application en (Q)SAR.

Les données ADME-Tox sont généralement déterminées tardivement dans le processus de drug discovery (Ch1 1.2) et ne sont pas rendues publiques dans la grande majorité des cas (Ch1 1.3). Par conséquent, un nombre limité de données expérimentales est disponible dans la littérature. Il n’est pas rare de rencontrer des jeux de données ADME- Tox qui combinent des mesures provenant de protocoles expérimentaux quelque peu différents. Cependant, la question est de savoir quelle est la taille optimale du jeu de données pour la création d’un modèle de prédiction.

3.2.1.2.!Taille du jeu de données

La taille des jeux de données doit être suffisante pour représenter de manière significative l’espace chimique désiré. Certains modèles peuvent être créés à partir de jeux de données non congénériques dans le but de couvrir un vaste espace chimique (modèles globaux), tandis que d’autres peuvent être conçus pour examiner une série chimique spécifique (modèles locaux). Dans les deux cas, les données doivent représenter aussi largement que possible l’espace chimique souhaité afin que le modèle ait un domaine d’applicabilité optimal (Ch1 3.2.4.7). Aucune règle générique à ce sujet n’a été proposée dans la littérature, mais certaines études ont été entreprises afin de déterminer l’effet de la taille du jeu de données sur la construction et les performances d’un modèle. Ainsi, Roy et al. ont montrés que la réduction de la taille du jeu de données avait un effet négatif sur le pouvoir prédictif d’un modèle 127. Ils recommandent que la taille optimale soit fondée sur la capacité du jeu de données à couvrir l’espace chimique ciblé, mais également sur les descripteurs utilisés ou encore sur la méthode d’apprentissage employée pour générer le modèle. D’autres recommandations proposées par Tropsha sont fondées sur les limitations techniques et la qualité du modèle 128. Les jeux de données trop grands peuvent rendre difficile la construction du modèle, tandis que les jeux de données trop petits peuvent souffrir des phénomènes de corrélation aléatoire ou de sur-apprentissage (Ch1 3.2.4.1). Ainsi, si nous réduisons le nombre d’individus (molécules) tout en conservant le nombre de descripteurs, les chances de sur- apprentissage du modèle augmentent, ce qui entraîne une diminution du pouvoir prédictif du modèle. De ce fait, une sélection des descripteurs (Ch1 3.2.2.3) est indispensable, et des méthodes de validation doivent être adoptées pour vérifier que le modèle ne soit pas soumis à ces phénomènes de corrélation aléatoire et de sur-apprentissage (Ch1 3.2.4.1).

En résumé, la fiabilité et la taille sont deux éléments à prendre en considération afin de constituer un jeu de données valide pour la création de modèles de prédiction. Il n’est donc pas surprenant de voir que les principes de l’OCDE prêtent une attention particulière à la préparation des données. Une fois le jeu de données vérifié et validé, le calcul des descripteurs moléculaires peut être effectué.