• Aucun résultat trouvé

Chapitre 1 : Données bibliographiques – Les méthodes in silico pour

3. Les approches (Q)SAR orientées vers la prédiction ADME-Tox 43 !

3.2. Aspects pratiques : élaboration de modèles (Q)SAR 46 !

3.2.4. Validation 72 !

3.2.4.7. Domaine d’applicabilité 82 !

Le domaine d’applicabilité (DA) est une région théorique de l’espace chimique couvert par un modèle (Q)SAR en termes de descripteurs et de réponse biologique. Le besoin de définir un domaine d’applicabilité est considéré comme une étape indispensable pour justifier la validité d’un modèle (Q)SAR. Cependant, sa mise en place reste de nos jours un sujet de controverse et de recherche au sein de la communauté scientifique. Comme énoncé précédemment, un modèle (Q)SAR établit une relation entre la structure chimique des composés décrite par des descripteurs moléculaires et la propriété biologique associée. En théorie, un modèle peut être utilisé pour prédire les propriétés de nouvelles molécules lorsque les informations structurales sont disponibles. Cependant, lors de la prédiction d’un nouveau jeu de données, une question de taille se pose, à savoir : « La molécule nouvellement prédite est-elle présente dans l’espace chimique connu du modèle ? ».

Le DA a pour objectif de fixer les contraintes du jeu d’apprentissage utilisé pour définir le modèle. Ces contraintes peuvent-êtres employées pour déterminer si une nouvelle molécule est considérée comme étant en dedans ou en dehors du DA, et de manière plus concrète s’il est possible de faire une interpolation ou une extrapolation des valeurs prédites. Seules les prédictions des molécules présentes dans le DA vont être considérées (interpolation). Les prédictions des molécules en dehors du DA sont a priori incorrectes, car le comportement du modèle est inconnu. En résumé, le DA a pour but de quantifier la déviation d’un modèle (Q)SAR, qui est par définition chimiquement limité, et de borner l’utilisation du modèle en fonction de la similarité entre les molécules du jeu d’apprentissage et les molécules nouvellement prédites.

Afin de répondre correctement à cette problématique, il est indispensable de prendre en compte les points clefs nécessaires à la mise en place du DA. i) Le premier consiste à identifier des sous espaces chimiques denses pour lesquels le modèle est censé être fiable. ii) Le deuxième est de déterminer le degré de généralisation du modèle, c’est-à- dire, de fixer un ou plusieurs seuils permettant de définir les limites du DA. Cette étape est cruciale, car le choix d’un seuil trop restrictif induirait un modèle extrêmement fiable, mais ne prenant en compte que des structures chimiques très similaires à celles présentes dans le jeu d’apprentissage. iii) Le DA doit être, dans la mesure du possible, caractérisé.

De nombreux travaux ont été menés afin de proposer de nouvelles approches ou d’améliorer les techniques existantes pour optimiser la détermination des domaines d’applicabilité. L’ensemble des méthodes couramment rencontrées et décrites dans la littérature ne doivent pas être considérées comme définitives et restent un point de départ pour le développement de nouvelles approches toujours plus fiables afin d’améliorer la prise de décision suite à la prédiction (Q)SAR. Il existe donc différentes approches permettant de définir un DA (Figure 20), plus ou moins complexes à mettre en œuvre, dont les plus populaires sont présentées et discutées ci-dessous.

Figure 20 : Représentation schématique des méthodes utilisées pour définir un DA.

Les approches permettant d’élaborer un DA sont ordonnées en fonction de leur principe (rang, géométrie, distance, densité) et de la complexité de la

a)!Méthodes basées sur les rangs

Ces méthodes se basent sur les gammes de valeurs des descripteurs utilisés par le modèle. Elles consistent à définir des seuils maximal et minimal déterminés à partir du jeu d’apprentissage pour chaque descripteur du modèle. Ainsi, toute molécule ayant des valeurs de descripteurs comprises entre ces seuils sera considérée comme faisant partie du DA. Les boîtes de délimitation, Bounding box ou PCA Bounding box, sont les approches les plus connues de ce type. Ces approches simplistes et rapides à mettre en œuvre possèdent cependant des inconvénients majeurs. En effet, elles ne prennent pas en compte la colinéarité des descripteurs (Bounding Box uniquement) et les régions dépeuplées du domaine d’applicabilité 199–201. En résumé, les seuils utilisés sont peu

restrictifs et susceptibles d’accepter dans le domaine d’interpolation des molécules très diverses induisant un risque important de prioriser des molécules mal prédites.

b)!Méthodes géométriques

Ces méthodes caractérisent le DA en définissant un espace convexe contenant l’ensemble des individus du jeu d’apprentissage. L’enveloppe convexe est générée à partir de l’espace à n-dimensions correspondant aux n descripteurs utilisés par le modèle

202. Une nouvelle molécule peut être considérée comme étant en dedans (interpolation)

ou en dehors (extrapolation) de cette enveloppe convexe. L’obtention d’une enveloppe convexe représentative est affectée par l’augmentation du nombre de descripteurs. Par ailleurs, le DA prend en compte l’ensemble des individus du jeu d’apprentissage, ce qui signifie que cette méthode ne peut en aucun cas identifier les éventuelles régions vides et présente alors les mêmes limitations que les méthodes basées sur les boites de délimitations.

c)!Méthodes basées sur les distances

Ces approches définissent l’espace d’interpolation en calculant un ou plusieurs seuils basés sur les distances des molécules présentent dans le jeu d’apprentissage. Elles sont les approches les plus communément rencontrées dans la littérature. Plusieurs méthodes peuvent être élaborées et sont différenciables selon le type de distance utilisée :

Plusieurs distances sont utilisées dans le cadre de ces approches dont les plus populaires sont : la distance Euclidienne, la distance de Mahalanobis, la distance City Block ou Manhattan, ou encore la distance de Tanimoto aussi nommée distance de Jaccard. Un seuil correspondant à la distance limite au centroïde du jeu d’apprentissage va permettre de définir si une nouvelle molécule est assimilable au domaine d’interpolation. Ces approches sont sensibles aux dimensionnalités élevées du modèle, car la présence de descripteurs non pertinents ou de descripteurs redondants (corrélés) peut induire des distances calculées non significatives 203,204. Cependant, la distance de

Mahalanobis, basée sur le calcul d’une matrice de covariance, présente l’avantage de prendre en compte l’influence des éventuels descripteurs corrélés. D’autre part, l'absence de règles strictes dans la littérature pour définir les seuils peut conduire à des résultats ambigus.

-! Effet de levier ou leverage 191 :

La méthode du levier, initialement prévue pour détecter les points d’influence (outliers extrêmes) dans les modèles de régression, est considérée comme la méthode de référence par l’OCDE pour définir un DA 205. L’effet de levier mesure l’influence ℎ

" de

chaque molécule # sur les estimations obtenues par le modèle de régression. L’effet levier d’une molécule # dans l’espace des descripteurs du modèle est défini selon l’équation :

" = % &"'()'))+,&

"%%(# = 1, … , 0)

Equation 15 : Détermination de l’influence du hi.

Lorsque &" représente un vecteur contenant les valeurs de descripteurs pour une

molécule, ) est la matrice de dimension 0% × %2 (2 descripteurs et 0 molécules) et 3 la matrice transposée. Un seuil limite ℎ∗ est ensuite définit comme égal à 3 fois la moyenne

des ℎ" obtenus pour les molécules du jeu d’apprentissage. Une nouvelle molécule

disposant d’une valeur ℎ" supérieure à ℎ∗ sera considérée comme en dehors du DA.

Cette méthode purement statistique ne permet en aucun cas de répondre à la caractérisation du domaine d’interpolation et, via le calcul du ℎ" , s’éloigne des

informations structurales comprises dans le DA. De plus, la comparaison d’une molécule en fonction du seuil global ℎ∗ implique que cette méthode est peu sensible et comme dans le cas des méthodes précédentes ne permet pas de considérer les régions de faible densité du DA. D’autre part, cette approche n’est applicable qu’aux modèles de régression et n’est donc pas ou peu utilisable pour les modèles de classification (non

universelle). Ces observations sont applicables aux méthodes dites de distance au modèle ou DModX 206, initialement prévues pour détecter les points aberrants (outliers

modérés) dans les modèles de régression PLS.

-! K-plus proches voisins :

La méthode des k-plus proches voisins définit le DA en évaluant la distance/similarité entre les molécules du jeu d’apprentissage et les molécules du jeu de test, afin de déterminer un ou plusieurs seuils d’acceptabilité 207. Une nouvelle molécule

sera considérée comme prédite de façon fiable si la distance avec ses plus proches voisins du jeu d’apprentissage est inférieure au(x) seuil(s) établi(s). Cette méthode exclusivement basée sur les distances inter-individus est fortement impactée par les problèmes de dimensionnalité énoncés pour les approches de distance au centroïde. D’autre part, la sélection du seuil pour établir la règle d’acceptabilité, n’est pas une notion strictement définie dans la littérature. En effet, plusieurs travaux proposent d’incorporer à ce seuil des notions de densité locale ou de fiabilité locale, afin d’obtenir des limites uniques pour chaque individu du jeu d’apprentissage 208. Par conséquent, contrairement

à toutes les méthodes précédemment énoncées, cette approche permet d’atteindre une granulométrie plus fine du DA et permet de prendre en considération la notion de densité. Ceci rend possible l’identification des sous-espaces chimiques denses et la caractérisation de l’espace d’interpolation en fonction des plus proches voisins observés pour une molécule nouvellement prédite. De plus, cette approche simple et universelle peut-être appliquée à des modèles de régression mais également de classification. Les travaux de Roberto Todescini ont très largement contribués à la valorisation de cette méthode basée sur l’utilisation des approches k-NN afin de définir un DA 209–211.

d)!Méthodes basées sur la distribution de densité probabiliste 201

De nos jours cette méthode est considérée comme la plus performante pour estimer le DA d’un modèle (Q)SAR, car elle permet de mettre en lumière des régions de haute densité et des régions dépeuplées du domaine d’interpolation. Le GTM développé par Gaspar, Baskin, Marcou, Horvath et Varnek est le meilleur exemple des approches basées sur la densité de probabilité 212–214.

e)!Autres méthodes

D’autres méthodes sont rencontrées dans la littérature comme les approches basées sur les arbres de décision ou les forêts aléatoires, les approches par étapes ou

stepwise, les approches basées sur des regroupements intelligents de type k-means ou

encore les approches basées sur les noyaux (kernel) propres à certaines méthodes d’apprentissage. Ces méthodes restent des approches exotiques et pour cette raison ne seront pas décrites.

4.!Modèles de prédiction ADME-Tox dans le