• Aucun résultat trouvé

8. Logiciels développés

8.2. DILIpredictor

8.2.2. Fonctionnement

Quel que soit le modèle sélectionné, le fichier .csv d’entrée doit contenir un entête spécifiant à quel endpoint fait référence la colonne lue. Selon le modèle, seules les colonnes d’intérêt à l’application de celui-ci sont identifiées. Par exemple la colonne contenant les résultats des tests vitro relevant d’une apoptose/nécrose sera déterminée par Hepatocellular, HC, necrosis ou encore apoptosis.

Dans le cas du modèle 1, une fois que les colonnes correspondant aux endpoints sont identifiées, l’algorithme de prédiction peut être directement utilisé.

Dans le cas du second modèle il y’a 2 options. La première prévoit que le fichier .csv d’entrée contient déjà les prédictions des modèles QSAR pour les endpoints RM et DILI. Dans ce cas, la même procédure que pour le modèle 1 est appliquée. Si les prédictions QSAR ne sont pas disponibles, la seconde option est envisagée. Cette seconde option prévoit de fournir, en plus du fichier .csv contenant les résultats des tests vitro, un fichier .sdf contenant les structures chimiques des composés à prédire. Chaque structure est alors fragmentée en descripteurs ISIDA via le logiciel ISIDA/Fragmentor, et un modèle SVM préalablement construit est appliqué avec le logiciel LIBSVM. Les prédictions sont alors récupérées, ajoutées au fichier d’entrée .csv, et l’algorithme de prédiction de l’arbre peut alors être exécuté.

Le choix des fragmentations à effectuer et des modèles à appliquer pour sur les structures chimiques est décidé grâce au fichier .xml montré ci-dessous : Frg_pred.xml.

Figure 8-3. Fichier XML utilisé par le DILIpredictor.

Il y’a deux balises d’intérêt dans ce fichier : Fragments et Models. Les noeuds enfants de Fragments contiennent le nom du fichier header de référence utilisé par le fragmenteur (ex : RM_t3l2u2.hdr), ainsi que le type de fragmentation et la longueur minimale et maximale des fragments générés. En effet, les modèles prédisant la propriété RM et DILI ne sont pas basés sur les mêmes fragments. Les noeuds enfants de Models contiennent le nom du fichier modèle préalablement construit et requis par le logiciel LIBSVM (ex : RM_t3l2u2.model).

A noter qu’il possible de modifier ce fichier afin d’ajouter de nouveaux modèles pour d’autres endpoints ou de remplacer ceux existant. Il suffit alors de placer dans le répertoire contenant l’exécutable du fragmenteur et de LIBSVM les fichiers .hdr et .model correspondant.

8.3. Références

1. Hoonakker, F., Graphes condenses de réactions, applications à la recherché par similarité, la classification et la modélisation., 2008, Université de Strasbourg. p. 252.

Conclusion générale

Le devenir d’un composé dans l’organisme humain est un enjeu stratégique pour le développement de nouvelles molécules à visé thérapeutiques ou comme outils de diagnostique. Les connaissances actuelles publiques sont parcellaires et rares. Par ailleurs, l’acquisition de nouvelles données est difficile pour des raisons économiques et éthiques. Cela justifie les travaux de rationalisation des connaissances, au travers notamment d’approches chémoinformatique, qui sont entrepris dans la communauté scientifique. Les résultats proposés dans cette thèse s’inscrivent dans ce cadre.

Au cours de cette thèse nous avons proposé l’utilisation de graphes condensés de réactions afin de représenter les réactions métaboliques :

Cette représentation nous a permis de développer une approche nouvelle dans le domaine visant à détecter les mappings atomique incorrect obtenus automatiquement. L’approche se base sur le fait que pour une même réaction, un mapping incorrect conduit à l’obtention d’un GCR différent de celui obtenu à l’aide d’un mapping correct. Une très forte précision balancée (PB=0,95) a pu être obtenu dans l’identification de mappings correct et incorrect pour les réactions métaboliques de la KEGG des classes 1, 2 et 3. Cette étude a d’ailleurs fait l’objet d’une publication acceptée dans le Journal of Chemical Information and Modeling.

L’utilisation de la technologie des GCRs permet de générer des descripteurs impliquant des liaisons dynamiques traduisant les modifications effectuées sur les réactifs lors de la réaction. Il est alors possible de générer des descripteurs reflétant exclusivement le cœur réactionnel ainsi que son environnement proche. L’efficacité des descripteurs issus de cette technologie a été démontrée lors de la classification des réactions métaboliques et de la prédiction de la régiosélectivité des biotransformations chez l’homme :

• Une carte de Kohonen représentant des réactions métaboliques de 3 classes métaboliques distinctes a été générée. Pour ce faire des descripteurs tenant compte uniquement des liaisons transformées autour du cœur réactionnel ont été générés. L’observation de la carte obtenue a démontré une nette séparation des 3 classes.

• Les sites d’hydroxylations aromatiques pour les substrats du CYP1A2 de l’homme ont été prédits avec une précision balancée de 0,78 de moyenne sur les jeux de test. Comparé à MetaSite, qui est la référence dans le domaine, nos modèles ont atteint de meilleures performances que ce dernier.

• Les sites d’oxydation pour les substrats du CYP3A4 de l’homme ont été prédits avec une précision balancée de 0,78 sur le jeu de test. Il a été montré que le meilleur modèle obtenu atteint des performances comparables à celles de SMARTCyp qui est un modèle fondé sur le mécanisme réactionnel.

La seconde partie de cette thèse traite de la toxicité et des diverses approches mis en jeu pour parvenir à prédire cette propriété :

La mutagénicité d’Ames a été prédite dans le cadre d’un concours international regroupant 29 modèles construits par 12 équipes. Ce challenge a permis de comparer plusieurs domaines d’applicabilité et de proposer une méthode afin d’identifier les meilleurs. Cette étude a d’ailleurs fait l’objet d’une publication dans le Journal of Chemical Information and Modeling. D’un point de vue personnel, les modèles que nous avons obtenus se sont révélés performants. Une précision balancée de 0,83 a pu être obtenue pour le modèle consensus. Les principaux toxicophores présents dans la littérature ont aussi été confirmés par nos modèles.

Enfin, des descripteurs biologiques ainsi qu’hybrides (biologiques + QSAR) ont permis de construire des modèles bien plus performants que les modèles basés uniquement sur les descripteurs QSAR. Grace à ces descripteurs, un très bon modèle (PB=0,865) permettant d’identifier les molécules hépatotoxiques pour l’homme a été obtenu. Des tests in vitro ont aussi été mis en place afin d’extrapoler les observations in vivo utilisées dans la construction du modèle. Les résultats des tests in vitro ont permis de classer correctement 9 des 10 composés externes.

L’ensemble du travail effectué lors de cette thèse ouvre de nombreuses perspectives:

• Il serait intéressant de classer les 6 classes enzymatiques de la KEGG selon le type de réactions qu’elles catalysent (1er nombre du chiffre EC) et pour un

plus grand jeu de données afin de tenter de les séparer plus précisément en déterminant les 2e, 3e et 4e chiffres du nombre E.C.

• Dans certains cas, les descripteurs focalisés sur le centre réactionnel et son environnement proche ne suffisent pas, notamment pour la prédiction des sites d’oxydation où l’orientation du substrat dans le complexe rentre en compte. Pour surmonter cette difficulté, on pourrait par exemple ajouter des descripteurs qui prennent en compte la taille de la molécule ou encore sa forme. Une étape de docking pourrait aussi être mise en place pour limiter l’application de nos modèles aux zones accessibles par la porphyrine lors de l’oxydation.

• Pour confirmer l’extrapolation vivo/vitro qui a été faite lors de la prédiction de l’hépatotoxicité chez l’homme il faudrait tester notre modèle sur un pleu grand jeu de test. L’obtention de nouveaux endpoints ainsi que la prédiction de paramètres pharmacocinétiques comme la concentration circulante pourrait permettre de tester et d’identifier avec plus de précisions les molécules DILI.

Ces résultats sont une contribution aux efforts colossaux encore nécessaires pour parvenir à maîtriser les interactions entre un organisme humain vivant et son environnement chimique. Cette question dépasse de loin, le seul cadre de l’industrie pharmaceutique et touche à des débats de sociétés beaucoup plus généraux.