• Aucun résultat trouvé

6. Prédiction de la mutagénicité liée au test biologique d’Ames

6.2.1. Données et nettoyage

Un jeu d’apprentissage contenant 4361 molécules dont 2344 mutagènes a été envoyé par les organisateurs à chaque participant du

test de 2131 molécules pour lesquelles la mutagénicité n’a pas été communiquée a été transmis.

Les données étant issues de la littérature, un premier nettoyage des données a été entrepris pas les organisateurs.

en question n’a pas été suffisamment bien nettoyé pour satisfaire les conditions de création de modèles, et de ce fait, il comportait des entrées suspectes. Une nouvelle

Ames

Présentation d’un test d’Ames pour une substance mutagène. (Image adaptée de Wikipédia

Une solution contenant des salmonelles déficientes en histidine est préparée. Chaque stratégie est alors explorée. Dans le premier cas on garde la solution telle quelle (stratégie I). Dans le second cas on ajoute à la solution un homogénat de foie de rat (stratégie II).

On ajoute à la solution le composé à tester, on transvase sur une plaque de gélose et on incube On transvase directement le contenu de la solution sur une plaque de gélose et on incube. Ce test sert de plaque de contrôle pour vérifier que la solution et l’environnement ne sont pas contaminés. Si des colonies apparaissent sur au moins une plaque, quelque soit la stratégie employée, et que les plaques de contrôle présentent des résultats négatifs, alors le composé testé est mutagène.

Matériel et méthodes

Données et nettoyage

Un jeu d’apprentissage contenant 4361 molécules dont 2344 mutagènes a été envoyé par les organisateurs à chaque participant du concours. De même un jeu de test de 2131 molécules pour lesquelles la mutagénicité n’a pas été communiquée a

Les données étant issues de la littérature, un premier nettoyage des données a été entrepris pas les organisateurs. Cependant il est apparu que le jeu de données en question n’a pas été suffisamment bien nettoyé pour satisfaire les conditions de création de modèles, et de ce fait, il comportait des entrées suspectes. Une nouvelle

ée de Wikipédia)

Une solution contenant des salmonelles déficientes en histidine est préparée. Chaque stratégie est quelle (stratégie I). Dans le second cas On ajoute à la solution le composé à tester, on transvase sur une plaque de gélose et on incube.

sur une plaque de gélose et on incube. Ce test sert de plaque de contrôle pour vérifier que la solution et l’environnement ne sont pas contaminés. Si des colonies apparaissent sur au moins une plaque, quelque soit la stratégie employée, et que les plaques

Un jeu d’apprentissage contenant 4361 molécules dont 2344 mutagènes a été concours. De même un jeu de test de 2131 molécules pour lesquelles la mutagénicité n’a pas été communiquée a

Les données étant issues de la littérature, un premier nettoyage des données a apparu que le jeu de données en question n’a pas été suffisamment bien nettoyé pour satisfaire les conditions de création de modèles, et de ce fait, il comportait des entrées suspectes. Une nouvelle

Ames

correction des données a donc été entreprise pour le jeu d’entraînement ainsi que le jeu de test.

i) Filtrage automatique

Pour la 1ère étape du nettoyage, le programme Filter de la suite logicielle OpenEye [14] a été utilisé. Pour ce faire, un filtre déjà existant a été modifié afin d’éliminer :

- tous les hydrocarbures (alcanes, alcènes, benzènes), car étant insoluble en milieu aqueux, il est difficile de comprendre comment ce type de composé a pu être testé dans un environnement cellulaire.

- les molécules de faible poids moléculaire ou ne contenant pas assez d’atomes, car trop peu spécifiques. En effet un petit changement au niveau de la structure de tels composés peut entraîner un résultat différent pour la propriété donnée.

- les molécules à fort poids moléculaire ou contenant trop d’atomes, car ce sont des composés beaucoup trop spécifiques et donc une généralisation de leur comportement n’est pas possible. De plus il n’est pas aisé de générer des descripteurs pour de grosses molécules.

- les peptides, car la structure tridimensionnelle joue un rôle très important au sein de ces composés et, à priori, la structure repliée qu’adoptera la molécule en milieu aqueux n’est pas connue. Ces composés sont impossibles à traiter dans ce cas.

ii) Filtrage manuel

Ceci fait, il a fallu ensuite trier le reste des molécules à la main. Les molécules pour lesquelles les centres stéréochimiques ont été mal définis, (celles pour lesquelles les atomes n’étaient pas explicitement orientés dans l’espace), ont été éliminées (exemple Figure 6-2). Effectivement, il serait risqué de considérer que tous les stéréoisomères d’une molécule aient tous la même mutagénicité. Etant donnée cette information manquante, il est préférable d’écarter ces molécules du jeu de données. Pour ce faire, il suffit de trouver une sous structure commune pour les molécules possédant un centre stéréochimique mal défini, puis de rechercher toutes les structures semblables à l’aide d’une recherche sous-structurale dans un logiciel

Ames

qui permet d’interroger une base de données chimique, et de vérifier leur stéréochimie.

Le jeu de données a ensuite été standardisé à l’aide du logiciel Standardizer de ChemAxon et de la routine « Clear Stereo, Mesomerize, Neutralize, Remove Explicit Hydrogens ». Les doublons présents dans la base de structures moléculaires ont été répertoriés tel que :

Si deux structures identiques présentent la même mutagénicité, une des deux molécules est éliminée.

Si deux structures identiques présentent une mutagénicité différente, les deux molécules sont éliminées.

Les doublons dus à un état de protonation différent, à une forme mésomère différente, ou encore à une forme tautomère différente ont ainsi pu être éliminés. Dans le cas du jeu de test, étant donné que les activités n’étaient pas connues, seule une structure par doublon a été conservée.

Finalement 3439 et 1738 molécules ont été respectivement conservées pour le jeu qui a servi à construire les modèles de classification (jeu d’entraînement) et pour le jeu sur lequel ont été appliqués ces modèles afin de faire des prédictions (jeu de test). Le jeu d’entraînement contient 1915 molécules mutagènes et 1514 non mutagènes, et le jeu de test contient 960 mutagènes et 778 non mutagènes. Bien entendu, au moment du test aveugle la mutagénicité des molécules du test n’était pas connus ; cette information est donc rétrospective.

Ames