• Aucun résultat trouvé

CHAPITRE 2. CONCEPTION DE SCREENINGASSISTANT ET UTILISATION POUR LA GESTION

B. Présentation technique

3. Identification des molécules par un code unique

Nous avons comparé les qualités des codes uniques générés par quatre logiciels : InChI, MOE, OEChem et Marvin. InChI est un projet débuté par l’IUPAC en 2000 qui est aujourd’hui arrivé à maturité. C’est un logiciel gratuit qui a pour objectif de caractériser les molécules par une ligne de texte. Il a l’avantage par rapport au numéro CAS de permettre de générer un code unique sans qu’il soit besoin de se connecter à un serveur centralisé. De plus il est possible de générer la structure à partir du code InChI, bien que cette fonctionnalité soit encore peu implémentée dans les logiciels actuels. Ce code prend en charge les stéréochimies sp2 et sp3, les isotopes, et les formes simples de tautomérisme. Il a de très bonnes fonctionnalités par rapport aux autres logiciels que nous avons testés, qui utilisent des approches basées sur un code SMILES unique. Une comparaison des fonctionnalités de ces quatre logiciels est disponible dans le Tableau 6. Il en ressort que le code InChI est celui qui a le plus de fonctionnalités. C’est le seul à gérer les formes tautomères simples, et les charges positives mobiles. La Figure 5 présente un exemple de code InChI.

H NH3+ C 13 OH O O OH InChI= {version}1 /{formula}C5H9NO4 /c{connections}6-3(5(9)10)1-2-4(7)8 /h{H_atoms}3H,1-2,6H2,(H,7,8)(H,9,10) /p{protons}+1 /t{stereo:sp3}3- /m{stereo:sp3:inverted}0

/s{stereo:type (1=abs, 2=rel, 3=rac)}1 /i{isotopic:atoms}4+1

InChI=1/C5H9NO4/c6-3(5(9)10)1-2-4(7)8/h3H,1-2,6H2,(H,7,8)(H,9,10)/p+1/t3-/m0/s1/i4+1

Figure 5. Structure de l’acide (S)-Glutamique, marqué au 13C et dans un état de protonation particulier, comme fourni dans la documentation du code InChI (à gauche), détails des différentes parties du code (à droite), et le code généré (en bas).

Fonctionnalité InChI MOE OEChem Marvin

Stéréochimie sp3 X X X X

Stéréochimie sp2 X X X X

Tautomérie simple C(O)-[NH] X

Tautomérie céto-énolique Représentation des NO2 : N(=O)=O et [N+](=O)-[O-]

X X

Détection d’une charge positive mobile * X

* Exemple de la documentation InChI :

N+ N OH N N N OH N+ N N H O N+

Tableau 6. Comparaison des codes uniques de quatre logiciels.

En plus de ces tests de fonctionnalités, qui ont été réalisés sur quelques exemples bien précis, nous avons voulu tester les performances de ces codes pour détecter la présence de doublons dans des chimiothèques. Il apparaît que, comme attendu, le nombre de doublons trouvés varie en fonction des logiciels. Nous avons comparé attentivement toutes les structures des doublons isolés par ces logiciels afin d’identifier les points forts et les lacunes de chaque logiciel. Nous avons utilisé pour cela quatre chimiothèques. Les résultats de cette étude sont disponibles dans le Tableau 7.

Chimiothèque (composés) InChI MOE OEChem Marvin

Prestwick (1120) 1 117 1 116 1 116 1 102

ICOA (3272) 3 213 3 214 3 216 3 195

NCI (260071) 244 321 242 776 243 165 244 584

ChemBridge (425953) 425 941 425 944 425 944 425 944

Tableau 7. Nombre de composés uniques trouvés dans chaque chimiothèque par différents logiciels.

La base Prestwick ne contient aucun doublon réel. Cependant, étant donné que nous avons supprimés les contre-ions dans notre étude, deux doublons doivent être trouvés. De plus, deux diastéréoisomères ont un carbone asymétrique non défini, ce qui entraine la détection d’un autre doublon. Tous les logiciels trouvent ces trois doublons. InChI n’en trouve aucun autre. MOE, OEChem et Marvin en trouvent un autre, qui est dû à la présence de deux stéréoisomères ; l’un a tous ses carbones asymétriques définis correctement (Loracarbef), l’autre a une erreur dans la définition d’un carbone asymétrique (Cefaclor) : une liaison « en avant » ne part pas du carbone mais de l’azote. InChI arrive à distinguer ces deux structures, mais pas MOE, OEChem et Marvin. Enfin, Marvin a des problèmes pour gérer la stéréochimie dans son code unique ce qui entraîne un certain nombre de faux doublons. Pour cette raison nous n’approfondirons pas les performances de Marvin dans la suite de ce comparatif.

Nous avons continué à comparer les résultats des logiciels InChI, MOE, OEChem sur une base un peu plus grande : celle de l’ICOA. Comme n’importe quelle base de composés internes, certaines structures comportent des erreurs qui ont été commises lors de l’entrée des structures. Par exemple, deux structures identiques existent, mais l’une d’entre elles a été a été dessinée avec quatre doubles liaisons dans un cycle aromatique de type benzène ! Seule InChI a été capable détecter cette erreur et d’identifier ces deux doublons. Une des structures de la base a un atome de deutérium noté « D ». MOE a transformé cet atome en hydrogène, et détecté ce composé comme étant identique à un autre composé de la base. MOE est le seul à considérer ces deux molécules comme des doublons. La chimiothèque de l’ICOA contient

difficilement être réinterprété informatiquement en utilisant la structure 2D. InChI trouve deux doublons pour ce type de molécules, alors que MOE et OEChem n’en trouvent aucun. Les autres différences dans le nombre de doublons identifiés sont dues, comme nous l’avons déjà vu avec la base Prestwick, à des carbones asymétriques non définis ou mal définis.

Nous avons également étudié le nombre de doublons trouvés dans de grandes bases telles que NCI et ChemBridge. La base NCI a beaucoup de doublons ; elle est une bonne illustration du fait que le nombre de doublons trouvés dans une base est dépendant du logiciel utilisé. ChemBridge à quant à elle a peu de doublons et, en conséquence, le nombre de doublons trouvés par les différents logiciels n’est pas très différent.

Les résultats de ces tests fait ressortir le classement suivant par ordre de performances décroissantes pour la génération d’un code unique : InChI, MOE, OpenEye et Marvin. InChI est donc le plus performant, et c’est ce logiciel qui sera utilisé dans ScreeningAssistant pour générer un code unique.

Il est important de signaler que les structures avec une stéréochimie mal ou non définie sont une des raisons majeures de la présence de doublons. Ces erreurs de structures se produisent quand les composés sont entrés dans les bases des fournisseurs. Comme la stéréochimie est utilisée pour l’analyse de doublons, ces erreurs peuvent fausser cette étape. Deux choix peuvent être fait pour gérer les centres asymétriques non définis : ils peuvent être considérés comme différents des carbones R et S (c’est le choix de InChI par défaut), ou peuvent être considérés comme identiques à la fois aux carbones R et S (c’est le choix de MOE, OEChem et Marvin). Nous pensons que le choix d’InChI est le plus adapté pour notre système.