• Aucun résultat trouvé

2.2 Les chimiothèques

2.2.2 Formats de chimiothèques virtuelles

2.2.2.2 Les formats de fichiers 3D

Les formats de fichiers 3D décrivent la structure de la molécule en présentant l'avantage de

préciser les coordonnées cartésiennes spatiales. Cependant, en contrepartie, la taille des

fichiers est beaucoup plus importante et leur stockage et leur manipulation nécessite de plus

grandes capacités informatiques. Les formats 3D les plus couramment utilisés sont les formats

SDF

65

, PDB

66

et MOL2

67

.

2.2.2.2.1 Le format SDF

Le format SDF (ou SDfile, Structure-Data file) fait partie d'une grande famille de formats de

fichiers appelée CTfile ou Chemical Table file. Ce format utilise une table de connexion pour

décrire les relations et les propriétés structurales d'un groupe d'atomes, partiellement ou

complètement connectés les uns aux autres. Un fichier SD est ainsi divisé en blocs placés les

uns en dessous des autres (Figure 11), débutant par une ligne de chiffres, appelée « Counts

line », qui apporte des informations notamment sur le nombre d'atomes et de liaisons. A la

suite de cette première ligne, deux blocs consacrés respectivement aux atomes (précisant les

coordonnées cartésiennes, le symbole atomique, la charge, la stéréochimie et les hydrogènes

associés) puis aux liaisons (indiquant les atomes mis en jeu, le type, la stéréochimie et le

topologie de la liaison) sont disposés

65

. A ces trois blocs peut venir s'ajouter un dernier bloc

consacré aux propriétés générales de la molécule (masse molaire, activité biologique...). Les

fichiers aux formats SDF possèdent une extension « .sdf ».

55

Figure 11. Fichier SDF de la L-alanine téléchargé dans la base de données ZINC

43

,

illustrant la disposition en bloc des informations structurales.

2.2.2.2.2 Le format PDB

La PDB (Protein Data Bank)

68

est une base de données créée en 1971 pour archiver les

structures cristallographiques de macromolécules. Alors qu’au commencement cette base de

données ne contenait que sept structures, aujourd’hui 97362 structures sont proposées sur le

site internet

69

. Pour faire face à cet afflux immense de données, un nouveau format de fichier,

capable de stocker de manière standardisée et optimisée l’ensemble des informations

structurales à disposition, a été développé. Il s’agit du format PDB

66

, nommé ainsi en

référence à la banque dont il est issu et dont l’extension est « .pdb ». Dans ce format de

fichiers, les coordonnées atomiques sont stockées sous forme de ligne de 80 caractères dans

une section appelée ATOM (pour les 20 résidus classiques des protéines) ou HETATM (pour

tous les autres atomes : ligands, molécules d’eau…). Chaque ligne est consacrée à un atome,

56

les six premières colonnes étant réservées aux identifiants (type atomique, résidu auquel

appartient l'atome et identifiant de séquence), les colonnes 7 à 70 aux données (coordonnées

spatiales exprimées en Å, et les facteurs d'occupation et de température) tandis que les

colonnes 71 à 80 peuvent contenir des informations sur la séquence (symbole et charge de

l'élément). Les atomes sont présentés groupés par résidus, en commençant par les atomes du

squelette (N-Cα-C-O) puis les atomes de la chaîne latérale à partir du Cα. Les informations de

connectivité (atomes mis en jeu dans la liaison et type de liaisons) des atomes de la catégorie

HETATM sont quant à elles renseignées dans une section CONECT. Il est à noter que les

informations de connectivité des atomes de la catégorie ATOM sont implicites. Mises à part

les coordonnées atomiques, d’autres informations (par exemple, le nom de la protéine, des

références bibliographiques, les conditions de cristallisation, la séquence en acides aminés

dans la section SEQRES, les informations sur la structure secondaire dans les sections HELIX

et TURN etc…) sont aussi contenues dans un fichier PDB, triées dans différentes sections

(Figure 12).

57

Figure 12. Fichier PDB de la L-alanine généré avec la version en ligne de Corina

70

. Dans la

section HEADER, l'identifiant PDB (non présent ici puisqu'il s'agit d'un ligand et pas d'une

protéine), la date de publication dans la banque (ici, date de génération par CORINA) et la

classification de la molécule sont indiqués (ici, unknown). Dans la section REMARK, les

informations usuellement proposées sont le nom de la molécule, l'espèce dont la molécule est

extraite, les auteurs, des références bibliographiques, et d'autres informations générales sur

la protéine.

2.2.2.2.3 Le format MOL2

Le format MOL2

67

a initialement été développé pour le logiciel SYBYL par son éditeur

Tripos. Il s'agit d'un fichier ASCII (American Standard Code for Information Interchange),

d'extension « .mol2 », et réunissant toutes les informations nécessaires pour reconstruire une

molécule. Les informations sont présentées dans différentes sections, chacune débutant par un

RTI (Record Type Indicator), qui est une ligne de caractère ASCII commençant toujours par

le symbole « @ » et permettant d'expliciter le type de données de la section. Pour une

molécule, la première ligne sera toujours le RTI « @<TRIPOS>MOLECULE »,

58

éventuellement suivie de lignes de commentaires (nom et informations sur la molécule).

Parmi les sections les plus courantes figurent les sections @<TRIPOS>ATOM,

@TRIPOS<BOND> et @TRIPOS<SUBSTRUCTURE>. Dans la section

@<TRIPOS>ATOM, chaque ligne est consacrée à un atome. Les différentes informations

fournies pour chaque atome sont son nom, ses coordonnées cartésiennes, son type atomique,

l'identifiant de la sous-structure à laquelle il appartient, sa charge et éventuellement son statut

interne défini par SYBYL (DSPMOD, TYPECOL, CAP, BACKBONE, DICT, ESSENTIAL,

WATER, DIRECT). De même, dans la section @<TRIPOS>BOND, chaque ligne définit une

seule liaison. Chaque liaison est définie par un identifiant numérique, les identifiants

numériques des atomes formant la liaison, le type de liaison (simple [1], double [2], triple [3],

amide [am], aromatique [ar], pseudo [du], inconnue [un] ou non connecté [nc]) et un statut

interne défini par SYBYL (TYPECOL, GROUP, CAP, BACKBONE, DICT, INTERRES).

Chaque ligne de la section @<TRIPOS>SUBSTRUCTURE donne des informations sur une

sous-structure: son identifiant, l'atome racine de la sous-structure, le type de sous-structure

(temporaire [temp] ou permanente [perm], résidu [residue], groupe [group] ou domaine

[domain]), le dictionnaire associé à la sous-structure, la chaîne correspondante, le nombre de

liaisons inter sous-structures et le statut interne (LEAF, ROOT, TYPECOL, DICT,

BACKWARD et BLOCK) (Figure 13).

2.2.2.2.4 Comparaison des formats

Le format MOL2 permet d’assigner à chaque atome une charge partielle. Le format PDB,

pour sa part, possède un champ propre pour les facteurs de température (ou facteur B) derivés

de la précision de la densité electronique. Enfin, le format SDF contient des lignes de 0

permettant d’intégrer des propriétés ou des caractéristiques du produit tels que le numéro de

référence dans un catalogue, la quantité disponible etc…

59

Figure 13. Format MOL2 de la L-alanine téléchargé de la base de données ZINC

43

L'obtention des molécules dans le format adéquat fait partie intégrante et constitue une étape

critique du processus de préparation d'une chimiothèque. Cependant, des étapes

supplémentaires sont nécessaires avant d'obtenir une chimiothèque correctement préparée.