Quelques formats de fichiers dans les banques de données
1. Exemples de formats liés aux logiciels de traitement des séquences 2. Exemples de formats liés aux banques de données
3. Les outils de conversion de formats
1. Exemples de formats liés aux logiciels de traitement des séquences 1. Format FASTA
Sans doute le plus répandu et l'un des plus pratiques car trés simple. La séquence, sous forme de lignes de 80 caractères maximum, est précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">".
Plusieurs séquences peuvent être mises dans un même fichier.
>1YYCA 174 bp
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDFKGVTRD GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPVKVA YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF
Voir une description d'un fichier au format FASTA 2. Format ClustalW- suffixe ".aln"
● Doit commencer avec "CLUSTAL W" sans autre information.
● Une ou plusieurs lignes vides.
● Un ou plusieurs blocs de séquences. Chaque bloc contient :
❍ une ligne pour chaque séquence. Chaque ligne consiste : 1. le nom de la séquence
2. espace blancs white space 3. jusqu'à 60 caractères
❍ Une ligne indiquant le degré de conservation (via des caractères spéciaux : "*", ":", ".")
pour les colonnes de l'alignement pour ce bloc.
❍ Une ou plusieurs lignes vides.
CLUSTAL W (1.8) multiple sequence alignment 1YYCA
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDFKGVTRD 1YYCA
GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPVKVA
1YYCA YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF
3. Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans "Accelrys")
● Le format adopté par le package GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (=Checksum) calculée sur celle-ci.
● Le format GCG n'autorise qu'une seule séquence par fichier..
● Le fichier est constitué de la manière suivante:
❍ avant les ".." : commentaires
❍ ligne signal avec identificateur et "Check #### .."
❍ après les ".." : séquence.
1YYCA
1YYCA Length: 174 Feb 14, 2011 10:21 Check: 9268 ..
1 GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD 51 DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP 101 DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP 151 VVGDITIPVS TQGEIKLPSL RDFF
4. Format NBRF/PIR
● Une ligne qui commence par le caractère ">" et un code à 2 lettres qui désigne le type de séquence : P1, F1, DL, DC, RL, RC ou XX.
● Un point-virgule suivi par le code lié à la base de donnée (dans l'exemple suivant : ";1YYCA").
● Une ligne qui décrit la séquence.
● La séquence elle-même. Cette partie doit finir par une astérisque.
● Plusieurs séquences peuvent être mises dans un même fichier.
>P1;1YYCA
1YYCA 174 bases
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF*
5. Format Staden
Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour à la ligne (80 caractères maximum par ligne). Ce format n'autorise qu'une séquence par fichier.
SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKADVMVVVAYGL 6. Format Stanford / IG
● la 1ère ligne est une ligne de commentaires précédée par le caractère ";"
● la 2e contient l'identificateur (nom de la séquence) dans les 10 premières colonnes
● les lignes suivantes contiennent la séquence (80 caractères maximum par ligne) terminée par le
caractère "1" (séquence linéaire) ou "2" (séquence circulaire)
;1YYCA 174 bases 1YYCA
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP VVGDITIPVSTQGEIKLPSLRDFF1
7. Autres formats
Le format MSF ("Multiple Sequence Format") contient plusieurs séquences dans un fichier. Il est issu d'un alignement multiple produit par les programmes PileUp, LineUp -MSF et reformat -MSF de GCG.
Le format PHYLIP : deux formats de base sont proposés.
2. Exemples de formats liés aux banques de données a. Format GenBank
Chaque ligne indique le nom du champs et dans chaque champs on trouve des informations.
Aller à : "Entrez" - NCBI - taper "28377945" dans "Search across
databases" Description fichier
GenBank b. Format EMBL
Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champs) suivi de 3 blancs eux même suivis d’informations.
ID 1YYCA STANDARD; PRT; 174 AA.
SQ SEQUENCE 174 AA; C11E4F3E CRC32;
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD DVDFKGVTRD 60 GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT TVLDVPVKVA 120 YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF 174 //
Aller à : EBI dbfetch - taper "PS13882" dans "search item" Description codes entrée fichier EMBL
c. Format PROSITE
La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base de données PROSITE est la suivante :
● lettres A-Z correspondant aux acides aminés (minuscules ou majuscules)
● [] indique une ambiguite inclusive. Exemple : [ILVM]
● {} ambiguite exclusive. Exemple : {FWY}
● X caractère positionnel indifférent
● (n) répétition n fixe d'un sous-motif. Exemple : [RD](2)
● X(n,m) insertions min-max (insertion variable). Exemple : X(2,4)
● < au début du motif : le motif est cadré à gauche de la séquence
● > à la fin du motif : le motif est cadré à droite de la séquence
● le caractère '-' sépare chaque position
● le caractère '+' indique que la suite du motif continue à la ligne suivante
Exemples de motifs PROSITE : D - x - [DNS] - {ILVFYW} - [DENSTG] - [DNQGHRK] - {GP} - [LIVMC] - [DENQSTAGC] - x(2) - [DE] - [LIVMFYW]
3. Les outils de conversion de formats
1. ReadSeq ("Biosequence conversion tool") : Programme de l'EBI. Il permet le reformatage général des séquences. De nombreux formats de sortie sont proposés par Readseq.
2. Sequence Utilities ("BCM Search Launcher") : Attention à cocher la ... bonne case.
Tweet