Sequence Repository: Which parsing rule to use for NCBI fasta files

Poster un nouveau sujet   Répondre au sujet

Voir le sujet précédent Voir le sujet suivant Aller en bas

Sequence Repository: Which parsing rule to use for NCBI fasta files

Message par ProlineAdmin le Jeu 29 Juin - 15:34

How to configure Sequence Repository for NCBI entry ?

In order to extract the protein name gi|47169226 from an entruy formatted as :
    >gi|47169226|pdb|1UB2|A Chain A, Crystal Structure Of Catalase-Peroxidase From Synechococcus Pcc 7942
the parsing_rules file should be configured with specific entry:

parsing-rules = [{
   name="uniprot1",
 ...
},
{
  name="NCBI",
   fasta-name=["NCBI"],                         // all files which name start with 'NCBI' will be considered by this rule
   fasta-version="NCBI([^_]*)_.*.fasta",   // NCBI version is extract after NCBI word and before first '_'
   protein-accession =">(\\w{2}\\|[^\\|]*)\\|"  // Protein accession is extract from beginning to second |
}]

ProlineAdmin
Admin

Messages : 25
Date d'inscription : 06/12/2016

Voir le profil de l'utilisateur http://proline.profiproteomics.fr/

Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

Poster un nouveau sujet   Répondre au sujet
 
Permission de ce forum:
Vous pouvez répondre aux sujets dans ce forum