
数据提交指南
版本:1.0
2012年5月11日目录
1.TSA数据库 (3)
2. TSA的特点 (3)
3. TSA通则 (3)
4. 注册新的BioProject (4)
4. 创建提交文档 (7)
5.提交工具 (8)
6.创建结构注释表 (9)1.TSA数据库
TSA是一个将EST、traces和新一代测序技术等的原始数据进行计算组装结果存放的文档。它通过软件计算将测序序列组装为转录本,而非使用传统的克隆和对克隆的cDNA进行测序等方法。TSA要求用于组装的原始序列数据需要经过同一提交者进行实验验证方可使用。
2. TSA的特点
TSA序列展示方法和其他国际核酸序列数据库协会(INSDC)记录基本相似,区别主要在
于以下内容:
1.关键词:TSA(Transcriptome Shotgun Assembly,转录组鸟法组装);
2.TSA标签:位于每个定义行的起始处;
3.BioProjectID;
4.组装数据结构注释;
5.注释中会对多阶程序的结果进行组装描述;
6.将新一代测序技术所得的序列用于组装并提交给SRA时,数据库会自动连接到SRA数据库的 SRR 入口;
7.其他的特征、参考信息和GenBank/EMBL/DDBJ等结果展示类似;例如某一提交的TSA编号为JL9687.
8.TSA序列信息在所有的INSDC数据库中是共享的,而且都可以在Entrez Nucleotide和Entrez Protein中通过特异性搜索获得。
3. TSA通则
提交的核苷酸序列需要符合以下标准:
1.序列信息中要求去除所有的载体污染及载体信息,包括新一代测序所用到的测序引物。
2.剔除200bp以下的序列。
3.剔除N达到10%以上或连续N达到14个以上的序列。
4.所有序列的组装信息须经数据提交者进行实验验证后方能提交。
5. 所有原始序列必须提交到SRA,并提供SRA run的编号(SRR)。
6.其他要求:
∙注册登陆BioProject数据库时,您的项目须是转录组鸟法组装项目。
∙请参考图例填写每个对话框的相关信息,填写时,请参考蓝色问号处的填写提示;
∙不是直接测序得到的序列组装数据不提交到TSA,如,基于克隆的组装数据必须提交给GenBank;
∙由测序仪内部自带软件组装得到的含有gaps的组装结果不能提交(其包括由N来代替gap的结果)不提交到TSA;
∙多个物种测序组装成一个混合结果不提交到TSA。
4. 注册新的BioProject
图1 注册新的BioProject
图2 项目类型图例Project data type:项目类型
针对TSA数据,请填写Transcriptome or Gene expression: 转录组或表达谱Sample scope:样品范围
Monoisolate: 多种群;Multiisolate: 单种群;Multi-species: 多物;Environment: 物种信息未知;Synthetic: 人工合成;Other: 其他
Material:原料
Genome: 基因组;Purified Chromosome: 纯化的染色体;Transcriptome: 转录组;Phenotype: 表观数据;Reagent: 试剂;Proteome: 蛋白组织;Other: 其他
针对转录组数据,此处请填写Transcriptome: 转录组;
Capture:捕获区域
Whole: 所有区域;Clone ends: 克隆末端数据;Exome: 外显子;Targeted locus loci: 指定基因位点;Other: 其他
Methodology: 方法
Sequencing:测序;Array:芯片;Mass Spectrometry:质谱;Other:其他
图3 目标图例
Organism name: 生物体名称
Taxonomy ID: NCBI taxonomy物种分类编号
在网页http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi,输入物种名称进行搜索,如下图。
图 4 物种分类编号图例
图 5 常规信息图例Project title: 项目名
Public description: 项目描述
Relevance: 相关领域
图6 发表情况图例
如未发表,可不填写;
Overview:核对之前的信息是否填写准确,点提交即可。
∙需要组装数据的结构注释。请见Creating the Structured Comment Table .
∙如果是多阶组装需要有一个组装过程的说明。
∙原始数据的文库信息需要注释其来源特征
∙如果注释信息中有产品名称则需遵循UniProt-SwissProt nomenclature guidelines.
4. 创建提交文档
提交流程:
∙提交文档可以用Sequin or tbl2asn(下文有相关介绍)创建。
o Create submission template.
o使用软件tbl2asn将unigene从fasta格式转变为sqn格式
∙Sequin TSA选项
图7 上传页面展示
∙上传后,将下面信息以邮件形式发送到gb-admin@ncbi.nlm.nih.gov,
o从GenomesMacroSend获得的GDSub号码
o释放日期:立即释放或月/日/年
o SRR编号(如果有)
∙如果在准备上传过程中没有提供以下信息,请在邮件中也列出来
o BioProject 数据库中的BioProjectID
o如果.sqn文件中没有组装数据,请提供一个限定格式的组装数据表格。具体操作指南请见Creating the Structured Comment Table。
5.提交工具
Sequin
∙选择'Use a submission wizard for TSA'
∙在Sequin 文件创建过程中,将会弹出对话框要求输入结构注释(the structured comment),项目(project)和组装信息(assembly description information)。
tbl2asn
∙tbl2asn 随着序列以及列表文件读取模板,并输出提交给GenBank的ASN.1
tbl2asn 为TSA做如下设置
∙使用fasta defline中[moltype=mRNA]将分子类型指定为mRNA
∙Include the technique [tech=TSA] in the fasta defline.
∙在fasta defline 中技术设定为[tech=TSA]
∙在fasta defline中BioProject设为[bioproject=PRJNAXXXX1]
∙使用下面的指令输入组装数据(Assembly data)
请点击Creating the Structured Comment Table获得更多信息
其他指令
∙如果你已经向SRA提交了包含fasta defline 中SRR登陆号在内的原始数据,例如[SRA=SRRXXXXX1]∙如果你的数据是通过多步的组装得到的,包括下面的描述步骤:创建一个描述数据的test文件,并命名为评论(comment)(只是个例子)。在你的指令行使用-Y评
论。
验证你的指令行中包含提交的TSA需求信息:-M t 这个命令包含标准效验器和额外的TSA 检验。
命令行举例:
使用CMD工具:tbl2asn -p ./fsa(input fasta dir) -r ./sqn(output sqn files dir) -t
templete.sbt(submission template file) -a zs -V vb -j "[organism=Musa acuminata(AAA) Root Tissue cultural seedling](organism name) [common=dessert banana](commen name)
[cell-line=CHO-K1](cell-line name)"[Tissue-type=Root Tissue cultural seedling](tissue type) [Tissue-lib=Brizilan](library name) [mol_type=mRNA] [tech=TSA] [lineage=Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Zingiberales; saceae; Musa.](organism taxonomic lineage)" -Y comment.txt(txt file of de novo analysis description) -w assembly.cmt(structured comment file)
tbl2asn –i abc.fsa(single input fasta file) –o abc.sqn(single output sqn file) -t fcb.sbt(submission template file) -a zs -V vb -j "[organism=Musa acuminata(AAA) Root Tissue cultural seedling](organism name) [common=dessert banana](commen name)
[cell-line=CHO-K1](cell-line name)"[Tissue-type=Root Tissue cultural seedling](tissue type) [Tissue-lib=Brizilan](library name) [mol_type=mRNA] [tech=TSA] [lineage=Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Zingiberales; saceae; Musa.](organism taxonomic lineage)" -Y comment.txt(txt file of de novo analysis description) -w assembly.cmt(structured comment file)
更多有用参数请查阅:http://www.ncbi.nlm.nih.gov/Sequin/sequin.hlp.html#ModifiersPage
6.创建结构注释表
结构注释表是一个单一的制表符分隔的表,包含所有需提交的序列中的标签值对(tag-value pairs)。需要同时提供组装方法(包括版本或获得年份)和测序技术。覆盖度则不是必需的。如果你正在使用tbl2asn或把表格输入Sequin,那么这个表格可以在Structured Comment页面得到
∙如果选择保存,表格会自动保存为assembly.cmt,如果要保存多个不同选项的表格,就需要修改每一个结构注释的文件名
∙如果点击打开,将会在浏览器窗口中出现一个需要复制和保存的表格。
∙如果需要将文件导入Sequin,那么这个文件的扩展名必须是.cmt。如果使用TSA向导,就不需要再创建结构注释表,因为使用TSA向导的过程既是在创建结构注释。一个示例表格:
