GenBank数据库，核酸序列数据库(genbank)和基因组数据库(ensemble)的区别

编程之家2023-10-17121次浏览

各位老铁们好，相信很多人对GenBank数据库都不是特别的了解，因此呢，今天就来为大家分享下关于GenBank数据库以及核酸序列数据库(genbank)和基因组数据库(ensemble)的区别的问题知识，还望可以帮助大家，解决大家的一些困惑，下面一起来看看吧！

GenBank数据库，核酸序列数据库(genbank)和基因组数据库(ensemble)的区别

什么是Genbank,它的主要用途是什么

GenBank概述

·什么是GenBank？ GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

·纪录样本-关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

·访问GenBank-通过 Entrez Nucleotides来查询。用 accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。关于 Entrez更多的信息请看下文。用 BLAST来在 GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和 BLAST可以通过 Query和 BLAST服务器。另外一种选择是可以用 FTP下载整个的 GenBank和更新数据。

·增长统计-参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank增长）小节。

·公布通知，最新-最近和即将有的变化，GenBank的分类，数据增长统计，GenBank的引用。

·公布通知，旧-同上相同，是过去公布的统计。

·遗传密码- 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。

向GenBank提交数据

·关于提交序列数据，收到 accession number，和对纪录作更新的一般信息。

· BankIt-用于一条或者少数条提交的基于WWW的提交工具软件。（请在提交前用 VecScreen去除载体）

· Sequin-提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。可以懒⑹褂茫�蛘哂没�赥CP/IP的"network aware"模式，可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。（请在提交前用VecScreen去除载体）

· ESTs-表达序列标签，短的、单次（测序）阅读的cDNA序列。也包括来自于差异显示和 RACE实验的 cDNA序列。

· GSSs-基因组调查序列，短的、单次（测序）阅读的cDNA序列，exon trap获得的序列，cosmid/BAC/YAC末端，及其他。

· HTGs-来自于大规模测序中心的高通量基因组序列，未完成的（阶段0，1，2）和完成的（阶段3）序列。（注意：完成的人类的HTG序列可以同时在 GenBank和 Human Genome Sequencing页面上访问。）

· STSs-序列标签位点。短的在基因组上可以被唯一操作的序列，用于产生作图位点。

·注：SNPs-人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中（dbSNP）。

国际核苷酸序列数据库合作组织

· GenBank，DDBJ，EMBL-合作计划的概述，并链接到相应的主页。GenBank，DDBJ（DNA Data Bank of Japan），and EMBL（European Molecular Biology Laboratory）数据库共享的数据是每天都交换的，因此他们是相等的。数据纪录的格式和搜索方式可能会不一样，但是accession number，序列数据和注解都是一模一样的。即，你可以用accession number U12345在GenBank，DDBJ或EMBL中查找相应纪录，得到的结果是完全一样的序列数据，参考内容等等。

· DDBJ/EMBJ/GenBank特性表-特性表格式和标准被合作数据库用在序列记录的注释上，使得数据共享成为可能，包括详细的描述生物特性和特性限定语的附录，以及IUPAC规定的核苷酸和氨基酸的代号。

FTP GenBank及每日更新

· GenBank普通文件格式-参见GenBank记录样本和在GenBank公布通知中的详细描述，下载大多数最近的完全公告和日常积累或非积累更新数据。

· ASN.1格式-摘要句法记号1，国际标准组织（ISO）数据表示格式，下载大多数最近的完全公告和日常积累或非积累更新数据。

· FASTA格式-定义行号后只跟随序列数据（示例），参见描述数据库的readme文件，包括nt.Z（每天更新的非冗余BLAST核酸数据库，包括GenBank+EMBL+DDBJ+PDB序列，但是不包括EST, STS, GSS, or HTGS序列），nr.Z（每日更新的非冗余蛋白质），est.Z, gss.Z, htg.Z, sts.Z,和其它文件。

http://www.bioon.com/biology/Print.asp?ArticleID=1256

核酸序列数据库(genbank)和基因组数据库(ensemble)的区别

核酸序列数据库（genbank）和基因组数据库（ensemble）的区别：

1、GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

2、Ensemble数据库可为药物研发提供超过167,000种生物活性化合物包括化学结构在内的必要信息。本数据库利用用户容易掌握的界面将数据、文本和图象资料有机地结合起来，便于查询。Ensemble可从药品专利开始，再通过其临床前和临床研究资料，直至注册信息、市场概况及其他方面的相关资料来跟踪药物。数据库每月更新一次，每年增加约10,000种新化合物。

DNA数据库的GenBank

大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences，HTG)、表达序列标记(Expressed Sequence Tags，EST)、序列标记位点(Sequence Tagged Sites，STS)和基因组概览序列(Genome Survey Sequences，GSS)单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。

可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外，通过该系统的文献摘要数据库MEDLINE，可获取有关序列的进一步信息。在万维网上，进入NCBI的主页，可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。现在，光盘分发的方式已经停止，可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核甘酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。

序列条目的关键字包括代码(LOCUS)，说明(DEFINITION)，编号(ACCESSION)，核酸标识符(NID)，关键词(KEYWORDS)，数据来源(SOURCE)，文献(REFERENCE)，特性表(FEATURES)，碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。

代码LOCUS是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。

序列代码具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此代码为准。核酸标识符NID对序列信息的当前版本提供？

关键词字段由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中还氧化酶-2(cyclooxygenase-2)，前列腺素合成酶(prostaglandin synthase)。数据来源字段说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位，如本例人、真核生物等等。文献字段说明该序列中的相关文献，包括作者(AUTHORS)，题目(TITLE)及杂志名(JOURNAL)等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示，并给出该序列中的哪一部分与文献有关。

FEATURES是具有自己的一套结构，用来详细描述序列特性的一个表格。在这个表格内，带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例，您看到的是一个分类数据库(taxon 9606)，以及一个蛋白质数据库(PID：g181254))；序列中各部分的位置都加以标明，5’非编码区(1-97)，编码区(98-1912)，3非编码区(1913-3387)，多聚腺苷酸序列(3367-3374)，等等；蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面，但已经足以说明特性表给出信息的详细程度。

接下来是BASE COUNT记录，计算出不同碱基在整个序列中出现的次数(1010A，712个C，633个G，1032个T)。ORIGIN那一行，指出了序列第一个碱基在基因组中可能的位置。最后，核酸的序列全部列出，并以//作为结尾。

好了，本文到此结束，如果可以帮助到大家，还望关注本站哦！

金鳞岂非池中物侯龙涛？金鳞岂非池中物,一遇风云便化龙是哪篇小说中的人物侯龙涛数据库删除表(SQL中删除表中的内容)