蛋白质组学数据库国际著名的三大蛋白质数据库

编程之家2023-10-22205次浏览

这篇文章给大家聊聊关于蛋白质组学数据库，以及国际著名的三大蛋白质数据库对应的知识点，希望对各位有所帮助，不要忘了收藏本站哦。

蛋白质序列数据库包含哪些内容

蛋白质数据库

1. PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库，包含超过142,000条蛋白质序列(至99年9月)，其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引，以及数据库内部条目之间的索引，这些内部索引帮助用户在包括复合物、酶－底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库，每周可以得到更新部分。

PSD数据库有几个辅助数据库，如基于超家族的非冗余库等。PIR提供三类序列搜索服务：基于文本的交互式检索；标准的序列相似性搜索，包括BLAST、FASTA等；结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索GeneFIND等。

PIR和PSD的网址是：http://pir.georgetown.edu/。

数据库下载地址是：ftp://nbrfa.georgetown.edu/pir/。

2. SWISS-PROT

SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。

SWISS-PROT只接受直接测序获得的蛋白质序列，序列提交可以在其Web页面上完成。

SWISS-PROT的网址是：http://www.ebi.ac.uk/swissprot/。

3. PROSITE

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式，并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下，某个蛋白质与已知功能蛋白质的整体序列相似性很低，但由于功能的需要保留了与功能密切相关的序列模式，这样就可能通过PROSITE的搜索找到隐含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；除了序列模式之外，PROSITE还包括由多序列比对构建的profile，能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。

PROSITE的网址是：http://www.expasy.ch/prosite/。

4. PDB

蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库，由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据，经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务，以及关于PDB数据文件格式和其它文档的说明，PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。

RCSB的PDB数据库网址是：http://www.rcsb.org/pdb/。

5. SCOP

蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次：家族，描述相近的进化关系；超家族，描述远源的进化关系；折叠子(fold)，描述空间几何结构的关系；折叠类，所有折叠子被归于全α、全β、α/β、α＋β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库，这个库通常被用来评估各种序列比对算法。此外，SCOP还提供一个PDB-ISL中介序列库，通过与这个库中序列的两两比对，可以找到与未知结构序列远缘的已知结构序列。

SCOP的网址是：http://scop.mrc-lmb.cam.ac.uk/scop/。

6. COG

蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白，根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序，可以把某个蛋白质与所有COGs中的蛋白质进行比对，并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询，基于Web的COGNITOR服务，系统进化模式的查询服务等。

COG库的网址是：http://www.ncbi.nlm.nih.gov/COG。

下载COG库和COGNITOR程序在：ftp://ncbi.nlm.nih.gov/pub/COG。

蛋白质组研究的发展历史

虽然第一次提出蛋白质组概念是在1994年，但相关研究可以追溯到上世纪90年代中期甚至更早，尤其是80年代初，在基因组计划提出之前，就有人提出过类似的蛋白质组计划，当时称为Human Protein Index计划，旨在分析细胞内的所有蛋白质。但由于种种原因，这一计划被搁浅。90年代初期，各种技术已比较成熟，在这样的背景下，经过各国科学家的讨论，才提出蛋白质组这一概念。

国际上蛋白质组研究进展十分迅速，不论基础理论还是技术方法，都在不断进步和完善。相当多种细胞的蛋白质组数据库已经建立，相应的国际互联网站也层出不穷。1996年，澳大利亚建立了世界上第一个蛋白质组研究中心：Australia Proteome Analysis Facility( APAF)。丹麦、加拿大、日本也先后成立了蛋白质组研究中心。在美国，各大药厂和公司在巨大财力的支持下，也纷纷加入蛋白质组的研究阵容。去年在瑞士成立的GeneProt公司，是由以蛋白质组数据库“SWISSPROT”著称的蛋白质组研究人员成立的，以应用蛋白质组技术开发新药物靶标为目的，建立了配备有上百台质谱仪的高通量技术平台。而当年提出Human Protein Index的美国科学家Normsn G. Anderson也成立了类似的蛋白质组学公司，继续其多年未实现的梦想。2001年4月，在美国成立了国际人类蛋白质组研究组织（Human Proteome Organization, HUPO）,随后欧洲、亚太地区都成立了区域性蛋白质组研究组织，试图通过合作的方式，融合各方面的力量，完成人类蛋白质组计划（Human Proteome Project）。

蛋白质组学虽然问世时间很短，但已经在研究细胞的增殖、分化、异常转化、肿瘤形成等方面进行了有力的探索，涉及到白血病、乳腺癌、结肠癌、膀胱癌、前列腺癌、肺癌、肾癌和神经母细胞瘤等，鉴定了一批肿瘤相关蛋白，为肿瘤的早期诊断、药靶的发现、疗效判断和预后提供了重要依据。

鉴于蛋白质组学发展前景的重要性和技术的先进性，西方各主要发达国家纷纷投巨资全面启动蛋白质组的研究。如美国国立卫生研究院，美国能源部、欧共体等均启动了不同生物蛋白质组的研究并取得明显进展，一批高质量的研究论文相继在国际著名学术刊物发表。由于蛋白质组学研究比基因组学研究更接近实用，有着巨大的市场前景，企业与制药公司也纷纷斥巨资开展蛋白质组研究。独立完成人类基因组测序的Celera公司已宣布投资上亿美元于此领域；日内瓦蛋白质组公司与布鲁克质谱仪制造公司联合成立了国际上最大的蛋白质组研究中心。为了促进国家与地区性的蛋白质组的发展、合作与交流，成立了国际人类蛋白质组组织(HUPO)，在法国召开了首届国际蛋白质组大会，并迅即在北美、欧洲、韩国、日本成立了相应的分支机构。蛋白质组学已成为西方各主要发达国家、各跨国制药集团竞相投入的“热点”。

国际著名的三大蛋白质数据库

国际著名的三大蛋白质数据库有UniProt数据库、The Human Protein Atlas数据库、PhosphoSitePlus数据库。

1、UniProt数据库

蛋白组学常用数据库UniProt（全称UniProt Protein Resource），建立于1986年，由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白质数据库联合成立的，其信息量丰富、资源广泛，是目前公认的首选免费蛋白质数据库。

2、The Human Protein Atlas数据库

The Human Protein Atlas内含近30000种人类蛋白质的组织和细胞分布信息，并提供免费查询。

瑞典Knut&Alice Wallenberg基金会利用免疫组化技术，检查每一种蛋白质在人类48种正常组织，20种肿瘤组织，47个细胞系和12种血液细胞内的分布和表达，其结果用至少576张免疫组化染色图表示，并经专业人员校对和标引，保证染色结果具有充分的代表性。

3、PhosphoSitePlus数据库

PhosphoSitePlus数据库是一个由CST和NIH联合开发的免费资源数据库，总结归纳了海量通过科学研究发现的蛋白修饰位点，包括磷酸化、甲基化、乙酰化、泛素化等，并且包括一些CST公司发现但未发表的蛋白修饰位点。

该数据库是动态的、开放的、高度互动并持续更新的。它有助于研究PTMs在正常和病理细胞/组织中的作用，同时它也是发现新的疾病标志物和药物靶点的有力工具。

性能及历史

蛋白质数据库（HPDB），建于2005年5月，动态展示生物大分子立体结构，鼠标点击放大分子结构、原子定位、测定原子之间距离，可用于教学或科研。服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者。

分子结构特征描述采用汉语，同时提供英文原文以供考证。对于善于使用英文的读者，我们提倡直接访问RCSB PDB，一来可以减少网络拥挤，二来可以减少由于HPDB的翻译不妥带来的不便。

蛋白质数据库（HPDB）对每个蛋白质分子结构说明部分做了中文翻译（最新加入数据库的分子除外），内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。这些信息并同蛋白质分子结构数据存储于数据库，因此HPDB支持中文查询。

蛋白质数据库（HPDB）虽然翻译了“分子结构说明”部分，但为了保证数据的可靠性和准确性，HPDB对一级结构序列及大分子结构坐标数据等未做任何改动，数据库保持RCSB PDB核实后的原始实验数据文件，并保持PDB文件格式和蛋白质分子编号。

关于蛋白质组学数据库的内容到此结束，希望对大家有所帮助。

蛋白质组学数据库 国际著名的三大蛋白质数据库

蛋白质序列数据库包含哪些内容

蛋白质组研究的发展历史

国际著名的三大蛋白质数据库

蛋白质组学数据库国际著名的三大蛋白质数据库