首页数据库tcga数据库简介,TCGA数据库介绍

tcga数据库简介,TCGA数据库介绍

编程之家2023-10-18101次浏览

各位老铁们好,相信很多人对tcga数据库简介都不是特别的了解,因此呢,今天就来为大家分享下关于tcga数据库简介以及TCGA数据库介绍的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!

tcga数据库简介,TCGA数据库介绍

TCGA数据库介绍

肿瘤基因组图谱(TCGA)计划由美国 National Cancer Institute(NCI)和 National Human Genome Research Institute(NHGRI)于 2006年联合启动的项目,目前共计研究 36种癌症类型。

TCGA利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。最终完成一套完整的与所有癌症基因组改变相关的「图谱」。

TCGA临床数据有两种:

tcga数据库简介,TCGA数据库介绍

数据文件有(HTSeq count/ FPKM/ FPKM-UQ)3种

介绍链接

生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。

tcga数据库简介,TCGA数据库介绍

RPM counts记录在==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)

使用Affymetrix SNP 6.0芯片,基于TCGA level 2数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)

包括以下几个平台:

文件包括以下这些列:

tcga数据库firebrowse数据怎么分析

TCGA由NCI牵头,作为美国攻克癌计划的一个大的project,投入巨大的人力和资金,较早的进行深度测序,提供Gene expression, DNA methylation, Copy Number Variant, Mutation还有更深度的exon expression外显子测序结果,其临床数据整理的相对最完整,指标最多。在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer Browser和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。

tcga数据库样本哪些是肿瘤哪些是正常

答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:

TCGA-06-0681-11A-41R-A36H-07

TCGA-06-0649-01B-01R-1849-01

第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取

names=colnames(RNAseq_dat)

a=as.numeric(substr(names,14,15))

table(a)

可以看见数据中有5个是正常组织样本

----------------------

Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。

关于tcga数据库简介的内容到此结束,希望对大家有所帮助。

域名授权,什么是授权域名服务器电脑主机指示灯(电脑主机上的几个灯,分别代表什么)