tcga数据库使用教程,TCGA数据库介绍
其实tcga数据库使用教程的问题并不复杂,但是又很多的朋友都不太了解TCGA数据库介绍,因此呢,今天小编就来为大家分享tcga数据库使用教程的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!
tcga数据库firebrowse数据怎么分析
TCGA由NCI牵头,作为美国攻克癌计划的一个大的project,投入巨大的人力和资金,较早的进行深度测序,提供Gene expression, DNA methylation, Copy Number Variant, Mutation还有更深度的exon expression外显子测序结果,其临床数据整理的相对最完整,指标最多。在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer Browser和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。
TCGA数据库介绍
肿瘤基因组图谱(TCGA)计划由美国 National Cancer Institute(NCI)和 National Human Genome Research Institute(NHGRI)于 2006年联合启动的项目,目前共计研究 36种癌症类型。
TCGA利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。最终完成一套完整的与所有癌症基因组改变相关的「图谱」。
TCGA临床数据有两种:
数据文件有(HTSeq count/ FPKM/ FPKM-UQ)3种
介绍链接
生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。
RPM counts记录在==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)
使用Affymetrix SNP 6.0芯片,基于TCGA level 2数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)
包括以下几个平台:
文件包括以下这些列:
TCGA数据库使用需要伦理审核吗
需要
1、把握现在,数控未来。
2、智能数据搜索,商机定位高效。
3、搜索定位相助,数据让你出众。
4、数接千载,据联万里。
5、数据不是黄金,数据指引黄金。
6、商务不再迷茫,数据精准领航。
7、搜索未来商机,下载未来先机。
8、数析先机,商联天下。
9、数据分析有路,商机快速起步。
10、问道专业大数据,抢占市场新效益。
11、未来市场怎么办,数据分析有答案。
12、快速定位,高效分析,洞察先机。
tcga数据库样本哪些是肿瘤哪些是正常
答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=as.numeric(substr(names,14,15))
table(a)
可以看见数据中有5个是正常组织样本
----------------------
Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。
如果你还想了解更多这方面的信息,记得收藏关注本站。