tcga数据库,TCGA数据库介绍
大家好,tcga数据库相信很多的网友都不是很明白,包括TCGA数据库介绍也是一样,不过没有关系,接下来就来为大家分享关于tcga数据库和TCGA数据库介绍的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!
如何直接查找tcga数据中某一基因在某一肿瘤中的表达
一个良好的开端就是分析感兴趣基因的突变和其它异常,ICGC数据门户提供了几条研究路线。输入一个基因名称,NCBI登录号,或者Ensembl基因ID,点击基因报告(Gene Report),就能在突变摘要(Mutation Summary)中找到已发现的突变和拷贝数变化,以及迄今为止,这些突变在肿瘤中出现的频率。COSMICsection就在体细胞突变列表下方,包括了点突变,少量缺失,以及插入突变等方面的数据。
另外一种方法就是在一种肿瘤中寻找所有受到影响的基因,在ICGC数据门户中,研究人员能通过点击数据搜索(Database Search)下的Genes,然后选择感兴趣的肿瘤类型,以及一些其它参数,比如分析的途径等,这样就能找到所有受到影响的基因。除此之外,TCGA数据门户中,还可以从Download Data menu上选择批量下载(Bulk Download),获取体细胞突变数据,以及其它类型数据,比如拷贝数,DNA甲基化,基因表达。
TCGA数据库介绍
肿瘤基因组图谱(TCGA)计划由美国 National Cancer Institute(NCI)和 National Human Genome Research Institute(NHGRI)于 2006年联合启动的项目,目前共计研究 36种癌症类型。
TCGA利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。最终完成一套完整的与所有癌症基因组改变相关的「图谱」。
TCGA临床数据有两种:
数据文件有(HTSeq count/ FPKM/ FPKM-UQ)3种
介绍链接
生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。
RPM counts记录在==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)
使用Affymetrix SNP 6.0芯片,基于TCGA level 2数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)
包括以下几个平台:
文件包括以下这些列:
tcga数据库firebrowse数据怎么分析
TCGA由NCI牵头,作为美国攻克癌计划的一个大的project,投入巨大的人力和资金,较早的进行深度测序,提供Gene expression, DNA methylation, Copy Number Variant, Mutation还有更深度的exon expression外显子测序结果,其临床数据整理的相对最完整,指标最多。在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer Browser和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。
tcga数据库样本哪些是肿瘤哪些是正常
答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=as.numeric(substr(names,14,15))
table(a)
可以看见数据中有5个是正常组织样本
----------------------
Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。
文章到此结束,如果本次分享的tcga数据库和TCGA数据库介绍的问题解决了您的问题,那么我们由衷的感到高兴!