geo 数据库,如何在geo数据库找想要的数据库
其实geo 数据库的问题并不复杂,但是又很多的朋友都不太了解如何在geo数据库找想要的数据库,因此呢,今天小编就来为大家分享geo 数据库的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!
geo数据库数据如何标准化
标准化的方法就是Counts值:
对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)。
aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的。
标准化的三种方法得出的三种值:
RPM(Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
RPKM/FPKM方法:
103标准化了基因长度的影响,106标准化了测序深度的影响。TCGA的数据分析多采用这种结果。
TPM(Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。
具体判断方法:
表达量是否需要重新标准化。
可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断。
是否需要log2:根据数据值的大小。
如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。
如何在geo数据库找想要的数据库
1、首先GEO数据库是个什么鬼呢?
GEO数据库全称GENE EXPRESSION
OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
2、那GEO数据库有哪些检索入口呢?
最常用的有两种方式,如果你知道GSE编号可以通过网址http://www.ncbi.nlm.nih.gov/geo直接进入,具体编号介绍文件下载方法见:https://www.omicsclass.com/article/1100
另外一种就是通过NCBI主页的入口基因搜索下载。通常是不知道GEO编号,通过样品类型,实验处理,平台信息等搜索筛选想要的GEO数据:https://www.ncbi.nlm.nih.gov/,进入NCBI主页,搜索数据选择GEO DataSets,如果搜索某个基因表达量可选择GEO Profiles。
geo数据库的优点
免费且只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。利用这个数据库,我们可以检索到其他一些人上传的一些实验测序数据。
不涉及任何检测原理的角度来说的话,所谓的高通量检测,其实就是一次性检测很多指标变化的技术。例如我们说的表达谱数据,就是来检测基因表达水平。比如我们要对一个人来进行高通量检测的话,就能知道这个人上万个基因的表达水平了。
由于GEO数据库和我们之前介绍的gene数据库 [数据库推荐]gene:基因相关信息查询以及我们常用来搜索文献的pubmed都是一个机构的。使用这个数据库,我们需要做的就是就是就是提供检索式。检索式可以是简单的几个关键词,也可以是制定特殊的检索式。
GEO数据库为什么是RNA
因为GEO是基因表达综合数据库,RNA是实现遗传信息在蛋白质中的表达。
从GEO数据库获取GSE79973数据集,该数据集包含胃癌疾病与正常样本的表达谱数据,筛选出其中差异表达的lncRNA。
下载GSE62254和GSE15459数据集以及对应的临床数据,通过GSE62254数据集来构建一个临床预测模型,识别出与预后显著相关的lncRNA,通过GSE15459数据集对模型进行验证。
进一步的通过多因素分析来研究ACJJ分期、性别、年龄和样本的风险分数与临床预后的关系。最后通过ssGSEA来发现样本的高低风险组之间通路富集的差异情况。
geo 数据库和如何在geo数据库找想要的数据库的问题分享结束啦,以上的文章解决了您的问题吗?欢迎您下次再来哦!