星期

2022年01月19日

生信分析GEO是什么?

2022-01-19 10:01:08 来源:互联网 阅读:-

GEO是什么?

GEO全称Gene Expression Omnibus data base,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(通过NCBI首页,All Databases下拉框中选择GEO DataSets)。收录了世界各国研究机构提交的高通量基因表达数据。2000年开始建立的时候,主要是表达芯片数据(如其名),但是之后随着数据库的流行,逐渐扩展业务到许多其它的高通量数据,比如:甲基化(genome methylation),染色质结构(chromatin structure),基因组-蛋白交互作用(genome-protein interaction)等。

1407_8bc48b494b33f51cd28b04f0e914aa56.png

GEO记录的组织方式

GEO数据库具体存放四类数据:

GEOPlatform (GPL) 芯片平台

GEO Sample (GSM) 样本ID号

GEO Series (GSE) study的ID号

GEO Dataset (GDS) 数据集的ID号

现在的GEO不仅仅包括原始数据,处理过的数据,以及描述性资料等。它还慢慢增加了可视化和数据分析等功能,面向的用户也不再仅限于生信研究人员。一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号。

Gene Expression Omnibus

1407_50c0c7a70e307d98471c5c98f9262e13.png

GEO检索页面介绍

https://www.ncbi.nlm.nih.gov/geo/

GEO资料库介面主要包括检索框、检索结果列表、检索结果限定选项、检索记录信息,导入数据库(Entry type)主要类型为:datasets、series、samples和platforms,可根据自己实验目来具体选择。

接下来看看怎么进行GEO的数据检索与下载吧

直接搜索

1.输入数据集或样本ID

GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索,以搜索cancer为例:

1407_9a31d0061896d9249d68e6c77f8563d1.png

2.搜索结果页面

左侧选项卡可以允许根据类型、物种、数据类型(表达/甲基化数据)筛选,右侧则列出了主要的物种。

1407_de7c9f838a0706ee5e6b9b5f58dec3d7.png

然后点击需要研究的文章进入,点击对应的样本分类号.,找到编码:GSE161948.可以看到,可以选择的scope类型有 Self、Platform、Samples、Series、Family;可供选择的format有SOFT、MINiML和RAW等数据。

1407_dd453f498bc74e300c6939b78abe3674.png

3.数据基本信息页

1407_9c190bbeb6b1a20f30f8473e8552c886.png

PS :一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,而每个数据集都有着自己对应的芯片平台,就是GPL。

1407_9d9b3831d3004447d0d33d0e04196485.png

如果是芯片数据,那么就需要看GPL平台里面关于每个探针对应的注释信息,

如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据再进行处理。

特定类型搜索

可以在GEO数据库首页点击Repository Browser,进行特定类型的检索。

1407_00973af020d530f63e047fb11a4508f2.png

进入页面我们可以看见,序列,平台,样本和物种的选项卡,我们可以通过其进行筛选、检索。

1407_cd1474360fa480d9ca2c752417ee8a01.png

1407_07bc1b01e1b63841ce191b1fc998ce8f.png

最后,点击对应对应的数据即可查看详细内容。

关于GEO的介绍内容,就到这里啦,相信大家已经收获了不少干货吧!这个数据库能提供的功能,其实还很多,这里没有一一写到,GEO是很方便的一个数据库,大家一定要好好利用起来呦。


推荐阅读:叶紫网