您现在的位置是:首页 > 故事语录 > 励志语录励志语录
Gsea分析(gsea分析结果详细解读)
队长网红网2022-11-10 19:06:37励志语录98人已围观
简介Gsea分析(gsea分析结果详细解读),本文通过数据整理汇集了Gsea分析(gsea分析结果详细解读)相关信息,下面一起看看。gsea分析教程详解(GSEA原理):掌握GSEA,如何刷动态评分,生信。在总结一篇关于GSEA浓缩分析的推文之前,——GSEA浓缩分析:从概念理解到界面实践,介绍了GSEA的定义
Gsea分析(gsea分析结果详细解读),本文通过数据整理汇集了Gsea分析(gsea分析结果详细解读)相关信息,下面一起看看。
gsea分析教程详解(GSEA原理):掌握GSEA,如何刷动态评分,生信。在总结一篇关于GSEA浓缩分析的推文之前,——GSEA浓缩分析:从概念理解到界面实践,介绍了GSEA的定义,GSEA原理,GSEA分析,前沿分析等。是全网比较普及的原理和操作并重的教程。不太了解的朋友可以先点击阅读了解概念。
在介绍GSEA分析之前,我们先来看一个细胞文章(https://sci-hub.tw/10.1016/j.cell.2016.11.033)的图解(SCI-HUB客户端(文学神器V4.0)——下载文学就是这么简单)。
以下是原文章的注释:心脏(上)和内分泌/内分泌(下)发育的基因gsea * * * yses . nes,归一化富集分数. fdr,假发现率。阳性和阴性NES分别表明iwt中较高和较低的表达。
关于文章中使用的GSEA分析* * *和参数,我们截取了相应的原文:使用GSEA软件(https://www.broadinstitute.org/gsea/)进行基因集富集分析,其中license=geneset,metric=Diff_of_classes,metric=加权,#permutation=2500。
根据以上信息,上图是研究人员用GSEA软件分析的结果。通过GSEA分析,发现
与心脏发育相关的基因组(影响心脏收缩力、钙离子调节和代谢活动等。)一般在iwt组(GATA基因野生型)较高,而在G296S组(GATA基因突变型)较低。
然而,参与内皮或内膜发育的基因表达在iwt组较低,而在G296S组较高。
根据这一数字和其他证据,作者推测iwt组的心脏发育更加完善,而G296S组更倾向于心脏内皮或内膜的发育,即GATA基因的这一突变可能导致心脏内皮或内膜过度发育,导致心脏相关疾病的发生。
那么什么是GSEA分析呢?
参考GSEA官网首页的描述:基因集合富集分析(GSEA)是一种计算方法,用于确定一组先验定义的基因是否在两种生物状态(如表型)之间表现出统计上显著的一致差异。
在上面的Cell文章中,作者更关心的是参与心脏发育的基因集合(即先验定义的一组基因)与两种状态(突变型和野生型,状态通过基因表达来衡量)的关系。因此,GSEA分析后发现,参与心脏发育(收缩力、钙调节和代谢)的基因组的表达模式比G296S组更接近iwt组的表型。然而,这些参与心脏内皮或内膜发育的基因的表达模式比iwt组更接近G296S组的表型。
这是GSEA分析的主要场景之一。可以帮助生物学家在两种不同的生物状态下,判断某一组基因* * *的表达模式更接近哪一种。因此,GSEA是一个非常常见和实用的分析* * *,可以对几个基因组成的基因集合与整个转录组、修饰组等进行简单明了的关联分析。
除了分析特定的基因集合,GSEA还可以用来找出哪些具有特定生物学意义的基因集合在表达或其他测量水平上与两组样本显著相关,或者找出哪些基因集合的表达模式或其他模式更接近表型A,哪些更接近表型b。这些特定基因* * *可以从GO、KEGG、Reactome、hallmark或MSigDB等基因集合中获得,其中MSigDB数据库集成了上述所有基因集合。研究人员还可以定制基因集(即新发现的基因集或其他感兴趣基因的* * *集)。
GSEA分析似乎类似,但不同于围棋分析。GO分析更依赖于差异基因,但实际上是对部分基因的分析(忽略差异不显著的基因),而GSEA是从所有基因的表达矩阵中找出差异一致的基因集合,因此可以兼顾差异较小的基因。因此,它们的应用场景略有不同。此外,GO enrichment是一种定性分析,GSEA考虑了表达或其他测量水平的影响。此外,当时间序列数据或样本具有数量属性时,GSEA具有更明显的优势,因此不需要单独充实每一组,直接对整体进行处理。可以和之前的WGCNA分析对比一下。
GSEA定义了基因集富集分析(Gene Set Enrichment Analysis),用于评价基因在按表型相关排序的基因表中预定义基因集中的分布趋势,从而判断其对表型的贡献。输入数据由两部分组成,一部分是功能已知的基因集(可以是GO注释、MsigDB注释或者其他符合格式的基因集定义),另一部分是表达式矩阵(也可以是排序列表)。软件会根据基因与表型的相关性(可以理解为表达值的变化)将基因从大到小排序,然后通过表型相关性排序后判断基因集中每个注释下的基因是富集在基因表的上部还是下部,从而
(基因集合是基于先前的生物学知识定义的,例如,关于生物化学途径或先前实验中共表达的公开信息。GSEA的目的是确定一个基因集合的成员是否倾向于出现在列表L的顶部(或底部),在这种情况下,该基因集合与表型类的区别相关。)
这与之前的围棋浓缩分析不同。GO富集分析是先筛选差异基因,再判断差异基因富集在哪些注释的通路上;这就涉及到阈值的设定,这个阈值是主观的,只能用来表达变化大的基因,也就是我们定义的显著不同的基因。另一方面,GSEA并不局限于差异基因。从基因集合富集的角度来看,理论上更容易覆盖细微但协调的变化对生物通路的影响,尤其是差异倍数较小的基因集合。
GSEA原理给定一个有序的基因列表L和一个预定义的基因集合S(如编码某个代谢途径产物的基因,基因组中物理位置相似的基因,或同一GO注释下的基因),GSEA的目的是判断S中的成员S是随机分布在L中还是主要聚集在L的顶部或底部,这些基因的排序是基于它们在不同表型状态下的表达差异,如果所研究的基因集合S的成员显著聚集在L的顶部或底部,则说明这个基因集合的成员对表型差异有贡献,也是我们所关注的基因集合。
GSEA计算中的几个关键概念:
计算ES,浓缩分数)。ES)。ES反应基因集合成员S在有序列表l两端的富集程度,计算方法是从基因集合l中的一个基因计算一个累积统计值,当遇到落在S中的基因时,增加统计值。当遇到不在S中的基因时,统计值减少。每一步统计值增加或减少的幅度与基因表达变化的程度有关(更严格地说是与基因和表型的相关程度,可能是fold-change或pearson相关值,后面会介绍几种不同的计算方法),可以是线性的,也可以是指数的(详见后面的参数选择)。富集分数ES最终被定义为较大的峰值。es的正值表示基因集合在列表的顶部富集,ES的负值表示基因集合在列表的底部富集。评估富集分数的重要性。在不改变基因之间关系的情况下,通过基于表型的排列检验计算观察到的富集分数(ES)的概率。如果样本量较小,也可以用基于基因集的排列检验计算p值。多重假设检验和修正。首先,根据基因集的大小对从每个基因子集S计算的ES进行标准化,以获得标准化的富集分数(NES)。然后计算NES的假阳性率。(还有一个* * *用于计算NES,是计算出来的ES除以排列测试得到的所有ES的平均值)前沿子集,对富集分数贡献较大的基因成员。总结了很多人在学习和使用过程中遇到的问题,进一步记录了软件操作过程和对结果的解读,力求明确每一个需要注意的细节。
从上一篇文章中我们知道,GSEA分析的目的是判断S-set基因(基于先验知识的基因注释信息,一个关注的基因* * *)中的基因是随机分布还是聚集在有序L-set基因的顶部或底部(这就是富集分析)。
与GO富集分析不同的是,GSEA分析不需要指定阈值(P值或FDR)来筛选差异基因。我们可以在没有经验的情况下分析我们感兴趣的基因集合,而这个基因集合不一定是差异表达显著的基因。GSEA分析可以包括那些差异表达不明显但具有重要生物学意义的基因,这些基因在GO/KEGG富集信息中容易被遗漏。
我们来看看软件的具体操作和结果解读。
一、软件安装软件下载地址:http://software.broadinstitute.org/gsea/downloads.jsp
使用官方推荐的软件javaGSEA桌面应用,可以根据分析数据的大小和电脑内存的多少选择下载不同内存版本的软件。软件基于java环境,需要联网。如果打不开(边肖刚好遇到),要么是没有安装java,要么是java版本太低。可以通过安装或更新java来打开。可能网速太慢,或者java安全问题。这时候选择官网提供的第二个软件,Java GSEA Java JARFLE,同样依赖Java,但是不需要联网,启动很快。
软件启动界面如下:
二。数据准备。所有矩阵的列由tab键分隔。有关不同类型的数据格式和后缀,请参见下表。
数据文件
内容
格式
来源
表达式数据集
包含特征(基因或探针)、样本以及每个样本中每个特征的表达值。表达数据可以来自任何来源(Affymetrix、斯坦福cDNA等等)。
res、gct、pcl或txt
创建文件。通用基因表达矩阵可以被格式化。如果是其他类型的数据或者可以自己计算排名,后面的例子比较多。(如果后缀是txt格式,可以用传统的基因表达矩阵。其中一个被列为基因名,与要分析的功能注释数据集一致,与GeneSymbol或EntrezID或其他自定义名称相同。其中之一是标题行,包含示例信息。Gct文档需要满足以下格式要求。)
表型标签
包含表型标签,并将每个样本与一个表型相关联。
cls
创建文件或让GSEA为您创建。一般是样本分组信息或样本属性度量或时间序列信息。
基因集合
包含一个或多个基因组。对于每个基因集,给出基因集名称和该基因集中的特征(基因或探针)列表。
gmx或gmt
使用broad FTP站点上的文件,从分子特征数据库(MSI gdb)导出基因组或创建您自己的基因组文件。要进行富集检测的基因集合列表。注意,基因ID与表达矩阵的基因ID一致。准备好的基因组格式与官网提供的gmt格式一致。
芯片注释
列出了DNA芯片上的每个探针及其匹配的HUGO基因符号。对于基因集合富集分析是可选的。
芯片
使用广泛的FTP站点上的文件,从GSEA网站下载文件,或创建自己的芯片文件。主要是为芯片探针设计的转换文件。如果表达式矩阵的基因名称与注释集的基因名称一致,则不需要该文件。
1.表达式数据集文件
可以从http://software.broadinstitute.org/gsea/datasets.jsp.下载GESA提供的数据集示例
在这里,您可以下载表达式矩阵表达式数据集(gct文件,普通txt格式也可接受)和样本分组信息表型标签(cls文件)
在示例中,两个gct文件都是表达式矩阵,其中*hgu133a.gct文件的一列是探针名称,而*collapsed.gct文件的一列是基因符号。
一行:#1.2,表示版本号,自己准备文档的时候复制就可以了;第二行:两个数字分别表示基因名数和样本数(矩阵列数-2);矩阵:其中一列是名称;第二列描述,如果没有,可以用na或任意字符串填充;以下是基因在不同样本中的标准化表达数据(一些对基因进行排名的统计指标需要log转换后的数据进行计算,后面会提到。无论其他情况是对数转换的数据可用与否,GSEA侧重于差异,只要它们是可比的)。
2.样本分组信息
第1行:三个数字分别表示:34个样本,2组,最后一个数字1固定;第二行:以#开头,tab键划分分组信息(如果有几组,写几个;多组对比分析时,需要选择任意两组进行后面的对比);(样本分组中,NGT代表糖耐量正常,DMT代表糖尿病,自己用的时候用自己的组名代替。)第三行:样本对应的组名。在样本组信息的第三行,同一组的不同重复必须用相同的名称命名,可以是组名。比如同一处理的不同重复,在自己的测试记录中一般都是Treat6h_1,Treat6h_2,Treat6h_3,但是在这里都必须写相同的值Treat6h。与表达式矩阵的样本列一一对应,同名的代表性样本属于同一组。如果是样本分组信息,上图中的0和1也可以对应写成NGT和DMT,更直观。但如果要把分组信息当作连续的表型值,这里只能提供数字。
3.功能基因集文件(基因集)
GSEA官网提供了8种基因分类数据库,都是关于人类的数据,包括标记基因、邻近基因、校正基因集、调控基序基因集、GO注释、癌基因、免疫基因,最后一次更新是在2018年7月。下载地址:http://software.broadinstitute.org/gsea/downloads.jsp#msigdb.
官网提供的gmt文件有两种。*.symbols.gmt中的基因以符号命名,*.entrez.gmt中的基因以entrez id命名。注意根据表达矩阵的基因命名方法选择合适的基因集合。表达数据和途径数据的关联依赖于同一个基因名称,因此必须保证基因命名方法的统一。
Gmt格式是一个多列注释文件,一列是基因所属基因集的名称,可以是频道名称,也可以是自己定义的任何名称。第二列,官方格式是URL,可以是任意字符串。后面是基因组中基因的名称。为几个写几个专栏。和列之间有制表符分隔。
Pathway _ description任意串基因1基因2基因* * * athway _ description 2任意串基因4基因2基因3基因5 GSEA官网仅提供了人类数据,但掌握了官网中基因表达矩阵和注释文件的数据格式。你可以根据你研究的物种,从公共数据库下载相应物种的注释数据,用同样的格式制作你自己的功能基因组文件,这样你就可以做各种物种的GSEA富集分析了。
4.芯片注释文件
如果分析的表达数据是芯片探针数据,则需要芯片注释文件(chip)进行ID转换,并将探针名称转换为基因名称。如果基因名称已经在我们的表达式数据文件中,我们就不再需要这个文件了。
三。分析参数设置和软件运行演示使用的数据来自GSEA官方网站:
表达式矩阵:Diabetes_collapsed_symbols.gct样本分组信息:Diabetes.cls基因功能分类数据选择GO数据库:c5.all.v6.2.symbols.gmt由于表达式矩阵可以直接对应注释中的基因名称,所以第四个文件不需要1。数据导入
点击加载数据3354按上图步骤依次浏览文件3354,在弹出的文件框中找到要导入的文件;选择它并单击打开。
如果文件格式没有问题,会弹出一个没有错误的提示框,证明文件上传成功,显示在图5所示的位置;如果有错误,请仔细检查文件格式。
注意:1)本地文件存储路径中不能有汉字、空格(_代替空格)等特殊字符;2)所有使用的文件都需要通过上述方式上传到软件中;3)数据上传错误可以通过点击工具栏文件——清除最近的文件历史来清除。
2.指定参数
点击软件左侧的运行GSEA,会弹出参数选择栏。参数设置分为三部分:必填字段(必须设置的参数项)、基础字段(基础参数设置栏)和高级字段(高级参数设置栏)。一般情况下,后两列中的参数不会被修改,因此可以使用默认值。后两部分的参数设置,如果涉及到需要根据实验数据进行调整的地方,后面的分析会提到。
1)必填字段
表达式数据集:导入表达式数据集文件。点击后会自动显示上一步从本地软件导入的文件,所以一定要确认上一步导入的数据是否成功;基因集数据库:基因功能集数据库,可以本地导入(上一步);在联网的情况下,软件还可以自动下载GSEA官网的基因集文件;置换次数:置换测试的次数,次数越大结果越准确,但是太多会占用太多内存,软件默认会检查1000次。软件分析的时候会得到一个基因富集分数(es),但是无论这个富集分数是否具有统计学意义,软件都会随机模拟* * *,按照指定的参数随机加扰1000次,得到1000个富集分数,然后在这1000个随机产生的分数中判断得到的ES是否具有统计学意义。测试时,建议填写一个很小的数字,比如10,让程序先运行一遍。改为1000进行实分析。表型标签:选择比较方法。如果只有两组文件,就更方便了。随便选一个,方便说明前面和后面是哪一个。如果有多组数据,GSEA将提供两两比较或某一组与所有其他组之间比较的组合选项。选择后,GSEA会根据分析过程中的组信息,自动从表达式数据集文件中提取相应的数据进行比较。将数据集折叠为基因符号:如果表达式数据集文件中的名称与基因集数据库中的名称一致,则选择FALSE,否则选择TRUE。置换类型:选择替代类型、表型或基因集合。当每组样本数大于7时,推荐表型,否则推荐基因集。芯片:只有当表达式数据集是芯片数据时才需要。目的是评论和转换ID。如果已经转换,则不需要。应该也适用于其他需要进行ID转换的情况,不过提前转换最方便。
分析名称:需要注意的是,命名名称时不能有空格,要用_代替空格。如果做很多分析的话,还是选择一个有意义的名字比较好,比如圣心宝典,比较好找。富集统计:基因组富集分析(PNAS)的最后一部分给出了在GSEA使用的* * *的数学描述。有兴趣的可以查一下报纸。这里给出了每次富集分析的不同算法的参数:经典:p=0如果基因存在,ES值增加1;如果基因不存在,es值减1?加权(默认):p=1。如果基因存在,ES加秩值;如果基因不存在,是ES减去秩值吗?Weighted_p2: p=2基因存在,ES加上秩值的平方,如果不存在,减去秩值的平方?Weighted_p1.5: p=1.5基因存在,ES加秩值1.5次方,否则值1.5次方减秩。备注:如果要使用其他权重,可以自己计算排名值,使用preranked模式。
基因排序的度量:基因测序的一种方法。下面提到的均值也可以是中位数。如果表型是分组信息,GSEA在计算组间差异时支持五种统计方法,即signal2noise、t-Test、ratio_of_class、diff _ of _ class(log2转换后值的倍数)和log2_ratio_of_class。下面的公式很清楚。如果表型是连续的数值信息(数量表型):GSEA通过表型文件(cls)和表达数据集文件(gct)使用皮尔逊相关、余弦、曼哈顿或欧几里德指标之一计算两个概况之间的相关性。(注:如果分组表型文件要转换成数量表型,cls文件中的分类标签要指定为数字)基因列表排序方式:按照排序测量的真值(默认值)或绝对值对表达数据集中的基因进行排序;基因列表排序方式:使用该参数确定表达数据集中的基因是按降序(默认)还是升序排列;Max size Min size:将不在表达数据集中的基因从功能基因集中筛选出来后,保留该范围内剩余基因的总数,以备后续分析,否则,该基因集将被排除;一般过多或过少都没有分析意义。将结果保存在这个文件夹中:在这里,您可以选择分析文件在本地计算机上的存储地址。3)高级字段
探针组=1个基因的折叠模式:多个探针对应一个基因时的处理方法。标准化模式:丰富分数的标准化方式。随机化模式:仅用于表型置换。类度量的中值:在计算度量排名时,使用中值而不是平均值。标记数量:红色蝴蝶图中显示的基因标记数量。为每个表型的顶部集合绘图:绘制了多少个GSEA图,默认为前20个,其他不绘制。一般这个值会提高。排列的种子:随机数种子。如果希望每次的结果都一致,就需要在这里设置相同的整数。设置完上述所有参数后,单击参数设置栏底部的绿色按钮Run。如果软件左下方的GSEA状态报告显示正在运行,则意味着操作成功。根据数据大小,此过程大约需要十分钟。
命令:显示运行该分析的命令行,您可以在将来批量运行类似的分析。四。结果解释数据分析后的结果将保存到我们设置的路径中。点击文件夹中的index.html查看网页版成绩,更加方便。
报告分为几个分项目,其中最重要的是前两部分。基因富集的结果在这里。第三部分其实是软件在分析数据的过程中生成的一个中间文件,也是非常重要的。看完之后可以加深对GSEA分析的理解,了解我们是如何从最初的基因表达矩阵(即报告的前两项)得到最终结果的。建议从数据集细节开始,然后回过头来看一些结果报告。
1.表型富集
以正常人NGT的17个样本数据为例,对最终结果进行了分析。
报告首页的摘要信息表明:
经过条件筛选,仍有3953个围棋词条,其中NGT组富集了1697个围棋词条;36个GO基因条目在25% FDR时显著富集,这些基因最有可能用于促进后续实验。在统计检验P 0.01和P 0.05的条件下,分别有19个和114个GO条目显著富集;显示结果的方式有很多种:快照、网页(html)、电子表格(Excel);点击指南查看有助于解释结果的官方文件。1)点击html格式的富集结果,在网页上查看富集结果,如下图:
GS:基因集名称,GO条目名称大小:GO条目包含表达数据集中的基因个数(条件筛选后的值);ES:浓缩分数;NES:校正的标准化ES值。由于不同用户输入的基因数据库文件中基因集合的数量可能不同,因此在富集分数的标准化中考虑了基因集合的数量和大小。其绝对值大于1为富集标准。计算公式如下:NOM p-val: p-value,是对富集分数ES的统计分析,用来表示富集结果的可靠性;FDR q-val: q值,是多重假设检验和修正后的p值,即NES可能的假阳性结果的概率估计,所以FDR越小,富集越显著;RANK AT MAX:ES值较大时,对应基因在排序基因列表中的位置;(注:GSEA使用p值5%和q值25%进行数据过滤)前沿:这里有三个统计值,tags=59%表示核心基因占这个基因集中基因总数的百分比;List=21%表示核心基因占所有基因的百分比;信号=74%,通过组合前两个统计数据计算富集信号强度。计算公式如下:其中n是列表中的基因数,nh是基因集中的基因数。点击详细信息,跳转到相应的详细结果。只能查看前20个GO充实详细信息,想要生成的结果报告可以查看更多充实信息。您可以在高级字段中为每个表现型的顶部集合设置参数绘图。
2)基因集的详细信息
首先是所选GOset下的汇总信息表,上面已经解释了各部分的含义,其中Upregulated in class表示该基因集在哪个组中高表达,这主要取决于富集分析后的前沿分布位置。
接下来,浓缩分析图分为三个部分,并在图中标出:
一部分是浓缩分数折线图:显示分析时沿着排名列表依次计算到各个位置时ES值的显示。较高峰(最远垂直距离为0.0)处的得分是基因集的ES值。第二部分,基因测序列表中基因* * *成员的位置用线标记,黑线代表测序基因列表中的基因存在于当前分析的功能注释基因集中。前沿子集是基因中对应于绿色曲线峰值ES出现(0,0)的部分。第三部分是排序后所有基因的秩值分布。对应于热图红色部分的基因在NGT高表达,对应于蓝色部分的基因在DMT高表达。每个基因的信噪比(之前选择的排名值计算方法)显示在灰色区域图表中。上图中,我们一般关注的是ES值,峰值是出现在有序基因集的前面还是后面(ES值大于0在前面,小于0在后面)和前沿子集(即对富集贡献较大的部分,前沿子集);前导子集的形状出现在ES图中,表明这个功能基因集在某些处理条件下具有更显著的生物学意义;在分析结果中,我们普遍认为|NES|1、NOM p-val0.05和FDR q-val0.25的通路显著丰富。
最后,在这个GO基因集中,有一个每个基因的详细统计信息表。基因列表中的等级表示在有序基因集中的位置;秩度量分数是基因测序分数,这里我们是Signal2noise;运行ES是分析过程中的动态ES值;核心富集是对es值有主要贡献的基因,即前沿子集,在表中用绿色标记。
2.数据集详细信息
原始芯片数据和重复数据删除后的数据;如果不使用芯片数据或在分析中涉及名称转换,则前后的基因数量是相同的。
3.基因集详细信息
我们分析提供的gmt文件中有多个GO条目,每个GO条目有多个基因。GSEA分析软件会在每个GO条目中的表达数据集的gct文件中搜索基因,确定有多少在GO条目中;如果筛选后保留在GO条目中的基因数量为15-500(封闭区间),则GO条目将被保留用于后续分析。
这个结果表明,我们从5917个GO条目中排除了1964个GO条目,剩下3953个GO条目用于后续分析。
点击使用的基因组及其大小,下载详细的Excel表格。
Excel的一列是GO名称,第二列是GO条目包含的基因数,第三列是每个GO中有多少基因属于筛选后的表达数据集文件中的基因。不符合参数(15-500)的条目将被丢弃并显示为已拒绝,不包括在后续分析中。
注:此处的过滤范围15-500为可调参数,可在软件基本字段参数中的最大尺寸和最小尺寸处更改。
4.用于NGT和DMT比较的基因标记
这部分展示了我们提供的表达数据集文件中两组基因的表达情况。
输入文件中共有15056个基因,其中7993个基因在正常人(NGT)中表达较高,占总基因的53.1%;有7063个基因在糖尿病患者(DMT)中高表达,占总基因的46.9%。后面的面积百分比等你看图的时候再解释。
单击排序基因列表下载排序基因集Excel表。排序原则是根据基本字段参数设置中的基因排序标准确定的。我们选择信噪比(signal2noise),它显示在表格的最后一列。根据NGT vs DMT得分,我们可以得到一个降序排列的基因集,然后我们可以进行基因富集分析。
GSEA基因富集分析的原理是根据排列好的基因集合,从一个基因中判断该基因是否存在于筛选出的GO功能基因集合中。如果存在,就加分,反之亦然。所以评分过程是一个动态的过程,最后我们会得到一个峰值分数,就是围棋功能丰富化的分数。奖金规则由基本字段参数设置中的富集统计决定。
然后是分析结果的热图和基因列表的关联图。
温谱图分别显示了两组中高表达的前50个基因的表达,共有100个基因。
基因列表关联图如下。横坐标是排序后的基因,纵坐标是signal2noise的值。左边的基因在NGT高表达,右边的基因在DMT高表达。这部分结果报告中的面积比是基于此图计算的。可以看出,面积百分比和基因数百分比是有一定区别的,面积百分比可以从整体上反映组间的信噪比。
蝴蝶图显示了基因排名和排名指数得分之间的正相关(左)和负相关(右)。左边蓝色虚线和右边红色虚线是真实的信噪比结果,其他彩色线是软件随机重排数据的结果。默认情况下,图表只显示前100个基因,即前100个和后100个基因。您可以使用运行GSEA页面上高级字段中的标记数量来更改显示的基因数量。
5.全局统计和绘图
这部分包含两个图:1)P值和归一化富集分数(NES)的对比图,提供了一个快速直观* * *掌握有意义富集基因集的个数。2)通过基因集合的富集分数统计图,提供了一种快速直观的了解富集基因集合数量的方法。
在理解了上述部分的结果后,很容易回过头来看这个GSEA分析示意图。
Cytoscape富集网络的可视化在GSEA软件的左侧提供了富集图可视化的功能。点击后,GSEA软件会自动调用Cytoscape。建议等到Cytoscape启动后再进行下一次操作,并确保Cytoscape在分析过程中处于打开状态。
选择一个GSEA分析结果,点击加载GSEA结果,其他项目为默认值。点击构建富集图,显示基因富集结果的* * *图。(注:GSEA分析结果与上述数据不同,可自行更改)
操作成功后,会弹出如下提示框,结果会直接显示在Cytoscape中,如下图所示:
Graphpad绘图比较多个ESGSEA富集分析。可视化结果是为每个功能基因组绘制一个单独的图谱。有时,我们想要比较两个不同GO中基因集合的丰富程度。利用GSEA软件分析得到的Excel结果表,提取有用的数据结果,在Graphpad中进行处理,然后绘制出来,就可以达到我们想要的结果了!
效果图如下:
文章755-79000介绍了graphpad入门的基础知识。可以点击回顾一下基本操作。最近graphpad发现其多图排版功能非常强大,不仅可以实现多图的排版还可以实现图层的叠加。上图的绘制思路是把图分成两部分,富集分数和基因位置分布带图。
在GSEA分析结果文件夹里,随便找一个有意思的GO项分析结果Excel表,需要提取出来绘图的信息就是图形的黄色部分,基因列表中的排名,运行ES。
对已有数据进行处理,增加一列高值0.1,设置高度,用黄色数据绘制基因位置分布带图;绿色部分用于绘制动态ES评分曲线。
打开graphpad后,我们选择Enter,在XY类图下为每个点绘制一个单独的y值,将两部分数据分别粘贴到软件的不同数据表中(如下图左侧所示)。下图中间显示了两个图选择的不同绘制方法。调整参数后,我们最终得到右侧的结果。
点击左侧目录树中的布局,创建图形布局界面,将图形下的图形复制粘贴到layout1中,拖拽移动位置,快速对齐两部分。
然后用同样的方法绘制另一个富集结果,粘贴到layout1中,得到第一个显示的图。
注意:将X轴的范围设置为从1到测序基因总数,Y轴的范围设置为从0到多个富集分析分数的较大值。
文章gsea软件使用教程大师gsea超详细教程
更多Gsea分析(gsea分析结果详细解读)相关信息请关注本站,本文仅仅做为展示!
很赞哦! ()
相关文章
随机图文
留言与评论 (共有 条评论) |