火山图(2)
解决了这些问题,火山图表达的意思也就一目了然了,横着看差异,竖着看(统计学)意义。
三条虚线将其分成了六个区,两条竖线是差异倍数线,多取1.2/1.5/2,绝对值越大,差异表达越显著;一条横线是显著性水平线,多取0.05/0.01,如图所示:
①基因或蛋白表达显著,差异性明显下调
②基因或蛋白表达显著,差异较小或无差异
③基因或蛋白表达显著,差异性明显上调
④基因或蛋白表达不显著,差异性明显下调
⑤基因或蛋白表达不显著,差异较小或无差异
⑥基因或蛋白表达不显著,差异性明显上调
其实在我们实际看图的时候,图的左上角和右上角是差异基因集中的地方,这才是我们关注的重点。
#医学生[超话]##医学sci##生物信息学##R语言绘图##生信分析##火山图#
原文节选自:医学僧的科研日记(id:zzudoctor)
解决了这些问题,火山图表达的意思也就一目了然了,横着看差异,竖着看(统计学)意义。
三条虚线将其分成了六个区,两条竖线是差异倍数线,多取1.2/1.5/2,绝对值越大,差异表达越显著;一条横线是显著性水平线,多取0.05/0.01,如图所示:
①基因或蛋白表达显著,差异性明显下调
②基因或蛋白表达显著,差异较小或无差异
③基因或蛋白表达显著,差异性明显上调
④基因或蛋白表达不显著,差异性明显下调
⑤基因或蛋白表达不显著,差异较小或无差异
⑥基因或蛋白表达不显著,差异性明显上调
其实在我们实际看图的时候,图的左上角和右上角是差异基因集中的地方,这才是我们关注的重点。
#医学生[超话]##医学sci##生物信息学##R语言绘图##生信分析##火山图#
原文节选自:医学僧的科研日记(id:zzudoctor)
火山图(1)
火山图(Volcano plot)是散点图的一种,可以直观展示两组样品的的差异程度及其统计学显著性,快速直观地识别变化幅度较大且具有统计学意义的数据点。常应用于转录组研究,也能应用于基因组,蛋白质组,代谢组等。
如图,这样的火山图在表达什么意思呢?
我们先把它简单分解一下,横坐标为logFC,纵坐标为-log10(adj P value),三条虚线将其分成了六部分。
在理解每一部分代表什么意思之前,我们需要先解决几个问题:
1.什么是logFC:FC全拼为fold change,翻译成中文就是差异倍数,简单来说就是基因在一组样品中的表达值的均值除以其在另一组样品中的表达值的均值。所以火山图只适合展示两组样品之间的比较。那么这样就会出现一个问题,两个数相除,大于1代表上调,小于1代表下调,最大值可以无穷大,最小值确为0,这样在图里展现出来就非常的不美观,下调的数据点会挤在很小的一个空间里。所以这时候就需要对数据做一些转换,也就是我们的横坐标logFC,上调的数据转换后Log (fold change)都大于等于1,下调的数据转换后Log (fold change)都小于等于-1。这样无论是展示还是描述是不是都方便了许多。
2.什么是-log10(adj P value):我们都知道P value是用来衡量检验得到的结果是否具有统计学差异,常用P-value<0.05作为统计检验显著的常规标准。adjustedP-value是校正后的P值,这涉及到一个统计学问题,数据较多时经过多次检验,会引入假阳性结果,需要做一个多重假设检验校正。这个校正怎么做呢?统计学家提出了许多计算方法,如Bonferroni correction ,holm, hochberg, hommel, BH, BY, fdr等。BH是我们比较常用的一个校正方法,获得的值是假阳性率 FDR (false discovery rate)。FDR筛选时就可以不用遵循0.05这个标准了。我们可以设置FDR<0.05表示我们容许数据中存在至多5%假阳性率;FDR<0.1表示我们对假阳性率的容忍度至多是10%。由于FDR值是0-1之间,数值越小表示显著性越大。而经过-Log 10 (adjusted P-value)转换后表示数值越大越显著,更利于我们展示结果。此外,adjusted P-value, q value, fdr一般代表相同的含义,都是多重假设检验校正后的P-value,可能的区别就在于校正算法的不同。
解决了这些问题,火山图表达的意思也就一目了然了,横着看差异,竖着看(统计学)意义。#医学生[超话]##医学sci##生物信息学##R语言绘图##火山图#
原文节选自:医学僧的科研日记(id:zzudoctor)
火山图(Volcano plot)是散点图的一种,可以直观展示两组样品的的差异程度及其统计学显著性,快速直观地识别变化幅度较大且具有统计学意义的数据点。常应用于转录组研究,也能应用于基因组,蛋白质组,代谢组等。
如图,这样的火山图在表达什么意思呢?
我们先把它简单分解一下,横坐标为logFC,纵坐标为-log10(adj P value),三条虚线将其分成了六部分。
在理解每一部分代表什么意思之前,我们需要先解决几个问题:
1.什么是logFC:FC全拼为fold change,翻译成中文就是差异倍数,简单来说就是基因在一组样品中的表达值的均值除以其在另一组样品中的表达值的均值。所以火山图只适合展示两组样品之间的比较。那么这样就会出现一个问题,两个数相除,大于1代表上调,小于1代表下调,最大值可以无穷大,最小值确为0,这样在图里展现出来就非常的不美观,下调的数据点会挤在很小的一个空间里。所以这时候就需要对数据做一些转换,也就是我们的横坐标logFC,上调的数据转换后Log (fold change)都大于等于1,下调的数据转换后Log (fold change)都小于等于-1。这样无论是展示还是描述是不是都方便了许多。
2.什么是-log10(adj P value):我们都知道P value是用来衡量检验得到的结果是否具有统计学差异,常用P-value<0.05作为统计检验显著的常规标准。adjustedP-value是校正后的P值,这涉及到一个统计学问题,数据较多时经过多次检验,会引入假阳性结果,需要做一个多重假设检验校正。这个校正怎么做呢?统计学家提出了许多计算方法,如Bonferroni correction ,holm, hochberg, hommel, BH, BY, fdr等。BH是我们比较常用的一个校正方法,获得的值是假阳性率 FDR (false discovery rate)。FDR筛选时就可以不用遵循0.05这个标准了。我们可以设置FDR<0.05表示我们容许数据中存在至多5%假阳性率;FDR<0.1表示我们对假阳性率的容忍度至多是10%。由于FDR值是0-1之间,数值越小表示显著性越大。而经过-Log 10 (adjusted P-value)转换后表示数值越大越显著,更利于我们展示结果。此外,adjusted P-value, q value, fdr一般代表相同的含义,都是多重假设检验校正后的P-value,可能的区别就在于校正算法的不同。
解决了这些问题,火山图表达的意思也就一目了然了,横着看差异,竖着看(统计学)意义。#医学生[超话]##医学sci##生物信息学##R语言绘图##火山图#
原文节选自:医学僧的科研日记(id:zzudoctor)
小提琴图
小提琴图 (Violin Plot)是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。跟箱形图类似,但是在密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。
如此优雅的名字和形状,经常出现在高分文章中。
那么小提琴图该怎么看呢?前面说什么来着,它就是核密度图和箱线图的结合体,那不就简单多了!
诸位请看:小提琴图的内部是箱线图(有的图中位数会用白点表示,但归根结底都是箱线图的变化);外部包裹的就是核密度图,某区域图形面积越大,某个值附近分布的概率越大。
通过箱线图,可以查看有关数据的基本分布信息,例如中位数,平均值,四分位数,以及最大值和最小值,但不会显示数据在整个范围内的分布。如果数据的分布有多个峰值(也就是数据分布极其不均匀),那么箱线图就无法展现这一信息,这时候小提琴图的优势就展现出来了!
那么大家以后看到这样的图是不是也明白了作者想要侧重表达什么了呢!#生物信息学##R语言绘图##生信分析##小提琴图# 节选自:医学僧的科研日记(ID:zzudoctor)
小提琴图 (Violin Plot)是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。跟箱形图类似,但是在密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。
如此优雅的名字和形状,经常出现在高分文章中。
那么小提琴图该怎么看呢?前面说什么来着,它就是核密度图和箱线图的结合体,那不就简单多了!
诸位请看:小提琴图的内部是箱线图(有的图中位数会用白点表示,但归根结底都是箱线图的变化);外部包裹的就是核密度图,某区域图形面积越大,某个值附近分布的概率越大。
通过箱线图,可以查看有关数据的基本分布信息,例如中位数,平均值,四分位数,以及最大值和最小值,但不会显示数据在整个范围内的分布。如果数据的分布有多个峰值(也就是数据分布极其不均匀),那么箱线图就无法展现这一信息,这时候小提琴图的优势就展现出来了!
那么大家以后看到这样的图是不是也明白了作者想要侧重表达什么了呢!#生物信息学##R语言绘图##生信分析##小提琴图# 节选自:医学僧的科研日记(ID:zzudoctor)
✋热门推荐