当前位置：首页 > 科技 > 正文

拖后腿学徒居然也完成作业，理解RNA-seq数据分析结果

启示号
科技
5天前
365

前面我出了一个学徒作业，下载表达矩阵后绘制PCA图及热图，然后理解作者给出的RPM和raw_counts的差异，详见：很意外，12月学徒肖一僧居然吭哧吭哧的完成了，吓我一跳！让我们看看他的表演
以下是正文
收到大佬的作业，第一次投稿。大佬的题目如下：通过一篇science文章，理解两种RNA-seq表达矩阵在数据分析的时候是否相同(大佬的意思是通过PCA和heatmap来看一下)。

稍微介绍一下背景 Counts值
对给定的基因组参考区域，计算比对上的read数，又称为raw count（RC），也就我通常说的相对原始的数据，是没进行任何标准化操作的数据。

计数结果的差异的影响因素：落在参考区域上下限的read是否需要被统计，按照什么样的标准进行统计。
RPM (Reads per million mapped reads)
RPM方法：10^6标准化了测序深度的影响，以前说这个没有考虑转录本的长度的影响。表示RPM适合于产生的read读数不受基因长度影响的测序方法，比如miRNA-seq测序，miRNA的长度一般在20-24个碱基之间。但是现在的观点（Jimmy大佬说）认为，我们通常做差异表达，同于对比系统下转录本长度是一致（例如一个患者的癌跟癌旁），所以我们只要需要考虑测序深度的影响，所以这个RPM是比较好的一种数据标准化方式。

可能优于RPKM/FPKM (Reads/Fragments per kilo base per million mapped reads)。这个网页也说明了这个问题：https://www.jianshu.com/p/35e861b76486
下面给给出我的答案及代码一，读取数据，并做一下常规的转换 ###一些常规的设置
rm(list=ls())#清空环境变量
options(stringsAsFactors=F)##字符不作为因子读入
###读取数据。
##rawcounts##
a<-read.table('GSE103788_raw_counts_genes.tsv.gz',header=T,row.names=1)
a[1:4,1:4]##大概看一下数据格式。
###PH_WT_tumors_r1PH_WT_tumors_r2
ENSMUSG00000000001_Gnai318272772
ENSMUSG00000000028_Cdc454488
ENSMUSG00000000031_H1919500
ENSMUSG00000000037_Scml2510
PH_WT_tumors_r3PH_WT_notreat_r1
ENSMUSG00000000001_Gnai321493264
ENSMUSG00000000028_Cdc457228
ENSMUSG00000000031_H19391
ENSMUSG00000000037_Scml2113

##RPM##
b<-read.table('GSE103788_filtered_RPM_genes.tsv.gz',header=T,row.names=1)
b[1:4,1:4]
##PH_WT_tumors_r1PH_WT_tumors_r2
ENSMUSG00000000001_Gnai3111.4598680149.6572460
ENSMUSG00000000028_Cdc452.68430994.7510237
ENSMUSG00000000031_H191.159133826.9944527
ENSMUSG00000000037_Scml20.30503520.5398891
PH_WT_tumors_r3PH_WT_notreat_r1
ENSMUSG00000000001_Gnai3120.3417347183.67178123
ENSMUSG00000000028_Cdc454.03192411.57561577
ENSMUSG00000000031_H192.18395890.05627199
ENSMUSG00000000037_Scml20.61598840.16881598
##查看数据是否需要做log转换。
qx<-as.numeric(quantile(a,c(0.,0.25,0.5,0.75,0.99,1.0),na.rm=T))
LogC<-(qx[5]>100)||
(qx[6]-qx[1]>50&&qx[2]>0)||
(qx[2]>0&&qx[2]<1&&qx[4]>1&&qx[4]<2)
LogC
##[1]TRUE
##########boxplot可视化数据检查数据是否需要log等转换
boxplot(a,las=2,cex.axis=0.6,main='datacheck')
###去除低碱基质量的基因。
a=a[apply(a,1,function(x)sum(x>1)>6),]

ex<-log2(a+1)##转换
boxplot(ex,las=2,cex.axis=0.6,main='datacheck')

下图是转换前后的图片。

同上方法，处理一下RPM的数据。
##########boxplot可视化数据检查
boxplot(b,las=2,cex.axis=0.6,main='datacheck')
###转换
ex1<-log2(b+1)
boxplot(ex1,las=2,cex.axis=0.6,main='datacheck')

二，提取数据 ##提取数据。因为之前讲过，我们只看肿瘤周围的肝细胞跟正常肝周细胞对比。所以在此我们提取我们的目的数据。##
PHex<-ex[,1:6]
PHex[1:4,1:6]##查看一下数据。（rawcounts数据）
##PH_WT_tumors_r1PH_WT_tumors_r2
ENSMUSG00000000001_Gnai310.83605011.437232
ENSMUSG00000000028_Cdc455.4918536.475733
ENSMUSG00000000031_H194.3219288.968667
ENSMUSG00000000037_Scml22.5849633.459432
PH_WT_tumors_r3PH_WT_notreat_r1
ENSMUSG00000000001_Gnai311.07012111.672867
ENSMUSG00000000028_Cdc456.1898254.857981
ENSMUSG00000000031_H195.3219281.000000
ENSMUSG00000000037_Scml23.5849632.000000
PH_WT_notreat_r2PH_WT_notreat_r3
ENSMUSG00000000001_Gnai311.71295711.007027
ENSMUSG00000000028_Cdc456.3219283.584963
ENSMUSG00000000031_H190.0000002.000000
ENSMUSG00000000037_Scml23.1699250.000000
PHex1<-ex1[,1:6]
PHex1[1:4,1:6]##查看一下数据。（RPM数据）
##PH_WT_tumors_r1PH_WT_tumors_r2
ENSMUSG00000000001_Gnai36.81326647.2351263
ENSMUSG00000000028_Cdc451.88139442.5238188
ENSMUSG00000000031_H191.11045274.8070691
ENSMUSG00000000037_Scml20.38408870.6228264
PH_WT_tumors_r3PH_WT_notreat_r1
ENSMUSG00000000001_Gnai36.92293207.52881962
ENSMUSG00000000028_Cdc452.33111021.36491739
ENSMUSG00000000031_H191.67082170.07898138
ENSMUSG00000000037_Scml20.69241680.22504780
PH_WT_notreat_r2PH_WT_notreat_r3
ENSMUSG00000000001_Gnai37.64467146.9971839
ENSMUSG00000000028_Cdc452.50769490.7465790
ENSMUSG00000000031_H190.00000000.2447131
ENSMUSG00000000037_Scml20.56036640.0000000
三，画PCA图 library(stringr)
###分组
group_list1=str_split(colnames(PHex),'_',simplify=T)[,3]
group_list2=str_split(colnames(Lex),'_',simplify=T)[,3]
>group_list1
[1]"tumors""tumors""tumors""notreat""notreat""notreat"
####PCA看分组情况
library("FactoMineR")
library("factoextra")
####adataframewithnrows(individuals)
####andpcolumns(numericvariables)
df.pca<-PCA(t(PHex),graph=FALSE)
fviz_pca_ind(df.pca,
geom.ind="point",
col.ind=group_list1,
addEllipses=TRUE,
legend.title="Groups"
)
df.pca1<-PCA(t(PHex1),graph=FALSE)
fviz_pca_ind(df.pca1,
geom.ind="point",
col.ind=group_list2,
addEllipses=TRUE,
legend.title="Groups"
)

我觉得从PCA分群来看，这个两个数据格式，应该没有太多的区别，都是很好的区分这个两组。
四，画热图 ##画热图。
PHex<-na.omit(PHex)##去一下个别缺失值。
table(is.na.data.frame(PHex))##检测一下缺失值是否去干净，因为热图十不可以有缺失值的。
cg=names(tail(sort(apply(PHex,1,sd)),200))##选两百个去做热图。
PHex<-PHex[cg,]
PHex=t(scale(t(PHex)))
#####查看scale处理后数据的范围
fivenum(PHex)
####目的是避免出现极大极小值影响可视化的效果
###2,-2
PHex[PHex>1.2]=1.2
PHex[PHex<-1.2]=-1.2
library(pheatmap)
pheatmap(PHex)##这个画的比较丑，下面调整一下颜色，加入分组之后会漂亮许多。
####调整下颜色，使正负值颜色的对比会更加鲜明
require(RColorBrewer)
bk=c(seq(-1.2,1.2,length=100))
annotation_col=data.frame(Group=rep(c("tumors","notreat"),c(3,3)))
rownames(annotation_col)<-colnames(PHex)
####annotation_col和annotation_row的格式需为数据框
####breaks参数用于值匹配颜色
####看下，color和breaks的对应，进行理解
pheatmap(PHex,
breaks=bk,
show_rownames=F,
annotation_col=annotation_col,
color=colorRampPalette(c("navy","white","firebrick3"))(100))
####可以调整的内容有是否聚类、是否分组、是否显示行和列的内容等
save(PHex,PHex1,group_list1,group_list2,file='ex.Rdata')
##同上换成PHex1再画个图##

热图聚类都可以聚的很好，两个数据很相似。但是具体里面差异基因是不是一致的呢？我觉得通过这两个图只能看一个大概，啥也说明不了。好吧接下来试着复现一下文章中的go功能注释的图把。
五，差异分析（DESeq2+rawcounts） load('ex.Rdata')
exprSet<-read.table('GSE103788_raw_counts_genes.tsv.gz',header=T,row.names=1)
exprSet=exprSet[apply(exprSet,1,function(x)sum(x>1)>6),]
exprSet<-exprSet[,1:6]
group_list<-factor(group_list1)
###FirstlyrunDEseq2
###
###---------------
class(exprSet)
suppressMessages(library(DESeq2))
(colData<-data.frame(row.names=colnames(exprSet),
group_list=group_list))
dds<-DESeqDataSetFromMatrix(countData=exprSet,
colData=colData,
design=~group_list)
dds<-DESeq(dds)
res<-results(dds,
contrast=c("group_list",'tumors','notreat'))
resOrdered<-res[order(res$padj),]
head(resOrdered)
DEG=as.data.frame(resOrdered)
DEG=na.omit(DEG)
head(DEG)

#####baseMeanlog2FoldChangelfcSE
ENSMUSG00000026678_Rgs5975.61133.1520640.2122172
ENSMUSG00000026473_Glul7295.51973.2652480.2312006
ENSMUSG00000031375_Bgn2390.67603.6619760.2659914
ENSMUSG00000021268_Meg3306.87786.3705730.4675770
ENSMUSG00000002900_Lamb1242.49833.6792130.2704702
ENSMUSG00000069662_Marcks526.73892.8888590.2137369
statpvaluepadj
ENSMUSG00000026678_Rgs514.853016.651063e-501.003313e-45
ENSMUSG00000026473_Glul14.123012.740446e-452.066981e-41
ENSMUSG00000031375_Bgn13.767274.010678e-432.016702e-39
ENSMUSG00000021268_Meg313.624652.857755e-421.077731e-38
ENSMUSG00000002900_Lamb113.603033.841994e-421.159130e-38
ENSMUSG00000069662_Marcks13.515961.259102e-413.165593e-38
五，GO注释（这里主要用一下Y叔的优秀的通路分析包，图又漂亮，有方便使用）。
geneList准备，Y叔的注释包（clusterProfiler）只要这个做好后，后面代码基本上不用改了。直接运行了。所以这个很重要。
rm(list=ls())
options(stringsAsFactors=F)
library(ggplot2)
library(clusterProfiler)
library(stringr)
library(org.Mm.eg.db)
keytypes(org.Mm.eg.db)
load('DEG.Rdata')
b<-rownames(DEG)
b=str_split(rownames(DEG),'_',simplify=T)[,1]
rownames(DEG)<-b
gene<-bitr(b,fromType="ENSEMBL",#fromType是指你的数据ID类型是属于哪一类的
toType=c('ENTREZID'),#toType是指你要转换成哪种ID类型，可以写多种，也可以只写一种
OrgDb=org.Mm.eg.db)#Orgdb是指对应的注释包是哪个
DEG$ENSEMBL<-rownames(DEG)
DEG<-merge(gene,DEG)

##assumethat1stcolumnisID
##2ndcolumnisfoldchange

##feature1:numericvector(输入差异倍数列)
geneList<-DEG[,4]

##feature2:namedvector
names(geneList)<-as.character(DEG[,2])##(输入ID列)

##feature3:decreasingorder
geneList<-sort(geneList,decreasing=TRUE)
save(geneList,file='geneList.Rdata')
head(geneList)
>head(geneList)
216643539735743011758612323337924
13.40283511.65501611.09752710.8042769.9231259.889644

go注释
rm(list=ls())
options(stringsAsFactors=F)
library(clusterProfiler)
library(org.Mm.eg.db)
load('geneList.Rdata')

##GOclassification
gene<-names(geneList)[abs(geneList)>2]#筛选差异基因大于2的列表
gene.df<-bitr(gene,fromType="ENTREZID",
toType=c("ENSEMBL","SYMBOL"),##得到ENSEMBLID与基因名
OrgDb=org.Mm.eg.db)
head(gene.df)

##BP##
ego2<-enrichGO(gene=gene.df$ENSEMBL,
OrgDb=org.Mm.eg.db,
keyType='ENSEMBL',
ont="BP",
pAdjustMethod="BH",
pvalueCutoff=0.01,
qvalueCutoff=0.05)
ego2<-setReadable(ego2,OrgDb=org.Mm.eg.db)
##去掉一些重复的通路。
lineage1_ego<-simplify(ego2,
cutoff=0.5,
by="p.adjust",
select_fun=min)
##可视化
barplot(lineage1_ego,showCategory=25)

BP注释总体上跟文章中的通路还是类似的。毕竟如果不知道代码，很难一模一样复现文章的图的。只要趋势差不多就差不多了。

你可能想看：

circbase数据库环状RNA序列获取方法 | 环状RNA社区

小编邀请技术部的刘建宁老师继续为大家实例讲解circRNA的引物设计。我们以环状RNA数据库circbase（http:为小伙伴详细介绍从circRNA序列获取到引物设计的全过程。在Search上方的...

家长怎么陪，孩子能自觉高效完成作业？第一节

我们试图从理论到实践给到家长们切实可行的、拿来就可以回家操作并且见效的方法，每次写作业声音能吼到劈叉······爸爸说你起来，去厕所、作业落学校、没有笔写···这些我们小时候的惯用伎俩现在的孩子们依旧...

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

学生成绩的数据分析方法

学生成绩的数据分析方法，分析考试成绩是教师必做的工作之一，分析成绩是掌握学情的主要方式之一，还要分析学生各门学科成绩，一、班级整体的成绩分析。每次考试的分数就是绝对成绩。绝对成绩与试卷难易、学生的基础...

电化学测试技术在锂离子电池中的原理、方法步骤、数据分析（CV、EIS、充放电、微分电压/电容、倍率、...

电极材料的比容量和放电平台决定电池的能量密度，而材料或者电池的阻抗决定离子的扩散过程及电池的功率密度。一般通过循环伏安、交流阻抗、充放电等电化学测试技术来研究锂离子电池等电化学储能器件中的电化学反应过...

神奇的黄连解毒汤，对帕金森居然也有用！

帕金森是一种老年人多发的慢性的中枢神经系统退化性失调，就曾经用一个常见经方极大的改善了帕金森症的症状。大便秘结，小便色如浓茶。苔黄腻而燥：患者舌红、苔黄腻而燥、脉来滑大、口干渴、大便秘结、小便色如浓茶...

八大特殊作业安全培训，含作业票、填写规范、告知牌、风险分析、视频、培训...

扫描文末底部二维码入群可获取：【提醒】本文资料下载收费频道搜索：更多安全资料下载：电脑浏览器打开:*苹果手机*下载资料必须用电脑端*苹果手机*必须用电脑端来付费购买资料及办理会员ABC安全、HSE不止...

Cell Reseach：caspase11切割gasderminD引发“细胞焦亡” - 基因编辑专区 - 生物谷

这些炎性caspase的激活能够促进细胞焦亡事件的发生，炎性caspase究竟是如何调节这些细胞事件至今仍然有待解决。该蛋白的切割能够引发细胞焦亡事件的发生。他们发现这一突变体小鼠不能够正常发生细胞焦...

Pain in the ass可不是“屁股痛”，理解错就尴尬了

是一个特别常用的表达，这个表达的真实含义跟屁股真的没有关系哦，我们就可以使用这个表达，我知道该更新驾照了，这个新型冠状病毒真是令人讨厌，在美剧《生活大爆炸》里面：Penny评价Sheldon时:就用到...

“双减”政策下的作业设计| 作业——未被重视的教育质量提升途径

您是否相信作业设计得好坏能够影响学生对您这门学科的兴趣？合理设计学生作业内容与时间”提高教师育德能力以及本体性知识、作业命题、实验、信息技术、心理辅导等方面的专业(专项)能力”那么作业从本质上说是学生...

作业没做完怕被罚，十岁哥哥带妹妹躲菜窖两天，网友：作业太可怕

很多父母反映给孩子辅导作业就是折磨自己，原因竟然是儿子因作业没做完怕被罚，那么对于孩子写作业遇到的各种问题，很多家长反映每天在孩子做作业的时候就像是在打仗，寸步不离的辅导孩子就是对孩子的学习负责，父母...

“See the joke”的意思可不是“ 看笑话”！理解错就尴尬了

有些看似很简单的英语句子，可能会导致偏差甚至闹出笑话”几个不能直译的英语句子吧：的意思是”You should speak to him like that.You're going too far....

详解RTK,RTD,SBAS,WAAS,PPP,PPK,广域差分等技术之间的关系与区别

工作方法是基准站将伪距（或者坐标）修正值（差分值）发给用户接收机，用户接收机根据差分值与本身的观测值算出精确位置的方法。RTD（Real Time Differential）与RTK（Real Tim...

不想拖国家后腿，你需要学会这5个技巧

努力想让自己的生活水平得到改善。可是手里拿着说不上低也说不上高的工资，如果你不再想给国家拖后腿，你会对这份工作越来越没有兴趣，这样会使你在工作中很难得到提升“会造成时间和金钱的双重浪费。想办法提升自己...

前腿肉和后腿肉有啥区别？老屠夫：区别大，认准4点，买到好猪肉

很多人顿顿都吃肉。比如炒肉、蒸肉、炖肉等，分为前腿肉和后腿肉？下面和大家说说前腿肉、后腿肉的几个主要区别。所以这里的肉质是瘦肉少、肥肉多。前腿肉基本上是半肥半瘦的，所以后腿上的肉脂肪比前腿略多一些，而...

一位美女与 30 位法师的奇缘，而你竟然也认识她！

就在守关老道长担忧祈祷中，老道长轻轻打开房门想劝阻争吵，老道长再想拦时已经迟了。三十位破关的法师几乎同时睁开了眼睛。守关的老道长恭敬地拱手问：待出关之后贫道替施主分发便是。此时道堂中三十位法师一个少女...

全世界最高大的8大雕像，中国有3座榜上有名，日本竟然也有两座！

为了庆祝彼俄国海军300周年而设置的彼得大帝纪念雕像，造型是手持着古代卷轴地图的彼得大帝，昂然立在一艘十七、十八世纪的远洋帆船之上——象征着抱有远见的彼得大帝与俄国海军密不可分的关係，虽然莫斯科居民也...

你的数据到底有多重要？这些惊艳的数据可视化案例告诉你 | TED演讲

在本文中他分享了数据背后所蕴含的令人意想不到的重量，今天我想跟大家聊聊两件非常振奋人心的内容，但对苹果公司我不想说太多。没有事物可以像电脑那样改变我们的生活，但我其实也不想聊电脑的事儿。我想聊聊电脑上...

阅读理解并不难，学好阅读理解的8个秘诀

明确考点后读文章，根据题目的问题在文章中找答案。每段的第一句或总结性的句子。概括题、词语理解题、句子理解题、段落作用题、探究拓展题。标题扩展法、段意合并发、摘录法、关键句法、问答法。4、词语理解题，句...

低水平均衡陷阱理论（Low Level Equilibrium Trap）

纳尔逊低水平均衡陷阱理论概述。美国经济学家（）发表了以《不发达国家的一种低水平均衡陷阱》为题的论文，纳尔逊利用数字模型考察了不发达国家人均资本与人均收入增长、人口增长与人均收入增长、产出增长与人均收入...

创维LED液晶彩电168P-P65EQF-00电源板原理与维修（三）

由厚膜电路IC3(FSDH321)、开关变压器T3、取样误差放大电路IC9、光电耦合器IC6等元件组成，集成了启动电路、振荡电路、误差放大电路、驱动控制电路、MOSFET开关管等。2、启动工作过程 ...

成功——取决于你的“情商”（EQ）

究竟什么心智或精神能力决定着人的成功？而控制情绪的能力、抓住机遇的能力等情绪智力因素具有更重要作用，纽约时报科学专栏作家丹尼尔·戈尔曼的新著《情绪智力》则使这一术语成为美国社会广为流传和讨论的话题，研...

SpringBoot报错 Error parsing HTTP request header

Note:Note:at org.apache.coyote.http11.AbstractNioInputBuffer.parseRequestLine(AbstractNioInputBuffer...

过程的过程、结果的结果

只要做过考核工作的人都知道，是否认真做又是另一回事：由此衍生除了我们的考核指标分类。结果指标、过程指标，过程指标就是维修人员穿着是否整齐、交流是否礼貌、工作是否规范、技能是否足够，简单分两类指标就足以...

章门穴：降浊固土，疏肝健脾，理气散郁结

肝主疏泄，其性喜升发舒畅，但是生活当中我们难免会遇到一些让你情志不舒，从而影响体内气机的升发与疏泄，造成肝郁的问题。想要疏肝解郁气，章门穴是人体八会穴当中的“这个穴位可以降浊固土，疏肝健脾，还可以理气...

实用！治“闪腰”的专方来了，六味药，理顺血脉，20年前老经验

文中所述配伍、方剂，必须在中医师当面辨证指导下来借鉴、应用，闪腰，就是急性腰扭伤、腰部挫伤，导致腰部疼痛、活动受限，不慎伤了腰部。对这种闪腰引起的腰部疼痛，我手头有一张配伍。曾有人以此治疗急性腰扭伤4...