当前位置：首页 > 科技 > 正文

一文看懂WGCNA 分析(2019更新版)

启示号
科技
5天前
574

发现我这个4年前的WGCNA分析教程可以排在自己最受欢迎的前10个教程里面了，而且直接以我这个授课代码出的SCI文章就有38篇了，当然不排除很多学员使用我的代码却不告知我，也不会致谢我。

不过，我这点战绩根本就算不上什么，其实这个WGCNA包已经是十多年前发表的了，仍然是广受好评及引用量一直在增加，破万也是指日可待。

大家首先可以看到3个教程：

2016-WGCNA-HCC-hub-gene.pdf 中文文章范例）
WGCNA_GBMTutorialHorvath.pdf
WGCNA_YeastTutorialHorvath.pdf

其中第一个是我4年前的WGCNA分析教程最主要的参考文献，后面两个是英文教程，我相信你大概率是不会去看的，不过，我还是放在这里了。（还是需要强调，这两个英文教程完整的展现了WGCNA的全部用法）

然后你只需要简单浏览本文档，就可以在rstudio里面打开后缀是proj的文件，打开R代码，一步步跟着学习啦！

基本概念

WGCNA其译为加权基因共表达网络分析。该分析方法旨在寻找协同表达的基因模块(module)，并探索基因网络与关注的表型之间的关联关系，以及网络中的核心基因。

适用于复杂的数据模式，推荐5组(或者15个样品)以上的数据。一般可应用的研究方向有：不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。

基本原理

从方法上来讲，WGCNA分为表达量聚类分析和表型关联两部分，主要包括基因之间相关系数计算、基因模块的确定、共表达网络、模块与性状关联四个步骤。

第一步计算任意两个基因之间的相关系数（Person Coefficient）。为了衡量两个基因是否具有相似表达模式，一般需要设置阈值来筛选，高于阈值的则认为是相似的。但是这样如果将阈值设为0.8，那么很难说明0.8和0.79两个是有显著差别的。因此，WGCNA分析时采用相关系数加权值，即对基因相关系数取N次幂，使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks)，这种算法更具生物学意义。

第二步通过基因之间的相关系数构建分层聚类树，聚类树的不同分支代表不同的基因模块，不同颜色代表不同的模块。基于基因的加权相关系数，将基因按照表达模式进行分类，将模式相似的基因归为一个模块。这样就可以将几万个基因通过基因表达模式被分成了几十个模块，是一个提取归纳信息的过程。

WGCNA术语权重(weghted)

基因之间不仅仅是相关与否，还记录着它们的相关性数值，数值就是基因之间的联系的权重(相关性)。

Module

模块(module)：表达模式相似的基因分为一类，这样的一类基因成为模块；

Eigengene

Eigengene（eigen +‎ gene）：基因和样本构成的矩阵，https://en.wiktionary.org/wiki/eigengene

Adjacency Matrix

邻近矩阵：是图的一种存储形式，用一个一维数组存放图中所有顶点数据；用一个二维数组存放顶点间关系（边或弧）的数据，这个二维数组称为邻接矩阵；在WGCNA分析里面指的是基因与基因之间的相关性系数矩阵。如果用了阈值来判断基因相关与否，那么这个邻近矩阵就是0/1矩阵，只记录基因相关与否。但是WGCNA没有用阈值来卡基因的相关性，而是记录了所有基因之间的相关性。

Topological Overlap Matrix (TOM)

WGNA认为基因之间的简单的相关性不足以计算共表达，所以它利用上面的邻近矩阵，又计算了一个新的邻近矩阵。一般来说，TOM就是WGCNA分析的最终结果，后续的只是对TOM的下游注释。

下游分析得到模块之后的分析有：

1.模块的功能富集

2.模块与性状之间的相关性

3.模块与样本间的相关系数

挖掘模块的关键信息：

1.找到模块的核心基因

2.利用关系预测基因功能

代码示例

其中第一步数据准备反而是最复杂的，取决于大家的R语言水平，这个数据GSE48213-wgcna-input.RData我已经保存下来咯，如果大家不会做，又想体验一下这个WGCNA流程，就可以直接load我保存好的数据文件即可。

step1: 输入数据的准备

这里主要是表达矩阵，如果是芯片数据，那么常规的归一化矩阵即可，如果是转录组数据，最好是RPKM/TPM值或者其它归一化好的表达量。然后就是临床信息或者其它表型，总之就是样本的属性。

为了保证后续脚本的统一性，表达矩阵统一用datExpr标识，临床信息统一用datTraits标识。(PS: 如果你R语言很差，变量名不要轻易修改)

library(WGCNA)
RNAseq_voom<-fpkm
##因为WGCNA针对的是基因进行聚类，而一般我们的聚类是针对样本用hclust即可，所以这个时候需要转置。
WGCNA_matrix=t(RNAseq_voom[order(apply(RNAseq_voom,1,mad),decreasing=T)[1:5000],])
datExpr0<-WGCNA_matrix##top5000madgenes
datExpr<-datExpr0

##下面主要是为了防止临床表型与样本名字对不上
sampleNames=rownames(datExpr);
traitRows=match(sampleNames,datTraits$gsm)
rownames(datTraits)=datTraits[traitRows,1]

上面代码里面的rpkm就是我们的转录组数据的表达矩阵，以rpkm为单位。而datTraits就是所有样本对应的表型信息。需要自己制作，这个是学习WGCNA的基础，本次实例代码都是基于这两个数据。至于如何做出上面代码的两个例子，取决于大家自己的项目，我这里给出自己的代码，仅供参考哈！

setwd('WGCNA/')
#56breastcancercelllineswereprofiledtoidentifypatternsofgeneexpressionassociatedwithsubtypeandresponsetotherapeuticcompounds.
if(F){
##https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE48213
#wget-cftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE48nnn/GSE48213/suppl/GSE48213_RAW.tar
#tar-xfGSE48213_RAW.tar
#gzip-d*.gz
##首先在GSE48213_RAW目录里面生成tmp.txt文件，使用shell脚本
#awk'{printFILENAME'\t'$0}'GSM*.txt|grep-vEnsEMBL_Gene_ID>tmp.txt
#其实也可以直接使用R来读取GSE48213_RAW.tar里面的gz文件，这里就不演示了
#可以参考：https://mp.weixin.qq.com/s/OLc9QmfN0YcT548VAYgOPA 里面的教程
##然后把tmp.txt导入R语言里面用reshape2处理即可
#这个 tmp.txt 文件应该是100M左右大小哦。
a=read.table('GSE48213_RAW/tmp.txt',sep='\t',stringsAsFactors=F)
library(reshape2)
fpkm<-dcast(a,formula=V2~V1)
rownames(fpkm)=fpkm[,1]
fpkm=fpkm[,-1]
colnames(fpkm)=sapply(colnames(fpkm),function(x)strsplit(x,'_')[[1]][1])

library(GEOquery)
a=getGEO('GSE48213')
metadata=pData(a[[1]])[,c(2,10,12)]
datTraits=data.frame(gsm=metadata[,1],
cellline=trimws(sapply(as.character(metadata$characteristics_ch1),function(x)strsplit(x,':')[[1]][2])),
subtype=trimws(sapply(as.character(metadata$characteristics_ch1.2),function(x)strsplit(x,':')[[1]][2]))
)
save(fpkm,datTraits,file='GSE48213-wgcna-input.RData')
}

很明显，这个数据GSE48213-wgcna-input.RData我已经保存下来咯，如果大家不会做，又想体验一下这个WGCNA流程，那么可以找我email求取这个数据哦。我的邮箱是jmzeng1314@163.com

我给大家演示的示例数据大概是下面这个样子：

>head(datTraits)##56个细胞系的分类信息，表型
gsmcelllinesubtype
GSM1172844GSM1172844184A1Non-malignant
GSM1172845GSM1172845184B5Non-malignant
GSM1172846GSM117284621MT1Basal
GSM1172847GSM117284721MT2Basal
GSM1172848GSM117284821NTBasal
GSM1172849GSM117284921PTBasal
>fpkm[1:4,1:4]##56个细胞系的36953个基因的表达矩阵
GSM1172844GSM1172845GSM1172846GSM1172847
ENSG0000000000395.2125595.6986819.9946765.6863763
ENSG000000000050.000000.000000.000000.1492021
ENSG00000000419453.20831243.64804142.05818200.4131493
ENSG0000000045718.1043926.5666116.1277612.0873135
>

这个数据集里面的56种细胞系被分成了5组，如果要分开两两做差异分析，有10种组合，也就是说需要做10次差异分析，每个差异分析结果都需要去注释，会比较麻烦，这个时候WGCNA就派上用场啦。当然，如果你一定要去做差异分析，我也给你代码：https://github.com/jmzeng1314/my-R/blob/master/10-RNA-seq-3-groups/hisat2_mm10_htseq.R

实际上多个分组，差异分析策略是非常个性化的，比如：https://mp.weixin.qq.com/s/hc6JkKxyelc7b1M1MRiHRQ

step2:确定最佳beta值

选择合适“软阀值（soft thresholding power）”beta，同样的，也是使用教程标准代码即可：

powers=c(c(1:10),seq(from=12,to=20,by=2))
#Callthenetworktopologyanalysisfunction
sft=pickSoftThreshold(datExpr,powerVector=powers,verbose=5)
#设置网络构建参数选择范围，计算无尺度分布拓扑矩阵

#Plottheresults:
##sizeGrWindow(9,5)
par(mfrow=c(1,2));
cex1=0.9;
#Scale-freetopologyfitindexasafunctionofthesoft-thresholdingpower
plot(sft$fitIndices[,1],-sign(sft$fitIndices[,3])*sft$fitIndices[,2],
xlab='SoftThreshold(power)',ylab='ScaleFreeTopologyModelFit,signedR^2',type='n',
main=paste('Scaleindependence'));
text(sft$fitIndices[,1],-sign(sft$fitIndices[,3])*sft$fitIndices[,2],
labels=powers,cex=cex1,col='red');
#thislinecorrespondstousinganR^2cut-offofh
abline(h=0.90,col='red')
#Meanconnectivityasafunctionofthesoft-thresholdingpower
plot(sft$fitIndices[,1],sft$fitIndices[,5],
xlab='SoftThreshold(power)',ylab='MeanConnectivity',type='n',
main=paste('Meanconnectivity'))
text(sft$fitIndices[,1],sft$fitIndices[,5],labels=powers,cex=cex1,col='red')

关键就是理解pickSoftThreshold函数及其返回的对象，最佳的beta值就是sft$powerEstimate

最佳beta值

参数beta取值默认是1到30，上述图形的横轴均代表权重参数β，左图纵轴代表对应的网络中log(k)与log(p(k))相关系数的平方。相关系数的平方越高，说明该网络越逼近无网路尺度的分布。右图的纵轴代表对应的基因模块中所有基因邻接函数的均值。最佳的beta值就是sft$powerEstimate，已经被保存到变量了，不需要知道具体是什么，后面的代码都用这个即可，在本例子里面是6。

即使你不理解它，也可以使用代码拿到合适“软阀值（soft thresholding power）”beta进行后续分析。

step3：一步法构建共表达矩阵

有了表达矩阵和估计好的最佳beta值，就可以直接构建共表达矩阵了。

net=blockwiseModules(
datExpr,
power=sft$powerEstimate,
maxBlockSize=6000,
TOMType='unsigned',minModuleSize=30,
reassignThreshold=0,mergeCutHeight=0.25,
numericLabels=TRUE,pamRespectsDendro=FALSE,
saveTOMs=F,
verbose=3
)
table(net$colors)

所有的核心就在这一步，把输入的表达矩阵的几千个基因组归类成了几十个模块。大体思路：计算基因间的邻接性，根据邻接性计算基因间的相似性，然后推出基因间的相异性系数，并据此得到基因间的系统聚类树。然后按照混合动态剪切树的标准，设置每个基因模块最少的基因数目为30。

根据动态剪切法确定基因模块后，再次分析，依次计算每个模块的特征向量值，然后对模块进行聚类分析，将距离较近的模块合并为新的模块。

step4: 模块可视化

这里用不同的颜色来代表那些所有的模块，其中灰色默认是无法归类于任何模块的那些基因，如果灰色模块里面的基因太多，那么前期对表达矩阵挑选基因的步骤可能就不太合适。

#Convertlabelstocolorsforplotting
mergedColors=labels2colors(net$colors)
table(mergedColors)
#Plotthedendrogramandthemodulecolorsunderneath
plotDendroAndColors(net$dendrograms[[1]],mergedColors[net$blockGenes[[1]]],
'Modulecolors',
dendroLabels=FALSE,hang=0.03,
addGuide=TRUE,guideHang=0.05)
##assignallofthegenetotheircorrespondingmodule
##hclustforthegenes.

基因的模块可视化

这里的重点就是plotDendroAndColors函数，它接受一个聚类的对象，以及该对象里面包含的所有个体所对应的颜色。比如对表达矩阵进行hclust之后，加上表达矩阵里面所有样本的分组信息对应的颜色，也是可以用plotDendroAndColors函数可视化的，比如下面的样品图：

#明确样本数和基因数
nGenes=ncol(datExpr)
nSamples=nrow(datExpr)
#首先针对样本做个系统聚类树
datExpr_tree<-hclust(dist(datExpr),method='average')
par(mar=c(0,5,2,0))
plot(datExpr_tree,main='Sampleclustering',sub='',xlab='',cex.lab=2,
cex.axis=1,cex.main=1,cex.lab=1)
##如果这个时候样本是有性状，或者临床表型的，可以加进去看看是否聚类合理
#针对前面构造的样品矩阵添加对应颜色
sample_colors<-numbers2colors(as.numeric(factor(datTraits$Tumor.Type)),
colors=c('white','blue','red','green'),signed=FALSE)
##这个给样品添加对应颜色的代码需要自行修改以适应自己的数据分析项目。
#sample_colors<-numbers2colors(datTraits,signed=FALSE)
##如果样品有多种分类情况，而且 datTraits 里面都是分类信息，那么可以直接用上面代码，当然，这样给的颜色不明显，意义不大。
#构造10个样品的系统聚类树及性状热图
par(mar=c(1,4,3,1),cex=0.8)
plotDendroAndColors(datExpr_tree,sample_colors,
groupLabels=colnames(sample),
cex.dendroLabels=0.8,
marAll=c(1,4,3,1),
cex.rowText=0.01,
main='Sampledendrogramandtraitheatmap')

上面给样本进行聚类的代码可以不运行，其实跟WGCNA本身关系不大。

样本的聚类可视化

可以看到这些乳腺癌的细胞系的表达谱聚类情况并不是完全与其分类匹配，所以仅仅是根据样本的分组信息做差异分析并不完全准确。

step5:模块和性状的关系

##step5(最重要的)模块和性状的关系
##这一步主要是针对于连续变量，如果是分类变量，需要转换成连续变量方可使用
table(datTraits$subtype)
if(T){
nGenes=ncol(datExpr)
nSamples=nrow(datExpr)
design=model.matrix(~0+datTraits$subtype)
colnames(design)=levels(datTraits$subtype)
moduleColors<-labels2colors(net$colors)
#RecalculateMEswithcolorlabels
MEs0=moduleEigengenes(datExpr,moduleColors)$eigengenes
MEs=orderMEs(MEs0);##不同颜色的模块的ME值矩(样本vs模块)
moduleTraitCor=cor(MEs,design,use='p');
moduleTraitPvalue=corPvalueStudent(moduleTraitCor,nSamples)

sizeGrWindow(10,6)
#Willdisplaycorrelationsandtheirp-values
textMatrix=paste(signif(moduleTraitCor,2),'\n(',
signif(moduleTraitPvalue,1),')',sep='');
dim(textMatrix)=dim(moduleTraitCor)
png('step5-Module-trait-relationships.png',width=800,height=1200,res=120)
par(mar=c(6,8.5,3,3));
#Displaythecorrelationvalueswithinaheatmapplot
labeledHeatmap(Matrix=moduleTraitCor,
xLabels=colnames(design),
yLabels=names(MEs),
ySymbols=names(MEs),
colorLabels=FALSE,
colors=greenWhiteRed(50),
textMatrix=textMatrix,
setStdMargins=FALSE,
cex.text=0.5,
zlim=c(-1,1),
main=paste('Module-traitrelationships'))
dev.off()

#除了上面的热图展现形状与基因模块的相关性外
#还可以是条形图,但是只能是指定某个形状
#或者自己循环一下批量出图。
Luminal=as.data.frame(design[,3]);
names(Luminal)='Luminal'
y=Luminal
GS1=as.numeric(cor(y,datExpr,use='p'))
GeneSignificance=abs(GS1)
#Nextmodulesignificanceisdefinedasaveragegenesignificance.
ModuleSignificance=tapply(GeneSignificance,
moduleColors,mean,na.rm=T)
sizeGrWindow(8,7)
par(mfrow=c(1,1))
#如果模块太多，下面的展示就不友好
#不过，我们可以自定义出图。
plotModuleSignificance(GeneSignificance,moduleColors)

}

通过模块与各种表型的相关系数，可以很清楚的挑选自己感兴趣的模块进行下游分析了。这个图就是把moduleTraitCor这个矩阵给用热图可视化一下。

模块和性状的关系

因为一些历史遗留问题，这个图片缺乏X轴的标记。

从上图已经可以看到跟乳腺癌分类相关的基因模块了，包括'Basal' 'Claudin-low' 'Luminal' 'Non-malignant' 'unknown' 这5类所对应的不同模块的基因列表。可以看到每一种乳腺癌都有跟它强烈相关的模块，可以作为它的表达signature，模块里面的基因可以拿去做下游分析。我们看到Luminal表型跟棕色的模块相关性高达0.86，而且极其显著的相关，所以值得我们挖掘，这个模块里面的基因是什么，为什么如此的相关呢？

step6:感兴趣性状的模块的具体基因分析

性状跟模块虽然求出了相关性，可以挑选最相关的那些模块来分析，但是模块本身仍然包含非常多的基因，还需进一步的寻找最重要的基因。所有的模块都可以跟基因算出相关系数，所有的连续型性状也可以跟基因的表达值算出相关系数。主要参考资料：PDF document, R script 如果跟性状显著相关基因也跟某个模块显著相关，那么这些基因可能就非常重要。

首先计算模块与基因的相关性矩阵 #names(colors)ofthemodules
modNames=substring(names(MEs),3)
geneModuleMembership=as.data.frame(cor(datExpr,MEs,use='p'));
##算出每个模块跟基因的皮尔森相关系数矩阵
##MEs是每个模块在每个样本里面的值
##datExpr是每个基因在每个样本的表达量
MMPvalue=as.data.frame(corPvalueStudent(as.matrix(geneModuleMembership),nSamples));
names(geneModuleMembership)=paste('MM',modNames,sep='');
names(MMPvalue)=paste('p.MM',modNames,sep='');
再计算性状与基因的相关性矩阵

##只有连续型性状才能只有计算
##这里把是否属于 Luminal 表型这个变量用0,1进行数值化。
Luminal=as.data.frame(design[,3]);
names(Luminal)='Luminal'
geneTraitSignificance=as.data.frame(cor(datExpr,Luminal,use='p'));
GSPvalue=as.data.frame(corPvalueStudent(as.matrix(geneTraitSignificance),nSamples));
names(geneTraitSignificance)=paste('GS.',names(Luminal),sep='');
names(GSPvalue)=paste('p.GS.',names(Luminal),sep='');

最后把两个相关性矩阵联合起来,指定感兴趣模块进行分析 module='brown'
column=match(module,modNames);
moduleGenes=moduleColors==module;
sizeGrWindow(7,7);
par(mfrow=c(1,1));
verboseScatterplot(abs(geneModuleMembership[moduleGenes,column]),
abs(geneTraitSignificance[moduleGenes,1]),
xlab=paste('ModuleMembershipin',module,'module'),
ylab='GenesignificanceforLuminal',
main=paste('Modulemembershipvs.genesignificance\n'),
cex.main=1.2,cex.lab=1.2,cex.axis=1.2,col=module)
模块和性状里面的指定基因的相关性比较

可以看到这些基因不仅仅是跟其对应的模块高度相关，而且是跟其对应的性状高度相关，进一步说明了基因值得深度探究。

step7:网络的可视化

主要参考资料：PDF document, R script

首先针对所有基因画热图

#主要是可视化TOM矩阵，WGCNA的标准配图
#然后可视化不同模块的相关性热图
#不同模块的层次聚类图
#还有模块诊断，主要是intramodularconnectivity
if(T){
nGenes=ncol(datExpr)
nSamples=nrow(datExpr)
geneTree=net$dendrograms[[1]];
dissTOM=1-TOMsimilarityFromExpr(datExpr,power=6);
plotTOM=dissTOM^7;
diag(plotTOM)=NA;
#TOMplot(plotTOM,geneTree,moduleColors,main='Networkheatmapplot,allgenes')
nSelect=400
#Forreproducibility,wesettherandomseed
set.seed(10);
select=sample(nGenes,size=nSelect);
selectTOM=dissTOM[select,select];
#There’snosimplewayofrestrictingaclusteringtreetoasubsetofgenes,sowemustre-cluster.
selectTree=hclust(as.dist(selectTOM),method='average')
selectColors=moduleColors[select];
#Openagraphicalwindow
sizeGrWindow(9,9)
#Takingthedissimilaritytoapower,say10,makestheplotmoreinformativebyeffectivelychanging
#thecolorpalette;settingthediagonaltoNAalsoimprovestheclarityoftheplot
plotDiss=selectTOM^7;
diag(plotDiss)=NA;

png('step7-Network-heatmap.png',width=800,height=600)
TOMplot(plotDiss,selectTree,selectColors,main='Networkheatmapplot,selectedgenes')
dev.off()

#Recalculatemoduleeigengenes
MEs=moduleEigengenes(datExpr,moduleColors)$eigengenes
##只有连续型性状才能只有计算
##这里把是否属Luminal表型这个变量0,1进行数值化
Luminal=as.data.frame(design[,3]);
names(Luminal)='Luminal'
#Addtheweighttoexistingmoduleeigengenes
MET=orderMEs(cbind(MEs,Luminal))
#Plottherelationshipsamongtheeigengenesandthetrait
sizeGrWindow(5,7.5);

par(cex=0.9)
png('step7-Eigengene-dendrogram.png',width=800,height=600)
plotEigengeneNetworks(MET,'',marDendro=c(0,4,1,2),marHeatmap=c(3,4,1,2),cex.lab=0.8,xLabelsAngle
=90)
dev.off()

#Plotthedendrogram
sizeGrWindow(6,6);
par(cex=1.0)
##模块的进化树
png('step7-Eigengene-dendrogram-hclust.png',width=800,height=600)
plotEigengeneNetworks(MET,'Eigengenedendrogram',marDendro=c(0,4,2,0),
plotHeatmaps=FALSE)
dev.off()
#Plottheheatmapmatrix(note:thisplotwilloverwritethedendrogramplot)
par(cex=1.0)
##性状与模块热

png('step7-Eigengene-adjacency-heatmap.png',width=800,height=600)
plotEigengeneNetworks(MET,'Eigengeneadjacencyheatmap',marHeatmap=c(3,4,2,2),
plotDendrograms=FALSE,xLabelsAngle=90)
dev.off()

}

这个非常消耗计算资源和时间，所以建议选取其中部分基因作图即可，我就没有画，而且根据下面的代码选取部分基因来作图！

然后随机选取部分基因作图 nSelect=400
#Forreproducibility,wesettherandomseed
set.seed(10);
select=sample(nGenes,size=nSelect);
selectTOM=dissTOM[select,select];
#There’snosimplewayofrestrictingaclusteringtreetoasubsetofgenes,sowemustre-cluster.
selectTree=hclust(as.dist(selectTOM),method='average')
selectColors=moduleColors[select];
#Openagraphicalwindow
sizeGrWindow(9,9)
#Takingthedissimilaritytoapower,say10,makestheplotmoreinformativebyeffectivelychanging
#thecolorpalette;settingthediagonaltoNAalsoimprovestheclarityoftheplot
plotDiss=selectTOM^7;
diag(plotDiss)=NA;
TOMplot(plotDiss,selectTree,selectColors,main='Networkheatmapplot,selectedgenes')
模块热图

这个图凑数的意义居多，如果是把全部基因画上去，可以很清楚的看到各个区块颜色差异。

最后画模块和性状的关系

#Recalculatemoduleeigengenes
MEs=moduleEigengenes(datExpr,moduleColors)$eigengenes
##只有连续型性状才能只有计算
##这里把是否属于 Luminal 表型这个变量用0,1进行数值化。
Luminal=as.data.frame(design[,3]);
names(Luminal)='Luminal'
#Addtheweighttoexistingmoduleeigengenes
MET=orderMEs(cbind(MEs,Luminal))
#Plottherelationshipsamongtheeigengenesandthetrait
sizeGrWindow(5,7.5);
par(cex=0.9)
plotEigengeneNetworks(MET,'',marDendro=c(0,4,1,2),marHeatmap=c(3,4,1,2),cex.lab=0.8,xLabelsAngle
=90)
#Plotthedendrogram
sizeGrWindow(6,6);
par(cex=1.0)
##模块的聚类图
plotEigengeneNetworks(MET,'Eigengenedendrogram',marDendro=c(0,4,2,0),
plotHeatmaps=FALSE)
#Plottheheatmapmatrix(note:thisplotwilloverwritethedendrogramplot)
par(cex=1.0)
##性状与模块热图
plotEigengeneNetworks(MET,'Eigengeneadjacencyheatmap',marHeatmap=c(3,4,2,2),
plotDendrograms=FALSE,xLabelsAngle=90)

性状与模块热图 step8:提取指定模块的基因名 ##step8
#主要是关心具体某个模块内部的基因
if(T){
#Selectmodule
module='brown';
#Selectmoduleprobes
probes=colnames(datExpr)##我们例子里面的probe就是基因
inModule=(moduleColors==module);
modProbes=probes[inModule];
head(modProbes)

#如果使用WGCNA包自带的热图就很丑。
which.module='brown';
dat=datExpr[,moduleColors==which.module]
plotMat(t(scale(dat)),nrgcols=30,rlabels=T,
clabels=T,rcols=which.module,
title=which.module)
datExpr[1:4,1:4]
dat=t(datExpr[,moduleColors==which.module])
library(pheatmap)
pheatmap(dat,show_colnames=F,show_rownames=F)#对那些提取出来的1000个基因所在的每一行取出，组合起来为一个新的表达矩阵
n=t(scale(t(log(dat+1))))#'scale'可以对log-ratio数值进行归一化
n[n>2]=2
n[n<-2]=-2
n[1:4,1:4]
pheatmap(n,show_colnames=F,show_rownames=F)
group_list=datTraits$subtype
ac=data.frame(g=group_list)
rownames(ac)=colnames(n)
pheatmap(n,show_colnames=F,show_rownames=F,
annotation_col=ac)
#可以很清晰的看到，所有的形状相关的模块基因
#其实未必就不是差异表达基因。
}

有了基因信息，下游分析就很简单了。包括GO/KEGG等功能数据库的注释

Step9: 模块的导出

主要模块里面的基因直接的相互作用关系信息可以导出到cytoscape,VisANT等网络可视化软件。

#Recalculatetopologicaloverlap
TOM=TOMsimilarityFromExpr(datExpr,power=6);
#Selectmodule
module='brown';
#Selectmoduleprobes
probes=colnames(datExpr)##我们例子里面的probe就是基因名
inModule=(moduleColors==module);
modProbes=probes[inModule];
##也是提取指定模块的基因名
#SelectthecorrespondingTopologicalOverlap
modTOM=TOM[inModule,inModule];
dimnames(modTOM)=list(modProbes,modProbes)
##模块对应的基因关系矩阵

首先是导出到VisANT

vis=exportNetworkToVisANT(modTOM,
file=paste('VisANTInput-',module,'.txt',sep=''),
weighted=TRUE,
threshold=0)

然后是导出到cytoscape

cyt=exportNetworkToCytoscape(
modTOM,
edgeFile=paste('CytoscapeInput-edges-',paste(module,collapse='-'),'.txt',sep=''),
nodeFile=paste('CytoscapeInput-nodes-',paste(module,collapse='-'),'.txt',sep=''),
weighted=TRUE,
threshold=0.02,
nodeNames=modProbes,
nodeAttr=moduleColors[inModule]
);

如果模块包含的基因太多，网络太复杂，还可以进行筛选，比如：

nTop=30;
IMConn=softConnectivity(datExpr[,modProbes]);
top=(rank(-IMConn)<=nTop)
filter<-modTOM[top,top]

后面就是cytoscape自身的教程了，这里不再赘述，我博客有比较详尽的介绍。

公众号推文在：

如果你完全看不懂本文，下面的课程你可能会需要！

全国巡讲第17站

全国巡讲第18站

	课程内容
１	生信－R语言入门
２	GEO数据库挖掘
３	生信－LINUX基础
４	转录组课题设计和流程分析

小惊喜

如果你精选10篇我们生信技能树2019对你帮助最大的推文教程，发到我邮箱 jmzeng1314@163.com 并且写出你的故事，就有惊喜哦！

你可能想看：

转录组专题-WGCNA分析

在该方法中module被定义为一组具有类似表达谱的基因，如果某些基因在一个生理过程或不同组织中总是具有相类似的表达变化，将模式相似的基因归为一个模块（module），只有当基因间的Person Coe...

一文看懂2019全球AI芯片产业链全局

全球AI芯片领域仍未形成牢固的技术壁垒，传统芯片厂商、科技巨头、应用层厂商及初创企业纷纷开始涉足其中，AI芯片在构架、功能和场景上存在较大差异，就能发现AI芯片产业链的格局，专用集成电路）和类脑芯片（...

看懂舌相知病情，幸福一生全家安！--看懂舌象辩清前列腺炎的轻重！

如果想看更多前列腺炎治疗康复保养饮食禁忌和前列腺炎治疗的经典中药方剂等等的好文章，其实我们每天对身体的感觉、看到自己的样子、脸色、舌相、手相、指甲颜色、嘴唇颜色，现在想想其实狗也懂得自己身体出问题了。...

高清跑狗图新版更新自动更新

：高清跑狗图新版更新自动更新随着信息技术的飞速发展，高清跑狗图新版更新自动更新功能已成为众多用户追求的目标，这一功能的实现，不仅极大地提升了用户体验,还为跑狗图的普及和应用带来了前所未有的便利，高清跑...

3D打印切片文件Gcode代码的解读

会先存储在一个循环队列缓存里再执行。（这条命令本来是为了让那些喜欢走折线路径的老机器走直线这个比较快的路径:并会在行进过程中挤出22.4mm的打印丝（注意。这串代码却会先设置1500毫米每分钟的进料...

第7讲 Vision Pro视觉工具 CogCaliperTool

致力于为学习ABB机器人与机器视觉的同道中人提供个人的经验，前面一讲介绍了康耐视visionPro视觉工具中的找圆工具CogFindCircleTool,经过前面的学习咱们现在应该能轻松的找到一张图像...

关于学习rkijgc的《利用必出两码组10个复式，下期必出》的想法及请教

下期必出》这个帖子，也看了跟贴朋友的帖子，好像有很多朋友都没有看明白这贴子的意思吧，也许是我理解错了……，以这帖子的意思是将奖号加111，也就是以此类推加出十个组合数来。再之后进行组合，有朋友说这是万...

118图库彩图258cn最新版本

18图库彩图258cn最新版本随着科技的不断发展,118图库彩图258cn也在不断更新迭代，最新版本的118图库彩图258cn在功能和用户体验上都有了显著的提升，新版本增加了更多的图片分类，用户可以根...

一文读懂：各个年龄膝部疼痛的分析与诊疗

患儿常会说膝关节附近有酸痛现象，疼痛的部位也不会有红肿或发热的现象;以免被误诊为生长痛而是骨癌病例;病因主要是髌韧带的胫骨结节附着处发生肌腱炎、腱鞘炎或肌腱下滑囊炎，病患常有创伤病史;大多因为膝关节于...

二四六天天彩246cn香港2

四六天天彩246cn香港2,这个独特的数字组合不仅代表着一种特定的信息编码，更蕴含着深远的文化意义和历史背景，在香港这个繁华的国际大都市中，每一个数字都承载着丰富的故事和情感，二四六天天彩246cn香...

118图库彩图258cn

数字时代，信息的传播速度和广度前所未有地扩展，118图库彩图258cn作为一家知名的图片分享平台，以其丰富的资源库和便捷的检索功能，吸引了全球数以万计的用户，该网站不仅提供高质量的图片下载服务,还通过...

118图库118论坛118网址之家258cn

18图库118论坛118网址之家258cn,一个集图片分享、论坛交流、网址导航于一体的综合性平台，自推出以来便以其丰富的内容和便捷的服务赢得了广大用户的青睐，在这个信息爆炸的时代，人们对于获取信息的速...

246.cn下载

数字化时代,下载成为了我们日常生活中不可或缺的一部分，无论是工作学习的资料、娱乐消遣的电影音乐，还是日常所需的应用程序，我们都习惯于从网上寻找并下载到本地设备上，而在众多的下载平台中，246.cn以其...

246cn官方网站

46cn官方网站,作为一家专注于提供高质量网络服务的平台，始终致力于为广大用户提供便捷、高效的在线体验，该网站不仅拥有丰富的内容资源，还具备强大的技术支持和优质的服务团队，确保每一位访问者都能在这里找...

246,cn官方版

246,cn官方版：引领数字时代的先锋平台在数字化浪潮席卷全球的今天,246,cn官方版以其卓越的性能、丰富的功能和高度的安全性，成为了众多用户心中的首选，作为一款集多功能于一体的综合性服务平台，24...

图库55125CNapp下载

55125CNapp下载随着智能手机的普及,人们越来越依赖移动应用来满足各种需求，图库类应用因其方便、快捷的特点而备受欢迎，我们要介绍的是一款名为“图库55125CN”的应用，它为用户提供了丰富的图片...

www.6374.cn刘伯温免费网站

当今信息爆炸的时代，互联网成为了人们获取知识、娱乐和学习的重要平台，www.6374.cn刘伯温免费网站便是这样一个集知识分享与文化传播为一体的综合性网站，它以古代智者刘伯温命名，寓意着智慧与谋略的结...

53040mm.cn网站资料

3040mm.cn网站资料是一个专注于提供详尽、准确且及时的各类信息的平台，无论是行业动态、专业知识还是实用指南，这个网站都能为用户提供丰富的资源，它涵盖了多个领域，包括但不限于科技、教育、健康、生活...

290123.cn免费网站查询

当今信息化时代，网络资源的获取变得前所未有的便捷，290123.cn免费网站查询作为一个高效的工具，为广大网民提供了一个快速检索各类信息的平台，无论是学术研究、工作资料还是生活娱乐,这个网站都能提供丰...

232398.cn雷锋网

cn雷锋网,作为科技领域的先锋媒体，一直致力于为广大网友提供最前沿的科技资讯、深度的行业分析以及丰富的技术交流平台，在这个信息爆炸的时代，232398.cn雷锋网如同一盏明灯，照亮了无数科技爱好者和行...

118网址之家258cn官方app

18网址之家258cn官方app是一款集网址导航、搜索服务与个性化推荐于一体的多功能网络工具，在这个信息爆炸的时代，人们每天需要面对海量的网络资源和复杂的网页链接，而118网址之家258cn官方app...

118图库彩图258cni

18图库彩图258cni,作为互联网上一个广受欢迎的图片分享平台，以其丰富多样的内容和便捷的访问方式吸引了无数用户，这个平台不仅提供了海量的高质量图片资源，还通过精心的分类和标签系统，让用户能够轻松找...

118图库彩图258cn论坛

当今数字化时代，网络论坛已成为人们分享信息、交流思想的重要平台，118图库彩图258cn论坛以其丰富的内容和活跃的用户群体,成为了众多网友喜爱的聚集地，118图库彩图258cn论坛是一个集图片、资讯、...

118图库彩图258cn技巧

数字时代,118图库彩图258cn技巧已经成为许多人获取信息和娱乐的重要途径，这个平台不仅提供了丰富的图片资源，还蕴含了许多实用的技巧，帮助用户更好地利用这些资源，了解118图库彩图258cn的基本操...

118图库彩图258cn论坛最新消息

18图库彩图258cn论坛最新消息118图库彩图258cn论坛发布了一则令人瞩目的最新消息，该消息透露了一项重大更新和一系列即将上线的新功能,引发了广泛关注和热议，据悉，118图库彩图258cn论坛一...

118图库彩图258cn使用方法

18图库彩图258cn使用方法在当今信息爆炸的时代，网络资源丰富多样，其中118图库彩图258cn作为一个知名的图片分享平台，为广大用户提供了海量的高质量图片资源，无论是设计师寻找灵感，还是普通用户想...

矩阵

上一篇
Excel教程：撤销键不见了，试试这样找回

下一篇
道家补肾强精秘法：

一文看懂WGCNA 分析(2019更新版)

最新文章

港澳宝典资料网站

港澳宝典2

港澳宝典资料大全集

十四经穴位分寸歌

港奥宝典资料免费大全

《清单人生》：人生永远没有太晚的开始，你会活成什么样，都在你...

【原创】教师，其实很平凡

港澳宝典免费资料库

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

荨麻疹图片和症状：手脸脖子荨麻疹初期症状图片大全

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子