收藏小工具

加权基因共表达网络分析 (WGCNA)

加权基因共表达网络分析(WGCNA,Weightedcorrelationnetworkanalysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集,并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。本工具可以从基因表达矩阵中识别共表达模块,并与性状数据关联分析,最终输出网络可视化结果和模块特征信息。
本流程已累计运行4次。
统计与绘图
请选择计算文件

运行状态

计算结果

下载计算结果

加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。

该分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。

适用于复杂的数据模式,推荐5组(或者15个样品)以上的数据。一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。


原理:

从方法上来讲,WGCNA分为表达量聚类分析和表型关联两部分,主要包括基因之间相关系数计算、基因模块的确定、共表达网络、模块与性状关联四个步骤。

第一步计算任意两个基因之间的相关系数(Person Coefficient)。为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。但是这样如果将阈值设为0.8,那么很难说明0.8和0.79两个是有显著差别的。因此,WGCNA分析时采用相关系数加权值,即对基因相关系数取N次幂,使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks),这种算法更具生物学意义。

第二步通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样就可以将几万个基因通过基因表达模式被分成了几十个模块,是一个提取归纳信息的过程。


输入文件:

① 基因表达矩阵文件,即基因在行,样品在列,制表符分隔文件(expression.txt/tsv/xls)

② 性状数据文件路径用于关联分析的性状必须是数值型特征,制表符分隔文件(traits.txt/tsv/xls)


小工具结果:

原始数据(01_*)

01_original_expression_data.csv:原始基因表达矩阵

01_original_trait_data.csv:原始性状数据


数据预处理(02_*)

02_filtered_expression_data.csv:过滤缺失值后的表达数据

02_gene_expression_statistics.csv:包含每个基因的平均表达量、是否保留等统计信息

02_expression_data_after_mean_filter.csv:移除低表达基因(平均表达量低于设定阈值)后的数据

02_removed_genes_due_to_missing.csv(如有):因缺失值被移除的基因列表

02_removed_samples_due_to_missing.csv(如有):因缺失值被移除的样本列表


样本质量控制(03_*)

03_sample_clustering_info.csv:样本聚类信息,每个样本的聚类标签和是否属于主集群

03_detected_outlier_samples.csv(如检测到离群样本):被识别为离群样本的名称和所属聚类

03_expression_data_after_outlier_removal.csv:过滤离群样本后的基因表达矩阵

03_trait_data_after_outlier_removal.csv:移除离群样本后的性状数据

03_sample_clustering.pdf/png:样本聚类树状图


横轴是样本编号,纵轴(Height)是样本间的“距离”(距离低=表达模式相似,距离高=差异大)。如果看到一小撮样本(比如5个)孤零零地聚成一堆,且高度远高于其他大部分样本(如超过设定的红色警戒线),它们就是离群样本,可能是RNA质量差、样本搞混或批次效应导致的,必须移除,否则会扭曲后续分析。


性状数据匹配(04_*)

04_trait_data_after_sample_matching.csv:样本匹配后的性状数据

04_sample_dendrogram_trait_heatmap.pdf/png:样本聚类树叠加性状热图的可视化


网络参数选择(05_*)

05_soft_threshold_selection_results.csv:不同软阈值下的无标度拓扑拟合指数、平均连通性等统计量

05_soft_threshold_selection.pdf/png:展示不同软阈值下的无标度拓扑拟合和平均连通性


WGCNA的核心参数是软阈值β(beta),它决定了如何将基因间的相关性转化为网络连接权重:

β太小:保留过多弱相关,网络过于密集,噪音大;β太大:过度过滤,丢失有用信息,网络过于稀疏;β合适:去除噪音,保留真实的共表达信号。

  • 左图看网络是否符合“无尺度”特征,纵轴(R²):衡量网络与真实生物网络的相似度(R² ≥ 0.8为合格),一般情况:R² = 1 完美匹配(实际达不到) R² ≥ 0.8 基本合格 R² < 0.7 可能有问题。横轴(Power):不同的β值(1-20)。
  • 右图看网络会不会太稀疏。纵轴:平均连接度(每个基因平均连了几个其他基因);趋势:β越大,连接度越低(因为弱连接都被过滤掉了)。通过这两张图的平衡,找到最佳的β值(本例中β=6是最佳选择),它决定了基因间强弱相关性的权重分配。


模块识别(06_*)

06_initial_module_assignment.csv:动态树剪切后每个基因的初始模块归属

06_initial_module_eigengenes.csv:每个样本在各个初始模块的特征向量值

06_merged_module_assignment.csv:模块合并后每个基因的最终模块归属

06_merged_module_eigengenes.csv:最终模块的特征向量值

06_module_eigengene_dissimilarity.csv:模块特征向量相异性矩阵,各模块特征向量之间的相异性(1-相关性)

06_module_eigengene_clustering.pdf/png:模块特征向量的聚类树状图及合并阈值线


模块分析(07_*)

07_module_summary_statistics.csv:各模块包含的基因数、比例等统计信息

07_gene_dendrogram_module_colors.pdf/png:基因聚类树叠加模块颜色标签


上半部分是基因聚类树,靠得近的基因表达模式相似;下半部分的每条彩带代表一个共表达模块(如Turquoise、Blue模块),每个颜色代表一个可能具有特定生物学功能的基因集。好的模块特征是大小适中(30-500个基因)且边界清晰。

07_module_size_distribution.pdf/png:模块大小分布图


性状关联(08_*)

08_module_trait_correlation.csv:各模块特征向量与各性状变量的相关系数

08_module_trait_pvalue.csv:模块-性状相关性P值矩阵

08_significant_module_trait_correlations.csv:显著模块-性状关联列表,满足特定阈值(|r|>0.5, p<0.05)的显著关联

08_module_trait_relationships.pdf/png:模块与性状相关性热图,包含相关性和显著性标记

每一行是一个模块,每一列是一个表型(如疾病状态、年龄)。格子的颜色代表相关性:红色是正相关,蓝色是负相关,颜色越深相关性越强。格子里数字是相关系数和p值。


网络可视化(09_*)

09_final_gene_module_membership.csv:最终基因-模块对应关系

09_final_module_eigengenes.csv:最终模块特征向量

09_expression_data_sorted_by_module.csv:基因按模块归属重新排序的表达矩阵

09_module_membership_kME.csv:每个基因在各个模块中的成员值

09_hub_genes_summary.csv:各模块中kME值最高的基因列表

09_intramodular_connectivity_details.csv:每个基因的总连接度、模块内连接度、模块间连接度

09_cytoscape_nodes.csv:Cytoscape节点文件,包含节点属性的网络可视化数据

09_cytoscape_edges.csv:Cytoscape边文件,包含边权重的网络连接数据

cytoscape_import_instructions.txt:Cytoscape导入说明

09_network_heatmap_tom_plot.pdf/png:拓扑重叠矩阵的热图展示

09_eigengene_network.pdf/png:模块特征向量之间的关联网络

09_hub_genes_kme_distribution.pdf/png:各模块hub基因模块成员值的箱线图

09_connectivity_distribution.pdf/png:总连接度、模块内连接度等的分布直方图

09_hub_network_<模块名>.pdf/png:各模块hub基因的连接网络图


分析总结(10_*)

10_analysis_parameters_summary.csv:所有分析参数设置和最终数据统计


软件版本:WGCNA包(v1.74)



暂无内容