收藏小工具

CheckM基因组质量评估(依据系统发育关系推断的标记集合)

本工具使用CheckM依据系统发育关系推断的标记集合评估基因组质量
本流程已累计运行3次。
基因组评估
请选择计算文件

运行状态

计算结果

下载计算结果

基因组质量评估(checkm-依据系统发育关系推断的标记集合),CheckM利用基因的单拷贝性来有效的评估基因组草图的质量,包括完整度、污染度序列分布等。包括 lineage_wf 和 taxonomy_wf  两种确定基因组标记基因集合的方法。lineage_wf将bins放入系统发育树依据系统发育关系推断的标记集合,taxonomy_wf 使用分类数据库根据物种已知分类学进行推断的标记集合。


输入文件:

从分离株、单细胞或宏基因组中获得的基因组(*.fna),将所需评估的序列上传到同一文件夹中,并在任务提交界面”选择“该文件夹


输出文件:

  • bins/*/:-nt的基因预测结果; 
  • storage:下为每个bin详细评估信息; 
  • storage/bin_stats.analyze.tsv :bin基础信息统计; 
  • storage/bin_stats.tree.tsv:每个bin在发育树中的位置; 
  • storage/bin_stats_ext.tsv:bin对应的基因集; 
  • storage/marker_gene_stats.tsv:每个bin的序列上marker基因比对信息;
  • bins_qa.txt:结果汇总

列名 含义
Bin Id 每个bin(基因组组装单元)的唯一标识符
Marker lineage 该bin的分类信息(通常为系统发育标记基因的分类结果),括号内为唯一ID
# genomes 该分类下参考基因组的数量
# markers 用于评估该分类的标记基因总数
# marker sets 标记基因集合的数量(通常用于去冗余或分组)
0, 1, 2, 3, 4, 5+ 统计bin中标记基因在不同基因组中的分布情况。
例如“0”表示有多少marker set在bin中未被检测到,“1”表示有多少marker set只检测到1个副本,“2”表示检测到2个副本,依此类推,“5+”表示检测到5个及以上副本。
Completeness 完整性(%),表示bin中检测到的标记基因占该分类应有标记基因的比例
Contamination 污染度(%),表示bin中多拷贝标记基因的比例,反映可能的污染或混合
Strain heterogeneity 株异质性(%),表示bin中同一标记基因的多样性,反映是否有多个菌株混杂


数据解读:

Completeness 越高,说明bin越完整。 Contamination 越低,说明bin越纯净。 Strain heterogeneity 越低,说明bin中混杂的菌株越少。 0, 1, 2, 3, 4, 5+ 这些列可以帮助判断bin中标记基因的拷贝数分布,间接反映bin的纯度和完整性。


软件版本:CheckM v1.2.3


参考文献:

https://github.com/Ecogenomics/CheckM

当前版本为1.0版本,上架时间为:2025-05-27