收藏小工具

CheckM基因组质量评估(基于分类学流程推断的标记集合)

本工具使用CheckM分类学流程推断的标记集合评估基因组质量,从分离株、单细胞或宏基因组中获得的基因组(*.fna),将所需评估的序列上传到同一文件夹中,并在任务提交界面”选择“该文件夹,并指定分类水平(class)和对应分类单元(Gammaproteobacteria)。
本流程已累计运行7次。
基因组评估
请选择计算文件

运行状态

计算结果

下载计算结果

基因组质量评估(checkm-基于分类学流程推断的标记集合),CheckM利用基因的单拷贝性来有效的评估基因组草图的质量,包括完整度、污染度序列分布等。包括 lineage_wf 和 taxonomy_wf 两种确定基因组标记基因集合的方法。lineage_wf将bins放入系统发育树依据系统发育关系推断的标记集合,taxonomy_wf 使用分类数据库根据物种已知分类学进行推断的标记集合。


输入文件:

从分离株、单细胞或宏基因组中获得的基因组(*.fna),将所需评估的序列上传到同一文件夹中,并在任务提交界面”选择“该文件夹,并指定分类水平(class)和对应分类单元(Gammaproteobacteria)


输出文件:

  • bins/*/:-nt的基因预测结果; 
  • storage:下为每个bin详细评估信息; 
  • storage/bin_stats.analyze.tsv :bin基础信息统计; 
  • storage/bin_stats.tree.tsv:每个bin在发育树中的位置;
  • storage/bin_stats_ext.tsv:bin对应的基因集; 
  • storage/marker_gene_stats.tsv:每个bin的序列上marker基因比对信息;
  • taxonomy_wf.txt:结果汇总

Bin Id: 每个基因组组装片段(bin)的唯一标识符,用于区分不同的样本或组装结果。例如,2012990006 和 637000110。 Marker lineage: 标记序列的分类谱系信息,表示该 bin 的分类级别和名称。例如,Gammaproteobacteria (2) 表示该 bin 属于伽马变形菌门(Gammaproteobacteria),括号中的数字可能表示特定分类子集或版本。 # genomes: 使用该 bin 的基因组数量,表示与该 bin 相关联的基因组总数。例如,1167 表示有 1167 个基因组与该 bin 相关。 # markers: 总的标记基因数量,表示用于分类的标记基因总数。例如,280 表示共有 280 个标记基因。 # marker sets: 标记基因集合的数量,可能表示不同的标记基因组或子集,用于评估分类的多样性或一致性。例如,178。 0, 1, 2, 3, 4, 5+: 表示标记基因数量的分布,分别对应 0、1、2、3、4、5 个或更多标记基因的 bin 数量。这些列反映了每个 bin 中标记基因的覆盖情况。例如:     对于 2012990006,278 个 bin 有 0 个标记基因,2 个 bin 有 2 个标记基因,其余为 0。     对于 637000110,280 个 bin 有 1 个标记基因,其余为 0。 Completeness: 基因组完整性百分比,表示 bin 中包含的标记基因占预期标记基因的比例。例如,0.28 表示 28% 的完整性,100 表示 100% 完整。 Contamination: 污染百分比,表示 bin 中可能来自其他物种的标记基因比例。例如,0.28 表示 28% 的污染,0 表示无污染。 Strain heterogeneity: 株异质性百分比,表示 bin 中不同株的多样性或变异程度。例如,100 表示完全异质性,0 表示无异质性。


数据解读: 1. 2012990006: 该 bin 的完整性(0.28)较低,污染(0.28)与完整性相等,株异质性(100)较高,标记基因分布显示大多数 bin 无标记基因(278 个为 0),只有少数有 2 个标记基因。这可能表明该 bin 质量较低,存在污染和多样性。 2. 637000110: 该 bin 完整性(100)很高,无污染(0),株异质性(0)为零,标记基因分布显示所有 280 个 bin 都有 1 个标记基因。这表明该 bin 质量较高,分类一致性好。


软件版本:CheckM v1.2.3


参考文献:

https://github.com/Ecogenomics/CheckM


当前版本为1.0版本,上架时间为:2025-05-27