基因组质量评估(checkm-依据系统发育关系推断的标记集合),CheckM利用基因的单拷贝性来有效的评估基因组草图的质量,包括完整度、污染度序列分布等。包括 lineage_wf 和 taxonomy_wf 两种确定基因组标记基因集合的方法。lineage_wf将bins放入系统发育树依据系统发育关系推断的标记集合,taxonomy_wf 使用分类数据库根据物种已知分类学进行推断的标记集合。
输入文件:
从分离株、单细胞或宏基因组中获得的基因组(*.fna),将所需评估的序列上传到同一文件夹中,并在任务提交界面”选择“该文件夹
输出文件:
列名 | 含义 |
Bin Id | 每个bin(基因组组装单元)的唯一标识符 |
Marker lineage | 该bin的分类信息(通常为系统发育标记基因的分类结果),括号内为唯一ID |
# genomes | 该分类下参考基因组的数量 |
# markers | 用于评估该分类的标记基因总数 |
# marker sets | 标记基因集合的数量(通常用于去冗余或分组) |
0, 1, 2, 3, 4, 5+ | 统计bin中标记基因在不同基因组中的分布情况。 |
例如“0”表示有多少marker set在bin中未被检测到,“1”表示有多少marker set只检测到1个副本,“2”表示检测到2个副本,依此类推,“5+”表示检测到5个及以上副本。 | |
Completeness | 完整性(%),表示bin中检测到的标记基因占该分类应有标记基因的比例 |
Contamination | 污染度(%),表示bin中多拷贝标记基因的比例,反映可能的污染或混合 |
Strain heterogeneity | 株异质性(%),表示bin中同一标记基因的多样性,反映是否有多个菌株混杂 |
数据解读:
Completeness 越高,说明bin越完整。 Contamination 越低,说明bin越纯净。 Strain heterogeneity 越低,说明bin中混杂的菌株越少。 0, 1, 2, 3, 4, 5+ 这些列可以帮助判断bin中标记基因的拷贝数分布,间接反映bin的纯度和完整性。
软件版本:CheckM v1.2.3
参考文献:
https://github.com/Ecogenomics/CheckM
当前版本为1.0版本,上架时间为:2025-05-27