CheckV 是一款用于病毒基因组质量评估和完整性分析的自动化工具,尤其适用于宏基因组组装的病毒序列鉴定。
一、核心功能
宿主污染去除:通过比对病毒特异性HMM模型和宿主基因组数据库,识别并去除整合原病毒(provirus)两侧的宿主区域。
基因组完整性评估:
(1)AAI方法:基于与完整病毒基因组的平均氨基酸同一性(AAI),估算预期基因组长度,判断完整性(如>90%为高置信度)。
(2)HMM方法:通过病毒标记基因的覆盖度补充评估,适用于无近缘参考基因组的序列。
封闭基因组识别:检测直接/反向末端重复序列(DTR/ITR),结合重复序列的碱基模糊度(如Ns比例≤20%)和模式频率(如单碱基重复≤75%),判断是否为完整病毒基因组。
质量分层:将结果分为五类:完整(高/中置信度)、高质量(>90%完整性)、中等质量(50-90%)、低质量(<50%)、未确定
二、输出结果主要文件
quality_summary.tsv:综合质量评估结果(完整性、置信度、污染状态等)。
contig.tsv:每个contig的详细注释(基因数量、宿主基因比例等)。
completeness.tsv:完整性估算方法(AAI/HMM)及置信度。
三、输入文件格式
需输入组装后的基因组FastA格式文件,后缀名为*.fasta、*.fas、*.fa、*.fnn等。
当前版本为1.0版本,上架时间为:2025-05-26