本工具用于宏病毒组数据的质量评估和前病毒检测,识别候选病毒序列的外源污染(如宿主DNA、质粒)或前噬菌体(Provirus),确保数据纯净性。
示例文件:
待注释contig文件,后缀名为*.fasta、*.fa、*.fas、*.fna、*.fnn等,提交文件后设置长度截止阈值,要求>=3000bp,如:3000

小工具结果:
contamination_prediction.tsv:候选病毒序列信息

Accession:输入序列的编号或名称;Length:输入序列的长度;Total_genes:序列中的基因数量(由 prodigal-gv 预测);Viral_genes:病毒标记基因的数量;Prokaryotic_genes:原核生物标记基因的数量;Kmer_freq:20-mer的平均频率,此数值用于估算基因的拷贝数,通常,99.9%病毒的Kmer_freq值小于1.25;Contamination:污染状态;Provirus:序列是否为前病毒;Pure_viral:病毒纯度(高质量、中等质量或低质量)。
参考文献:
Nayfach, S., Camargo, A. P., Schulz, F., Eloe-Fadrosh, E., Roux, S., & Kyrpides, N. C. (2021). CheckV assesses the quality and completeness of metagenome-assembled viral genomes. Nature biotechnology, 39(5), 578-585.
Arndt, D., Grant, J., Marcu, A., Sajed, T., Pon, A., Liang, Y., Wishart, D.S. (2016) PHASTER: a better, faster version of the PHAST phage search tool. Nucleic Acids Res., 2016 May 3.