使用BUSCO 5.8.0(https://busco.ezlab.org/busco_userguide.html)软件对组装结果进行评估。
BUSCO 的核心思想是:在每个特定门类的物种中,都会保守存在一组"单拷贝直系同源基因"(Universal Single-Copy Orthologs)。这些基因如果缺失,通常意味着你的组装或注释存在缺失、错误或不完整。BUSCO 利用了来自 OrthoDB 数据库的高质量保守基因集,对输入的序列进行比对,从而评估其完整性。
参考文献:
Mosè Manni, Matthew R Berkeley, Mathieu Seppey, Felipe A Simão, Evgeny M Zdobnov, BUSCO Update: Novel and Streamlined Workflows along with Broader and Deeper Phylogenetic Coverage for Scoring of Eukaryotic, Prokaryotic, and Viral Genomes
输入文件:
基因组组装结果(fasta格式),可以是真核基因组组装结果,也可以是原核基因组组装结果。如果输入的是真核基因组组装结果,lineage选择“auto-lineage-euk”,如果输入的是原核基因组组装结果,lineage选择“auto-lineage-prok”。
输出结果:
short_summary.specific.*.txt
前5行为软件运行的基本信息,下方为运行的主要结果。
C-即完整性(Complete),n:1897,表示在BUSCO数据库中有1897个基因,检测完整的有1874个,所以整体上的完整性为98.8%;
S-表示完整且单拷贝的基因,D-表示完整且多拷贝的基因,C=S+D
F-表示只匹配到部分序列,不完整的基因
M-表示完全缺失的基因
n-表示该数据库包含的基因总数
C+F+M=100%
此版本为1.0,上架时间为20250616