收藏小工具

基于深度学习的基因注释工具(Helixer)

Helixer 是一款利用深度学习技术,仅凭 FASTA 文件就能跨物种生成高质量基因注释的“黑科技”工具,特别适合快速构建新测序基因组的初级注释版本。
本流程已累计运行2次。
基因组与功能注释
请选择计算文件

运行状态

计算结果

下载计算结果

Helixer 是一款基于深度学习的真核生物基因组结构注释工具。它最大的特点是仅需基因组 DNA 序列(FASTA 格式,建议优先提交RepeatMasker 软屏蔽后的基因组,无需任何 RNA-seq 或同源蛋白数据,就能完成高质量的基因预测,并直接输出标准的 GFF3 注释文件。


传统注释工具(如 AUGUSTUS、GeneMark-ES)往往依赖物种特定的参数训练或外部证据(如转录组数据),流程复杂且耗时。Helixer 的出现,旨在为缺乏参考基因组或实验数据的物种提供一套“开箱即用”的通用解决方案。

Helixer 的工作流程分为两个核心阶段,这也是它区别于传统工具的关键:

1. 深度学习预测(CNN + BiLSTM):

输入:基因组 DNA 序列(One-hot 编码)。

模型:结合卷积神经网络(CNN)捕捉局部序列模式(如密码子、剪接位点),以及双向长短期记忆网络(BiLSTM)捕捉长距离依赖关系(如基因边界)。

输出:对每个碱基进行分类,预测其属于基因间区、UTR、CDS(编码区)还是内含子,并判断编码相位。

2. HMM 后处理(HelixerPost):

利用隐马尔可夫模型(HMM)对深度学习输出的概率进行平滑和修正。

强制施加生物学规则(如“起始密码子必须是 ATG”、“内含子必须以 GT-AG 结尾”),确保输出的基因模型符合真实的生物学语法,避免出现非法的基因结构。


关键特性与优势:

  1. 跨物种通用性,提供四大预训练模型:vertebrate(脊椎动物)、land_plant(陆地植物)、fungi(真菌)、invertebrate(无脊椎动物),无需针对新物种重新训练模型,直接选择对应谱系即可运行;
  2. 纯序列驱动,完全依赖 DNA 序列信息,不依赖转录组或同源证据,适用于非模式生物化石/降解样本的基因组分析;
  3. 高精度与效率:在植物和脊椎动物测试中,准确率显著高于传统工具;注释人类基因组(3.3Gb)仅需数小时;
  4. 标准化输出:直接生成 GFF3 格式文件,包含完整的基因、mRNA、外显子、CDS 结构。


参考文献:

Felix Holst, Anthony M. Bolger, Felicitas Kindel, Christopher Günther, Janina Maß, Sebastian Triesch, Niklas Kiel, Nima Saadat, Oliver Ebenhöh, Björn Usadel, Rainer Schwacke, Andreas P. M. Weber, Marie E. Bolger, Alisandra K. Denton. "Helixer: ab initio prediction of primary eukaryotic gene models combining deep learning and a hidden Markov model." Nat Methods (2025). DOI: https://doi.org/10.1038/s41592-025-02939-1


软件版本:Helixer.py 0.3.6

暂无内容