宏基因组数据真核序列识别（Tiara）_密码子·生信云-专业的微生物组分析平台

结果文件
使用指南
版本记录
联系客服

请选择计算文件

运行状态

计算结果

下载计算结果

Tiara 是一款专为宏基因组（Metagenomics）数据设计的深度学习序列分类工具，旨在高效、精准地识别并分离环境样本中的真核生物（Eukaryota）及其细胞器（Organelles）序列。

随着长读长测序技术（如 PacBio HiFi, Oxford Nanopore）的普及，宏基因组组装常产生大量未被注释的长片段 contigs。传统的基于比对的筛选方法计算成本高且对 novel 序列敏感度低。Tiara 利用深度神经网络（Deep Neural Network）直接从序列组成中学习特征，解决了这一痛点。

核心功能

多标签分类：将输入的 DNA 序列精确分类为六大类别：
- 古菌 (Archaea)
- 细菌 (Bacteria)
- 原核生物 (Prokaryota)
- 真核生物 (Eukaryota)
- 细胞器 (Organellar)
- 未知 (Unknown)
细胞器细分：针对宏基因组研究中分离核基因组与细胞器基因组的难点，Tiara 提供二级分类，将细胞器序列进一步细分为线粒体 (Mitochondria)、质体/叶绿体 (Plastid) 和未知。

技术优势

深度学习驱动：相比基于 k-mer 频率的传统工具（如 EukRep），Tiara 的深度学习模型在处理高噪音、高重复序列及短片段时具有更高的准确率。
长读长优化：针对 ≥3kbp 的长序列进行了优化，能够有效处理三代测序组装结果。
高效轻量：基于 PyTorch 实现，支持多线程 CPU 推理，无需 GPU 即可快速完成大规模数据集的分类。

典型应用场景

真核宏基因组学：从土壤、海洋或宿主相关样本中快速提取真核生物序列，排除细菌和古菌干扰。
细胞器基因组学：辅助组装植物或藻类基因组时，分离叶绿体和线粒体序列。
数据清洗：在下游分析（如基因预测、功能注释）前，对混合数据集进行质量控制与分类。

注：

Tiara 强烈依赖 k-mer 分布统计特征，官方推荐最小序列长度 ≥3 kb，最佳效果在 5–10 kb 以上；

Tiara 的训练集以 RefSeq 中常见的模式真核生物为主（如酵母、绿藻等），对高等植物核基因组、某些原生动物（如阿米巴、纤毛虫）及高度分化/低 GC 含量类群的识别准确率偏低，可能出现漏检（低召回率）；

核基因组中嵌入的线粒体/叶绿体 DNA 片段（Nuclear Mitochondrial Sequences / Nuclear Plastid Sequences）可能被误分为 Organellar 而非 Eukaryotic。

参考文献：

Michał Karlicki, Stanisław Antonowicz, Anna Karnkowska, Tiara: deep learning-based classification system for eukaryotic sequences, Bioinformatics, Volume 38, Issue 2, January 2022, Pages 344–350, https://doi.org/10.1093/bioinformatics/btab672
软件版本：tiara 1.0.3

暂无内容

客服电话：
15618809518
客服手机：
15618809518（微信同号）
联系邮箱：
marketing@winnerbio.cn
客服微信：
微信公众号：