Tiara 是一款专为宏基因组(Metagenomics)数据设计的深度学习序列分类工具,旨在高效、精准地识别并分离环境样本中的真核生物(Eukaryota)及其细胞器(Organelles)序列。
随着长读长测序技术(如 PacBio HiFi, Oxford Nanopore)的普及,宏基因组组装常产生大量未被注释的长片段 contigs。传统的基于比对的筛选方法计算成本高且对 novel 序列敏感度低。Tiara 利用深度神经网络(Deep Neural Network)直接从序列组成中学习特征,解决了这一痛点。
多标签分类:将输入的 DNA 序列精确分类为六大类别:
古菌 (Archaea)
细菌 (Bacteria)
原核生物 (Prokaryota)
真核生物 (Eukaryota)
细胞器 (Organellar)
未知 (Unknown)
细胞器细分:针对宏基因组研究中分离核基因组与细胞器基因组的难点,Tiara 提供二级分类,将细胞器序列进一步细分为线粒体 (Mitochondria)、质体/叶绿体 (Plastid) 和 未知。
深度学习驱动:相比基于 k-mer 频率的传统工具(如 EukRep),Tiara 的深度学习模型在处理高噪音、高重复序列及短片段时具有更高的准确率。
长读长优化:针对 ≥3kbp 的长序列进行了优化,能够有效处理三代测序组装结果。
高效轻量:基于 PyTorch 实现,支持多线程 CPU 推理,无需 GPU 即可快速完成大规模数据集的分类。
真核宏基因组学:从土壤、海洋或宿主相关样本中快速提取真核生物序列,排除细菌和古菌干扰。
细胞器基因组学:辅助组装植物或藻类基因组时,分离叶绿体和线粒体序列。
数据清洗:在下游分析(如基因预测、功能注释)前,对混合数据集进行质量控制与分类。
Tiara 强烈依赖 k-mer 分布统计特征,官方推荐最小序列长度 ≥3 kb,最佳效果在 5–10 kb 以上;
Tiara 的训练集以 RefSeq 中常见的模式真核生物为主(如酵母、绿藻等),对高等植物核基因组、某些原生动物(如阿米巴、纤毛虫)及高度分化/低 GC 含量类群的识别准确率偏低,可能出现漏检(低召回率);
核基因组中嵌入的线粒体/叶绿体 DNA 片段(Nuclear Mitochondrial Sequences / Nuclear Plastid Sequences)可能被误分为 Organellar 而非 Eukaryotic。
参考文献:
Michał Karlicki, Stanisław Antonowicz, Anna Karnkowska, Tiara: deep learning-based classification system for eukaryotic sequences, Bioinformatics, Volume 38, Issue 2, January 2022, Pages 344–350, https://doi.org/10.1093/bioinformatics/btab672
软件版本:tiara 1.0.3