统计FastQ,FastA文件信息_密码子·生信云-专业的微生物组分析平台

结果文件
使用指南
版本记录
联系客服

请选择计算文件

运行状态

计算结果

下载计算结果

统计FastQ,FastA文件信息。支持指定单个序列文件或包含需统计序列的文件夹。

注：当输入文件为文件夹时，指定的文件夹中要求仅包含所需统计的序列文件。

下面是每一列的含义：

1. file

描述：文件名。

含义：这个列表示输入文件的名称，通常是 FASTA 文件名。在你的例子中是 input.fasta。

2. format

描述：文件格式。

含义：这个列描述输入文件的格式。在此例中，文件格式为 FASTA，这是一种常见的生物信息学文件格式，用于存储 DNA、RNA 或蛋白质序列。

3. type

描述：序列类型。

含义：这个列表示序列的类型，通常是 DNA、RNA 或 protein。在此例中，类型为 DNA，表示该文件包含的是 DNA 序列。

4. num_seqs

描述：序列数量。

含义：该列表示 FASTA 文件中包含的序列数。在你的例子中，这个值是 15000，意味着文件中包含 15000 个 DNA 序列。

5. sum_len

描述：序列总长度。

含义：该列表示所有序列的总和长度，即所有序列的碱基数之和。在这个例子中，总长度是 1515000，表示文件中所有 DNA 序列的总碱基数为 1515000 个。

6. min_len

描述：最短序列的长度。

含义：该列表示文件中最短的序列的长度。在此例中，最短的 DNA 序列长度是 101 个碱基。

7. avg_len

描述：平均序列长度。

含义：该列表示所有序列的平均长度。它通过 sum_len / num_seqs 计算得出。在此例中，平均长度为 101.0，即所有序列的平均长度是 101 个碱基。

8. max_len

描述：最长序列的长度。

含义：该列表示文件中最长的序列的长度。在此例中，最长的序列长度为 101，表明文件中的所有序列长度是相同的（101 个碱基）。

9. Q1

描述：第一四分位数（25%）。

含义：该列表示序列长度的第一四分位数，通常是指序列长度小于该值的 25% 的序列的长度。此值为 101.0，意味着 25% 的序列长度小于等于 101 个碱基。

10. Q2

描述：中位数（50%）。

含义：该列表示序列长度的中位数，50% 的序列长度小于等于此值。此值为 101.0，意味着一半的序列长度小于等于 101 个碱基。

11. Q3

描述：第三四分位数（75%）。

含义：该列表示序列长度的第三四分位数，通常是指序列长度小于该值的 75% 的序列的长度。此值为 101.0，意味着 75% 的序列长度小于等于 101 个碱基。

12. sum_gap

描述：序列中缺失（Gap）部分的总长度。

含义：该列表示文件中所有序列的缺失部分（如果有）的总长度。缺失部分通常由“gap”字符（如 N）表示。在你的例子中为 0，表示所有序列都没有缺失部分。

13. N50

描述：N50 值。

含义：N50 是一个常见的统计值，表示在文件中，至少有一半的序列总长度包含在长度大于或等于 N50 的序列中。在此例中，N50 值为 101，说明文件中一半的序列长度大于或等于 101 个碱基。

14. Q20(%)

描述：Q20 度量的百分比。

含义：Q20 是指质量值大于等于 20 的序列的百分比。在 DNA 测序中，Q20 表示序列质量相对较高，通常表示碱基呼叫的正确性为 99%。在此例中，Q20 的百分比为 0.00，表示所有序列的质量评分低于 Q20，或者没有满足 Q20 的序列。

15. Q30(%)

描述：Q30 度量的百分比。

含义：Q30 是指质量值大于等于 30 的序列的百分比。在 DNA 测序中，Q30 表示非常高的质量（99.9% 的准确度）。在此例中，Q30 的百分比为 0.00，表示没有序列达到 Q30 的质量要求。

16. GC(%)

描述：GC 含量百分比。

含义：该列表示文件中所有序列的平均 GC 含量百分比。GC 含量表示 DNA 序列中含有的鸟嘌呤（G）和胞嘧啶（C）碱基的比例。在此例中，GC 含量为 45.35%，表示该文件中 DNA 序列的平均 GC 含量为 45.35%。

当前版本为1.0版本，上架时间为：2025-05-12

客服电话：
15618809518
客服手机：
15618809518（微信同号）
联系邮箱：
marketing@winnerbio.cn
客服微信：
微信公众号：