收藏小工具

统计FastQ,FastA文件信息

统计FastQ,FastA文件信息。输入文件为需要统计的fastq或fasta格式文件或包含所需统计文件的文件夹,会输出提供的文件中包含的序列条数、长度等信息,可用于对其进行描述和评估。
本流程已累计运行1次。
序列处理
请选择计算文件

运行状态

计算结果

下载计算结果

统计FastQ,FastA文件信息。支持指定单个序列文件或包含需统计序列的文件夹。

注:当输入文件为文件夹时,指定的文件夹中要求仅包含所需统计的序列文件。



下面是每一列的含义:

1. file

描述:文件名。

含义:这个列表示输入文件的名称,通常是 FASTA 文件名。在你的例子中是 input.fasta。

2. format

描述:文件格式。

含义:这个列描述输入文件的格式。在此例中,文件格式为 FASTA,这是一种常见的生物信息学文件格式,用于存储 DNA、RNA 或蛋白质序列。

3. type

描述:序列类型。

含义:这个列表示序列的类型,通常是 DNA、RNA 或 protein。在此例中,类型为 DNA,表示该文件包含的是 DNA 序列。

4. num_seqs

描述:序列数量。

含义:该列表示 FASTA 文件中包含的序列数。在你的例子中,这个值是 15000,意味着文件中包含 15000 个 DNA 序列。

5. sum_len

描述:序列总长度。

含义:该列表示所有序列的总和长度,即所有序列的碱基数之和。在这个例子中,总长度是 1515000,表示文件中所有 DNA 序列的总碱基数为 1515000 个。

6. min_len

描述:最短序列的长度。

含义:该列表示文件中最短的序列的长度。在此例中,最短的 DNA 序列长度是 101 个碱基。

7. avg_len

描述:平均序列长度。

含义:该列表示所有序列的平均长度。它通过 sum_len / num_seqs 计算得出。在此例中,平均长度为 101.0,即所有序列的平均长度是 101 个碱基。

8. max_len

描述:最长序列的长度。

含义:该列表示文件中最长的序列的长度。在此例中,最长的序列长度为 101,表明文件中的所有序列长度是相同的(101 个碱基)。

9. Q1

描述:第一四分位数(25%)。

含义:该列表示序列长度的第一四分位数,通常是指序列长度小于该值的 25% 的序列的长度。此值为 101.0,意味着 25% 的序列长度小于等于 101 个碱基。

10. Q2

描述:中位数(50%)。

含义:该列表示序列长度的中位数,50% 的序列长度小于等于此值。此值为 101.0,意味着一半的序列长度小于等于 101 个碱基。

11. Q3

描述:第三四分位数(75%)。

含义:该列表示序列长度的第三四分位数,通常是指序列长度小于该值的 75% 的序列的长度。此值为 101.0,意味着 75% 的序列长度小于等于 101 个碱基。

12. sum_gap

描述:序列中缺失(Gap)部分的总长度。

含义:该列表示文件中所有序列的缺失部分(如果有)的总长度。缺失部分通常由“gap”字符(如 N)表示。在你的例子中为 0,表示所有序列都没有缺失部分。

13. N50

描述:N50 值。

含义:N50 是一个常见的统计值,表示在文件中,至少有一半的序列总长度包含在长度大于或等于 N50 的序列中。在此例中,N50 值为 101,说明文件中一半的序列长度大于或等于 101 个碱基。

14. Q20(%)

描述:Q20 度量的百分比。

含义:Q20 是指质量值大于等于 20 的序列的百分比。在 DNA 测序中,Q20 表示序列质量相对较高,通常表示碱基呼叫的正确性为 99%。在此例中,Q20 的百分比为 0.00,表示所有序列的质量评分低于 Q20,或者没有满足 Q20 的序列。

15. Q30(%)

描述:Q30 度量的百分比。

含义:Q30 是指质量值大于等于 30 的序列的百分比。在 DNA 测序中,Q30 表示非常高的质量(99.9% 的准确度)。在此例中,Q30 的百分比为 0.00,表示没有序列达到 Q30 的质量要求。

16. GC(%)

描述:GC 含量百分比。

含义:该列表示文件中所有序列的平均 GC 含量百分比。GC 含量表示 DNA 序列中含有的鸟嘌呤(G)和胞嘧啶(C)碱基的比例。在此例中,GC 含量为 45.35%,表示该文件中 DNA 序列的平均 GC 含量为 45.35%。

当前版本为1.0版本,上架时间为:2025-05-12