统计FastQ,FastA文件信息。支持指定单个序列文件或包含需统计序列的文件夹。
注:当输入文件为文件夹时,指定的文件夹中要求仅包含所需统计的序列文件。
下面是每一列的含义:
1. file
描述:文件名。
含义:这个列表示输入文件的名称,通常是 FASTA 文件名。在你的例子中是 input.fasta。
2. format
描述:文件格式。
含义:这个列描述输入文件的格式。在此例中,文件格式为 FASTA,这是一种常见的生物信息学文件格式,用于存储 DNA、RNA 或蛋白质序列。
3. type
描述:序列类型。
含义:这个列表示序列的类型,通常是 DNA、RNA 或 protein。在此例中,类型为 DNA,表示该文件包含的是 DNA 序列。
4. num_seqs
描述:序列数量。
含义:该列表示 FASTA 文件中包含的序列数。在你的例子中,这个值是 15000,意味着文件中包含 15000 个 DNA 序列。
5. sum_len
描述:序列总长度。
含义:该列表示所有序列的总和长度,即所有序列的碱基数之和。在这个例子中,总长度是 1515000,表示文件中所有 DNA 序列的总碱基数为 1515000 个。
6. min_len
描述:最短序列的长度。
含义:该列表示文件中最短的序列的长度。在此例中,最短的 DNA 序列长度是 101 个碱基。
7. avg_len
描述:平均序列长度。
含义:该列表示所有序列的平均长度。它通过 sum_len / num_seqs 计算得出。在此例中,平均长度为 101.0,即所有序列的平均长度是 101 个碱基。
8. max_len
描述:最长序列的长度。
含义:该列表示文件中最长的序列的长度。在此例中,最长的序列长度为 101,表明文件中的所有序列长度是相同的(101 个碱基)。
9. Q1
描述:第一四分位数(25%)。
含义:该列表示序列长度的第一四分位数,通常是指序列长度小于该值的 25% 的序列的长度。此值为 101.0,意味着 25% 的序列长度小于等于 101 个碱基。
10. Q2
描述:中位数(50%)。
含义:该列表示序列长度的中位数,50% 的序列长度小于等于此值。此值为 101.0,意味着一半的序列长度小于等于 101 个碱基。
11. Q3
描述:第三四分位数(75%)。
含义:该列表示序列长度的第三四分位数,通常是指序列长度小于该值的 75% 的序列的长度。此值为 101.0,意味着 75% 的序列长度小于等于 101 个碱基。
12. sum_gap
描述:序列中缺失(Gap)部分的总长度。
含义:该列表示文件中所有序列的缺失部分(如果有)的总长度。缺失部分通常由“gap”字符(如 N)表示。在你的例子中为 0,表示所有序列都没有缺失部分。
13. N50
描述:N50 值。
含义:N50 是一个常见的统计值,表示在文件中,至少有一半的序列总长度包含在长度大于或等于 N50 的序列中。在此例中,N50 值为 101,说明文件中一半的序列长度大于或等于 101 个碱基。
14. Q20(%)
描述:Q20 度量的百分比。
含义:Q20 是指质量值大于等于 20 的序列的百分比。在 DNA 测序中,Q20 表示序列质量相对较高,通常表示碱基呼叫的正确性为 99%。在此例中,Q20 的百分比为 0.00,表示所有序列的质量评分低于 Q20,或者没有满足 Q20 的序列。
15. Q30(%)
描述:Q30 度量的百分比。
含义:Q30 是指质量值大于等于 30 的序列的百分比。在 DNA 测序中,Q30 表示非常高的质量(99.9% 的准确度)。在此例中,Q30 的百分比为 0.00,表示没有序列达到 Q30 的质量要求。
16. GC(%)
描述:GC 含量百分比。
含义:该列表示文件中所有序列的平均 GC 含量百分比。GC 含量表示 DNA 序列中含有的鸟嘌呤(G)和胞嘧啶(C)碱基的比例。在此例中,GC 含量为 45.35%,表示该文件中 DNA 序列的平均 GC 含量为 45.35%。
当前版本为1.0版本,上架时间为:2025-05-12