在双端测序(Paired-end Sequencing)中,测序得到的R1和R2确实并非总是完整的、无冗余的正反向序列。根据文库插入片段长度(Insert Size, $L_I$)与单端读长(Read Length, $L_R$)的比例关系,实际下机数据会出现以下几种典型情况。
我们可以将其视为针对不同 $L_I$ 值的竞争性假说,并通过特定的序列特征进行推断:
1. 插入片段过短:接头读穿(Read-through)
-
假说条件: $L_I < L_R$
-
现象: 测序反应在完成插入片段的测序后,由于尚未达到预设读长,会继续向后测序进入 3’ 端的接头序列。
-
数据特征(诊断性证据):
-
R1 的末端包含 P7 接头的反向互补序列。
-
R2 的末端包含 P5 接头的反向互补序列。
-
R1 与 R2 存在完全的重叠,且重叠长度等于 $L_I$。
-
-
结果: 实际有效的插入片段信息少于 $L_R$,多余部分为无用的接头序列。
2. 插入片段长度中等:存在重叠(Overlapping)
-
假说条件: $L_R < L_I < 2 \times L_R$
-
现象: R1 和 R2 从两端向中间延伸,并在中间区域交汇并超过彼此的起始点。
-
数据特征(诊断性证据):
-
在 R1 和 R2 的序列中均未发现接头序列。
-
R1 的 3’ 端序列与 R2 的 3’ 端序列(反向互补后)存在一段匹配的区域。
-
重叠长度 $L_O = 2 \times L_R - L_I$。
-
-
结果: 插入片段被 100% 覆盖,且中间重叠区域具备双倍的测序深度,可用于校正测序错误。
3. 插入片段过长:存在缺口(Gap)
-
假说条件: $L_I > 2 \times L_R$
-
现象: 这是理想化的 PE 测序状态,R1 和 R2 之间存在一段未被测序覆盖的物理区域。
-
数据特征(诊断性证据):
-
R1 和 R2 均无接头序列。
-
R1 与 R2 无法通过序列比对直接拼接。
-
-
结果: 存在“序列遗漏”。这段缺口序列的长度为 $L_G = L_I - 2 \times L_R$。在基因组组装中,这有助于跨越重复序列(Repeat regions)。
4. 接头二聚体(Adapter Dimer)
-
假说条件: $L_I \approx 0$
-
现象: 在文库构建过程中,插入片段未能成功连接,导致 P5 和 P7 接头直接相连。
-
数据特征(诊断性证据):
-
R1 从第 1 个碱基开始即为 P7 接头的 RC 序列。
-
R2 从第 1 个碱基开始即为 P5 接头的 RC 序列。
-
-
结果: 该 Read 对完全不包含任何基因组插入片段信息。
5. 信号衰减与 Poly-G(技术性遗漏)
-
假说条件: 测序周期耗尽或模板脱落。
-
现象: 在使用双色荧光化学技术(如 NovaSeq, NextSeq)时,若测序进行到末端由于模板缺失或质量极差导致无法识别碱基(无荧光信号),机器会默认将其记为
G。 -
数据特征(诊断性证据):
- Reads 的 3’ 端出现连续的
GGGGGG...。
- Reads 的 3’ 端出现连续的
-
结果: 这部分序列并非真实的生物样本序列,属于技术性信息缺失。
注:双色荧光的原理
1 | |
总结:导致“遗漏”或“偏差”的因素表
| 因素 | 影响结果 | 解决方案 |
|---|---|---|
| $L_I < L_R$ | 包含冗余接头,有效序列短 | 接头过滤(Adapter Trimming) |
| $L_I > 2 \times L_R$ | 中间存在未测序缺口 | 增加读长或减小文库片段长度 |
| 文库污染 | 产生接头二聚体,无有效数据 | 加强文库构建中的粒径筛选(Size Selection) |
| 仪器效应 | 产生 Poly-G,掩盖真实末端 | 质量过滤(Quality Trimming) |
当我们拿到 R1/R2 时,首先应通过 K-mer 分析或 Adapter 搜索来评估上述假说。
CleanData生产
- 接头识别和去除:允许一定比例的mismatch;判断R1和R2是否存在重叠,若重叠则说明读穿了待测区域;若重叠区碱基不一致,根据质量值Phred Score判断保留哪个或修正。
- 质量过滤:Phred score Q=-10log(P)
- 滑动窗口算法,5‘到3’滑动固定长度的窗口,计算窗口内的平均质量值,若其低于阈值,则被判定后续序列可靠性不足,切除该位置及之后的所有碱基。
- 低质量碱基占比过滤:统计整条read质量值低于阈值的碱基比例。若超过限制则丢弃整个read。
- N碱基和Poly-G过滤
- 无法识别的碱基为N,若高于设定阈值则剔除。
- 对于Illumina Novaseq等双色荧光平台,信号缺失为G,若read末端有连续G序列,切除。
- 长度过滤:若以上操作后整条read变得过短,则剔除。若一对reads中的一条被剔除,失去配对的read移动到unpaired文件,已确保主输出文件的R1和R2一一对应。
- 重复序列评估
- 软件检测完全一致的reads对。这类完全一致的reads可能是因为样本中缺失存在多个相同分子(例如高表达基因或者多拷贝基因),或者由于PCR导致的过量拷贝等技术因素。
- 通常QC时仅统计,待比对后根据映射到基因组的位置再继续判断是否为重复。