双端测序接头识别与去除

在双端测序(Paired-end Sequencing)中,测序得到的R1和R2确实并非总是完整的、无冗余的正反向序列。根据文库插入片段长度(Insert Size, $L_I$)与单端读长(Read Length, $L_R$)的比例关系,实际下机数据会出现以下几种典型情况。

我们可以将其视为针对不同 $L_I$ 值的竞争性假说,并通过特定的序列特征进行推断:


1. 插入片段过短:接头读穿(Read-through)

  • 假说条件: $L_I < L_R$

  • 现象: 测序反应在完成插入片段的测序后,由于尚未达到预设读长,会继续向后测序进入 3’ 端的接头序列。

  • 数据特征(诊断性证据):

    • R1 的末端包含 P7 接头的反向互补序列。

    • R2 的末端包含 P5 接头的反向互补序列。

    • R1 与 R2 存在完全的重叠,且重叠长度等于 $L_I$。

  • 结果: 实际有效的插入片段信息少于 $L_R$,多余部分为无用的接头序列。


2. 插入片段长度中等:存在重叠(Overlapping)

  • 假说条件: $L_R < L_I < 2 \times L_R$

  • 现象: R1 和 R2 从两端向中间延伸,并在中间区域交汇并超过彼此的起始点。

  • 数据特征(诊断性证据):

    • 在 R1 和 R2 的序列中均未发现接头序列。

    • R1 的 3’ 端序列与 R2 的 3’ 端序列(反向互补后)存在一段匹配的区域。

    • 重叠长度 $L_O = 2 \times L_R - L_I$。

  • 结果: 插入片段被 100% 覆盖,且中间重叠区域具备双倍的测序深度,可用于校正测序错误。


3. 插入片段过长:存在缺口(Gap)

  • 假说条件: $L_I > 2 \times L_R$

  • 现象: 这是理想化的 PE 测序状态,R1 和 R2 之间存在一段未被测序覆盖的物理区域。

  • 数据特征(诊断性证据):

    • R1 和 R2 均无接头序列。

    • R1 与 R2 无法通过序列比对直接拼接。

  • 结果: 存在“序列遗漏”。这段缺口序列的长度为 $L_G = L_I - 2 \times L_R$。在基因组组装中,这有助于跨越重复序列(Repeat regions)。


4. 接头二聚体(Adapter Dimer)

  • 假说条件: $L_I \approx 0$

  • 现象: 在文库构建过程中,插入片段未能成功连接,导致 P5 和 P7 接头直接相连。

  • 数据特征(诊断性证据):

    • R1 从第 1 个碱基开始即为 P7 接头的 RC 序列。

    • R2 从第 1 个碱基开始即为 P5 接头的 RC 序列。

  • 结果: 该 Read 对完全不包含任何基因组插入片段信息。


5. 信号衰减与 Poly-G(技术性遗漏)

  • 假说条件: 测序周期耗尽或模板脱落。

  • 现象: 在使用双色荧光化学技术(如 NovaSeq, NextSeq)时,若测序进行到末端由于模板缺失或质量极差导致无法识别碱基(无荧光信号),机器会默认将其记为 G

  • 数据特征(诊断性证据):

    • Reads 的 3’ 端出现连续的 GGGGGG...
  • 结果: 这部分序列并非真实的生物样本序列,属于技术性信息缺失。

注:双色荧光的原理

1
2
3
4
5
A=Red + Green
C=Red
T=Green
G=None
开启光路激发荧光进行两次拍照,分别为红色信号通道,绿色信号通道

总结:导致“遗漏”或“偏差”的因素表

因素 影响结果 解决方案
$L_I < L_R$ 包含冗余接头,有效序列短 接头过滤(Adapter Trimming)
$L_I > 2 \times L_R$ 中间存在未测序缺口 增加读长或减小文库片段长度
文库污染 产生接头二聚体,无有效数据 加强文库构建中的粒径筛选(Size Selection)
仪器效应 产生 Poly-G,掩盖真实末端 质量过滤(Quality Trimming)

当我们拿到 R1/R2 时,首先应通过 K-mer 分析或 Adapter 搜索来评估上述假说。

CleanData生产

  1. 接头识别和去除:允许一定比例的mismatch;判断R1和R2是否存在重叠,若重叠则说明读穿了待测区域;若重叠区碱基不一致,根据质量值Phred Score判断保留哪个或修正。
  2. 质量过滤:Phred score Q=-10log(P)
    1. 滑动窗口算法,5‘到3’滑动固定长度的窗口,计算窗口内的平均质量值,若其低于阈值,则被判定后续序列可靠性不足,切除该位置及之后的所有碱基。
    2. 低质量碱基占比过滤:统计整条read质量值低于阈值的碱基比例。若超过限制则丢弃整个read。
  3. N碱基和Poly-G过滤
    1. 无法识别的碱基为N,若高于设定阈值则剔除。
    2. 对于Illumina Novaseq等双色荧光平台,信号缺失为G,若read末端有连续G序列,切除。
  4. 长度过滤:若以上操作后整条read变得过短,则剔除。若一对reads中的一条被剔除,失去配对的read移动到unpaired文件,已确保主输出文件的R1和R2一一对应。
  5. 重复序列评估
    1. 软件检测完全一致的reads对。这类完全一致的reads可能是因为样本中缺失存在多个相同分子(例如高表达基因或者多拷贝基因),或者由于PCR导致的过量拷贝等技术因素。
    2. 通常QC时仅统计,待比对后根据映射到基因组的位置再继续判断是否为重复。