双端测序接头识别与去除

在双端测序（Paired-end Sequencing）中，测序得到的R1和R2确实并非总是完整的、无冗余的正反向序列。根据文库插入片段长度（Insert Size, $L_I$）与单端读长（Read Length, $L_R$）的比例关系，实际下机数据会出现以下几种典型情况。

我们可以将其视为针对不同 $L_I$ 值的竞争性假说，并通过特定的序列特征进行推断：

假说条件： $L_I < L_R$
现象： 测序反应在完成插入片段的测序后，由于尚未达到预设读长，会继续向后测序进入 3’ 端的接头序列。
数据特征（诊断性证据）：
- R1 的末端包含 P7 接头的反向互补序列。
- R2 的末端包含 P5 接头的反向互补序列。
- R1 与 R2 存在完全的重叠，且重叠长度等于 $L_I$。
结果： 实际有效的插入片段信息少于 $L_R$，多余部分为无用的接头序列。

假说条件： $L_R < L_I < 2 \times L_R$
现象： R1 和 R2 从两端向中间延伸，并在中间区域交汇并超过彼此的起始点。
数据特征（诊断性证据）：
- 在 R1 和 R2 的序列中均未发现接头序列。
- R1 的 3’ 端序列与 R2 的 3’ 端序列（反向互补后）存在一段匹配的区域。
- 重叠长度 $L_O = 2 \times L_R - L_I$。
结果： 插入片段被 100% 覆盖，且中间重叠区域具备双倍的测序深度，可用于校正测序错误。

假说条件： $L_I > 2 \times L_R$
现象： 这是理想化的 PE 测序状态，R1 和 R2 之间存在一段未被测序覆盖的物理区域。
数据特征（诊断性证据）：
- R1 和 R2 均无接头序列。
- R1 与 R2 无法通过序列比对直接拼接。
结果： 存在“序列遗漏”。这段缺口序列的长度为 $L_G = L_I - 2 \times L_R$。在基因组组装中，这有助于跨越重复序列（Repeat regions）。

假说条件： $L_I \approx 0$
现象： 在文库构建过程中，插入片段未能成功连接，导致 P5 和 P7 接头直接相连。
数据特征（诊断性证据）：
- R1 从第 1 个碱基开始即为 P7 接头的 RC 序列。
- R2 从第 1 个碱基开始即为 P5 接头的 RC 序列。
结果： 该 Read 对完全不包含任何基因组插入片段信息。

假说条件： 测序周期耗尽或模板脱落。
现象： 在使用双色荧光化学技术（如 NovaSeq, NextSeq）时，若测序进行到末端由于模板缺失或质量极差导致无法识别碱基（无荧光信号），机器会默认将其记为 G。
数据特征（诊断性证据）：
- Reads 的 3’ 端出现连续的 GGGGGG...。
结果： 这部分序列并非真实的生物样本序列，属于技术性信息缺失。

注：双色荧光的原理

A=Red + Green
C=Red
T=Green
G=None
开启光路激发荧光进行两次拍照，分别为红色信号通道，绿色信号通道

因素	影响结果	解决方案
$L_I < L_R$	包含冗余接头，有效序列短	接头过滤（Adapter Trimming）
$L_I > 2 \times L_R$	中间存在未测序缺口	增加读长或减小文库片段长度
文库污染	产生接头二聚体，无有效数据	加强文库构建中的粒径筛选（Size Selection）
仪器效应	产生 Poly-G，掩盖真实末端	质量过滤（Quality Trimming）

当我们拿到 R1/R2 时，首先应通过 K-mer 分析或 Adapter 搜索来评估上述假说。

接头识别和去除：允许一定比例的mismatch；判断R1和R2是否存在重叠，若重叠则说明读穿了待测区域；若重叠区碱基不一致，根据质量值Phred Score判断保留哪个或修正。
质量过滤：Phred score Q=-10log（P）
1. 滑动窗口算法，5‘到3’滑动固定长度的窗口，计算窗口内的平均质量值，若其低于阈值，则被判定后续序列可靠性不足，切除该位置及之后的所有碱基。
2. 低质量碱基占比过滤：统计整条read质量值低于阈值的碱基比例。若超过限制则丢弃整个read。
N碱基和Poly-G过滤
1. 无法识别的碱基为N，若高于设定阈值则剔除。
2. 对于Illumina Novaseq等双色荧光平台，信号缺失为G，若read末端有连续G序列，切除。
长度过滤：若以上操作后整条read变得过短，则剔除。若一对reads中的一条被剔除，失去配对的read移动到unpaired文件，已确保主输出文件的R1和R2一一对应。
重复序列评估
1. 软件检测完全一致的reads对。这类完全一致的reads可能是因为样本中缺失存在多个相同分子（例如高表达基因或者多拷贝基因），或者由于PCR导致的过量拷贝等技术因素。
2. 通常QC时仅统计，待比对后根据映射到基因组的位置再继续判断是否为重复。