等位基因特异性表达

在二倍体生物中,同源染色体上的等位基因并不总是以相同的强度进行转录。这种现象被称为等位基因特异性表达(Allele-Specific Expression, ASE)。


等位基因转录强度是否一致?

通常情况下,许多基因的两个等位基因表达水平相近,但存在以下几种显著的不对称情况:

  • 顺式调控差异 (cis-regulatory variation): 由于启动子、增强子等调控区域存在 SNP 或 Indel,导致转录因子结合亲和力不同,从而引起表达量差异。

  • 基因组印记 (Genomic Imprinting): 受表观遗传修饰(如 DNA 甲基化)影响,某些基因仅表达来自父本或母本的拷贝(如人类的 IGF2 基因)。

  • X 染色体失活 (X-chromosome Inactivation): 女性细胞中两条 X 染色体会随机失活一条,导致单细胞层面上的单等位基因表达。

  • 随机单等位基因表达 (Random Monoallelic Expression): 部分常染色体基因在发育过程中会随机选择表达其中一个等位基因。


通过转录组测序能否获取此信息?

Bulk RNA-seq (群体转录组)

可以检测,但存在局限性。

  • 原理: 必须利用等位基因序列上的杂合 SNP。通过计算支持 A 碱基和 a 碱基的 Read 数量比例,评估是否存在偏好性。

  • 局限: 如果一个基因内没有杂合 SNP,或者测序深度不足以覆盖到该 SNP 区域,则无法区分。此外,它反映的是组织中大量细胞的平均结果

单细胞转录组 (scRNA-seq)

可以获取更高分辨率的信息,但面临严重的统计干扰。

  • 转录爆发 (Transcriptional Bursting): 转录并非连续流,而是脉冲式的。在单细胞瞬间采样时,可能只捕获到了一个等位基因的转录脉冲,这被称为“技术性单等位基因表达”。

  • 假阳性: 在单细胞层面,很难区分观察到的单等位表达是生物学上的固定偏好,还是由于随机波动或捕获效率(Dropout)导致的干扰。


单体型基因组 (Haplotype-resolved Genome) 的作用与问题

单体型基因组(即 44+XY,分成了两套完整的单倍体序列)对解决 ASE 问题具有决定性意义。

对 ASE 研究的改进

  • 消除比对偏好性 (Mapping Bias): 常规基因组(参考基因组)通常倾向于收录 Major Allele(主等位基因)。如果 Read 带有 Minor Allele 序列,比对得分会降低,导致计数偏低。单体型基因组提供了真实的序列背景,使比对更公平。
  • 结构变异 (SV) 分析: 大片段的倒位、重复或缺失在单体型基因组中得以还原,这些变异对表达的影响是常规参考基因组无法捕捉的。

产生的问题

  • 多重比对 (Multi-mapping): 由于两条同源染色体高度相似,大量 Read 会以相同的得分比对到两个位置(Mapping Quality, MQ = 0)。这导致很难判断这条 Read 究竟来自哪条染色体。

  • 计算资源翻倍: 索引构建、比对过程的时间和空间开销显著增加。

  • 注释混乱: 同一个基因在两套单体型上都有位置,如何定义基因 ID 并在下游分析(如 GO 富集、通路分析)中合并这些信息,目前尚缺乏统一的标准流程。


总结

针对“观察到两个等位基因 Read 计数不等($N_A \neq N_a$)”这一现象,应通过以下假说进行诊断:

替代假说 诊断性证据
生物学 ASE (True Biologic ASE) 多个相邻杂合 SNP 显示出一致的偏好性方向;在生物学重复中稳定存在。
参考基因组比对偏见 (Reference Bias) 观察到的偏好总是倾向于参考基因组中存在的碱基。
随机采样误差 (Sampling Bias) 仅在测序深度极低的基因中出现;不符合二项分布 $B(n, 0.5)$ 的统计显著性。
建库/PCR 偏好 (Technical Artifact) SNP 位于高GC含量或低复杂区域,导致扩增效率不均。