等位基因特异性表达

在二倍体生物中，同源染色体上的等位基因并不总是以相同的强度进行转录。这种现象被称为等位基因特异性表达（Allele-Specific Expression, ASE）。

通常情况下，许多基因的两个等位基因表达水平相近，但存在以下几种显著的不对称情况：

顺式调控差异 (cis-regulatory variation)： 由于启动子、增强子等调控区域存在 SNP 或 Indel，导致转录因子结合亲和力不同，从而引起表达量差异。
基因组印记 (Genomic Imprinting)： 受表观遗传修饰（如 DNA 甲基化）影响，某些基因仅表达来自父本或母本的拷贝（如人类的 IGF2 基因）。
X 染色体失活 (X-chromosome Inactivation)： 女性细胞中两条 X 染色体会随机失活一条，导致单细胞层面上的单等位基因表达。
随机单等位基因表达 (Random Monoallelic Expression)： 部分常染色体基因在发育过程中会随机选择表达其中一个等位基因。

可以检测，但存在局限性。

可以获取更高分辨率的信息，但面临严重的统计干扰。

转录爆发 (Transcriptional Bursting)： 转录并非连续流，而是脉冲式的。在单细胞瞬间采样时，可能只捕获到了一个等位基因的转录脉冲，这被称为“技术性单等位基因表达”。
假阳性： 在单细胞层面，很难区分观察到的单等位表达是生物学上的固定偏好，还是由于随机波动或捕获效率（Dropout）导致的干扰。

单体型基因组（即 44+XY，分成了两套完整的单倍体序列）对解决 ASE 问题具有决定性意义。

消除比对偏好性 (Mapping Bias)： 常规基因组（参考基因组）通常倾向于收录 Major Allele（主等位基因）。如果 Read 带有 Minor Allele 序列，比对得分会降低，导致计数偏低。单体型基因组提供了真实的序列背景，使比对更公平。
结构变异 (SV) 分析： 大片段的倒位、重复或缺失在单体型基因组中得以还原，这些变异对表达的影响是常规参考基因组无法捕捉的。

多重比对 (Multi-mapping)： 由于两条同源染色体高度相似，大量 Read 会以相同的得分比对到两个位置（Mapping Quality, MQ = 0）。这导致很难判断这条 Read 究竟来自哪条染色体。
计算资源翻倍： 索引构建、比对过程的时间和空间开销显著增加。
注释混乱： 同一个基因在两套单体型上都有位置，如何定义基因 ID 并在下游分析（如 GO 富集、通路分析）中合并这些信息，目前尚缺乏统一的标准流程。

针对“观察到两个等位基因 Read 计数不等（$N_A \neq N_a$）”这一现象，应通过以下假说进行诊断：

替代假说	诊断性证据
生物学 ASE (True Biologic ASE)	多个相邻杂合 SNP 显示出一致的偏好性方向；在生物学重复中稳定存在。
参考基因组比对偏见 (Reference Bias)	观察到的偏好总是倾向于参考基因组中存在的碱基。
随机采样误差 (Sampling Bias)	仅在测序深度极低的基因中出现；不符合二项分布 $B(n, 0.5)$ 的统计显著性。
建库/PCR 偏好 (Technical Artifact)	SNP 位于高GC含量或低复杂区域，导致扩增效率不均。