正选择的几种形式

这是一份旨在消除概念断层、统一群体遗传学(微观)与系统发育学(宏观)视角的演化基因组学学习笔记。

一定要记得,在演化生物学中,任何涉及“为了适应…”、“为了产生新功能…”的表述都含有目的论的逻辑谬误。演化没有预设的终点或目标。

正向选择不是一种“力量”或“意图”,而是一个统计学结果。当一个特定的等位基因(突变)在当前特定的环境参数下,能够使其携带者产生统计学上显著更高的相对生殖成功率(Differential reproductive success,即选择系数 s>0)时,该等位基因在下一代群体中的频率会呈现确定性的上升趋势。

几个基础概念:

  • 突变 (Mutation): 发生在单一个体层面的随机 DNA 复制错误。它是演化的原材料。

  • 固定 (Fixation): 微观演化的终点。特定等位基因在种群中的频率(f)通过自然选择或遗传漂变达到 1.0(100%)。

  • 替换 (Substitution): 宏观演化的起点。两个独立演化支完全分化后,在同源序列对比中观察到的固定差异。

  • 同义替换 (dS) 与 非同义替换 (dN): 宏观计算的期望值。dN/dS (ω) 衡量的是非同义突变在历史长河中被固定的累积速率,而非单次固定事件。

演化动态的基线(维持与衰退)

在讨论正向选择之前,必须建立演化动态的中性/负向基线。

纯化选择 (Purifying / Negative Selection)

  • 核心机制: 选择系数 $s < 0$。自然环境保持稳定,当前的野生型序列处于局部适应度峰值。

  • 微观动态过程: 野生型存在 $\to$ 产生非同义突变 A ($s < 0$) $\to$ 携带突变 A 的个体生殖期望值下降 $\to$ 突变 A 频率趋近于 0 并被剔除 $\to$ 产生突变 B ($s < 0$) $\to$ 被剔除……

  • 时间尺度表现:

    • 微观(群体内): 维持极低的非同义多态性,偶尔观察到极低频的罕见变异。

    • 宏观(物种间): 千万年无非同义替换累积,$\omega \ll 1$(如组蛋白、核糖体蛋白)。

纯化选择放松 (Relaxed Purifying Selection)

  • 核心机制: 原有的选择压解除。通常由有效种群大小 ($N_e$) 剧烈缩减(瓶颈效应增大遗传漂变),或物种进入无竞争/无绝对约束的生态位引起。

  • 微观动态过程: 种群瓶颈/环境改变 $\to$ 原本的有害突变 A 其选择系数变为 $s \approx 0$ $\to$ 突变 A 发生 $\to$ 受遗传漂变(随机游走)驱动 $\to$ 突变 A 随机固定 $\to$ 突变 B ($s \approx 0$) 发生 $\to$ 随机固定……

  • 时间尺度表现:

    • 微观(群体内): 非同义变异频谱(SFS)向中等或高频率偏移,与同义突变频谱无显著差异。

    • 宏观(物种间): 基因丧失保守性,非同义替换率上升,$\omega$ 值向 1 靠拢,但极少显著大于 1。最终往往导致基因假基因化(Pseudogenization)。


正向选择($s > 0$)的本质是有利等位基因频率的确定性上升。根据突变起源、遗传架构和时间连续性,其具体形式拆解如下:

基于替换的视角:

在这里,我们将演化视为物种或谱系间的长期积累过程。其使用的数据主要是固定下来的种间差异(Fixed differences)。

  • 核心参数: 依赖于替换率的比例(如 dN/dS 或 ω)。此类模型(如 PAML, RERconverge)关注的是:在系统发育树的哪个时间段/哪个分支上,积累的非同义替换显著超出了中性预期。 换句话说,在这个视角我们考虑的是演化的结果。

持续性正向选择 (Continuous / Pervasive Positive Selection)

  • 定义: 长期、持续的定向选择压力,驱动有利突变在群体中不断固定。这种模式通常发生在长期的环境渐变或持续的宿主-病原体拮抗演化中。(红皇后!)

  • 微观动态过程: 环境状态 1 $\to$ 突变 A 发生 $\to$ 正选择使其迅速固定 $\to$ 导致病原体适应/环境演变进入状态 2 $\to$ 突变 B 发生 $\to$ 正选择使其固定 $\to$ 环境状态 3 $\to$ 突变 C 发生 $\to$ 固定……
  • 宏观表现: 只有这种高频、持续的微观固定事件叠加,才能在宏观时间尺度上抵消同义突变的背景积累,产生 $\omega > 1$ 的统计显著性。

  • 参数特征: 在多个连续的系统发育分支或整个进化枝上,非同义替换率持续显著高于同义替换率($dN/dS > 1$ 或 $\omega > 1$)。

  • 排他性证据与替代假说:
    • 诊断性证据: 跨多个节点的连续正向选择信号。
    • 替代假说:  GC 偏向性基因转换(GC-biased gene conversion, gBGC)引起的假阳性。gBGC 会在重组率高的区域加速 AT 向 GC 的替换,在纯序列分析中易被误判为持续的正向选择。

间歇性正向选择 (Episodic Positive Selection)

  • 定义: 适应性进化仅发生在一个或少数几个特定的历史时期或特定谱系中(适应性辐射,通常对应环境剧变、生态位转换)。在适应性改变完成后,该性状或基因往往会受到严格的纯化选择以维持新的最优状态。

  • 微观动态过程: 祖先种群分裂 $\to$ 目标谱系进入新生态位 $\to$ 突变 A、B、C 连续发生并受正选择迅速固定 $\to$ 达到新的适应度峰值 $\to$ 环境稳定,选择系数重新转为 $s < 0$ $\to$ 突变 D 发生(有害)$\to$ 纯化选择将其剔除。
  • 宏观表现: 表现为 aBSREL 等分支-位点模型中,特定目标分支 $\omega > 1$,但背景分支及后续子代分支 $\omega < 1$。必须严格使用贝叶斯因子排除“纯化选择放松”的替代假说。

  • 参数特征: 目标分支(Foreground branch)上的 $\omega > 1$,但其祖先分支及后代背景分支(Background branches)的 $\omega < 1$。

  • 排他性证据与模型构建:
    • 现有的 HyPhy 框架(如 aBSREL 或 MEME 模型)在位点和分支水平部分实现了此类检测。
    • 诊断性证据: 短期的高替换率伴随随后的低替换率。
    • 替代假说: 必须与“纯化选择放松”进行竞争。纯化选择放松的特征是替换率上升且在后续分支中保持高替换率的随机漂变状态(即后代分支 $\omega \approx 1$)。区分两者的关键在于对后代分支纯化选择恢复速度和强度的量化。

平衡选择 (Balancing Selection)

  • 定义: 包含超显性(杂合子优势)、频率依赖性选择或时空异质性选择等机制,其共同结果是阻止单一等位基因固定,从而在种群中长期维持两个或多个等位基因的多态性。(维持多样性,而不是固定单一突变)

  • 微观动态过程: 突变 A 与野生型 W 共存 $\to$ 杂合子 WA 具有最高适应度 $\to$ A 频率过高时纯合子 AA 适应度低导致频率下降 $\to$ A 频率过低时杂合优势导致其频率上升 $\to$ A 和 W 的频率被锁定在稳定中值(如 0.5)。
  • 宏观表现: 物种分化后,A 和 W 等位基因继续在两个新物种中分别被保留数百万年。形成跨物种多态性 (Trans-species polymorphism),其基因溯祖树的内部节点时间显著早于物种分歧时间。必须严格排除不完全谱系分选 (ILS) 噪音。

  • 参数特征: 跨物种多态性(Trans-species polymorphism, TSP),即等位基因的分歧时间早于物种的分歧时间。在群体层面表现为 Tajima’s $D > 0$ 或存在过量的中等频率等位基因。

  • 排他性证据与模型构建:
    • 仅依赖固定差异(Fixed differences)的系统发育模型极难检测平衡选择。
    • 诊断性证据: 基因树内部存在极端的深度溯祖(Deep coalescence),且特定位点的局部树拓扑结构与物种树存在统计学上不可调和的持续性冲突。
    • 替代假说: 最大的噪音来源是不完全谱系分选(Incomplete Lineage Sorting, ILS)。祖先群体的随机多态性可能在物种分化时被随机保留,产生与跨物种多态性一致的基因树/物种树冲突。必须结合溯祖模型(Coalescent theory),计算在给定祖先 Ne​ 和分歧时间的条件下,多态性维持到现在的概率。如果观测到的深度溯祖事件显著超出了中性 ILS 所能解释的上限极限,才可确认为平衡选择。

构建该基因的基因树 (Gene tree) 时,发现物种 A 中的某些等位基因在拓扑结构上更接近物种 B 的等位基因,而不是与 A 中的其他等位基因聚类。这表明这些等位基因的分歧时间(溯祖时间)早于物种 A 和 B 的物种形成事件。

基于分离位点(Segregating sites)的视角考虑:

在这里我们将演化视为群体内部等位基因频率(Allele frequency)在世代间的动态变化过程。

  • 核心参数: 依赖于局部核苷酸多样性(π)、连锁不平衡(LD)、多态性频谱(如 Tajima’s D)以及基因座间的协方差。此类分析(如选择性清除扫描、GWAS 关联计算)关注的是:突变是如何在群体中扩散并达到固定的。 换句话说,这个视角我们更多考虑演化的过程/机制。

硬扫荡 (Hard Sweep)

  • 定义: 当环境中出现极强的全新选择压力时,一个新发突变 (De novo mutation) 提供显著的适应性优势。该突变在群体中迅速扩散并固定。由于扩增速度极快,基因重组 (Recombination) 无法及时打破该有利突变与其周围物理连锁的中性变异之间的关联。

  • 微观动态过程: 极强新选择压出现 $\to$ 新发突变 A ($s \gg 0$) 出现 $\to$ 携带突变 A 的单一单倍型呈对数级扩增 $\to$ 迅速达到固定($f=1$)$\to$ 消除周边所有多态性(局部 $\pi \to 0$)。
  • 宏观表现: 在漫长的物种形成史中,这仅仅贡献了 1 个 替换点。由于时间积分效应,全局 $\omega$ 依然远小于 1。需要通过微观统计量(如极端的局部 LD、极度负值的 Tajima’s $D$)作为排他性证据进行检测。

  • 参数特征:
    • 极强的连锁不平衡 (Linkage Disequilibrium, LD): 在目标位点周围形成极长的单一单倍型 (Haplotype) 区块。
    • 局部核苷酸多样性 ($\pi$) 骤降: 目标区域的变异被“清空”。
    • 极端负值的 Tajima’s $D$: 扫荡完成后,该区域新积累的突变大多为低频罕见变异,导致统计量显著偏离中性预期。
  • 具体事例: 杀虫剂抗性的快速演化。例如,某些蚊子种群中电压门控钠离子通道基因 (vgsc) 的 kdr 突变。面对拟除虫菊酯类杀虫剂的强力筛选,携带有该单一抗性突变的单倍型在数代之内于局部种群中达到近乎 100% 的频率,周围侧翼序列呈现典型的多样性低谷。

软扫荡 (Soft Sweep)

  • 定义: 选择压力作用于既有变异 (Standing genetic variation)(在环境改变前以低/中等频率存在且呈中性或微弱有害的等位基因),或者同一个有利突变在群体中多重起源 (Multiple independent origins)并同时受到选择。

  • 微观动态过程: 环境稳定 $\to$ 突变 A ($s \approx 0$) 处于低频状态(如 $f=0.05$),并已重组到多种遗传背景中 $\to$ 环境剧变 $\to$ 突变 A 选择系数变为 $s > 0$ $\to$ 多个携带突变 A 的不同单倍型并发扩增 $\to$ 突变 A 固定。
  • 宏观表现: 同样仅贡献 1 个替换点。微观上局部多样性下降不明显,需利用单倍型纯合度统计量(如 $H_{12}$)检测。极易与种群历史(Demography)混淆,需以全基因组中性背景作为零模型进行排除。

  • 参数特征:
    • 单倍型多样性保留: 群体中同时出现多个频率升高的单倍型区块,而非单一主导区块。
    • 弱化的 LD 与不明显的 $\pi$ 下降: 因为既有变异在被选择前已有足够的时间经历基因重组,有利突变周围的背景变异更加丰富。
    • 统计检验难度高: 基于频谱分布的统计量(如 Tajima’s $D$)往往无法捕捉异常,需依赖如基于单倍型频率纯合度的统计量(如 $H_{12}$)进行检测。
  • 具体事例: 三刺鱼 (Threespine stickleback) 骨板的退化。海洋三刺鱼全身覆盖骨板,而淡水三刺鱼骨板退化。研究表明,控制骨板退化的 Eda 基因低频率地存在于海洋祖先种群中(既有变异)。当它们独立定殖于不同的淡水湖泊时,缺乏捕食者和钙质匮乏的环境引发软扫荡,导致相同的隐性 Eda 等位基因在多个淡水种群中平行固定,且周围保留了不同的遗传背景。

多基因适应 (Polygenic Adaptation)

  • 定义: 选择压力不针对单一基因,而是同时作用于基因组中成百上千个微效基因座。每个位点的等位基因频率仅发生极其微小的定向偏移,通过复杂性状的遗传加和效应 (Additive genetic effect) 实现种群表型均值的显著偏移。

  • 微观动态过程: 选择压出现 $\to$ 突变 A、B、… Z ($s$ 极小) 同时受到微弱正选择 $\to$ 突变 A 频率由 0.3 升至 0.35 $\to$ 突变 B 频率由 0.6 升至 0.62… $\to$ 没有任何单一突变达到固定 $\to$ 表型均值完成适应性偏移。
  • 宏观/微观表现: 系统发育上的 $dN/dS$ 扫描彻底失效。局部扫描无法检测到扫荡信号。必须利用 GWAS 汇总数据,计算具有相同效应方向的等位基因组的跨物种频率协方差偏移。

  • 参数特征:
    • 无传统选择信号: 局部区域不发生 $\pi$ 下降,$\omega$ ($dN/dS$) 接近 1,无 LD 异常。
    • 定向的频率协方差 (Covariance): 在具有增加表型值效应的位点群中,等位基因频率跨群体的微小偏移呈现统计学上的方向一致性。检测依赖基于全基因组关联分析 (GWAS) 汇总统计量构建的多基因风险评分 (Polygenic Score, PGS) 和相应的极性检验(如 $Q_X$ 统计量)。
  • 具体事例: 欧洲人群身高的纬度梯度分布。北欧人群平均身高高于南欧人群。全基因组层面的扫描未发现驱动该性状的单一主效突变扫荡,但整合十万级样本的 GWAS 数据表明,数千个与身高微弱正相关的等位基因在北欧人群中的频率一致性地高出中性漂变的理论预期(每个位点仅升高约 1%-2%),累加后形成了显著的表型差异。

上位性/代偿性选择 (Epistatic / Compensatory Selection)

  • 定义: 一个突变的适应度严格依赖于其遗传背景(其他位点的状态)。代偿性选择是其典型表现:当位点 A 发生轻微有害突变导致结构或功能受损时,强烈的选择压力会驱动与之有物理或网络互作的位点 B 发生特定突变,以恢复整体系统的分子功能。

  • 微观动态过程: 结构域 1 发生轻微有害突变 A ($s < 0$) $\to$ 由于有效种群变小或遗传搭车,突变 A 偶然达到固定 $\to$ 蛋白质失稳,对恢复稳定性的突变产生极强选择压 $\to$ 结构域 2 发生代偿突变 B ($s \gg 0$, 仅在含有 A 的背景下) $\to$ 突变 B 迅速固定。
  • 宏观表现: 表现为跨独立系统发育分支的共演化速率位移(Co-evolutionary rate shift)。基因 A 和基因 B 的相对演化速率方差存在高度的统计耦合。步骤依赖性。突变固定具有严格的先后次序或协同性。

  • 参数特征:
    • 系统发育相关性 (Phylogenetic co-evolution): 基因 A 和基因 B(或同一蛋白的两个结构域)在多个独立谱系上的演化速率(或替换事件)在时间节点上呈现高度的统计相关性。
    • 结构邻近性: 在 3D 蛋白结构或基因调控网络中,发生代偿演化的两个位点通常存在直接的物理接触或功能耦合。
  • 具体事例: 核糖体 RNA (rRNA) 二级结构中的茎环 (Stem-loop) 碱基配对。如果一个 C-G 碱基对中的 C 突变为 U(产生错配 U-G,轻微有害),代偿性选择会迅速驱动对应的 G 突变为 A,形成新的稳定配对 (U-A)。在比较系统发育树上,这两个位点的变异始终保持紧密的共生状态。

正向频率依赖性选择 (Positive Frequency-Dependent Selection)

  • 定义: 某一表型(或等位基因)在群体中存在的频率越高,其赋予个体的适应度 (Fitness) 就越高。这会产生一种正反馈机制,导致局部群体的极端纯化。

  • 特征:
    • 过程特征: 具有频率阈值。一旦某等位基因频率突破该阈值,将被极其迅速地推向 100% 固定。
    • 参数特征:
      1. 极端的局部固定: 亚群体内部完全同质化。
      2. 空间尺度上的陡峭断层: 在地理上相邻的两个群体可能固定了完全不同的表型,两者之间存在极高的分化指数 ($F_{ST}$) 和极窄的地理交界线 (Geographic cline),且这种分化无法用中性基因流受限(地理隔离)来解释。
  • 具体事例: 蝴蝶的缪勒拟态 (Müllerian mimicry)。例如新热带区的袖蝶属 (Heliconius)。多种有毒蝴蝶在同一地区会演化出完全相同的警告色(拟态环)。某种颜色模式在当地越普遍,捕食者(鸟类)通过误食进行学习的成本就分摊得越薄,该模式下蝴蝶个体的生存率就越高。这导致相邻的山谷可能被不同颜色模式的同种蝴蝶完全占据,边界极其分明。