Rerconverge的几种用法

算法的基本思想是:如果一个基因(或保守非编码元件)与某个表型(如水生适应、地下生活)的功能相关,那么在该表型独立演化的多个谱系(称为“前景支”)上,该基因所承受的选择压力会发生趋同性的改变。这种改变会体现在其进化速率上——约束放松或正选择可能导致速率加快,而约束加强可能导致速率减慢。算法通过量化并检测这种速率变化的趋同性,来推断基因-表型关联。

结合 Kowalczyk 等(2019)的软件发布与 Partha 等(2019)的稳健性改进,RERconverge 的核心目标可以概括为:在系统发育框架下,检测与趋同表型相关的谱系是否在某些基因(或保守非编码元件)上呈现趋同的进化速率变化。直观地说,如果某个遗传元件与表型适应有关,那么当该表型在多个谱系中独立出现时,这些谱系上该元件的选择约束可能会以相似方向改变,从而导致分支长度(替换率)相对背景出现一致的“加速”或“减速”信号。

下面按算法流程把其逻辑拆成四步(输入 → 速率校正 → 关联检验 → 解释与下游分析)。

算法逻辑总览

  • 基本假设:各基因树共享相同的物种拓扑(至少在分析时被映射到同一物种树的对应分支上),分支长度可视为该遗传元件在该谱系上的进化速率指标(如每个位点替换数)。
  • 核心思想:先将每个基因的分支长度“扣除”物种层面的背景速率,得到可跨基因比较的相对进化速率(RER);再检验 RER 在“前景支”(表现出目标表型的分支)是否系统性偏高/偏低,从而推断基因-表型关联。

第一步:输入与数据准备

RERconverge 需要两类输入:

  1. 系统发育信息(按基因/元件)
    • 每个基因(或保守非编码元件)对应一棵带分支长度的树;分支长度代表该元件在该谱系上的演化量(速率 × 时间的综合表现)。
  2. 性状信息(按分支或谱系)
    • 二元性状:例如“水生/非水生”“地下/地上”等,通常用来定义哪些分支属于“前景支”。
    • 连续性状:例如体重、代谢率等,以连续值形式映射到谱系/分支上。

实践中,关键是把“基因树的分支”与“物种树的分支/性状编码”对齐:只有对齐后,才能比较同一分支在不同基因上的相对速率变化。


第二步:计算相对进化速率(RERs)——核心计算与 Partha 等(2019)的关键改进

这一步的目的,是把“物种层面共同的背景因素”(如分化时间差异、基因组总体突变率差异)从每个基因的分支长度中剥离出来,得到基因特异、可比尺度的速率指标。

  • 基本做法(概念层面)
    对于每个基因,将其在各分支上的长度与“背景期望长度”进行比较。背景通常由全基因组层面的平均趋势来代表;将基因分支长度对背景分支长度做回归后,回归残差即可解释为该基因在该分支上相对于背景的“偏快/偏慢”(即 RER):
    • 残差 >0:相对加速
    • 残差 <0:相对减速
  • 为什么要改进(异方差问题)
    原始残差在统计上常出现异方差性:背景分支越长(通常意味着更深分化或更高演化量),对应残差的波动也越大。这会让长分支对回归与后续检验产生不成比例的影响,进而降低稳健性并可能引入假阳性/假阴性。
  • 改进后的逻辑(Partha 等,2019)
    为了让不同长度分支上的 RER 具有更一致的方差结构,改进版引入了“变换 + 加权”的稳健估计流程:
    1. 平方根变换:先对分支长度做平方根变换以稳定方差。
    2. 权重估计与加权回归:初步回归后,用平滑方法(如 LOWESS)拟合“残差方差—背景分支长度”的关系,为每条分支分配权重(长分支权重更低,短分支权重更高),再做加权最小二乘回归。
    3. 标准化:将加权回归得到的残差进一步标准化,使其在跨基因比较时处于统一尺度。

这一步的本质收益:让最终 RER 更接近同方差假设下的“可比较残差”,从而提升下游关联检验的可靠性,尤其是在树上同时包含很短与很长分支的情况下。


第三步:基因-性状关联分析(convergence test)

得到每个基因在各分支上的 RER 后,需要检验这些相对速率是否与目标性状一致变化。

  • 二元性状
    将分支划分为“前景支/背景支”,检验前景支上的 RER 是否整体偏高或偏低。常见做法是使用曼-惠特尼 U 检验比较两组 RER 分布差异,并输出关联强度(例如基于 P 值的分数)。
  • 连续性状
    将性状值映射到分支/谱系上,计算每个基因的 RER 与性状之间的相关性(如皮尔逊相关或其他相关度量),以评估速率变化是否随性状连续变化而一致改变。

这一阶段的输出是:每个基因/元件一个统计量,表示其“速率变化与性状的匹配程度”。


第四步:结果解释与下游分析

  • 候选列表与排序:按显著性或分数对基因排序,得到最可能与趋同表型相关的候选集合。
  • 功能层面解释:对候选基因做通路/GO 富集等分析,观察哪些生物学过程被系统性重塑(例如地下生活相关谱系中视觉相关通路的普遍退化)。

小结:RERconverge 的方法学贡献

综合上述两篇关键文献,RERconverge 的优势可以概括为:

  • 概念直观:用“相对速率”直接连接分子进化信号与趋同表型。
  • 流程完整:从树与性状输入,到稳健的 RER 估计,再到统计检验与功能解释,形成端到端分析框架。
  • 统计更稳健:Partha 等(2019)针对异方差问题的“变换 + 加权”显著提升了在复杂分支长度分布下的推断可靠性与检出力。
  • 适用面广:既可用于蛋白编码基因,也可扩展到保守非编码元件,并支持二元与连续性状。