Rerconverge的几种用法

算法的基本思想是：如果一个基因（或保守非编码元件）与某个表型（如水生适应、地下生活）的功能相关，那么在该表型独立演化的多个谱系（称为“前景支”）上，该基因所承受的选择压力会发生趋同性的改变。这种改变会体现在其进化速率上——约束放松或正选择可能导致速率加快，而约束加强可能导致速率减慢。算法通过量化并检测这种速率变化的趋同性，来推断基因-表型关联。

结合 Kowalczyk 等（2019）的软件发布与 Partha 等（2019）的稳健性改进，RERconverge 的核心目标可以概括为：在系统发育框架下，检测与趋同表型相关的谱系是否在某些基因（或保守非编码元件）上呈现趋同的进化速率变化。直观地说，如果某个遗传元件与表型适应有关，那么当该表型在多个谱系中独立出现时，这些谱系上该元件的选择约束可能会以相似方向改变，从而导致分支长度（替换率）相对背景出现一致的“加速”或“减速”信号。

下面按算法流程把其逻辑拆成四步（输入 → 速率校正 → 关联检验 → 解释与下游分析）。

算法逻辑总览

基本假设：各基因树共享相同的物种拓扑（至少在分析时被映射到同一物种树的对应分支上），分支长度可视为该遗传元件在该谱系上的进化速率指标（如每个位点替换数）。
核心思想：先将每个基因的分支长度“扣除”物种层面的背景速率，得到可跨基因比较的相对进化速率（RER）；再检验 RER 在“前景支”（表现出目标表型的分支）是否系统性偏高/偏低，从而推断基因-表型关联。

第一步：输入与数据准备

RERconverge 需要两类输入：

系统发育信息（按基因/元件）
- 每个基因（或保守非编码元件）对应一棵带分支长度的树；分支长度代表该元件在该谱系上的演化量（速率 × 时间的综合表现）。
性状信息（按分支或谱系）
- 二元性状：例如“水生/非水生”“地下/地上”等，通常用来定义哪些分支属于“前景支”。
- 连续性状：例如体重、代谢率等，以连续值形式映射到谱系/分支上。

实践中，关键是把“基因树的分支”与“物种树的分支/性状编码”对齐：只有对齐后，才能比较同一分支在不同基因上的相对速率变化。

第二步：计算相对进化速率（RERs）——核心计算与 Partha 等（2019）的关键改进

这一步的目的，是把“物种层面共同的背景因素”（如分化时间差异、基因组总体突变率差异）从每个基因的分支长度中剥离出来，得到基因特异、可比尺度的速率指标。

基本做法（概念层面）：
对于每个基因，将其在各分支上的长度与“背景期望长度”进行比较。背景通常由全基因组层面的平均趋势来代表；将基因分支长度对背景分支长度做回归后，回归残差即可解释为该基因在该分支上相对于背景的“偏快/偏慢”（即 RER）：
- 残差 >0：相对加速
- 残差 <0：相对减速
为什么要改进（异方差问题）：
原始残差在统计上常出现异方差性：背景分支越长（通常意味着更深分化或更高演化量），对应残差的波动也越大。这会让长分支对回归与后续检验产生不成比例的影响，进而降低稳健性并可能引入假阳性/假阴性。
改进后的逻辑（Partha 等，2019）：
为了让不同长度分支上的 RER 具有更一致的方差结构，改进版引入了“变换 + 加权”的稳健估计流程：
1. 平方根变换：先对分支长度做平方根变换以稳定方差。
2. 权重估计与加权回归：初步回归后，用平滑方法（如 LOWESS）拟合“残差方差—背景分支长度”的关系，为每条分支分配权重（长分支权重更低，短分支权重更高），再做加权最小二乘回归。
3. 标准化：将加权回归得到的残差进一步标准化，使其在跨基因比较时处于统一尺度。

这一步的本质收益：让最终 RER 更接近同方差假设下的“可比较残差”，从而提升下游关联检验的可靠性，尤其是在树上同时包含很短与很长分支的情况下。

第三步：基因-性状关联分析（convergence test）

得到每个基因在各分支上的 RER 后，需要检验这些相对速率是否与目标性状一致变化。

二元性状：
将分支划分为“前景支/背景支”，检验前景支上的 RER 是否整体偏高或偏低。常见做法是使用曼-惠特尼 U 检验比较两组 RER 分布差异，并输出关联强度（例如基于 P 值的分数）。
连续性状：
将性状值映射到分支/谱系上，计算每个基因的 RER 与性状之间的相关性（如皮尔逊相关或其他相关度量），以评估速率变化是否随性状连续变化而一致改变。

这一阶段的输出是：每个基因/元件一个统计量，表示其“速率变化与性状的匹配程度”。

第四步：结果解释与下游分析

候选列表与排序：按显著性或分数对基因排序，得到最可能与趋同表型相关的候选集合。
功能层面解释：对候选基因做通路/GO 富集等分析，观察哪些生物学过程被系统性重塑（例如地下生活相关谱系中视觉相关通路的普遍退化）。

小结：RERconverge 的方法学贡献

综合上述两篇关键文献，RERconverge 的优势可以概括为：

概念直观：用“相对速率”直接连接分子进化信号与趋同表型。
流程完整：从树与性状输入，到稳健的 RER 估计，再到统计检验与功能解释，形成端到端分析框架。
统计更稳健：Partha 等（2019）针对异方差问题的“变换 + 加权”显著提升了在复杂分支长度分布下的推断可靠性与检出力。
适用面广：既可用于蛋白编码基因，也可扩展到保守非编码元件，并支持二元与连续性状。