Methods in Comparative genomics

比较基因组学是一个庞大的领域，它使用多种方法来研究不同物种或个体之间的基因组差异。截止2026年，涌现了越来越多的新颖方法，从不同层面，对不同单元进行跨物种的比较。本文是一项关于方法的综述。

分类

简单来说，可以分为以下几大类方法：

系统发育与进化分析

目的： 推断物种或基因的进化历史与亲缘关系。
方法： 利用全基因组序列、核心基因集、单拷贝直系同源基因等，构建系统发育树。常用软件如 RAxML, IQ-TREE, MrBayes 等。区分不完全谱系分流（Incomplete Lineage Sorting, ILS）和基因渐渗（Introgression）的方法（如 ABBA-BABA 检验/D-统计量、PhyloNet）。这是检验物种形成过程中基因交流这一替代假说的核心诊断性工具。
输出： 系统发育树、分歧时间估算、祖先状态重建等。

直系同源与旁系同源分析

目的： 区分基因组中因物种形成而产生的直系同源基因和因基因复制而产生的旁系同源基因。这是功能比较和进化推断的基础。
方法： 使用 OrthoFinder, eggNOG, InParanoid 等工具进行基因家族聚类。
输出： 基因家族分类、直系同源基因簇列表。

基因组结构与变异分析

目的： 比较基因组在宏观和微观结构上的差异。
方法：
- 共线性分析： 比较基因的排列顺序和方向（使用 MCScanX, JCVI 等工具）。
- 变异检测： 识别SNP、Indel、CNV、基因组重排等。
- 基因组组分分析： 比较GC含量、重复序列、基因密度等。
输出： 共线性图谱、变异列表、基因组特征统计。

基因含量与功能比较分析

目的： 了解不同基因组所拥有的基因集合（即泛基因组）和功能潜力的差异。
方法：
- 泛基因组分析： 鉴定核心基因组、非必需基因组和特有基因（使用 Roary, Panaroo 等）。
- 功能富集分析： 比较不同基因组中GO、KEGG等通路的分布差异。
输出： 泛基因组曲线、核心/特有基因列表、功能富集结果。

图泛基因组学(Pangenome graphs)

传统的共线性分析和变异检测基于单一线性参考基因组，会产生严重的参考偏差（Reference bias）。综述需要引入基于图数据结构的比较方法（例如 vg, Minigraph-Cactus），这些方法将多物种或多个体的序列组合成图结构，用于无偏地评估高度复杂的结构变异、倒位和同源基因拷贝数变异。

选择压力分析

目的： 检测在进化过程中受到自然选择的基因或位点。
方法： 计算同义突变与非同义突变的比例（Ka/Ks 或 dN/dS），使用 PAML, HyPhy 等软件。
输出： Ka/Ks 值，鉴定出受正向选择或纯化选择的基因。

非编码区与调控元件比较分析

目的： 鉴定和比较基因组中的顺式调控元件（如启动子、增强子）、转座子和非编码RNA。
方法： 系统发育足迹法（Phylogenetic footprinting）、保守非编码序列（CNEs）扫描。

随着端粒到端粒（Telomere-to-Telomere）组装技术的普及，比较基因组学开始涉足高度重复区域（如着丝粒、核糖体 DNA 阵列）的跨物种比对，这需要介绍针对超长重复序列的特异性比较算法。

比较表观基因组学

目的： 研究不同物种或个体间表观遗传修饰的保守性与差异性。
方法： 比较不同基因组间的DNA甲基化模式、组蛋白修饰分布、染色质可及性（如 ATAC-seq 数据跨物种比较）。

比较转录组（分子数量性状的演化）

目的： 比较同源基因在不同物种间的表达模式、转录本丰度和可变剪接事件。
方法： 跨物种表达矩阵的标准化、表达模式聚类、剪接位点保守性分析。

此类跨物种分子表型数据比较的核心挑战

如何进行跨物种的数据标准化，使得不同物种、不同实验平台、不同测序深度的分子表型（如基因表达量）具有可比性？

Dunn et. al. 2013 讨论了注意事项：

RNA-Seq 产生的标准化读取计数并非表达量的直接测量值。相反，对于物种 $s$ 中的基因 $g$ 在处理 $t$ 下的计数期望值 $E[C_{gst}]$，可以通过以下公式建模：

\[E[C_{gst}] = k_{gs}E_{gst}\]

其中，$k_{gs}$ 表示特定于基因和物种的计数效率（Counting efficiency），而 $E_{gst}$ 才是真实的基因表达水平。

多维标准化： 表达量水平的标准化不仅基于每个个体（测序深度），还明确针对转录本长度、GC含量和物种这四个维度进行了校正。

在完成上述基础标准化后，为了彻底消除物种特异性常数 $k_{gs}$ 对系统发育分析的干扰，文献提出了两种排他性的数据转换策略：

策略一：演化表达比率分析（Fold Change）

通过比较同一物种内不同处理（如组织 1 和组织 2）的表达比率，直接在数学上抵消 $k_{gs}$：

\[\frac{E[C_{gs1}]}{E[C_{gs2}]} = \frac{k_{gs}E_{gs1}}{k_{gs}E_{gs2}} = \frac{E_{gs1}}{E_{gs2}}\]

策略二：将不同处理视为独立特征

不在分析前抵消 $k_{gs}$，而是将同一基因在不同处理下的标准化计数视为完全不同的演化特征（Characters）输入到比较矩阵中。

实例：比较转录组学的预处理流程（来自 Perry et. al. 2012）：

De novo 转录组组装与直系同源锚定：
- 研究人员基于 de Bruijn 图框架，对每个物种的转录组进行了从头（de novo）组装。
- 为了同时进行组装和直系同源基因匹配，他们在 de Bruijn 图中寻找与人类 RefSeq 基因序列在 39-bp 窗口上的同源性。这被用来定位可能包含目标基因序列的区域。
序列比对与 Reads 映射：
- 为了评估每个样本的基因表达水平，首先使用 BWA 软件将测序 reads 比对到该物种组装好的参考基因集上，并且要求仅保留唯一映射（uniquely mapped）的 reads。
- 对于双端测序数据，一对 reads 中的每一条是分开进行独立比对分析的。
- 对于未能在初步比对中成功映射的单条 reads，研究采用了带空位比对（gapped alignment）的方法进行重新评估和打分，以此来处理并容纳可变剪接事件。
最大直系同源区域限制（核心定量步骤）：
- 在进行基因表达水平的演化分析时，研究人员明确选择不使用每个物种完整组装出的基因序列。
- 他们执行了多物种序列比对（multispecies alignment），识别出在所有物种中完全对齐的最大直系同源区域（maximum orthologous region）。
- 该直系同源区域被进一步施加约束，排除了所有的非编码区（即 UTR 未被计入表达量分析）。
- 最终，只有落入这一被严格鉴定的直系同源区域内的 reads，才被计入并作为该转录本表达水平的衡量指标。该文献指出，这种策略降低了测序偏差或部分物种特有的可变剪接外显子对跨物种表达量估计的影响。
数据标准化与 GC 含量校正：
- 在获得了上述受限区域的 read 计数后，数据被进一步标准化并针对 GC 含量（GC content）进行了调整。

通过上述流程，Perry 等人在物理序列层面上通过截取“最大直系同源且剔除非编码区”的保守片段进行 reads 计数，直接消除了不同物种基因长度变异以及物种特异性剪接带来的量纲不一致，随后再进行标准化调整，从而生成了可以直接用于系统发育比较（如 EVE 模型所采用的输入）的基因表达量矩阵。

单细胞层面的跨物种比较（Single-cell Comparative Genomics）：比较转录组学部分仅讨论了组织级别的平均表达量。目前的方法已发展到对齐跨物种的单细胞 RNA-seq 数据（例如 SAMap, SATURN, Seurat V5），旨在检验“细胞类型演化”、“细胞状态同源性”以及基因调控网络在特定细胞群体中的分化假说。

三维基因组学比较

目的： 比较不同物种染色质的空间折叠和空间构象。
方法： 利用 Hi-C 等技术，比较拓扑相关结构域（TADs）、A/B区室（Compartments）和染色质环（Loops）在物种间的保守性和重排。

宏基因组比较分析

目的： 在群落水平上比较不同环境或宿主样本中微生物群落的基因组组成和功能潜力。
方法： 物种丰度比较、功能基因丰度比较、宏基因组组装基因组（MAGs）的系统发育和代谢通路比较。

总结

整个比较基因组学包含的工具箱要丰富得多，系统发育分析只是其中一个核心且强大的工具，它常与其他方法（如共线性分析、选择压力分析）结合使用，共同揭示基因组的进化故事。

个人关注的新 Tools

RERconverge

属于基因型-表型关联分析中的进化速率关联分析。

它的核心目的是寻找与趋同进化表型（如蝙蝠和鲸类的回声定位、不同哺乳动物的水生适应）相关的基因。它通过计算系统发育树上特定基因的相对进化速率（Relative Evolutionary Rate, RER），评估具有该趋同表型的独立分支是否在这些基因上表现出一致的速率偏移（显著加快或显著减慢）。

不严格区分同义和非同义突变，而是分析基因在特定分支上的总进化枝长（代表进化速率）是否与表型状态存在统计学上的相关性。

该软件逐渐开发出多种用法：

Description of software: Kowalczyk A, Meyer WK, Partha R, Mao W, Clark NL, Chikina M. RERconverge: an R package for associating evolutionary rates with convergent traits. Bioinformatics. 2019;35(22): 4815–4817, https://doi.org/10.1093/bioinformatics/btz468
Detailed description of latest methods: Partha R, Kowalczyk A, Clark N, Chikina M. Robust methods for detecting convergent shifts in evolutionary rates. Mol Biol Evol. 2019;36(8): 1817–1830. https://doi.org/10.1093/molbev/msz107
In coding sequences: Chikina M, Robinson JD, Clark NL. Hundreds of Genes Experienced Convergent Shifts in Selective Pressure in Marine Mammals. Mol Biol Evol. 2016;33: 2182–92. doi:10.1093/molbev/msw112
For conserved non-coding sequences: Partha R, Chauhan B, Ferreira Z, Robinson J, Lathrop K, Nischal K, et al. Subterranean mammals show convergent regression in ocular genes and enhancers, along with adaptation to tunneling. eLife 2017;6:e25884. https://doi.org/10.7554/eLife.25884

HyPhy 框架

包含多个功能。

常用的如 RELAX，专门检验特定进化分支上的基因是否经历了选择压力的放松（Relaxed selection）或强化（Intensification），而不是简单地寻找正向选择。

它假设目标分支（如生活史发生转变的分支）上的基因经历了纯化选择的放松，导致进化速率加快。反之，则代表强化（正选择或增强的纯化选择）。

RELAX 引入了选择强度参数 $k$。通过似然比检验（LRT），当 $k < 1$ 且检验显著时，为“纯化选择放松”提供排他性证据；当 $k > 1$ 且显著时，则提示选择强化。此时可以进一步在强化群（Intensification group）中区分是正向选择驱动还是更强的纯化选择驱动。

EVE or OUwie

EVE (Expression Variance and Evolution) 或基于 Ornstein-Uhlenbeck (OU) 模型的 OUwie。

它们直接处理跨物种的连续分子表型数据（如可变剪接频率的比值、表达量），检验这些调控模式的演化轨迹。

这些方法假设某种分子表型数据是由适应新环境或者其他因素驱动的定向选择。反之，则调控模式的变化仅仅反映了布朗运动模型下的中性漂变。

OU 模型在 BM 模型的基础上引入了“最佳适应度”（Optimum）和“选择恢复力”参数。如果针对当前数据的似然评估显示，包含多表型峰值的 OU 模型显著优于单纯的 BM 模型，这就排除了中性假说，为调控网络的适应性演化提供了诊断性证据。

Rohlfs 和 Nielsen (2015) 提出了一个名为表达方差与进化模型的新方法，用于在系统发育框架下联合分析物种内和物种间的定量性状（特别是基因表达水平）进化。

核心模型与原理

模型基础： EVE 模型基于 Ornstein-Uhlenbeck 过程，该过程描述了在稳定选择下的性状进化。它在经典模型上增加了一个关键参数 $\beta$，该参数代表了种群内表达方差与物种间进化表达方差的比率。
核心假设： 在稳定选择或中性进化下，对于给定的系统发育树，所有基因的 $\beta$ 值应大致恒定。$\beta$ 值的异常（显著偏高或偏低）揭示了不同的进化模式。
统计检验： 模型允许构建似然比检验，主要针对两种假设：
- 基因特异性 $\beta$ 检验： 检验某个基因的 $\beta$ 值是否显著偏离所有基因共享的 $\beta$ 值。这被称为系统发育 ANOVA，类似于 DNA 水平用于检测选择的 HKA 检验。
- 谱系特异性表达偏移检验： 检验特定进化支系上的最优表达水平是否发生了显著变化。

主要应用与发现

与传统 ANOVA 的比较： 通过模拟，作者证明在考虑系统发育关系后，EVE 模型的“系统发育 ANOVA”比忽略系统发育关系的传统 ANOVA 具有更高的准确性和更低的假阳性率。
在哺乳动物数据中的应用： 将 EVE 模型应用于 15 种哺乳动物（每个物种多个个体）的肝脏基因表达数据，作者识别出：
- 高表达分歧基因： 如 F10（凝血因子 X），其在犰狳中表达极高，可能与物种特有的快速凝血表型适应有关。
- 高表达多样性基因： 如 PPIB（免疫抑制相关）和 HSPA8（热休克蛋白），其表达在个体间差异大，暗示其对环境因素（如病原体、温度）的可塑性响应。
- 谱系特异性表达偏移基因： 在类人猿下目支系中，DEXI 基因表达上调，可能参与免疫调节；在人类支系中，MGAT1、TBCA（与脂肪代谢相关）和 BCKDK（与氨基酸代谢和神经系统相关）等基因表达发生特异性变化，可能反映了饮食或神经系统方面的适应[1]。

与已有模型的对比

作者将 EVE 模型与忽略物种内方差的物种均值模型进行比较。结果发现，EVE 模型能够更可靠地检测单物种（如人类）的谱系特异性表达偏移，因为它将观测到的表达差异与物种内期望的方差进行了比较，从而减少了假阳性发现。

ForwardGenomics

与 RERconverge 寻找双向趋同不同，该方法专门用于寻找由于特定表型丧失（如某物种丧失了特定结构或能力）而导致序列高度分化或发生假基因化的区域。这通常用于证明某基因是维持该表型的必要条件。

CNEfinder

用于系统性鉴定和比较基因组中极端保守的非编码序列，这些区域通常富集了关键的远距离顺式调控元件。

PhyloAcc

采用贝叶斯框架，通过比较不同进化速率模型（零模型 vs. 加速演化模型）的边缘似然度，用于识别在特定目标分支上经历演化速率显著加速的保守非编码元件。常用于将调控元件的退化与特定表型（如视觉退化、肢体丧失）的丧失建立关联。

分类