似然比检验的局限与贝叶斯因子

为了客观说明贝叶斯因子(Bayes Factor, BF),我们将脱离序列和分子层面,使用一个宏观演化生态学的具体观察作为案例。

二者的数学差异

似然比(Likelihood Ratio, LR)和贝叶斯因子(Bayes Factor, BF)在统计推断中承担相似的比较功能,但它们评估的对象和数学基础存在核心差异。

似然比评估的是“特定参数点”:

似然比比较的是在两个特定的参数值(或极大似然估计值)下,观测到当前数据的概率之比。它不考虑参数空间的其他可能性。

贝叶斯因子评估的是“整个模型”:

贝叶斯因子比较的是两个模型产生当前观测数据的边缘似然(Marginal Likelihood)之比。它需要将模型在整个参数空间上的可能性,根据先验分布进行加权积分。

用数学语言表述,假设我们要比较模型 $M_1$ 和 $M_0$,其各自的参数空间为 $\theta_1$ 和 $\theta_0$:

\[BF_{10} = \frac{P(D|M_1)}{P(D|M_0)} = \frac{\int P(D|\theta_1, M_1)P(\theta_1|M_1)d\theta_1}{\int P(D|\theta_0, M_0)P(\theta_0|M_0)d\theta_0}\]

核心差异的实际意义:

计算贝叶斯因子时,积分操作会对模型的参数空间进行遍历。如果一个模型非常复杂(包含大量自由参数),其参数空间会变得极其广阔,导致先验概率密度 $P(\theta M)$ 在整个空间上被摊薄。因此,贝叶斯因子在数学层面上自带对过度复杂模型的惩罚机制。相比之下,似然比检验(LRT)通常需要额外引入自由度差异来人为调整(如卡方分布近似),否则总是倾向于支持参数更多的复杂模型。

核心概念是:似然比(Likelihood Ratio)只评估模型在“最佳参数”下的拟合能力,而贝叶斯因子评估模型在“所有可能参数”下的平均预测能力。

一个例子:岛屿物种的体型演化

观测数据(D): 已知某大陆物种的平均体长为 10 cm。现观测到一个被隔离在海岛上的该物种亚群,其平均体长演化为了 15 cm。

我们提出两个系统发育或生态学模型来解释这一现象:

  • 模型 0(M0,简单模型):中性随机漂变。

    该模型假设体型变化仅由随机的遗传漂变引起。该模型只有一个参数:世代间的漂变方差($\sigma^2$)。

  • 模型 1(M1,复杂模型):定向自然选择。

    该模型假设岛屿环境(如特定食物的物理性质)存在一个最佳适应体长(Optimum,记为 $\theta$)。体型受到趋向该最佳值的选择压力。该模型有两个参数:漂变方差($\sigma^2$)和适应性最优值($\theta$)。

似然比(Likelihood Ratio)的局限:极值点比较

如果我们使用似然比来比较 M1 和 M0:

似然比会寻找每个模型下最能吻合数据的那个单一参数点(极大似然估计)。

  • 对于 M1(选择模型),算法会自动将未知参数 $\theta$ 设定为 15 cm(精确对准观测数据)。在这个极值点上,模型计算出观测到“15 cm 体长”的概率 $P(D \text{最佳}\theta, M_1)$ 非常高。
  • 对于 M0(漂变模型),因为它没有 $\theta$ 这个参数可以随意调节,只能依赖随机方差去覆盖 15 cm 的观测值,其最大概率值必然低于 M1。

结论: 似然比总是倾向于支持 M1。因为它允许复杂模型通过调节额外的自由参数来完美“迎合”当前数据。

贝叶斯因子(Bayes Factor)的机制:参数空间积分

贝叶斯因子不允许模型事后诸葛亮式地挑选“最佳参数”。它要求计算边缘似然(Marginal Likelihood),即模型在引入数据之前,基于先验分布(Prior Distribution)对数据进行预测的加权平均概率。

在计算 M1 的边缘似然时:

  1. 设定先验空间: 在进行实地测量前,我们并不知道岛屿的最佳体长 $\theta$ 是多少。根据生态学常识,我们设定 $\theta$ 的先验范围可能是 5 cm 到 30 cm 之间的任何值。

  2. 概率密度的稀释: 因为 M1 是一个复杂的模型,它的参数空间非常广阔(5~30 cm)。根据概率论,总概率为 1,这意味着支持“$\theta = 15$”的先验概率被广阔的参数空间严重稀释了。

  3. 积分计算: 贝叶斯因子要求我们将 $\theta = 5, 6, 7… 15… 30$ 时预测出“体长为 15 cm”的概率全部加起来求平均。

结果分析:

虽然当 $\theta = 15$ 时,M1 预测准确度极高;但当 $\theta = 5$ 或 $\theta = 30$ 时,M1 预测出 15 cm 的概率几乎为零。

当把整个广阔参数空间(5~30 cm)的结果进行平均后,M1 的整体预测概率(边缘似然)会被那些“错误”的参数值大幅度拉低

四、 总结

\[BF = \frac{\text{M1在所有可能参数下的平均预测概率}}{\text{M0在所有可能参数下的平均预测概率}}\]

如果计算出的 BF 仍然大于 1(支持 M1),这就意味着:M1 并非依靠增加参数来死记硬背当前的数据点,而是其实际的生物学机制(自然选择)所产生的平均预测能力,确实超过了简单模型(中性漂变)。

贝叶斯因子通过“在整个参数空间上求积分”这一数学操作,客观且内在地惩罚了那些虽然能完美拟合数据、但由于参数过多导致先验空间过度膨胀的复杂假说。这就是为什么在评估假说时,贝叶斯因子比仅依赖点估计的检验方法更为严谨的原因。