似然比检验的局限与贝叶斯因子

为了客观说明贝叶斯因子（Bayes Factor, BF），我们用一个宏观演化生态学的具体观察作为案例。

二者的数学差异

似然比（Likelihood Ratio, LR）和贝叶斯因子（Bayes Factor, BF）在统计推断中承担相似的比较功能，但它们评估的对象和数学基础存在核心差异。

似然比评估的是“特定参数点”：

似然比比较的是在两个特定的参数值（或极大似然估计值）下，观测到当前数据的概率之比。它不考虑参数空间的其他可能性。

贝叶斯因子评估的是“整个模型”：

贝叶斯因子比较的是两个模型产生当前观测数据的边缘似然（Marginal Likelihood）之比。它需要将模型在整个参数空间上的可能性，根据先验分布进行加权积分。

用数学语言表述，假设我们要比较模型 $M_1$ 和 $M_0$，其各自的参数空间为 $\theta_1$ 和 $\theta_0$：

\[BF_{10} = \frac{P(D \mid M_1)}{P(D \mid M_0)} = \frac{\int P(D \mid \theta_1, M_1)P(\theta_1 \mid M_1)d\theta_1}{\int P(D \mid \theta_0, M_0)P(\theta_0 \mid M_0)d\theta_0}\]

核心差异的实际意义：

计算贝叶斯因子时，积分操作会对模型的参数空间进行遍历。如果一个模型非常复杂（包含大量自由参数），其参数空间会变得极其广阔，导致先验概率密度 $P(\theta \mid M)$ 在整个空间上被摊薄。因此，贝叶斯因子在数学层面上自带对过度复杂模型的惩罚机制。相比之下，似然比检验（LRT）通常需要额外引入自由度差异来人为调整（如卡方分布近似），否则总是倾向于支持参数更多的复杂模型。

核心概念是：似然比（Likelihood Ratio）只评估模型在“最佳参数”下的拟合能力，而贝叶斯因子评估模型在“所有可能参数”下的平均预测能力。

一个例子：岛屿物种的体型演化

观测数据（D）： 已知某大陆物种的平均体长为 10 cm。现观测到一个被隔离在海岛上的该物种亚群，其平均体长演化为了 15 cm。

我们提出两个系统发育或生态学模型来解释这一现象：

模型 0（M0，简单模型）：中性随机漂变。

该模型假设体型变化仅由随机的遗传漂变引起。该模型只有一个参数：世代间的漂变方差（$\sigma^2$）。
模型 1（M1，复杂模型）：定向自然选择。

该模型假设岛屿环境（如特定食物的物理性质）存在一个最佳适应体长（Optimum，记为 $\theta$）。体型受到趋向该最佳值的选择压力。该模型有两个参数：漂变方差（$\sigma^2$）和适应性最优值（$\theta$）。

似然比（Likelihood Ratio）的局限：极值点比较

如果我们使用似然比来比较 M1 和 M0：

似然比会寻找每个模型下最能吻合数据的那个单一参数点（极大似然估计）。

对于 M1（选择模型），算法会自动将未知参数 $\theta$ 设定为 15 cm（精确对准观测数据）。在这个极值点上，模型计算出观测到“15 cm 体长”的概率 $P(D \mid \text{最佳}\theta, M_1)$ 非常高。
对于 M0（漂变模型），因为它没有 $\theta$ 这个参数可以随意调节，只能依赖随机方差去覆盖 15 cm 的观测值，其最大概率值必然低于 M1。

结论： 似然比总是倾向于支持 M1。因为它允许复杂模型通过调节额外的自由参数来完美“迎合”当前数据。

贝叶斯因子（Bayes Factor）的机制：参数空间积分

贝叶斯因子不允许模型事后诸葛亮式地挑选“最佳参数”。它要求计算边缘似然（Marginal Likelihood），即模型在引入数据之前，基于先验分布（Prior Distribution）对数据进行预测的加权平均概率。

在计算 M1 的边缘似然时：

设定先验空间： 在进行实地测量前，我们并不知道岛屿的最佳体长 $\theta$ 是多少。根据生态学常识，我们设定 $\theta$ 的先验范围可能是 5 cm 到 30 cm 之间的任何值。
概率密度的稀释： 因为 M1 是一个复杂的模型，它的参数空间非常广阔（5~30 cm）。根据概率论，总概率为 1，这意味着支持“$\theta = 15$”的先验概率被广阔的参数空间严重稀释了。
积分计算： 贝叶斯因子要求我们将 $\theta = 5, 6, 7… 15… 30$ 时预测出“体长为 15 cm”的概率全部加起来求平均。

结果分析：

虽然当 $\theta = 15$ 时，M1 预测准确度极高；但当 $\theta = 5$ 或 $\theta = 30$ 时，M1 预测出 15 cm 的概率几乎为零。

当把整个广阔参数空间（5~30 cm）的结果进行平均后，M1 的整体预测概率（边缘似然）会被那些“错误”的参数值大幅度拉低。

四、总结

\[BF = \frac{\text{M1在所有可能参数下的平均预测概率}}{\text{M0在所有可能参数下的平均预测概率}}\]

如果计算出的 BF 仍然大于 1（支持 M1），这就意味着：M1 并非依靠增加参数来死记硬背当前的数据点，而是其实际的生物学机制（自然选择）所产生的平均预测能力，确实超过了简单模型（中性漂变）。

贝叶斯因子通过“在整个参数空间上求积分”这一数学操作，客观且内在地惩罚了那些虽然能完美拟合数据、但由于参数过多导致先验空间过度膨胀的复杂假说。这就是为什么在评估假说时，贝叶斯因子比仅依赖点估计的检验方法更为严谨的原因。

二者的数学差异

一个例子：岛屿物种的体型演化

似然比（Likelihood Ratio）的局限：极值点比较

贝叶斯因子（Bayes Factor）的机制：参数空间积分

四、 总结

四、总结