核心种质筛选-04结果解读与交付

Posted on 2026-03-12 | Post modified 2026-03-19 | In WGS

跑出来核心集后，如何评估？

评估指标

在挑选核心集时，我们会输出大量评估指标。它们主要分为基于距离的度量（Distance based measures）、等位基因丰度（Allelic richness）、以及其他衍生质量指标等维度。

基于距离的度量（Distance based measures）

这类指标是优化算法（如Core Hunter 3）最核心的驱动力，主要分为两类：

A. 衡量代表性（Representativeness） 衡量核心集是否能“完美代表”全集的分布，没有漏掉类型。

A-NE (Accession-to-Nearest-Entry)：平均全集样本到最近核心集样本的距离。全集中每个样本，找到核心集中离它最近的那个代表，取距离的平均值。
- 怎么看：越低越好，说明全集样本离核心集都很近，被代表得很好。常与随机抽样做对比。若总体 A-NE 低但某个亚群 A-NE 异常高，通常是因为遗漏了某些子群。
AL (Average distance to the entire collection)：核心集每个样本到全集的平均距离。
- 怎么看：常与 A-NE 搭配，波动剧烈时需排查距离矩阵构建或缺失处理是否引入了批次效应。

B. 衡量内部多样性（Internal Diversity） 衡量核心集内部的成员之间是否足够分散，防止冗余浪费配额。

E-NE / EN (Entry-to-Nearest-Entry)：平均核心集样本到最近核心集样本的距离。核心集内部，每个样本找到离它最近的成员，取距离平均值。
- 怎么看：越高越好，说明核心集内部个体互相离得远，冗余低。但过度追求 E-NE 会导致选入大量边缘的奇葩样本，从而牺牲代表性。
EE (Entry-to-Entry)：核心集内部任意两个样本之间的平均距离（由于容易偏向边缘样本，现代算法中已不推荐作为优化目标）。
DMIN (Minimum distance within core set)：核心集内任意两个个体之间的最小距离。
- 怎么看：用于检查核心集中有没有极其相似（冗余）的“克隆/重复”样本对。

等位基因丰度类指标（Allelic richness）

仅适用于基因型标记数据。这类指标极易在较小的抽样规模下饱和，因此通常不作为主要优化目标，而是作为验收底线。看“基因层面的多样性”是否因为规模压缩而丧失。

CV / MR (Allele coverage / Marker Retention)：核心集保留了全集中多少百分比的等位基因。
- 怎么看：通常要求 95% 或 98% 以上。规模缩减必然导致绝对数量下降，但不能出现断崖式暴跌。
SH (Shannon’s diversity index)：香农多样性指数，衡量等位基因频率的均匀度。
He (Expected Heterozygosity, 期望杂合度)：整体基因组多样性的基础度量。
- 怎么看：需结合物种自身的繁育方式来看（自交作物的群体本身 He 就偏低，这是正常的）。
RA (Rare Allele capture)：稀有等位基因的捕获比例。
- 怎么看：如果项目强调“野生资源保护/保藏”，这是验收关键指标。需注意，如果在上游过滤矩阵时把低频 MAF 过滤得太狠，这里 RA 必然不好看。

结构约束类指标

PC (Proportional Contribution) / MC (Minimum Contribution)：
- PC：结构约束，即强制核心集中各亚群的比例与原始全集保持一致。
- MC：保证每个亚群至少有若干代表进入核心集（兜底策略）。适用于存在极其稀有亚群需要保护的场景。

标记与质量类指标（常用于后续指纹图谱开发）

PIC (Polymorphism Information Content)：多态信息含量，反映某个位点区分不同个体的能力。
- 怎么看：PIC > 0.5 通常被视为高多态。如果核心集后续用于开发 Panel 面板，应优先保留这些高区分度的位点。
MAF (Minor Allele Frequency)：次要等位基因频率，用于过滤测序错误或由于样本过少导致的假阳性。
ANN：变异功能注释字段（如 SnpEff 输出），需在项目中固化选用的注释数据库版本。

表型与质量类指标（若绑定了表型数据）

VR (Valued accessions Represented)：带有极其重要表型记录（如高抗、高产）的优质种质在核心集中的留存覆盖率。
CVR (Continuous Variable Range)：核心集在关键连续性状（如株高、果长）上的 min-max 极值覆盖。
- 怎么看：防止优化算法为了追求“稳妥中心化”而仅挑选表现中庸的材料，从而把含有极端优异性状的个体剔除了。

项目验收怎么做

在交付给客户之前，按照这个顺序查：

排除上游数据“埋雷”

矩阵与变异：缺失率、MAF 分布是否合理，Ti/Tv 或杂合率是否符合该物种文献预期，有无剔除质控极差的样本。
结构可视化（最直观的证据）：核心集在 PCA 散点图、聚类树或 Admixture 堆叠图上，必须均匀地覆盖住主要分层，决不能出现整块亚群被遗漏的现象。

覆盖与多样性是否达标

根据具体物种的遗传特性，在 params_core_set.yaml 等项目配置中固化通过阈值：

覆盖合格：A-NE 指标显著优于随机抽样基线；针对少数稀有分支的 MC/PC 结构约束已百分百兑现。
多样性合格：CV/MR（等位基因覆盖率）达到立项时的预期阈值（如保持 95% 或 98% 以上变异覆盖），RA（稀有等位基因保留率）符合预期。
规模合理性证明：通过执行梯度规模筛选（例如 5%、10%、15%、20% 的规模对比），能提供一张“指标 - 规模”变化折线图，直观展现出为何选取当前规模（达到了收益的拐点）。

如何把结果翻译成业务语言

育种与科研提效：说明规模缩减后，在保证群体遗传多样性基本不丢的前提下，将下游全基因组关联分析（GWAS）、GS 表型观测或转录组测序的成本和时间压缩了多少倍。
资源库管理支持：说明冗余材料被移出的比例，提供从“活体活跃库”移入“深低温基础库”的分层保藏决策依据。
合规与产权（指纹图谱）：说明挑选出核心种质及其配套的位点面板（Panel）的鉴别稳定性，强调这套体系能支撑品种纯度鉴定和侵权纠纷溯源。

论文/报告的方法学章节建议

在撰写正式分析报告或科研论文的“方法学（Methods）”时，建议遵循以下标准逻辑：

定义业务目标：说明本次建库是代表性优先、多样性优先，还是在两者间折中？是否有必须人工指定保留的兜底样本？
声明优化口径：明确列出使用了哪些目标函数或距离度量（如最小化 A-NE，最大化 EN），交代算法的多目标权重分配，以及强制执行的群体约束（MC）。
展示证据链条：“指标-规模”变化曲线作为拐点选择证据，最后附上总体结构可视化图件以证明核心种质的完美覆盖能力。