核心种质筛选-04结果解读与交付

跑出来核心集后,如何评估?


评估指标

在挑选核心集时,我们会输出大量评估指标。它们主要分为基于距离的度量(Distance based measures)、等位基因丰度(Allelic richness)、以及其他衍生质量指标等维度。

基于距离的度量(Distance based measures)

这类指标是优化算法(如Core Hunter 3)最核心的驱动力,主要分为两类:

A. 衡量代表性(Representativeness) 衡量核心集是否能“完美代表”全集的分布,没有漏掉类型。

  • A-NE (Accession-to-Nearest-Entry):平均全集样本到最近核心集样本的距离。全集中每个样本,找到核心集中离它最近的那个代表,取距离的平均值。
    • 怎么看越低越好,说明全集样本离核心集都很近,被代表得很好。常与随机抽样做对比。若总体 A-NE 低但某个亚群 A-NE 异常高,通常是因为遗漏了某些子群。
  • AL (Average distance to the entire collection):核心集每个样本到全集的平均距离。
    • 怎么看:常与 A-NE 搭配,波动剧烈时需排查距离矩阵构建或缺失处理是否引入了批次效应。

B. 衡量内部多样性(Internal Diversity) 衡量核心集内部的成员之间是否足够分散,防止冗余浪费配额。

  • E-NE / EN (Entry-to-Nearest-Entry):平均核心集样本到最近核心集样本的距离。核心集内部,每个样本找到离它最近的成员,取距离平均值。
    • 怎么看越高越好,说明核心集内部个体互相离得远,冗余低。但过度追求 E-NE 会导致选入大量边缘的奇葩样本,从而牺牲代表性。
  • EE (Entry-to-Entry):核心集内部任意两个样本之间的平均距离(由于容易偏向边缘样本,现代算法中已不推荐作为优化目标)。
  • DMIN (Minimum distance within core set):核心集内任意两个个体之间的最小距离。
    • 怎么看:用于检查核心集中有没有极其相似(冗余)的“克隆/重复”样本对。

等位基因丰度类指标(Allelic richness)

仅适用于基因型标记数据。这类指标极易在较小的抽样规模下饱和,因此通常不作为主要优化目标,而是作为验收底线。看“基因层面的多样性”是否因为规模压缩而丧失。

  • CV / MR (Allele coverage / Marker Retention):核心集保留了全集中多少百分比的等位基因。
    • 怎么看:通常要求 95% 或 98% 以上。规模缩减必然导致绝对数量下降,但不能出现断崖式暴跌。
  • SH (Shannon’s diversity index):香农多样性指数,衡量等位基因频率的均匀度。
  • He (Expected Heterozygosity, 期望杂合度):整体基因组多样性的基础度量。
    • 怎么看:需结合物种自身的繁育方式来看(自交作物的群体本身 He 就偏低,这是正常的)。
  • RA (Rare Allele capture):稀有等位基因的捕获比例。
    • 怎么看:如果项目强调“野生资源保护/保藏”,这是验收关键指标。需注意,如果在上游过滤矩阵时把低频 MAF 过滤得太狠,这里 RA 必然不好看。

结构约束类指标

  • PC (Proportional Contribution) / MC (Minimum Contribution)
    • PC:结构约束,即强制核心集中各亚群的比例与原始全集保持一致。
    • MC:保证每个亚群至少有若干代表进入核心集(兜底策略)。适用于存在极其稀有亚群需要保护的场景。

标记与质量类指标(常用于后续指纹图谱开发)

  • PIC (Polymorphism Information Content):多态信息含量,反映某个位点区分不同个体的能力。
    • 怎么看:PIC > 0.5 通常被视为高多态。如果核心集后续用于开发 Panel 面板,应优先保留这些高区分度的位点。
  • MAF (Minor Allele Frequency):次要等位基因频率,用于过滤测序错误或由于样本过少导致的假阳性。
  • ANN:变异功能注释字段(如 SnpEff 输出),需在项目中固化选用的注释数据库版本。

表型与质量类指标(若绑定了表型数据)

  • VR (Valued accessions Represented):带有极其重要表型记录(如高抗、高产)的优质种质在核心集中的留存覆盖率。
  • CVR (Continuous Variable Range):核心集在关键连续性状(如株高、果长)上的 min-max 极值覆盖。
    • 怎么看:防止优化算法为了追求“稳妥中心化”而仅挑选表现中庸的材料,从而把含有极端优异性状的个体剔除了。

项目验收怎么做

在交付给客户之前,按照这个顺序查:

排除上游数据“埋雷”

  • 矩阵与变异:缺失率、MAF 分布是否合理,Ti/Tv 或杂合率是否符合该物种文献预期,有无剔除质控极差的样本。
  • 结构可视化(最直观的证据):核心集在 PCA 散点图、聚类树或 Admixture 堆叠图上,必须均匀地覆盖住主要分层,决不能出现整块亚群被遗漏的现象。

覆盖与多样性是否达标

根据具体物种的遗传特性,在 params_core_set.yaml 等项目配置中固化通过阈值:

  • 覆盖合格:A-NE 指标显著优于随机抽样基线;针对少数稀有分支的 MC/PC 结构约束已百分百兑现。
  • 多样性合格:CV/MR(等位基因覆盖率)达到立项时的预期阈值(如保持 95% 或 98% 以上变异覆盖),RA(稀有等位基因保留率)符合预期。
  • 规模合理性证明:通过执行梯度规模筛选(例如 5%、10%、15%、20% 的规模对比),能提供一张“指标 - 规模”变化折线图,直观展现出为何选取当前规模(达到了收益的拐点)。

如何把结果翻译成业务语言

  • 育种与科研提效:说明规模缩减后,在保证群体遗传多样性基本不丢的前提下,将下游全基因组关联分析(GWAS)、GS 表型观测或转录组测序的成本和时间压缩了多少倍
  • 资源库管理支持:说明冗余材料被移出的比例,提供从“活体活跃库”移入“深低温基础库”的分层保藏决策依据。
  • 合规与产权(指纹图谱):说明挑选出核心种质及其配套的位点面板(Panel)的鉴别稳定性,强调这套体系能支撑品种纯度鉴定和侵权纠纷溯源。

论文/报告的方法学章节建议

在撰写正式分析报告或科研论文的“方法学(Methods)”时,建议遵循以下标准逻辑:

  1. 定义业务目标:说明本次建库是代表性优先、多样性优先,还是在两者间折中?是否有必须人工指定保留的兜底样本?
  2. 声明优化口径:明确列出使用了哪些目标函数或距离度量(如最小化 A-NE,最大化 EN),交代算法的多目标权重分配,以及强制执行的群体约束(MC)。
  3. 展示证据链条:“指标-规模”变化曲线作为拐点选择证据,最后附上总体结构可视化图件以证明核心种质的完美覆盖能力。