核心种质筛选-02可行性评估

在开始执行前,明确“必须满足的硬性条件”,避免因为样本/数据/环境缺陷导致返工或结题风险。


样本要求

样本设计的可行性决定了核心集能否真实反映原始库(Collection)的遗传背景。

样本规模

若原始样本量过小,核心集筛选的统计功效不足,随机抽样与算法筛选的差异将不显著。

群体代表性

  • 评估准则:尽量覆盖地理来源、类型/生态型、育种阶段与已知亚群;避免样本集中在单一区域或单一血缘(高度同质化不建议进行核心集筛选)。
  • 诊断指标:在执行 CoreHunter 之前,需进行预聚类(如 PCAADMIXTURE)。
  • 元数据完整性:地理来源、品种类型、表型记录、批次信息等,会直接影响分层/约束与结果可解释性。

表型多样性

关键农艺性状分布需符合正态或宽范围分布。 若项目目的是构建表型核心集,则表型数据的变异系数 (CV) 应作为评估样本设计的关键证据。

数据质量要求

测序深度与测序方法

  • 全基因组重测序 (WGS): 建议深度 ≥10×。在此深度下,基因型分型准确率高,可跳过填充步骤直接进行 QC 和分析。

  • 简化基因组测序 (GBS/RAD-seq): 建议标签覆盖度有效深度 ≥20×。由于酶切位点覆盖不均,需更高深度以补偿等位基因丢失 (Allele Dropout) 风险。

  • 低深度重测序 (Low-pass): 深度在 0.5×−2× 之间。必须匹配高质量参考面板 (Reference Panel) 进行 Imputation。

变异数据要求(VCF/基因型矩阵)

  • 样本缺失率(Individual missing):≤10%-20%
    • 缺失率过高会导致该样本在遗传空间坐标中发生偏移,产生错误的“独特性”信号。
  • 位点缺失率(Site missing):≤10% (无填充);≤50% (有填充)
    • 原始缺失率过高会降低距离矩阵的精度,掩盖真实的遗传亲缘关系。
  • 次等位基因频率(MAF):≥0.05 or ≥0.01
    • 过低的 MAF 往往包含测序报错,且对群体结构的贡献较小,除非项目目标是捕获极稀有变异。
  • 有效变异位点数:大基因组物种 ≥10,000 SNP
    • 位点数过少无法覆盖全基因组的连锁不平衡(LD)区块,导致筛选结果存在随机性。

不同场景下的指标调整

项目目的决定了对数据质量的容忍度和偏好。

1. 全基因组选择 (GS) 训练集构建

  • 核心要求:最大化表型预测准确率。
  • MAF ≥0.05,样本缺失率 ≤5%。
  • 论据:
    • GS依赖于标记与数量性状位点 (QTL) 之间的连锁不平衡。
    • 排除低 MAF 的原因:低频率标记对表型方差的贡献极小,且在小规模训练集中容易产生伪相关 (Spurious correlation),增加过拟合风险。
    • 严格限制缺失率的原因:预测模型(如GBLUP)对缺失数据敏感,任何基因型推断偏差都会直接降低预测值 $\hat{y}$ 的可靠性。

2. 品种指纹与追溯

  • 核心要求:高分辨力与可重复性。
  • 指标偏向:MAF 0.3−0.5,杂合度过滤。
  • 论据:
    • 选择高 MAF 的原因:根据信息论,当等位基因频率趋近 0.5 时,多态性信息含量 (PIC) 达到最大值,单个位点的区分度最高。
    • 排除极低 MAF 的原因:防止将罕见突变或测序错误误判为新品种的特征序列。

3. 稀有资源保护与奠基群体选择

  • 核心要求:捕获尽可能多的等位基因,特别是稀有等位基因。
  • 关键指标:MAF ≥0.01。
  • 论据:
    • 放宽 MAF 的原因:地方品种或野生资源中的抗性、品质等优异性状往往锁定在低频等位基因中。
    • 替代假说评估:若采用 MAF 0.05 过滤,将系统性剔除该群体 80% 以上的特有遗传变异,导致核心集失去“种质库”的代表性功能。

4. 泛基因组 (Pangenome) 代表性样本选择

  • 核心要求:覆盖物种内所有的结构变异 (SV) 和非参考序列。
  • 关键指标:LD 削减 (Pruning) 后的 SNP 覆盖度。
  • 论据:
    • 逻辑:由于 SV 检测成本高且准确率波动大,通常先基于 SNP 筛选。
    • 修正标准:必须评估 SV 缺失率。若 SV 缺失率 >30%,说明该样本的长片段比对质量极差,无法提供有效的非核心基因 (Accessory genes) 信息,应在预筛选阶段剔除。

风险清单

  • 群体结构字段缺失:无法分层/约束,代表性解释会变弱
  • 批次效应:不同批次/平台混合导致假结构。观测到的“独特性”是否由批次效应导致?
  • 倍性/杂合度特殊:可能影响位点过滤口径与距离度量选择。观测到的“高杂合度”是否由于多倍体或重复序列导致?
  • 参考偏差(可选关注):结构变异丰富物种(如玉米、葡萄),线性参考可能导致比对偏差,从而在筛选中被误认为是“低质量样本”而剔除。