核心种质筛选-02可行性评估

Posted on 2026-03-12 | Post modified 2026-03-19 | In WGS

在开始执行前，明确“必须满足的硬性条件”，避免因为样本/数据/环境缺陷导致返工或结题风险。

样本要求

样本设计的可行性决定了核心集能否真实反映原始库（Collection）的遗传背景。

样本规模

若原始样本量过小，核心集筛选的统计功效不足，随机抽样与算法筛选的差异将不显著。

群体代表性

评估准则：尽量覆盖地理来源、类型/生态型、育种阶段与已知亚群；避免样本集中在单一区域或单一血缘（高度同质化不建议进行核心集筛选）。
诊断指标：在执行 CoreHunter 之前，需进行预聚类（如 PCA 或 ADMIXTURE）。
元数据完整性：地理来源、品种类型、表型记录、批次信息等，会直接影响分层/约束与结果可解释性。

表型多样性

关键农艺性状分布需符合正态或宽范围分布。若项目目的是构建表型核心集，则表型数据的变异系数 (CV) 应作为评估样本设计的关键证据。

数据质量要求

测序深度与测序方法

全基因组重测序 (WGS): 建议深度 ≥10×。在此深度下，基因型分型准确率高，可跳过填充步骤直接进行 QC 和分析。
简化基因组测序 (GBS/RAD-seq): 建议标签覆盖度有效深度 ≥20×。由于酶切位点覆盖不均，需更高深度以补偿等位基因丢失 (Allele Dropout) 风险。
低深度重测序 (Low-pass): 深度在 0.5×−2× 之间。必须匹配高质量参考面板 (Reference Panel) 进行 Imputation。

变异数据要求（VCF/基因型矩阵）

样本缺失率(Individual missing)：≤10%-20%
- 缺失率过高会导致该样本在遗传空间坐标中发生偏移，产生错误的“独特性”信号。
位点缺失率(Site missing)：≤10% (无填充)；≤50% (有填充)
- 原始缺失率过高会降低距离矩阵的精度，掩盖真实的遗传亲缘关系。
次等位基因频率(MAF)：≥0.05 or ≥0.01
- 过低的 MAF 往往包含测序报错，且对群体结构的贡献较小，除非项目目标是捕获极稀有变异。
有效变异位点数：大基因组物种 ≥10,000 SNP
- 位点数过少无法覆盖全基因组的连锁不平衡（LD）区块，导致筛选结果存在随机性。

不同场景下的指标调整

项目目的决定了对数据质量的容忍度和偏好。

1. 全基因组选择 (GS) 训练集构建

核心要求：最大化表型预测准确率。
MAF ≥0.05，样本缺失率 ≤5%。
论据：
- GS依赖于标记与数量性状位点 (QTL) 之间的连锁不平衡。
- 排除低 MAF 的原因：低频率标记对表型方差的贡献极小，且在小规模训练集中容易产生伪相关 (Spurious correlation)，增加过拟合风险。
- 严格限制缺失率的原因：预测模型（如GBLUP）对缺失数据敏感，任何基因型推断偏差都会直接降低预测值 $\hat{y}$ 的可靠性。

2. 品种指纹与追溯

核心要求：高分辨力与可重复性。
指标偏向：MAF 0.3−0.5，杂合度过滤。
论据：
- 选择高 MAF 的原因：根据信息论，当等位基因频率趋近 0.5 时，多态性信息含量 (PIC) 达到最大值，单个位点的区分度最高。
- 排除极低 MAF 的原因：防止将罕见突变或测序错误误判为新品种的特征序列。

3. 稀有资源保护与奠基群体选择

核心要求：捕获尽可能多的等位基因，特别是稀有等位基因。
关键指标：MAF ≥0.01。
论据：
- 放宽 MAF 的原因：地方品种或野生资源中的抗性、品质等优异性状往往锁定在低频等位基因中。
- 替代假说评估：若采用 MAF 0.05 过滤，将系统性剔除该群体 80% 以上的特有遗传变异，导致核心集失去“种质库”的代表性功能。

4. 泛基因组 (Pangenome) 代表性样本选择

核心要求：覆盖物种内所有的结构变异 (SV) 和非参考序列。
关键指标：LD 削减 (Pruning) 后的 SNP 覆盖度。
论据：
- 逻辑：由于 SV 检测成本高且准确率波动大，通常先基于 SNP 筛选。
- 修正标准：必须评估 SV 缺失率。若 SV 缺失率 >30%，说明该样本的长片段比对质量极差，无法提供有效的非核心基因 (Accessory genes) 信息，应在预筛选阶段剔除。

风险清单

群体结构字段缺失：无法分层/约束，代表性解释会变弱
批次效应：不同批次/平台混合导致假结构。观测到的“独特性”是否由批次效应导致？
倍性/杂合度特殊：可能影响位点过滤口径与距离度量选择。观测到的“高杂合度”是否由于多倍体或重复序列导致？
参考偏差（可选关注）：结构变异丰富物种（如玉米、葡萄），线性参考可能导致比对偏差，从而在筛选中被误认为是“低质量样本”而剔除。