在开始执行前,明确“必须满足的硬性条件”,避免因为样本/数据/环境缺陷导致返工或结题风险。
样本要求
样本设计的可行性决定了核心集能否真实反映原始库(Collection)的遗传背景。
样本规模
若原始样本量过小,核心集筛选的统计功效不足,随机抽样与算法筛选的差异将不显著。
群体代表性
- 评估准则:尽量覆盖地理来源、类型/生态型、育种阶段与已知亚群;避免样本集中在单一区域或单一血缘(高度同质化不建议进行核心集筛选)。
- 诊断指标:在执行 CoreHunter 之前,需进行预聚类(如
PCA或ADMIXTURE)。 - 元数据完整性:地理来源、品种类型、表型记录、批次信息等,会直接影响分层/约束与结果可解释性。
表型多样性
关键农艺性状分布需符合正态或宽范围分布。 若项目目的是构建表型核心集,则表型数据的变异系数 (CV) 应作为评估样本设计的关键证据。
数据质量要求
测序深度与测序方法
-
全基因组重测序 (WGS): 建议深度 ≥10×。在此深度下,基因型分型准确率高,可跳过填充步骤直接进行 QC 和分析。
-
简化基因组测序 (GBS/RAD-seq): 建议标签覆盖度有效深度 ≥20×。由于酶切位点覆盖不均,需更高深度以补偿等位基因丢失 (Allele Dropout) 风险。
-
低深度重测序 (Low-pass): 深度在 0.5×−2× 之间。必须匹配高质量参考面板 (Reference Panel) 进行 Imputation。
变异数据要求(VCF/基因型矩阵)
- 样本缺失率(Individual missing):≤10%-20%
- 缺失率过高会导致该样本在遗传空间坐标中发生偏移,产生错误的“独特性”信号。
- 位点缺失率(Site missing):≤10% (无填充);≤50% (有填充)
- 原始缺失率过高会降低距离矩阵的精度,掩盖真实的遗传亲缘关系。
- 次等位基因频率(MAF):≥0.05 or ≥0.01
- 过低的 MAF 往往包含测序报错,且对群体结构的贡献较小,除非项目目标是捕获极稀有变异。
- 有效变异位点数:大基因组物种 ≥10,000 SNP
- 位点数过少无法覆盖全基因组的连锁不平衡(LD)区块,导致筛选结果存在随机性。
不同场景下的指标调整
项目目的决定了对数据质量的容忍度和偏好。
1. 全基因组选择 (GS) 训练集构建
- 核心要求:最大化表型预测准确率。
- MAF ≥0.05,样本缺失率 ≤5%。
- 论据:
- GS依赖于标记与数量性状位点 (QTL) 之间的连锁不平衡。
- 排除低 MAF 的原因:低频率标记对表型方差的贡献极小,且在小规模训练集中容易产生伪相关 (Spurious correlation),增加过拟合风险。
- 严格限制缺失率的原因:预测模型(如GBLUP)对缺失数据敏感,任何基因型推断偏差都会直接降低预测值 $\hat{y}$ 的可靠性。
2. 品种指纹与追溯
- 核心要求:高分辨力与可重复性。
- 指标偏向:MAF 0.3−0.5,杂合度过滤。
- 论据:
- 选择高 MAF 的原因:根据信息论,当等位基因频率趋近 0.5 时,多态性信息含量 (PIC) 达到最大值,单个位点的区分度最高。
- 排除极低 MAF 的原因:防止将罕见突变或测序错误误判为新品种的特征序列。
3. 稀有资源保护与奠基群体选择
- 核心要求:捕获尽可能多的等位基因,特别是稀有等位基因。
- 关键指标:MAF ≥0.01。
- 论据:
- 放宽 MAF 的原因:地方品种或野生资源中的抗性、品质等优异性状往往锁定在低频等位基因中。
- 替代假说评估:若采用 MAF 0.05 过滤,将系统性剔除该群体 80% 以上的特有遗传变异,导致核心集失去“种质库”的代表性功能。
4. 泛基因组 (Pangenome) 代表性样本选择
- 核心要求:覆盖物种内所有的结构变异 (SV) 和非参考序列。
- 关键指标:LD 削减 (Pruning) 后的 SNP 覆盖度。
- 论据:
- 逻辑:由于 SV 检测成本高且准确率波动大,通常先基于 SNP 筛选。
- 修正标准:必须评估 SV 缺失率。若 SV 缺失率 >30%,说明该样本的长片段比对质量极差,无法提供有效的非核心基因 (Accessory genes) 信息,应在预筛选阶段剔除。
风险清单
- 群体结构字段缺失:无法分层/约束,代表性解释会变弱
- 批次效应:不同批次/平台混合导致假结构。观测到的“独特性”是否由批次效应导致?
- 倍性/杂合度特殊:可能影响位点过滤口径与距离度量选择。观测到的“高杂合度”是否由于多倍体或重复序列导致?
- 参考偏差(可选关注):结构变异丰富物种(如玉米、葡萄),线性参考可能导致比对偏差,从而在筛选中被误认为是“低质量样本”而剔除。