核心种质筛选-04验收与解读

1. 解决问题

  • 目标:回答两件事——“任务如何证明已完成?”以及“结果对业务意味着什么?”
  • 范围:本篇聚焦交付物结构、关键字段解释与验收指标;算法原理放在第 05 篇。

2. 输出文件索引(建议的交付目录结构)

目录结构可按项目裁剪,但建议固定“可追溯、可复算、可验收”的最小集合。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
project_core_set/
  00_meta/
    project_info.yaml
    software_versions.txt
    params_core_set.yaml
    input_manifest.tsv
  01_qc/
    sample_qc_table.tsv
    variant_qc_table.tsv
    qc_plots/
  02_population_structure/
    pca_scores.tsv
    pca_plots/
    admixture/
    tree/
  03_core_set/
    core_set_list.scale_05.tsv
    core_set_list.scale_10.tsv
    core_set_metrics_by_scale.tsv
    core_set_validation_plots/
  04_optional_fingerprint/
    marker_panel.tsv
    genotype_matrix.tsv
    qrcode/
  99_report/
    core_set_summary.md
    figures/

3. 关键字段解析(业务强相关)

3.1 代表性与覆盖(核心验收口径)

  • A-NE:原始集合每个个体到核心集最近代表的平均距离;越低代表性越强。(定义与推导见第 05 篇)
  • AL:核心集个体到全集的平均距离;常用于对比验证。

3.2 多样性与变异保留

  • NA/AR:等位基因数/丰富度;越高通常代表保留更多变异。
  • RA:稀有等位基因捕获比例;面向保护遗传学的关键指标。
  • (H_e):期望杂合度;衡量遗传多样性水平。
  • Shannon 指数 (H’):综合丰富度与均匀度;小样本核心集建议使用校正版本(见第 05 篇)。

3.3 标记/质控(常用于指纹图谱或早期 QC)

  • MAF:次要等位基因频率;用于过滤噪声与极低频位点。
  • PIC:多态性信息含量;用于衡量位点区分能力(面板设计重要)。

3.4 变异注释(如交付 ANN/候选基因)

  • ANN:变异功能注释字段(如 SnpEff/其他注释器输出);需在项目中固化注释数据库版本与注释口径。

4. 业务指标评价(验收与解释)

4.1 内部验证(证明“结果可信”)

  • 矩阵质量:缺失率分布、MAF 分布是否符合预期;异常样本是否已处理
  • Ti/Tv(若来自变异检测流程):是否在合理区间(按物种/测序策略定义)
  • 杂合率分布:与物种繁殖方式/育种历史一致(自交作物常偏低)
  • 结构一致性:核心集在 PCA/聚类/树上覆盖主要分层,且不出现明显“漏掉某亚群”的结构断层

4.2 代表性与多样性的“业务合格线”(项目需明确)

这里给出“模板化判定方式”,具体阈值按物种与项目目标固化。

  • 覆盖合格
    • A-NE 相对基线(如随机抽样/分层抽样)有显著改进,或达到项目设定阈值
    • 稀有亚群/关键地理来源满足 MC/PC 约束(若设置)
  • 多样性合格
    • NA/RA/(H_e) 与全体相比“下降可接受”(通常要求高保留率),并能解释下降原因(规模压缩带来的必然损失)
  • 规模合理
    • 指标-规模曲线出现拐点(继续扩大规模收益递减),且满足下游成本/周期约束

4.3 外部价值解读(把结果映射到业务)

  • 育种/研究提效:核心集规模缩减后,GWAS/GS 的成本与周期如何下降(可量化为样本数/测序预算/计算成本)
  • 资源库管理:冗余降低、代表性维持;可用于分层保藏与更新策略
  • 合规/产权(若做指纹):位点面板稳定性、可复用性、追溯链条完整性

5. 报告建议(把交付“产品化”)

  • 一页结论:核心集规模、覆盖/多样性关键指标、结构覆盖图(PCA)+ 关键约束达成情况
  • 可追溯性:输入清单、版本信息、参数文件与随机种子
  • 可复算性:核心集筛选与指标计算脚本/命令骨架(引用第 03 篇)