核心种质筛选-04验收与解读

1. 解决问题

目标：回答两件事——“任务如何证明已完成？”以及“结果对业务意味着什么？”
范围：本篇聚焦交付物结构、关键字段解释与验收指标；算法原理放在第 05 篇。

2. 输出文件索引（建议的交付目录结构）

目录结构可按项目裁剪，但建议固定“可追溯、可复算、可验收”的最小集合。

project_core_set/
  00_meta/
    project_info.yaml
    software_versions.txt
    params_core_set.yaml
    input_manifest.tsv
  01_qc/
    sample_qc_table.tsv
    variant_qc_table.tsv
    qc_plots/
  02_population_structure/
    pca_scores.tsv
    pca_plots/
    admixture/
    tree/
  03_core_set/
    core_set_list.scale_05.tsv
    core_set_list.scale_10.tsv
    core_set_metrics_by_scale.tsv
    core_set_validation_plots/
  04_optional_fingerprint/
    marker_panel.tsv
    genotype_matrix.tsv
    qrcode/
  99_report/
    core_set_summary.md
    figures/

3. 关键字段解析（业务强相关）

3.1 代表性与覆盖（核心验收口径）

A-NE：原始集合每个个体到核心集最近代表的平均距离；越低代表性越强。（定义与推导见第 05 篇）
AL：核心集个体到全集的平均距离；常用于对比验证。

3.2 多样性与变异保留

NA/AR：等位基因数/丰富度；越高通常代表保留更多变异。
RA：稀有等位基因捕获比例；面向保护遗传学的关键指标。
(H_e)：期望杂合度；衡量遗传多样性水平。
Shannon 指数 (H’)：综合丰富度与均匀度；小样本核心集建议使用校正版本（见第 05 篇）。

3.3 标记/质控（常用于指纹图谱或早期 QC）

MAF：次要等位基因频率；用于过滤噪声与极低频位点。
PIC：多态性信息含量；用于衡量位点区分能力（面板设计重要）。

3.4 变异注释（如交付 ANN/候选基因）

ANN：变异功能注释字段（如 SnpEff/其他注释器输出）；需在项目中固化注释数据库版本与注释口径。

4. 业务指标评价（验收与解释）

4.1 内部验证（证明“结果可信”）

矩阵质量：缺失率分布、MAF 分布是否符合预期；异常样本是否已处理
Ti/Tv（若来自变异检测流程）：是否在合理区间（按物种/测序策略定义）
杂合率分布：与物种繁殖方式/育种历史一致（自交作物常偏低）
结构一致性：核心集在 PCA/聚类/树上覆盖主要分层，且不出现明显“漏掉某亚群”的结构断层

4.2 代表性与多样性的“业务合格线”（项目需明确）

这里给出“模板化判定方式”，具体阈值按物种与项目目标固化。

覆盖合格：
- A-NE 相对基线（如随机抽样/分层抽样）有显著改进，或达到项目设定阈值
- 稀有亚群/关键地理来源满足 MC/PC 约束（若设置）
多样性合格：
- NA/RA/(H_e) 与全体相比“下降可接受”（通常要求高保留率），并能解释下降原因（规模压缩带来的必然损失）
规模合理：
- 指标-规模曲线出现拐点（继续扩大规模收益递减），且满足下游成本/周期约束

4.3 外部价值解读（把结果映射到业务）

育种/研究提效：核心集规模缩减后，GWAS/GS 的成本与周期如何下降（可量化为样本数/测序预算/计算成本）
资源库管理：冗余降低、代表性维持；可用于分层保藏与更新策略
合规/产权（若做指纹）：位点面板稳定性、可复用性、追溯链条完整性

5. 报告建议（把交付“产品化”）

一页结论：核心集规模、覆盖/多样性关键指标、结构覆盖图（PCA）+ 关键约束达成情况
可追溯性：输入清单、版本信息、参数文件与随机种子
可复算性：核心集筛选与指标计算脚本/命令骨架（引用第 03 篇）