1. 解决问题
- 目标:回答两件事——“任务如何证明已完成?”以及“结果对业务意味着什么?”
- 范围:本篇聚焦交付物结构、关键字段解释与验收指标;算法原理放在第 05 篇。
2. 输出文件索引(建议的交付目录结构)
目录结构可按项目裁剪,但建议固定“可追溯、可复算、可验收”的最小集合。
1 | |
3. 关键字段解析(业务强相关)
3.1 代表性与覆盖(核心验收口径)
- A-NE:原始集合每个个体到核心集最近代表的平均距离;越低代表性越强。(定义与推导见第 05 篇)
- AL:核心集个体到全集的平均距离;常用于对比验证。
3.2 多样性与变异保留
- NA/AR:等位基因数/丰富度;越高通常代表保留更多变异。
- RA:稀有等位基因捕获比例;面向保护遗传学的关键指标。
- (H_e):期望杂合度;衡量遗传多样性水平。
- Shannon 指数 (H’):综合丰富度与均匀度;小样本核心集建议使用校正版本(见第 05 篇)。
3.3 标记/质控(常用于指纹图谱或早期 QC)
- MAF:次要等位基因频率;用于过滤噪声与极低频位点。
- PIC:多态性信息含量;用于衡量位点区分能力(面板设计重要)。
3.4 变异注释(如交付 ANN/候选基因)
- ANN:变异功能注释字段(如 SnpEff/其他注释器输出);需在项目中固化注释数据库版本与注释口径。
4. 业务指标评价(验收与解释)
4.1 内部验证(证明“结果可信”)
- 矩阵质量:缺失率分布、MAF 分布是否符合预期;异常样本是否已处理
- Ti/Tv(若来自变异检测流程):是否在合理区间(按物种/测序策略定义)
- 杂合率分布:与物种繁殖方式/育种历史一致(自交作物常偏低)
- 结构一致性:核心集在 PCA/聚类/树上覆盖主要分层,且不出现明显“漏掉某亚群”的结构断层
4.2 代表性与多样性的“业务合格线”(项目需明确)
这里给出“模板化判定方式”,具体阈值按物种与项目目标固化。
- 覆盖合格:
- A-NE 相对基线(如随机抽样/分层抽样)有显著改进,或达到项目设定阈值
- 稀有亚群/关键地理来源满足 MC/PC 约束(若设置)
- 多样性合格:
- NA/RA/(H_e) 与全体相比“下降可接受”(通常要求高保留率),并能解释下降原因(规模压缩带来的必然损失)
- 规模合理:
- 指标-规模曲线出现拐点(继续扩大规模收益递减),且满足下游成本/周期约束
4.3 外部价值解读(把结果映射到业务)
- 育种/研究提效:核心集规模缩减后,GWAS/GS 的成本与周期如何下降(可量化为样本数/测序预算/计算成本)
- 资源库管理:冗余降低、代表性维持;可用于分层保藏与更新策略
- 合规/产权(若做指纹):位点面板稳定性、可复用性、追溯链条完整性
5. 报告建议(把交付“产品化”)
- 一页结论:核心集规模、覆盖/多样性关键指标、结构覆盖图(PCA)+ 关键约束达成情况
- 可追溯性:输入清单、版本信息、参数文件与随机种子
- 可复算性:核心集筛选与指标计算脚本/命令骨架(引用第 03 篇)