本页面已设置访问密码,请输入密码查看全文:
1. 解决问题
- 目标:解释“为什么这样选核心集是合理的”,并给出在不同业务目标下可替换的算法与指标体系。
- 适用:答疑、方法学复用、与客户/评审对齐“代表性 vs 多样性”的取舍。
2. 指标体系(从定义到业务含义)
2.1 标记信息量与质控(面板/指纹常用)
PIC(Polymorphism Information Content)
- 含义:位点区分个体能力;PIC 越高,位点信息量越大。
- 业务用途:位点面板优先保留高 PIC 位点(同时考虑缺失率、稳定性与可检测性)。
MAF(Minor Allele Frequency)
- 含义:次要等位基因频率。
- 业务用途:过滤极低频位点以减少噪声与假阳性;也影响稀有等位基因的保留策略(与 RA 指标相关)。
2.2 多样性与变异保留
(H_e)(Expected Heterozygosity)
- 定义:在 H-W 平衡假设下两等位基因不同的概率(Nei 基因多样性)。
- 业务解读:越高通常表示群体遗传变异越丰富;核心集应尽量保持与全体一致或可接受的下降幅度。
Shannon 指数 (H’)(及小样本偏差)
- 定义:信息熵形式的丰富度+均匀度指标。
- 注意:核心集规模小会引入估计偏差,建议在项目中明确是否使用无偏/校正估计量,以及选择理由。
2.3 代表性(覆盖)与内部多样性的“二元张力”
核心种质的关键不是“多样性越高越好”,而是要在 内部多样性 与 对全集的代表性 之间找到业务最优点。
- 内部多样性(Internal Diversity):核心集内部个体尽可能不同(避免冗余)。
- 代表性(Representativeness/Coverage):核心集能够“贴近地代表”全集的所有类型(避免漏掉常见类型或关键亚群)。
核心评价指标
指标建议按“距离覆盖、遗传变异、标记信息量/质控、结构约束”四类组织,便于与不同客户目标对齐。
距离/空间类(覆盖与代表性)
- A-NE(Accession-to-Nearest-Entry mean distance)
- 定义:原始集合中每个个体到核心集合中最近(最相似)个体的距离取平均。
- 解读:越低越好,代表性越强(整体平均“被代表得更近”)。
- AL(Average distance to the entire collection)
- 定义:核心集合中每个个体到原始集合所有个体的平均距离,再对核心集合取平均。
- 解读:通常越低代表覆盖越贴近整体,但解释直观性不如 A-NE。
遗传变异类(多样性与变异捕获)
- NA / AR(等位基因数目/丰富度):越高越好,衡量变异保留程度。
- RA(稀有等位基因捕获比例):越高越好,对保护稀有遗传资源尤关键。
- (H_e)(期望杂合度):越高通常代表遗传多样性越丰富。
- Shannon-Wiener 指数 (H’):综合丰富度与均匀度;在小样本核心集场景下建议使用无偏估计/校正版本,以降低样本量偏差。
标记信息量与质控指标(指纹图谱/生信QC常用)
- PIC(多态性信息含量):衡量单个位点区分个体的能力。经验上 (PIC>0.5) 常视为高多态。
- MAF(次要等位基因频率):用于剔除极低频位点与潜在噪声位点(如设定阈值 (MAF<0.01) 或 (<0.05) 过滤)。
结构/约束类(业务可用性)
- PC(比例贡献):核心集各亚群占比与原始集合占比保持一致(或按设定比例)。
- MC(最小贡献):保证每个亚群至少有若干代表进入核心集。
业务建议:把“核心集目标”显式拆成两条线——代表性(覆盖)与内部多样性。前者优先看 A-NE/AL;后者可用内部距离类指标(如 E-NE/DMIN)或多样性/等位基因类指标做佐证。
3. 抽样策略谱系(从简单到优化)
3.0 最常见的代表性抽样策略(对照表)
| 方法 | 核心做法 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 简单随机抽样 | 完全随机选择指定数量个体(建议多次重复做 permutation) | 简单、无系统偏差 | 可能遗漏稀有变异,效率低 | 初步探索、无先验结构信息 |
| 分层抽样 | 按地理/亚群/类型分层,每层按比例或规则抽样 | 确保各子群代表 | 依赖分层字段质量 | 群体结构明显、需均衡覆盖 |
| 基于距离的方法 | 依据遗传/表型距离选择,最大化多样性或代表性 | 目标可控、可解释 | 计算量较大 | 已有距离矩阵、追求明确目标 |
| 逐步排除法(去冗余) | 从全集逐步剔除最相似(信息量最少)的个体 | 收敛快、工程简单 | 可能偏向某类指标 | 资源库快速缩减 |
| 等位基因富集法 | 以最大化等位基因数/覆盖度为目标选择 | 强化变异保留 | 可能忽略结构平衡 | 保护遗传学、稀有等位基因优先 |
3.1 随机抽样
- 优点:无系统偏差、易解释。
- 缺点:效率低、容易漏稀有变异;通常需要多次重复与统计汇总。
3.2 分层抽样(Stratified Sampling)
- 优点:保证各亚群/地理来源覆盖,适合结构明显群体。
- 缺点:依赖分层字段质量;分层不准会把偏差“制度化”。
3.3 基于距离的选择(多样性/代表性导向)
- 多样性导向:倾向最大化核心集内部距离(类似 MSTRAT 思路)。
- 代表性导向:倾向最小化核心集对全集的距离(类似 GDOpt 思路)。
- 现实问题:两者目标可能冲突,需要显式权衡或多目标优化。
3.4 逐步排除/去冗余与等位基因富集
- 适用:资源库缩减与保护遗传学导向。
- 风险:可能牺牲结构均衡或业务约束,需要用结构约束指标补齐(PC/MC)。
4. 多目标优化:以 Core Hunter 3 为例
4.1 两个关键指标:A-NE 与 E-NE
- A-NE(Accession-to-Nearest-Entry mean distance):
- 定义:全集中每个样本到核心集中最近样本的距离,取平均。
- 意义:衡量“全集被核心集代表得有多近”;越低越好(代表性越强)。
- E-NE(Entry-to-Nearest-Entry mean distance):
- 定义:核心集中每个样本到核心集中最近样本的距离,取平均。
- 意义:衡量核心集内部的“去冗余程度”;通常 越高越多样。
直观理解:A-NE 关注“我能不能代表别人”;E-NE 关注“我自己是不是互相太像”。
4.2 优化算法:并行回火(Parallel Tempering)
- 定位:全局优化的一种工程化实现,适合在复杂搜索空间中避免局部最优。
- 业务意义:在给定规模与约束下,提高找到“更均衡核心集”的概率。
- 参考:
模拟退火与并行回火.md
4.3 加权与约束(把业务目标写进算法)
- 加权目标:按项目优先级设定“代表性 vs 多样性”的权重。
- 结构约束:PC/MC(比例贡献/最小贡献)让小亚群不被优化过程牺牲。
4.4 代表性(覆盖度)的常见评估指标清单(用于验收口径对齐)
4.4.1 距离/空间类(覆盖与代表性)
- A-NE:整体代表性核心指标(越低越好)
- AL:核心集到全集的平均距离(越低通常越贴近)
- DMIN:核心集内两两个体最小距离(常作内部多样性;过度追求可能伤害代表性)
4.4.2 遗传变异类(变异捕获)
- NA/AR:等位基因数/丰富度(越高越好)
- RA:稀有等位基因捕获比例(越高越好)
- (H_e):期望杂合度(越高通常越好)
4.4.3 表型/质量类(若有表型数据)
- VR:有表型记录材料在核心集中的覆盖比例(用于“业务优先级”对齐)
- CVR:性状范围覆盖度(核心集覆盖各性状的 min/max 区间)
4.4.4 结构类(业务约束)
- PC:按亚群比例贡献约束/评价
- MC:每个亚群至少 1 个代表(或至少 X 个)
5. 统计学边界与显性假设(必须写进报告的“免责声明”)
- H-W 平衡/随机交配:某些指标(如 (H_e))的解释依赖假设;育种群体可能不满足。
- 距离度量的选择:遗传距离/表型距离/混合距离决定“什么是相似/代表”,必须在项目中固化。
- 阈值来源:MAF、缺失率、LD 参数等阈值应给出“经验来源/行业惯例/模拟结果”的理由。
6. 推荐的“方法学写法”(可直接搬到报告)
- 先定义业务目标:代表性优先 or 多样性优先,是否必须结构均衡。
- 再声明优化口径:选用的指标(A-NE/E-NE/NA/RA/(H_e)/…)与权重/约束。
- 最后给证据链:指标曲线拐点 + 结构可视化一致性 + 约束满足情况。