Jia | Research & Insights

Literature, Technology, and Thoughts

Home
Categories
About
Archives
Tags
Search

核心种质筛选-05算法

Posted on 2026-03-12 | Post modified 2026-03-16 | In WGS

本页面已设置访问密码，请输入密码查看全文：

1. 解决问题

目标：解释“为什么这样选核心集是合理的”，并给出在不同业务目标下可替换的算法与指标体系。
适用：答疑、方法学复用、与客户/评审对齐“代表性 vs 多样性”的取舍。

2. 指标体系（从定义到业务含义）

2.1 标记信息量与质控（面板/指纹常用）

PIC（Polymorphism Information Content）

含义：位点区分个体能力；PIC 越高，位点信息量越大。
业务用途：位点面板优先保留高 PIC 位点（同时考虑缺失率、稳定性与可检测性）。

MAF（Minor Allele Frequency）

含义：次要等位基因频率。
业务用途：过滤极低频位点以减少噪声与假阳性；也影响稀有等位基因的保留策略（与 RA 指标相关）。

2.2 多样性与变异保留

(H_e)（Expected Heterozygosity）

定义：在 H-W 平衡假设下两等位基因不同的概率（Nei 基因多样性）。
业务解读：越高通常表示群体遗传变异越丰富；核心集应尽量保持与全体一致或可接受的下降幅度。

Shannon 指数 (H’)（及小样本偏差）

定义：信息熵形式的丰富度+均匀度指标。
注意：核心集规模小会引入估计偏差，建议在项目中明确是否使用无偏/校正估计量，以及选择理由。

2.3 代表性（覆盖）与内部多样性的“二元张力”

核心种质的关键不是“多样性越高越好”，而是要在 内部多样性 与 对全集的代表性 之间找到业务最优点。

内部多样性（Internal Diversity）：核心集内部个体尽可能不同（避免冗余）。
代表性（Representativeness/Coverage）：核心集能够“贴近地代表”全集的所有类型（避免漏掉常见类型或关键亚群）。

核心评价指标

指标建议按“距离覆盖、遗传变异、标记信息量/质控、结构约束”四类组织，便于与不同客户目标对齐。

距离/空间类（覆盖与代表性）

A-NE（Accession-to-Nearest-Entry mean distance）
- 定义：原始集合中每个个体到核心集合中最近（最相似）个体的距离取平均。
- 解读：越低越好，代表性越强（整体平均“被代表得更近”）。
AL（Average distance to the entire collection）
- 定义：核心集合中每个个体到原始集合所有个体的平均距离，再对核心集合取平均。
- 解读：通常越低代表覆盖越贴近整体，但解释直观性不如 A-NE。

遗传变异类（多样性与变异捕获）

NA / AR（等位基因数目/丰富度）：越高越好，衡量变异保留程度。
RA（稀有等位基因捕获比例）：越高越好，对保护稀有遗传资源尤关键。
(H_e)（期望杂合度）：越高通常代表遗传多样性越丰富。
Shannon-Wiener 指数 (H’)：综合丰富度与均匀度；在小样本核心集场景下建议使用无偏估计/校正版本，以降低样本量偏差。

标记信息量与质控指标（指纹图谱/生信QC常用）

PIC（多态性信息含量）：衡量单个位点区分个体的能力。经验上 (PIC>0.5) 常视为高多态。
MAF（次要等位基因频率）：用于剔除极低频位点与潜在噪声位点（如设定阈值 (MAF<0.01) 或 (<0.05) 过滤）。

结构/约束类（业务可用性）

PC（比例贡献）：核心集各亚群占比与原始集合占比保持一致（或按设定比例）。
MC（最小贡献）：保证每个亚群至少有若干代表进入核心集。

业务建议：把“核心集目标”显式拆成两条线——代表性（覆盖）与内部多样性。前者优先看 A-NE/AL；后者可用内部距离类指标（如 E-NE/DMIN）或多样性/等位基因类指标做佐证。

3. 抽样策略谱系（从简单到优化）

3.0 最常见的代表性抽样策略（对照表）

方法	核心做法	优点	缺点	适用场景
简单随机抽样	完全随机选择指定数量个体（建议多次重复做 permutation）	简单、无系统偏差	可能遗漏稀有变异，效率低	初步探索、无先验结构信息
分层抽样	按地理/亚群/类型分层，每层按比例或规则抽样	确保各子群代表	依赖分层字段质量	群体结构明显、需均衡覆盖
基于距离的方法	依据遗传/表型距离选择，最大化多样性或代表性	目标可控、可解释	计算量较大	已有距离矩阵、追求明确目标
逐步排除法（去冗余）	从全集逐步剔除最相似（信息量最少）的个体	收敛快、工程简单	可能偏向某类指标	资源库快速缩减
等位基因富集法	以最大化等位基因数/覆盖度为目标选择	强化变异保留	可能忽略结构平衡	保护遗传学、稀有等位基因优先

3.1 随机抽样

优点：无系统偏差、易解释。
缺点：效率低、容易漏稀有变异；通常需要多次重复与统计汇总。

3.2 分层抽样（Stratified Sampling）

优点：保证各亚群/地理来源覆盖，适合结构明显群体。
缺点：依赖分层字段质量；分层不准会把偏差“制度化”。

3.3 基于距离的选择（多样性/代表性导向）

多样性导向：倾向最大化核心集内部距离（类似 MSTRAT 思路）。
代表性导向：倾向最小化核心集对全集的距离（类似 GDOpt 思路）。
现实问题：两者目标可能冲突，需要显式权衡或多目标优化。

3.4 逐步排除/去冗余与等位基因富集

适用：资源库缩减与保护遗传学导向。
风险：可能牺牲结构均衡或业务约束，需要用结构约束指标补齐（PC/MC）。

4. 多目标优化：以 Core Hunter 3 为例

4.1 两个关键指标：A-NE 与 E-NE

A-NE（Accession-to-Nearest-Entry mean distance）：
- 定义：全集中每个样本到核心集中最近样本的距离，取平均。
- 意义：衡量“全集被核心集代表得有多近”；越低越好（代表性越强）。
E-NE（Entry-to-Nearest-Entry mean distance）：
- 定义：核心集中每个样本到核心集中最近样本的距离，取平均。
- 意义：衡量核心集内部的“去冗余程度”；通常 越高越多样。

直观理解：A-NE 关注“我能不能代表别人”；E-NE 关注“我自己是不是互相太像”。

4.2 优化算法：并行回火（Parallel Tempering）

定位：全局优化的一种工程化实现，适合在复杂搜索空间中避免局部最优。
业务意义：在给定规模与约束下，提高找到“更均衡核心集”的概率。
参考：模拟退火与并行回火.md

4.3 加权与约束（把业务目标写进算法）

加权目标：按项目优先级设定“代表性 vs 多样性”的权重。
结构约束：PC/MC（比例贡献/最小贡献）让小亚群不被优化过程牺牲。

4.4 代表性（覆盖度）的常见评估指标清单（用于验收口径对齐）

4.4.1 距离/空间类（覆盖与代表性）

A-NE：整体代表性核心指标（越低越好）
AL：核心集到全集的平均距离（越低通常越贴近）
DMIN：核心集内两两个体最小距离（常作内部多样性；过度追求可能伤害代表性）

4.4.2 遗传变异类（变异捕获）

NA/AR：等位基因数/丰富度（越高越好）
RA：稀有等位基因捕获比例（越高越好）
(H_e)：期望杂合度（越高通常越好）

4.4.3 表型/质量类（若有表型数据）

VR：有表型记录材料在核心集中的覆盖比例（用于“业务优先级”对齐）
CVR：性状范围覆盖度（核心集覆盖各性状的 min/max 区间）

4.4.4 结构类（业务约束）

PC：按亚群比例贡献约束/评价
MC：每个亚群至少 1 个代表（或至少 X 个）

5. 统计学边界与显性假设（必须写进报告的“免责声明”）

H-W 平衡/随机交配：某些指标（如 (H_e)）的解释依赖假设；育种群体可能不满足。
距离度量的选择：遗传距离/表型距离/混合距离决定“什么是相似/代表”，必须在项目中固化。
阈值来源：MAF、缺失率、LD 参数等阈值应给出“经验来源/行业惯例/模拟结果”的理由。

6. 推荐的“方法学写法”（可直接搬到报告）

先定义业务目标：代表性优先 or 多样性优先，是否必须结构均衡。
再声明优化口径：选用的指标（A-NE/E-NE/NA/RA/(H_e)/…）与权重/约束。
最后给证据链：指标曲线拐点 + 结构可视化一致性 + 约束满足情况。

# Coreset selection # 算法

技术路线选择指南

核心种质筛选-04验收与解读

Table of Contents
Overview

Jia

Nothing in life is to be feared, it is only to be understood. — Marie Curie

GitHub

1 1. 解决问题
2 2. 指标体系（从定义到业务含义）
3 3. 抽样策略谱系（从简单到优化）
4 4. 多目标优化：以 Core Hunter 3 为例
5 4.4 代表性（覆盖度）的常见评估指标清单（用于验收口径对齐）
6 5. 统计学边界与显性假设（必须写进报告的“免责声明”）
7 6. 推荐的“方法学写法”（可直接搬到报告）

© 2026 Jia

Powered by Jekyll

Theme - NexT.Pisces