核心种质筛选及应用

本页面已设置访问密码，请输入密码查看全文：

摘要：核心种质（Core Set）是“从海量种质中挑出一个小而精、却能代表整体多样性”的子集，用来解决资源库规模过大、研究/育种样本难以深度分析的矛盾。本文作为“种质资源分析业务”系列总纲，覆盖业务概括、术语、核心指标、应用场景、友商产品概览、分析流程（技术栈/常用软件）与数据要求，并用多目标优化（以 Core Hunter 3 为代表）说明“多样性 vs 代表性”的平衡方法。

本业务的概括

“种质资源分析业务”可以理解为：围绕种质材料（样本）与其遗传变异/表型数据，完成从数据质控、群体理解、代表性子集构建到下游应用交付的一套产品化流程。典型交付物包括但不限于：

核心种质集合：用于缩小研究与育种的样本规模，同时尽量保留群体多样性与结构代表性。
DNA 指纹图谱/位点面板：用于品种鉴定、产权保护、合规追溯（常见输出形态为位点列表 + 分型矩阵 + 可视化/二维码等）。
群体结构/亲缘关系报告：PCA、系统发育树、群体结构推断、差异与聚类解释。

本业务的关键难点是把“统计学可解释”与“业务可用/可交付”统一起来：既要在指标上证明核心集“足够代表整体”，也要在应用侧满足育种/管理/合规约束（例如必须覆盖某些地理来源或特定亚群）。

基本概念及术语

种质资源（Germplasm Resources）：携带可遗传信息、可用于研究与育种的生物材料集合。
核心种质（Core Set）：从原始种质集合中抽取的高度代表性子集，目标是在更小规模下覆盖尽可能多的遗传/表型多样性，并尽量减少冗余。
DNA 指纹图谱（DNA Fingerprint Map）：使用分子标记（常见为 SNP/SSR）为样本建立可复用的“身份标识”，用于鉴定、保护与追溯。
代表性（Representativeness/Coverage）：核心集合对原始集合的覆盖程度；强调“原始集合里的每个个体/类型，都能被核心集合中的某个个体较好地代表”。
内部多样性（Internal Diversity）：核心集合内部个体彼此差异的程度；强调“核心集合自身不要过于相似”。

核心评价指标

指标建议按“距离覆盖、遗传变异、标记信息量/质控、结构约束”四类组织，便于与不同客户目标对齐。

距离/空间类（覆盖与代表性）

A-NE（Accession-to-Nearest-Entry mean distance）
- 定义：原始集合中每个个体到核心集合中最近（最相似）个体的距离取平均。
- 解读：越低越好，代表性越强（整体平均“被代表得更近”）。
AL（Average distance to the entire collection）
- 定义：核心集合中每个个体到原始集合所有个体的平均距离，再对核心集合取平均。
- 解读：通常越低代表覆盖越贴近整体，但解释直观性不如 A-NE。

遗传变异类（多样性与变异捕获）

NA / AR（等位基因数目/丰富度）：越高越好，衡量变异保留程度。
RA（稀有等位基因捕获比例）：越高越好，对保护稀有遗传资源尤关键。
(H_e)（期望杂合度）：越高通常代表遗传多样性越丰富。
Shannon-Wiener 指数 (H’)：综合丰富度与均匀度；在小样本核心集场景下建议使用无偏估计/校正版本，以降低样本量偏差。

标记信息量与质控指标（指纹图谱/生信QC常用）

PIC（多态性信息含量）：衡量单个位点区分个体的能力。经验上 (PIC>0.5) 常视为高多态。
MAF（次要等位基因频率）：用于剔除极低频位点与潜在噪声位点（如设定阈值 (MAF<0.01) 或 (<0.05) 过滤）。

结构/约束类（业务可用性）

PC（比例贡献）：核心集各亚群占比与原始集合占比保持一致（或按设定比例）。
MC（最小贡献）：保证每个亚群至少有若干代表进入核心集。

业务建议：把“核心集目标”显式拆成两条线——代表性（覆盖）与内部多样性。前者优先看 A-NE/AL；后者可用内部距离类指标（如 E-NE/DMIN）或多样性/等位基因类指标做佐证。

主要应用场景

精准育种：在可控样本规模内做 GWAS、QTL 定位、全基因组选择（GS），提升发现效率与统计功效。
产权保护与合规追溯：构建标准化指纹图谱，用于品种鉴定、侵权取证与质量追踪（常见为二维码/条码化交付）。
资源库管理优化：识别冗余、降低维护成本、优化保存与更新策略。
保护遗传学/保护基因组学：从濒危或小群体中选取遗传多样性高且结构均衡的个体作为奠基群体。
泛基因组研究（Pangenome Selection）：在结构变异丰富的物种中选择能覆盖主要结构单倍型/变异的代表材料。

友商产品情况（概览）

友商通常以“指纹图谱标准产品 + 群体遗传分析报告 + 位点开发/育种决策支持”的组合交付：

综合型服务商：强调从下机数据质控、变异检测、群体分析到 KASP/芯片位点开发的一站式。
垂直领域厂商：更强调把核心种质与功能基因组/育种决策（亲本选择、材料分层）绑定在一起。

差异化思路（可选）：把“核心种质筛选”产品化为资源管理与研究提效卖点，把“指纹图谱/位点面板”定位为下游应用工具链，用一套可复用的指标体系贯穿两者（代表性、多样性、结构约束、质控）。

分析流程（技术栈）及常用软件

这里给出一套可交付的“标准两阶段流程”。核心原则是：先得到可用的高质量基因型矩阵，再做核心集优化，最后对结果做“指标 + 可视化 + 业务约束”的三重验收。

输入与质控（得到可用的 SNP/基因型矩阵）

数据清洗：缺失率过滤、样本/位点质量过滤、去除明显异常样本。
LD 相关处理：按项目目标选择 LD pruning（用于结构推断/降维）或保留（用于某些下游分析）。
基础结构理解：PCA/聚类/亲缘关系，用于发现群体分层与潜在批次效应。

核心种质筛选（核心集构建 + 代表性验证）

目标与约束设定：明确要优先“代表性”还是“内部多样性”，以及是否有结构约束（PC/MC 等）。
梯度模拟（推荐）：按不同比例（如 (10\%\sim 90\%)）构建候选核心集，观察 A-NE、等位基因覆盖等指标的拐点，选择成本/收益最优规模。
有效性评估：
- 指标对比：核心集 vs 全集合（A-NE/AL、NA/RA/(H_e)、结构覆盖等）。
- 可视化验证：PCA/聚类/系统发育树，确保核心集在主要结构上覆盖原始集合的趋势与分布。

下游交付（以指纹图谱为例）

标记精筛：更严格的位点标准（例如位点完整度、MAF/PIC 阈值等），形成稳定可复用的位点集/面板。
遗传分析与可视化：树、结构、PCA、分型分布图等。
标识生成与交付物：位点列表、分型矩阵、样本指纹 ID、二维码/条码等。

方法学补充：抽样策略与多目标优化（以 Core Hunter 3 为例）

核心种质构建不是“抽多少”这么简单，更重要的是“按什么目标去选”。常见策略可归纳为：

方法	核心做法	优点	缺点	典型场景
简单随机抽样	随机选择指定数量个体	简单、无系统偏差	易漏稀有变异，效率低	初步探索、无先验结构
分层抽样	按地理/亚群分层，再按比例抽样	保证子群代表	依赖分层质量	群体结构明显、需均衡覆盖
基于距离的方法	依据遗传/表型距离最大化多样性或代表性	目标明确	计算量大	已有距离矩阵、追求明确目标
逐步排除/去冗余	逐步剔除最相似个体	收敛快	易偏向某类指标	快速缩减规模、资源库去冗余
等位基因富集	最大化等位基因/稀有等位基因覆盖	保留变异强	可能牺牲结构平衡	遗传资源保护导向

多目标优化的关键在于把“代表性 vs 多样性”同时纳入目标函数（并可加权/加约束）：

E-NE（Entry-to-Nearest-Entry mean distance）：核心集内部多样性，通常 越高越多样。
A-NE（Accession-to-Nearest-Entry mean distance）：整体代表性，通常 越低越代表。

常用软件（参考）

流程环节	软件/工具	主要用途
变异过滤/基础质控	`vcftools` / `PLINK`	缺失率/MAF/LD 处理、样本与位点过滤
核心集筛选	`Core Hunter 3` / `GenoCore`	多目标优化或基于指标的核心集构建
群体结构	`ADMIXTURE`	祖先成分推断、结构分层
PCA/矩阵计算	`SNPRelate`（R）	高性能 PCA 与相关计算
系统发育/树	`FastTree`	快速构建树并辅助解释
标识生成	`qrencode`	将指纹信息生成二维码等输出

数据要求（上游样本要求、测序数据要求等）

数据要求建议拆成“样本设计”和“测序与变异数据”两部分，并明确哪些是硬性门槛、哪些可通过算法补救（如缺失可通过 imputation 缓解，但前提是群体结构与参考面板足够支撑）。

上游样本要求（样本设计）

样本覆盖：尽量覆盖地理来源、类型/生态型、育种阶段与已知亚群；避免样本集中在单一区域或单一血缘。
样本规模：不宜机械采用“10% 规则”，更推荐用梯度模拟寻找拐点（核心集规模常见在 (5\%\sim 25\%) 波动，取决于结构复杂度与下游目标）。
元数据完整性：地理来源、品种类型、表型记录、批次信息等，会直接影响分层/约束与结果可解释性。

测序与变异数据要求（数据形态与深度策略）

浅层重测序（约 1×–4×）：适合超大规模初筛；通常需要配合高质量参考面板与可靠 imputation。
标准重测序（约 5×–15×）：行业主流折中方案，适用于多数群体结构与核心集构建任务。
高深度测序（约 30× 及以上）：用于高质量参考基因组、极低频变异或更苛刻的变异检测需求。

技术趋势（可选关注）

图泛基因组（Graph Pangenome）：面向结构变异丰富物种可降低参考偏差。
深度学习变异检测（如 DeepVariant/DeepTrio）：复杂基因组场景下有潜力提升变异检测精度（需结合成本评估）。
基因型填充（Imputation）：低深度/高缺失矩阵常用；强分层群体可考虑“先聚类、后填充”。