核心种质筛选-02可行性评估

Posted on 2026-03-12 | Post modified 2026-03-16 | In WGS

本页面已设置访问密码，请输入密码查看全文：

1. 解决问题

目标：在开始执行前，明确“必须满足的硬性条件”，避免因为样本/数据/环境缺陷导致返工或结题风险。

2. 样本质量准入（QC Pass）

2.1 定量指标（实验室侧）

浓度：[填写项目标准]（如 ng/µL 下限）
总量：[填写项目标准]（如 µg 下限）
纯度：A260/280、A260/230 [阈值]

2.2 定性证据（实验室侧）

完整度：电泳条带/峰图 [判定规则]
降解/污染：是否有明显降解拖尾、RNA/盐/酚污染证据

2.3 数据质量准入（生信侧，按输入形态）

若输入为 VCF/基因型矩阵

样本缺失率：(<) [阈值]
位点缺失率：(<) [阈值]
MAF 下限：(>) [阈值]（常用 0.01 或 0.05）
异常样本识别：杂合率极端、污染/混样可疑、重复样本（IBD/PI_HAT）异常

若输入为 FASTQ/BAM（需要从头做变异检测）

基础质控：Q30、接头污染、序列长度分布
比对质量：比对率、重复率、覆盖度/深度分布、插入片段长度分布（PE）

上游样本要求（样本设计）

样本覆盖：尽量覆盖地理来源、类型/生态型、育种阶段与已知亚群；避免样本集中在单一区域或单一血缘。
样本规模：不宜机械采用“10% 规则”，更推荐用梯度模拟寻找拐点（核心集规模常见在 (5\%\sim 25\%) 波动，取决于结构复杂度与下游目标）。
元数据完整性：地理来源、品种类型、表型记录、批次信息等，会直接影响分层/约束与结果可解释性。

测序与变异数据要求（数据形态与深度策略）

浅层重测序（约 1×–4×）：适合超大规模初筛；通常需要配合高质量参考面板与可靠 imputation。
标准重测序（约 5×–15×）：行业主流折中方案，适用于多数群体结构与核心集构建任务。
高深度测序（约 30× 及以上）：用于高质量参考基因组、极低频变异或更苛刻的变异检测需求。

3. 计算环境要求

3.1 软件依赖

版本必须在项目启动时固化；后续变更需做可重复性说明。

基础：bash/zsh
VCF/矩阵处理：vcftools、bcftools、PLINK
核心集筛选：Core Hunter 3（或 GenoCore）
群体结构/降维：ADMIXTURE、R 包 SNPRelate
树与可视化：FastTree、R/ Python 绘图工具链
标识生成（可选）：qrencode

3.2 数据库依赖

参考基因组：版本号/来源（FASTA + index）
注释库（可选）：SnpEff 数据库版本与路径；或 Ensembl/自建注释版本与路径

4. 资源配置建议（算力）

4.1 按任务阶段给建议

矩阵清洗/LD：CPU 多核 + 足够内存（与样本量、位点数相关）
核心集优化（启发式/多目标优化）：CPU 多核，建议保留并行能力；需要记录随机种子/迭代次数
PCA/矩阵分解：内存敏感（尤其是大矩阵），建议优先用高效实现（如 SNPRelate）
变异检测（若做）：CPU/IO 压力大；GPU 非必需（除非明确采用某些深度学习流程）

4.2 资源“最小可用”与“推荐配置”（占位模板）

最小可用：CPU [x] 核 / 内存 [y] GB / 磁盘 [z] GB
推荐配置：CPU [x] 核 / 内存 [y] GB / 磁盘 [z] GB

5. 样本规模与测序深度策略（项目启动前必须定）

5.1 核心集规模：拒绝机械“10% 规则”

建议做法：用第 03 篇的“梯度规模模拟”找拐点，而不是固定比例拍脑袋。
经验范围：核心集规模在 (5\%\sim 25\%) 区间波动更常见，取决于群体结构复杂度与下游目标（GWAS/保护/资源库去冗余等）。
业务冲突提示：育种往往偏“代表性（常见等位基因）”，保护遗传学往往偏“多样性（稀有等位基因）”；启动会需把权重/约束写进配置。

5.2 测序深度分层（当项目涉及测序策略或上游方案评估）

浅层基因组测序（约 1×–4×）：适合超大规模初筛；通常需要可靠 imputation 与足够的参考面板支撑。
标准全基因组重测序（约 5×–15×）：行业主流折中方案，适用于多数核心集构建与群体结构任务。
高深度（约 30× 及以上）：用于高质量参考、极低频变异/更苛刻检测需求；成本高，需明确收益。

5.3 检测载体选择（SNP 芯片 vs 靶向捕获/液相芯片，按业务选）

固相 SNP 芯片：通量高、单位位点成本低，但在复杂/多倍体基因组可能受非特异性杂交影响，且迭代灵活性不足。
靶向捕获测序/液相芯片（GBTS 等）：探针池更易迭代，除既定位点外可发现覆盖区域新变异；更适合需要持续迭代面板的育种业务（需评估交付周期与成本）。

5. 风险清单（启动前必须澄清）

群体结构字段缺失：无法分层/约束，代表性解释会变弱
批次效应：不同批次/平台混合导致假结构
倍性/杂合度特殊：可能影响位点过滤口径与距离度量选择
参考偏差（可选关注）：结构变异丰富物种，线性参考可能导致比对偏差（见第 05 篇）