本页面已设置访问密码,请输入密码查看全文:
1. 解决问题
- 目标:在开始执行前,明确“必须满足的硬性条件”,避免因为样本/数据/环境缺陷导致返工或结题风险。
2. 样本质量准入(QC Pass)
2.1 定量指标(实验室侧)
- 浓度:[填写项目标准](如 ng/µL 下限)
- 总量:[填写项目标准](如 µg 下限)
- 纯度:A260/280、A260/230 [阈值]
2.2 定性证据(实验室侧)
- 完整度:电泳条带/峰图 [判定规则]
- 降解/污染:是否有明显降解拖尾、RNA/盐/酚污染证据
2.3 数据质量准入(生信侧,按输入形态)
若输入为 VCF/基因型矩阵
- 样本缺失率:(<) [阈值]
- 位点缺失率:(<) [阈值]
- MAF 下限:(>) [阈值](常用 0.01 或 0.05)
- 异常样本识别:杂合率极端、污染/混样可疑、重复样本(IBD/PI_HAT)异常
若输入为 FASTQ/BAM(需要从头做变异检测)
- 基础质控:Q30、接头污染、序列长度分布
- 比对质量:比对率、重复率、覆盖度/深度分布、插入片段长度分布(PE)
上游样本要求(样本设计)
- 样本覆盖:尽量覆盖地理来源、类型/生态型、育种阶段与已知亚群;避免样本集中在单一区域或单一血缘。
- 样本规模:不宜机械采用“10% 规则”,更推荐用梯度模拟寻找拐点(核心集规模常见在 (5\%\sim 25\%) 波动,取决于结构复杂度与下游目标)。
- 元数据完整性:地理来源、品种类型、表型记录、批次信息等,会直接影响分层/约束与结果可解释性。
测序与变异数据要求(数据形态与深度策略)
- 浅层重测序(约 1×–4×):适合超大规模初筛;通常需要配合高质量参考面板与可靠 imputation。
- 标准重测序(约 5×–15×):行业主流折中方案,适用于多数群体结构与核心集构建任务。
- 高深度测序(约 30× 及以上):用于高质量参考基因组、极低频变异或更苛刻的变异检测需求。
3. 计算环境要求
3.1 软件依赖
版本必须在项目启动时固化;后续变更需做可重复性说明。
- 基础:
bash/zsh - VCF/矩阵处理:
vcftools、bcftools、PLINK - 核心集筛选:
Core Hunter 3(或GenoCore) - 群体结构/降维:
ADMIXTURE、R 包SNPRelate - 树与可视化:
FastTree、R/ Python 绘图工具链 - 标识生成(可选):
qrencode
3.2 数据库依赖
- 参考基因组:版本号/来源(FASTA + index)
- 注释库(可选):SnpEff 数据库版本与路径;或 Ensembl/自建注释版本与路径
4. 资源配置建议(算力)
4.1 按任务阶段给建议
- 矩阵清洗/LD:CPU 多核 + 足够内存(与样本量、位点数相关)
- 核心集优化(启发式/多目标优化):CPU 多核,建议保留并行能力;需要记录随机种子/迭代次数
- PCA/矩阵分解:内存敏感(尤其是大矩阵),建议优先用高效实现(如
SNPRelate) - 变异检测(若做):CPU/IO 压力大;GPU 非必需(除非明确采用某些深度学习流程)
4.2 资源“最小可用”与“推荐配置”(占位模板)
- 最小可用:CPU [x] 核 / 内存 [y] GB / 磁盘 [z] GB
- 推荐配置:CPU [x] 核 / 内存 [y] GB / 磁盘 [z] GB
5. 样本规模与测序深度策略(项目启动前必须定)
5.1 核心集规模:拒绝机械“10% 规则”
- 建议做法:用第 03 篇的“梯度规模模拟”找拐点,而不是固定比例拍脑袋。
- 经验范围:核心集规模在 (5\%\sim 25\%) 区间波动更常见,取决于群体结构复杂度与下游目标(GWAS/保护/资源库去冗余等)。
- 业务冲突提示:育种往往偏“代表性(常见等位基因)”,保护遗传学往往偏“多样性(稀有等位基因)”;启动会需把权重/约束写进配置。
5.2 测序深度分层(当项目涉及测序策略或上游方案评估)
- 浅层基因组测序(约 1×–4×):适合超大规模初筛;通常需要可靠 imputation 与足够的参考面板支撑。
- 标准全基因组重测序(约 5×–15×):行业主流折中方案,适用于多数核心集构建与群体结构任务。
- 高深度(约 30× 及以上):用于高质量参考、极低频变异/更苛刻检测需求;成本高,需明确收益。
5.3 检测载体选择(SNP 芯片 vs 靶向捕获/液相芯片,按业务选)
- 固相 SNP 芯片:通量高、单位位点成本低,但在复杂/多倍体基因组可能受非特异性杂交影响,且迭代灵活性不足。
- 靶向捕获测序/液相芯片(GBTS 等):探针池更易迭代,除既定位点外可发现覆盖区域新变异;更适合需要持续迭代面板的育种业务(需评估交付周期与成本)。
5. 风险清单(启动前必须澄清)
- 群体结构字段缺失:无法分层/约束,代表性解释会变弱
- 批次效应:不同批次/平台混合导致假结构
- 倍性/杂合度特殊:可能影响位点过滤口径与距离度量选择
- 参考偏差(可选关注):结构变异丰富物种,线性参考可能导致比对偏差(见第 05 篇)