遗传育种项目技术路线选择指南

title: 遗传育种项目技术路线选择指南 date: 2026-03-13 13:56:14 categories:

WGS tags:
原理
总览

本篇文章从个体、家系到自然群体三个层级梳理遗传育种项目中常见的研究设计路径，并比较 WGS、液相芯片与固相芯片在原理、成本和应用场景上的差异，从而在不同样本规模与目标性状假设下，快速做出合理的技术路线选择。

1. 个体研究（N=1 或极少数）

个体研究无法进行群体水平的统计学关联检验，其诊断性证据依赖于直接的物理比对或已知功能验证。

科学假说：目标性状由具有绝对外显率的单基因突变（或结构变异）决定，或者该个体具有作为基准的代表性价值。
业务应用场景：
- 参考基因组构建：在开启一个新物种或新亚种的研究前，必须选取一个具有代表性的纯系个体，利用三代长读长测序（PacBio/ONT）组装高质量的参考基因组（Reference Genome），作为后续所有变异检测（SNP calling）的底层坐标系。
- 已知致病/功能位点排查：对于表现出罕见极端表型（如某种致命单基因遗传病，或极其优异的偶发突变）的单一个体，直接进行全外显子（WES）或全基因组（WGS）测序，与正常参考基因组比对，寻找无义突变或移码突变。
- 核心种质资产评估：在商业育种中，对即将用于大规模人工授精的“特级种公猪”或“核心种牛”进行个体高深度测序，以确认其是否携带已知的致死性隐性有害突变，或确认其是否具有特定的优良等位基因。

2. 家系研究（Family / Pedigree / 双亲及子代群体）

家系群体（如 F2 代、回交群体 BC、重组自交系 RIL）是经过人工控制交配产生的。其核心特征是重组事件少，连锁不平衡（LD）衰减极慢。

科学假说：目标性状受少数几个主效基因（QTL）控制，且这些基因在选择的两个亲本之间存在多态性差异。通过追踪标记与性状在子代中的共分离（Co-segregation）现象来定位基因。
诊断性优势（高统计效力）：由于只经历了少数几次减数分裂重组，家系中的染色体是以极大的“区块（Block）”进行遗传的。这意味着只需较少的样本量（数百个）和较低密度的标记（如低深度重测序或简化基因组测序），就能获得极高的统计学显著性。
诊断性劣势（低定位精度）：正是由于 LD 区块极大，定位到的显著区间（QTL 区域）通常长达数百万个碱基（Mb），内部包含几十上百个基因。家系研究很难直接精细定位到单一的致因突变（Causal Mutation）。
业务应用场景：早期阶段的 QTL 初定位；缺乏历史重组积累的新育成品种的遗传分析；植物自花授粉作物的图位克隆（Map-based cloning）。

3. 自然群体研究（Natural Population / Cohort）

自然群体包含大量无近亲关系的个体（或亲缘关系较远）。其核心特征是经历了成百上千代的历史同源重组，连锁不平衡（LD）衰减极快。

科学假说：目标性状是受微效多基因控制的复杂数量性状。通过扫描整个基因组上的历史重组断点，寻找与表型在统计学上显著关联的极小基因组区域。
诊断性优势（极高定位精度）：由于历史重组打碎了染色体区块，LD 距离通常只有几 KB 到几十 KB。此时如果检测到显著的关联信号（GWAS 曼哈顿图上的峰），该信号所在的物理区间极小，可以直接锁定单一候选基因甚至具体的调控元件。
诊断性劣势（需要庞大样本与高密度标记）：为了捕捉到极短的 LD 区块，必须使用高密度的变异标记（全基因组重测序 WGS 或高密度芯片）。同时，为了克服多基因微弱效应和多重假设检验的严苛阈值（如 Bonferroni 校正，通常 P<5×10−8），必须依赖极其庞大的样本量（几千到几万）才能提供足够的统计效力。
业务应用场景：全基因组关联分析（GWAS）；群体进化与选择消除分析（寻找整个物种驯化史中受到选择的区域）；构建全基因组选择（GS）的底层参考模型。

WGS、液相、固相检测的区别

除WGS外，目前液相芯片（genotypeing by target sequencing）和固相芯片也在农业育种得到越来越多的应用。三者的区别？
总结


评估维度	WGS (全基因组重测序)	液相芯片 (靶向捕获测序)	固相芯片 (DNA Microarray)
底层原理	随机打断，无偏差高通量测序	溶液杂交捕获目标区域，高通量测序	探针固定于固相基质，光学荧光信号检测
数据输出	未知的全基因组序列 (A/T/C/G)	靶向区域的序列 (A/T/C/G)	已知位点的基因型 (荧光强弱)
生产端研发成本	无（无需定制探针）	中（需合成特异性探针库）	极高（需开模、光刻制造物理芯片）
消费端单样本成本	最高（线性增长）	低（适合中大规模群体）	极低（仅限极大样本量且位点固定）
生信分析算力消耗	极高 (集群运算，TB级数据)	极低 (单机可完成，GB级数据)	无需传统生信比对 (直接输出基因型矩阵)
业务适用场景	第一阶段：从头寻找未知变异	第三阶段：数百至数千样本的特定位点筛查	第三阶段：数十万级别样本的标准商业化鉴定

大队列研究，为什么要用这么多样本？客户想解决什么？能否用靶向测序代替或者低深度+panel插补代替？
我们是否有过承接大队列项目的先例？遇到了什么问题和难点？最后是如何解决的？哪些没解决？
我们目前似乎是通过偏个性化定制的方式来进行育种项目。后续会从纯粹的“按需定制服务”转向“标准化产品交付”吗？

原理差异

WGS： 采用非靶向策略。提取样本DNA后，随机超声打断为短片段，直接连接测序接头并上机。其诊断性特征是无预设偏好，能够发现样本中存在的所有类型的已知和未知变异（SNP、InDel、SV等）。
液相芯片： 采用靶向富集策略。DNA打断后，加入预先设计好的生物素标记探针。在液相环境中，探针与目标DNA序列发生互补杂交，随后利用链霉亲和素磁珠将杂交复合物“拉下来”（Pull-down），洗脱非目标片段后，仅对富集到的目标区域进行二代测序。
固相芯片： 采用原位杂交与光学检测策略。几十万到上百万个寡核苷酸探针被化学固定在硅基或玻璃基片上的特定物理坐标处。样本DNA被荧光标记后流经芯片表面，若发生完美互补配对，该坐标点在激光扫描下会发出特定波长的荧光。其诊断性特征是不涉及真正的“测序（读取碱基）”，而是通过坐标和荧光颜色判定基因型。

研发成本差异

WGS： 研发成本为 0。公司不需要为特定物种或特定性状预先开发任何试剂，收到样本即可进行标准化建库。重资产主要集中在后端的计算集群和存储设备上。
液相芯片： 研发成本中等（数万元人民币级别）。主要成本在于根据目标位点设计并合成那一管探针混合物（Panel）。其优势在于迭代极快，如果发现某个育种位点无效，下一批次直接在探针库中剔除即可，无需废弃硬件。
固相芯片： 研发与制造成本极高（数十万至上百万元人民币级别）。需要极高的光刻或微阵列打印技术。一旦版图设计完成并投入生产，位点组合就完全固化，任何一个位点的增删都需要重新开模。

测序成本差异

WGS： 单样本绝对成本最高。为了保证杂合位点的准确检出，每个样本通常需要测定基因组大小10倍至30倍的数据量。这导致试剂和机时成本居高不下，且无论测1个样本还是1000个样本，单样本成本下降空间极其有限。
固相芯片： 单样本绝对成本最低，但存在极高的起订门槛。只有当客户承诺数万甚至数十万的检测量时，生产端的开模成本才能被有效摊薄。非常适合成熟的、大规模的商业育种企业进行常规筛查。
液相芯片： 处于两者之间的最优解。对于几百到几千个样本的育种群体，液相芯片的单样本建库和测序总成本远低于WGS（因为测序数据量不到WGS的1%），同时又避免了固相芯片的高昂开模费和死板的定制限制。

数据交付周期差异

WGS： 湿实验极快（标准化建库通常1-2天即可上机）。但时间瓶颈集中在后端的生信分析阶段。由于数据量庞大，几十个样本的比对、变异检测和质控可能需要耗费数周的高性能计算时间。
固相芯片： 首次定制周期极长（通常需要几个月来设计、验证和生产物理芯片）。但一旦拥有现成芯片，样本检测极快，且下机数据直接就是包含基因型的表格，几乎不需要进行复杂的生物信息学计算。
液相芯片： 首次探针合成需要2-4周。在日常生产中，由于增加了液相杂交和洗脱步骤，湿实验建库时间比WGS长1-2天。然而，由于产出的下机数据量极小，生信比对和变异检测通常在几小时到一两天内即可全部完成。

总览