我想梳理两件事:第一,像 RERconverge 这种把“基因速率信号”直接和离散表型做关联的框架,为什么在真实数据里很容易被树上的过程变异误导;第二,以隐藏状态/贝叶斯层级模型为思路的方法,如何把分支背景变异(例如 $\beta_l^2$)放进模型里,从而把这类误导压下去。顺带提醒自己:统计上看到多条分支“同时加速”,并不等于它们因为同一个表型发生了因果趋同。
SV的检测原理和流程
结构变异(Structural Variant, SV)通常指基因组上长度大于50 bp的序列改变,主要包括缺失(Deletion)、插入(Insertion)、重复(Duplication)、倒位(Inversion)和易位(Translocation)。
以CSUBST为例:位点趋同的假设与例外
CSUBST(及其同类方法)虽然强大,但存在一系列重要的模型假设、数据依赖和场景限制。理解这些局限性,对于正确使用和合理解读其结果至关重要。
Vizueta et. al.(2025)Cell:Adaptive radiation and social evolution of the ants——整合性方法学与论证链条笔记
研读目的:精读 Vizueta 等(2025)发表于 Cell 的工作,提取其多层次、互补的整合性方法论:各 Section 从不同角度切入,结论最终汇聚、相互印证,形成从序列到功能、从进化到发育的完整叙事,便于日后在自己项目中复用实验设计与工具组合。
PHAST
PHAST 是一套用于通过比较多个物种的基因组来检测基因组中保守区域和加速进化区域的工具集。它包含多个命令。
RERconverge的几种用法
算法的基本思想是:如果一个基因(或保守非编码元件)与某个表型(如水生适应、地下生活)的功能相关,那么在该表型独立演化的多个谱系(称为“前景支”)上,该基因所承受的选择压力会发生趋同性的改变。这种改变会体现在其进化速率上——约束放松或正选择可能导致速率加快,而约束加强可能导致速率减慢。算法通过量化并检测这种速率变化的趋同性,来推断基因-表型关联。
How optical genome mapping works
使用OGM时,结构变异是直接观察而不是在NGS中通过推断发现的。
跨物种比较转录组数据的处理
该流程参考自Perry 等人(2012)。跨物种的全长转录本存在非同源插入/缺失(Indels)和不保守剪接,直接比对会引入物种特异性的长度偏差,掩盖真实的表达量演化信号。必须通过多序列比对强制裁剪掉所有存在序列变异或缺失的区域,仅保留跨物种100%保守的“最大直系同源区域”。
Methods in Comparative genomics
比较基因组学是一个庞大的领域,它使用多种方法来研究不同物种或个体之间的基因组差异。截止2026年,涌现了越来越多的新颖方法,从不同层面,对不同单元进行跨物种的比较。本文是一项关于方法的综述。
甜瓜重测序项目高重复率异常排查与定量归因报告
对 Picard 报告的高重复率进行归因。