GWAS原理

这篇笔记聚焦 GWAS 的“为什么”和“怎么算”:GWAS在统计学上在做什么、为什么LD是GWAS成立的关键前提、多重检验阈值从何而来,以及常见术语在文献里具体指什么。

GWAS是什么

  • 定义:全基因组关联分析(Genome-Wide Association Study, GWAS)是在大规模样本中,对全基因组变异(常见为SNP)逐位点扫描,检验“基因型差异”是否与“表型差异”具有统计学关联。
  • 遗传学基础:依赖连锁不平衡(Linkage Disequilibrium, LD)。在有限重组历史下,相邻位点往往共同遗传,允许“标记位点”间接指向“因果位点”。
  • 经典统计学前提:很多复杂性状符合“常见病-常见变异(CDCV)”的近似假设(并非总成立,但足以解释为何GWAS常用常见变异做全局扫描)。

关联分析到底在算什么

在实际GWAS/pQTL/eQTL等关联研究中,我们通常不是算“SNP和SNP的相关性”,而是算 单个SNP与表型 的关联效应与显著性。

线性/混合线性模型的最小形式

对每一个SNP位点,可把模型写成:

\[Y=\beta X + g + \varepsilon\]
  • \(Y\):表型(定量性状、残差表型、或经过变换的性状)
  • \(X\):该位点基因型(常编码为 0/1/2,表示某等位基因拷贝数)
  • \(g\):校正项(群体结构/亲缘关系等;在混合线性模型中常以随机效应/GRM体现)
  • \(\varepsilon\):残差误差

标准误(SE)与样本量/MAF的关系

效应值 $\hat{\beta}$ 的不确定性可用标准误衡量:

\[SE(\hat{\beta})=\sqrt{\frac{\sigma^2_\varepsilon}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]

直觉:

  • 样本量越大,分母通常越大,SE越小,更容易检出小效应位点。
  • 次等位基因频率(MAF)越低,基因型方差越小,\(\sum(x_i-\bar{x})^2\) 越小,SE变大,效应估计更不稳定(也是为什么GWAS常对低MAF位点更谨慎)。
  • 残差噪声越大(环境/测量误差/批次效应),\(\sigma^2_\varepsilon\) 越大,SE越大。

显著性检验:Wald / LRT

目标是检验:

  • 零假设:\(\beta=0\)
  • 备择假设:\(\beta\neq 0\)

常见两类检验:

  • Wald test(最常见):
\[W=\frac{\hat{\beta}}{SE(\hat{\beta})}\]

在大样本近似下,\(W\) 近似服从标准正态分布;或 \(W^2\) 近似服从自由度为1的 \(\chi^2\) 分布。

  • 似然比检验(LRT)
\[LR=-2\ln\left(\frac{L(H_0)}{L(H_1)}\right)\]

比较“包含SNP效应的模型”与“不包含SNP效应的模型”的拟合差异,\(LR\) 近似服从 \(\chi^2\) 分布。

多重比较与全基因组显著性阈值

GWAS需要对数十万到数百万位点逐一检验,因此必须控制多重比较引入的假阳性。

简单的Bonferroni矫正:

\[\alpha=\frac{0.05}{M}\]

当 \(M=1,000,000\) 时,得到经典阈值 \(5\times10^{-8}\)。在非人类物种或有效位点数不同的场景,阈值可能按 有效标记数(effective number of tests) 调整。

为什么LD是GWAS成立的关键

我们真正想找到的是 因果变异(causal variant),但它往往未必被直接测到/建模到。GWAS能“扫到信号”的根本原因是:

  • 因果变异附近的标记SNP与因果变异存在 LD,标记SNP会“携带”因果变异的信息,从而出现显著的间接关联。
  • 基因组可视为由 LD 块构成;在每个LD块里用少量tag SNP即可覆盖大量变异信息。

LD的定义与常用统计量

若两个位点A/B的单倍型频率 \(P_{AB}\) 偏离独立预期 \(P_AP_B\),则存在LD,偏离量可写为:

\[D=P_{AB}-P_AP_B\]

更常用的标准化统计量之一是 \(r^2\):

\[r^2=\frac{D^2}{P_AP_aP_BP_b}\]

在GWAS结果解释里,\(r^2\) 常用来描述“某信号峰中不同SNP彼此代表性有多强”。

文献里常见概念速查(按本笔记常见场景)

  1. GTEx:Genotype-Tissue Expression Project
  2. eQTL:expression quantitative trait loci
  3. regulatory variants:调控变异
  4. LD-independent SNPs:经条件分析/LD修剪后近似独立的SNP(如 \(r^2<0.2\))
  5. imputation accuracy:插补基因型与真实基因型一致程度(如一致率CR、相关性 \(r^2\))
  6. Hi-C / WGBS:三维基因组互作/甲基化测序(常用于机制解释而非GWAS本体)
  7. Genomics reference panel:参考面板(提供高密度变异与单倍型背景,用于插补)
  8. Genotype imputation:利用LD与参考面板对低密度基因型“补全”
  9. Fine-mapping:在信号峰内进一步缩小因果变异候选集合(如SuSiE等)
  10. ASE:allele-specific expression,用于验证调控变异的等位基因效应
  11. replication rate \(\pi_1\):显著信号在独立数据集中可复制的比例估计

  12. molQTL mapping:把“分子表型”(如基因表达、剪接、增强子活性等)当作性状做QTL定位(如cis-eQTL、cis-sQTL等)
  13. cis-heritability(cis-\(h^2\)):某基因/分子表型在顺式窗口(常见为TSS上下游一定距离,如±1 Mb)内可被遗传变异解释的比例
  14. breed-interaction cis-eQTL(bieQTL):基因型效应随品种祖先成分(或品种比例)变化的交互作用QTL
  15. cell-interaction cis-eQTL(cieQTL):基因型效应随组织中细胞类型比例变化的交互作用QTL
  16. LD-independent SNPs:除LD修剪外,也常指条件分析后剩下的近似独立信号(在“一个峰里有多个独立信号”时尤其常用)