GWAS原理

这篇笔记聚焦 GWAS 的“为什么”和“怎么算”：GWAS在统计学上在做什么、为什么LD是GWAS成立的关键前提、多重检验阈值从何而来，以及常见术语在文献里具体指什么。

GWAS是什么

定义：全基因组关联分析（Genome-Wide Association Study, GWAS）是在大规模样本中，对全基因组变异（常见为SNP）逐位点扫描，检验“基因型差异”是否与“表型差异”具有统计学关联。
遗传学基础：依赖连锁不平衡（Linkage Disequilibrium, LD）。在有限重组历史下，相邻位点往往共同遗传，允许“标记位点”间接指向“因果位点”。
经典统计学前提：很多复杂性状符合“常见病-常见变异（CDCV）”的近似假设（并非总成立，但足以解释为何GWAS常用常见变异做全局扫描）。

关联分析到底在算什么

在实际GWAS/pQTL/eQTL等关联研究中，我们通常不是算“SNP和SNP的相关性”，而是算 单个SNP与表型 的关联效应与显著性。

线性/混合线性模型的最小形式

对每一个SNP位点，可把模型写成：

\[Y=\beta X + g + \varepsilon\]

$Y$：表型（定量性状、残差表型、或经过变换的性状）
$X$：该位点基因型（常编码为 0/1/2，表示某等位基因拷贝数）
$g$：校正项（群体结构/亲缘关系等；在混合线性模型中常以随机效应/GRM体现）
$\varepsilon$：残差误差

标准误（SE）与样本量/MAF的关系

效应值 $\hat{\beta}$ 的不确定性可用标准误衡量：

\[SE(\hat{\beta})=\sqrt{\frac{\sigma^2_\varepsilon}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]

直觉：

样本量越大，分母通常越大，SE越小，更容易检出小效应位点。
次等位基因频率（MAF）越低，基因型方差越小，$\sum(x_i-\bar{x})^2$ 越小，SE变大，效应估计更不稳定（也是为什么GWAS常对低MAF位点更谨慎）。
残差噪声越大（环境/测量误差/批次效应），$\sigma^2_\varepsilon$ 越大，SE越大。

显著性检验：Wald / LRT

目标是检验：

零假设：$\beta=0$
备择假设：$\beta\neq 0$

常见两类检验：

Wald test（最常见）：

\[W=\frac{\hat{\beta}}{SE(\hat{\beta})}\]

在大样本近似下，$W$ 近似服从标准正态分布；或 $W^2$ 近似服从自由度为1的 $\chi^2$ 分布。

似然比检验（LRT）：

\[LR=-2\ln\left(\frac{L(H_0)}{L(H_1)}\right)\]

比较“包含SNP效应的模型”与“不包含SNP效应的模型”的拟合差异，$LR$ 近似服从 $\chi^2$ 分布。

多重比较与全基因组显著性阈值

GWAS需要对数十万到数百万位点逐一检验，因此必须控制多重比较引入的假阳性。

简单的Bonferroni矫正：

\[\alpha=\frac{0.05}{M}\]

当 $M=1,000,000$ 时，得到经典阈值 $5\times10^{-8}$。在非人类物种或有效位点数不同的场景，阈值可能按 有效标记数（effective number of tests） 调整。

为什么LD是GWAS成立的关键

我们真正想找到的是 因果变异（causal variant），但它往往未必被直接测到/建模到。GWAS能“扫到信号”的根本原因是：

因果变异附近的标记SNP与因果变异存在 LD，标记SNP会“携带”因果变异的信息，从而出现显著的间接关联。
基因组可视为由 LD 块构成；在每个LD块里用少量tag SNP即可覆盖大量变异信息。

LD的定义与常用统计量

若两个位点A/B的单倍型频率 $P_{AB}$ 偏离独立预期 $P_AP_B$，则存在LD，偏离量可写为：

\[D=P_{AB}-P_AP_B\]

更常用的标准化统计量之一是 $r^2$：

\[r^2=\frac{D^2}{P_AP_aP_BP_b}\]

在GWAS结果解释里，$r^2$ 常用来描述“某信号峰中不同SNP彼此代表性有多强”。

文献里常见概念速查（按本笔记常见场景）

GTEx：Genotype-Tissue Expression Project
eQTL：expression quantitative trait loci
regulatory variants：调控变异
LD-independent SNPs：经条件分析/LD修剪后近似独立的SNP（如 $r^2<0.2$）
imputation accuracy：插补基因型与真实基因型一致程度（如一致率CR、相关性 $r^2$）
Hi-C / WGBS：三维基因组互作/甲基化测序（常用于机制解释而非GWAS本体）
Genomics reference panel：参考面板（提供高密度变异与单倍型背景，用于插补）
Genotype imputation：利用LD与参考面板对低密度基因型“补全”
Fine-mapping：在信号峰内进一步缩小因果变异候选集合（如SuSiE等）
ASE：allele-specific expression，用于验证调控变异的等位基因效应
replication rate $\pi_1$：显著信号在独立数据集中可复制的比例估计
molQTL mapping：把“分子表型”（如基因表达、剪接、增强子活性等）当作性状做QTL定位（如cis-eQTL、cis-sQTL等）
cis-heritability（cis-$h^2$）：某基因/分子表型在顺式窗口（常见为TSS上下游一定距离，如±1 Mb）内可被遗传变异解释的比例
breed-interaction cis-eQTL（bieQTL）：基因型效应随品种祖先成分（或品种比例）变化的交互作用QTL
cell-interaction cis-eQTL（cieQTL）：基因型效应随组织中细胞类型比例变化的交互作用QTL
LD-independent SNPs：除LD修剪外，也常指条件分析后剩下的近似独立信号（在“一个峰里有多个独立信号”时尤其常用）