RERconverge的几种用法

PHAST 是一套用于通过比较多个物种的基因组来检测基因组中保守区域和加速进化区域的工具集。它包含多个命令。

phyloFit

该程序用于构建系统发育树,这些系统发育树可作为物种保护和加速检测的依据。由于其使用方法因应用场景(使用的下游工具)而异,因此下文提供了每种工具的使用说明。

PhastCons

通过多种类型的基因组比对检测保守区域。

必要的数据

包含要使用的物种的多个比对文件(.maf 等) 所用物种的系统发育树拓扑结构(以 Newick 格式编写)

  1. 构建系统发育树作为比较标准

首先,我们使用 phyloFit 估计非保守区域的系统发育树初始模型,该模型将作为保守区域检测的基础(并将作为 phastCons 的输入)。需要注意的是,在 phastCons 中,模型会在程序运行时更新,因此该模型并非贯穿整个过程;它仅用于指定初始状态。

以下是最简单的使用方法(使用所有比对结果估计模型)。您也可以使用任何区域,例如 4D 位点或祖先重复序列,请根据需要使用。

1
2
3
4
5
path/to/phyloFit \
--tree "(((mouse, rat),human),cow)" \
--msa-format FASTA \
--out-root pri_rod \
primate-rodent.fa

Input : primate-rodent.fa 比对文件(phylip|fasta|mpm|ss|maf) Output : pri_rod.mod 描述估计模型的文件(.mod)

–tree [tree topology] :系统发育树的拓扑结构。可以直接输入字符串,也可以指定包含系统发育关系的文件名。支持 Newick 格式。物种名称必须与比对文件的内容完全一致。 –msa-format PHYLIP|FASTA|MPM|SS|MAF : 输入文件格式 –out_root [prefix] : 所有输出文件的前缀

还有其他一些选项可用,请在使用前查看。例如,有几个重要的参数,例如“要使用的基因组区域”和“要使用的碱基替换模型(默认值为 REV)”。

除了上述方法外,似乎还有其他几种方法可以估计输入模型。详情请参阅 http://compgen.cshl.edu/phast/phastCons-HOWTO.html。

  1. conserved element的检测
1
2
3
4
5
6
7
8
9
path/to/phastCons \
--target-coverage 0.25 \
--expected-length 20 \
--estimate-trees mytrees \
--most-conserved most-cons.bed \
--msa-format FASTA \
primate-rodent.fa \
pri_rod.mod \
> scores_mostcons.wig # 保存スコアがwig形式で出力されるので別名で保存