Brian Walsh, Ph.D., started his career as an instructor at the University of Wisconsin. Brian joined DNASTAR in 2016 and has spent 3 years in customer support, technical support, and software development and 4 years as the Scientific Lead for the MegAlign Pro application.
Brian Walsh, Ph.D.
在作为系统发育学家的早期职业生涯中,我几乎使用了实验室中可用的任何软件。在较初的几年里体验还不错。但是当我的项目增加到包含数百个样本时,软件变得越来越迟钝甚至毫无响应。此外,我还需要操作8个以上非常复杂的应用程序来完成从序列数据处理到准备发表的系统发育树的过程。
这些经历激发了我开发MegAlign Pro的设想,使其成为一个易于使用的应用程序,适合任何对构建系统发育树和探索生物之间进化关系感兴趣的研究人员。MegAlign Pro丰富的图形界面支持您加载各种分类群(序列),执行多序列比对,然后构建高质量的系统发育树; 这一系列操作通常从开始到结束只需几分钟。并且他们都包含在一个应用程序中。
这篇文章的Part A,我将讲述如何使用MegAlign Pro来创建一个系统发育树。虽然MegAlign Pro非常易于使用,但在计算较准确的系统发育树的过程中也会涉及复杂的计算算法和参数。这些计算决定了哪些分类单元被放置在特定的支系中,以及树枝的长度和位置。
在Part B中,我将向您展示如何使用不同的算法和设置来比较不同版本的发育树。在Part C中,我将描述当序列数据存在一些问题的情况,以及如何修复这些问题。
Part A:在MegAlign Pro中构建系统发育树
在MegAlign Pro中创建和查看系统发育树只需完成以下四个步骤。
第一步:添加序列
启动MegAlign Pro并使用“Add sequences to project”工具(绿色加号带有“ACG”)添加两个或多个相关分类群(序列)。这些序列必须是同一类型的:DNA、RNA或蛋白质序列。
第二步:选择多种对齐方式进行对齐
*多重对齐方法,并通过按Align工具(绿色按钮和白色三角形)并选择所需的方法开始对齐; 或使用Align >(Re)Align using(方法名)菜单命令。方法选择包括Clustal Omega, ClustalW, MAFFT, MUSCLE; 如果加载了核苷酸序列,还会提供Mauve选项。
为您的数据集获得较准确的发育树,请参考我们较近的博文“Two ways to find the best MegAlign Pro multiple sequence alignment method for your data”。
第三步:构建发育树
对齐完成后,单击Tree选项卡。再点击所需的发育树计算算法按钮: 近邻相接法:BIONJ、较大似然估计:RAxML或较大似然估计:RAxML-NG。
在构建系统发育树时,我们应该选择哪种方法?
近邻相接法:BIONJ可用于少于4个序列的项目,这是使用RAxML方法所需的较小值。
较大似然估计: RAxML可用于发散的、包含许多分类群和/或非常长的序列的数据集,或者需要输入支持(引导)值的数据集。
较大似然估计: RAxML- NG与其前身RAxML相似,但速度更快,容量更大。这种新一代算法可用于具有足够多序列的任何数据集,但对于基因同源比对特别有用,因为它支持创建非常大的进化树。
第四步:预览发育树和Distance表
在发育树视图中,需注意每个分支上的数字:这些就是“距离”值。(如果你没有看到分支上的数字,则在Style面板的Tree部分使用Branch label菜单选择Distance。) “距离”是每个位点(碱基)的预期替换数,用来表示两个样本之间的关联程度。
要查看可自定义的Distance表,您可以请单击Distance选项卡来检查系统发育的较大似然估计(以及其他值)。使用Style面板的Distance部分来*您希望在Distance表的右上方和左下方看到哪两种类型的数据(例如,距离、同一性百分比、相似性百分比、间隔百分比、序列长度等)。
Part B:使用不同的算法或设置重新计算发育树
大多数时候,我发现“默认”的MegAlign Pro树反映了我的项目中预期的分类群之间的关系。然而,这并不意味着我不想尝试不同的设置来看看它们如何影响发育树。幸运的是,对于我们这些好奇的人来说,MegAlign Pro让我们可以随心所欲地改变设置和重新计算发育树。
在我描述重新计算树的方法之前,我想提出一个非常简单的方法来保存和比较所有版本的树: Take snapshot 工具,它位于Tree视图的右上方(见图)。每次您更改用于计算树的参数时,MegAlign Pro将自动更新树,并在树的上方显示当前设置的列表。要保留每个树的副本以及用于当前计算树的设置,请使用Take snapshot工具。它支持多种自定义选项:
选项1:从你的序列中选取“不整齐的末端”
与其他序列相比,你是否有一个序列在3 '和/或5 '端**? 如果是这样,你可以修剪掉它不整齐的末端,以获得更精确的对齐和树。
选项2:选择不同的多重对齐方法
要选择不同的对齐方法,请使用Align工具(绿色按钮带白色箭头)或相应的“Align > Realign Using (Method Name)重新对齐”菜单命令。这将导致从头开始进行新的对齐。
选项3:改变距离度量和/或间隙处理方法
在多重对齐过程中,使用“选择距离参数”对话框中*的Metric 和Gap treatment来计算距离。这个对话框可以访问并随时选择新的选项,只需使用Distance > Parameters。
—度量的选择是基于Uncorrected Pairwise Distance或Tamura-Nei(1993)。在大多数情况下,这两个指标产生的结果基本相同。然而,它仍然值得你更改数据并看看它如何影响你的发育树。
—间隙处理的选择分为Global gap removal或Pairwise gap removal。选择Global gap removal可能会破坏对齐的准确性,并且留下少量的数据来构建精确的树。除非你有特别的理由选择它,否则我们强烈建议你选择Pairwise gap removal。
选项4:更改树构建算法和/或参数
正如本文**部分所讨论的,在MegAlign Pro中有三种可用的树构建算法。如果要使用不同的算法重建树,或者使用不同设置的相同算法重建树,请选择Tree > Compute Phylogeny Using > (Method Name)。
Part C:发现序列数据的问题
你会发现其中一个发育树看起来……“奇怪”吗? 在绝大多数情况下,看起来奇怪的树是序列数据出现问题的结果,而不是因为用于计算树的算法或参数的原因。
这个表格显示了与序列数据相关的一些问题的症状、原因和解决方案,排名不分先后。
症状
发育树视图中的进化枝似乎不正确(例如,哺乳动物出现在鱼类进化枝中)。
这个视图中的分支比任何其他分支都要长得多(例如,长20倍)。
距离表中的同一性值大于50%,表明序列之间的进化关系本质上是随机的。
可能的原因
序列被错误标记或与其他序列无关或高度不同。
对齐中包含方向相反的序列。
可能的解决方案
去除不相关或高度分化的序列,重新排序剩余的序列。
反向补充它需要的序列并执行新的多序列排序。
如果你想要体验DNAStar软件的**功能,欢迎联系 科学软件网 申请试用。
北京天演融智软件有限公司专注于pscad,gams,spsspro,stata,matlab,mathematica,nvivo等