山东大学李国君 山大泰山学者发布新的转录组组装方法
生物通报道:最近,来自山东大学、吉林大学、美国阿肯色州立大学、乔治亚大学等处的研究人员在国际著名学术杂志《Genome Biology》发表一项最新生物信息学成果,题为“Bridger: a new framework for de novo transcriptome assembly using RNA-seq data”。
这项研究提出了一种新的转录组组装方法——Bridger,旨在为两种大众组装方法——基于参考序列的Cufflinks和从头组装方法Trinity——之间搭建一种桥梁关系。
具体来说,他们一般采用Cufflinks所用的主要技术,来克服Trinity技术的局限性,因此开发出了一种更加先进的的从头组装方法。
本文通讯作者分别为山东大学数学学院的李国君教授和阿肯色州立大学的黄秀珍博士(音译,Xiuzhen Huang)。李国君教授是山东大学首批泰山学者特聘教授、博士生导师,早年毕业于曲阜师范大学,1996年毕业于中科院数学与系统科学学院获博士学位,曾在美国、澳大利亚、香港和韩国多所大学工作或访问。
2004年曾受聘为中科院软件所兼职研究员,2005年被聘为美国佐治亚大学资深研究员。主要研究领域为生物信息学、系统生物学、图论和组合最优化,在各类学术杂志上发表学术论文100余篇。
RNA-seq是在全转录组水平上收集基因表达数据的强大技术,具有前所未有的灵敏度和精度。与微阵列芯片和EST测序相比,RNA-seq可获得单核苷酸的分辨率,具有更高的动态范围,并允许可靠地识别罕见的转录本和可变剪接。然而, RNA测序所获得的序列读取往往很短,因此,给组装来自读长的全长转录本提出了巨大的计算挑战。
乍一看, RNA-seq组装问题类似于基因组装配问题。然而,短读长的基因组装配技术,如Velvet、ABySS和ALLPATHS,不能直接应用于转录组组装,由于以下原因:(1)整个基因组的DNA测序深度预计将是一样的,但是转录本的测序深度却相差几个数量级;(2)由于可变剪接——比基因组组装中的线性问题更复杂的一个转录组装问题,通常需要一副图来表示每个位点的多个可变转录本。
这些特点使得转录组装配比基因组组装的计算问题更具挑战性。
在过去的几年中,已经开发出许多基于RNA-seq的转录组组装方法。它们分为两大类:基于参考序列的组装和从头组装方法。当没有可靠的参考基因组可用时,就要用从头组装。目前已经开发出一些从头组装方法,例如ABySS、SOAPdenovo、Oases和SOAPdenovo-Trans。
但是其中一些方法并不好用,因为它们依赖于基因组组装方法的核心理念。Trinity是专门为转录组组装设计的第一种方法。它组装转录组,首先将单个RNA-seq读长扩展至更长的contigs,然后用这些contigs构建许多de Bruijn图,然后在每副图中得到所有的剪接异构体代表路径。
虽然Trinity的装配性能以及比以前的从头装配技术得以提高,但是仍然有许多需要改进的局限性。延伸阅读:评估转录组从头组装准确度的新方法。
在本文中,研究人员提出了一种新的转录组组装方法——Bridger,旨在为两种大众组装方法——基于参考序列的Cufflinks和从头组装方法Trinity——之间搭建一种桥梁关系。具体来说,研究人员概括Cufflinks使用的主要技术,来克服Trinity技术的局限性,因此开发出一种更加先进的的从头组装方法。
研究人员在两个标准的RNA-seq数据集、一个狗的和人类的RNA-seq数据集以及一个链特异性小鼠RNA-seq数据集中测试了这种方法。在每一种情况中,与其他从头装配方法相比,Bridger能够组装更多的参考转录本,同时报告10000到30000个更少的的候选转录本,从而大大降低了假阳性组装。
此外,Bridger比大多数方法运行得更快、需要的内存空间更少。在灵敏度和精度方面,Bridger的性能甚至能与基于参考序列的Cufflinks媲美。此外,Bridger的多k版本——Bridger-M,可以进一步通过合并来自不同K值的组件,而提高装配的灵敏度。